5882 7025ap 02

III- MODELOS PROBABILÍSTICOS
La Estadística y la Teoría de Probabilidades se centran en el estudio de los fenómenos

aleatorios. Es decir, en aquellos fenómenos en los cuales no se puede predecir un resultado
con certeza puesto que, bajo idénticas condiciones, los individuos pueden comportarse de
diferente manera.
Frente a un acontecimiento aleatorio, a veces, es posible atribuirle una ley o
distribución de probabilidades.
CONCEPTO DE PROBABILIDAD
Si observamos los resultados de repetir un acontecimiento aleatorio n veces, bajo

idénticas condiciones, podemos calcular la frecuencia relativa de un resultado o de un
conjunto de resultados (evento o suceso). La experiencia indica que al aumentar
indefinidamente el número n de repeticiones, la sucesión de valores de la frecuencia
relativa muestra oscilaciones que son grandes al principio, pero que tienden a disminuir de
tal modo que los valores parecen acercarse cada vez más a un número fijo. Podemos
postular la existencia de tal número y lo llamamos la probabilidad del evento observado.
Precisemos este concepto mediante un ejemplo sencillo: el lanzamiento de una
moneda. Existen dos resultados posibles, cara o cruz, luego podemos repetir el lanzamiento
n veces y calcular la frecuencia relativa de las caras aparecidas en los n lanzamientos. Los
resultados de repetir la experiencia 200 veces y calcular la frecuencia relativa cuando n=10,
20, 30,......,200, aparecen representados en el siguiente gráfico:
Frecuencia relativa de caras
0,7
0,6
0,5
0,4
0,3
0,2
0,1
n lanzamientos
0
0 50 100 150 200 250
En el eje vertical se colocan las frecuencias relativas y en el eje horizontal el número

de tiradas n. En la figura se observa que la amplitud de las fluctuaciones decrece
gradualmente cuando n aumenta; en nuestro ejemplo, tiende a fluctuar alrededor del valor
0.5.
Un razonamiento intuitivo señalaría que cuando no hay fundamentos para preferir un
posible resultado a cualquier otro, todos deben considerarse que tienen la misma
probabilidad de ocurrir. Este ejemplo confirma nuestra intuición.
Siguiendo este tipo de razonamiento se construye un modelo matemático ideal y
abstracto que se postula como sigue: dado un experimento (tirada de una moneda) y un
evento A (cara) podemos asignar un número p (en este caso ½) el cual se denomina
15
probabilidad del evento A y se escribe: P(A). Cuando el experimento se repite una gran
cantidad de veces (n) y el evento ocurre f veces, la frecuencia relativa f/n será
prácticamente igual a este número p.
Supongamos ahora que la moneda se tuerce con unas pinzas. En este caso no se
puede suponer que los dos resultados posibles, cara o cruz, ocurran con la misma
probabilidad y, por consiguiente, no se puede calcular a priori la probabilidad P(A).
Inmediatamente surge la pregunta: ¿Cuál es el valor de P(A)? Si no se puede calcular a
priori la probabilidad P(A), la tenemos que estimar de la frecuencia relativa del suceso A
El resultado de lanzar la moneda deforme 400 veces fue de 184 caras y 216 cruces,
184
luego P(A) es aproximadamente igual a = 0.46 .
400
Antes de enunciar algunas de las propiedades que verifica la probabilidad,
recordaremos algunas nociones de Teoría de conjuntos que serán de utilidad en este
contexto. Listamos a continuación las principales operaciones con conjuntos y la
interpretación del resultado como evento.
• Ac complemento de A No sucede A
• A∪B unión Sucede A o sucede B o suceden ambos a la vez
• A∩B intersección Sucede A y sucede B
• A-B diferencia Sucede A pero no sucede B
• A⊂B inclusión Si sucede A también sucede B
Ahora, a partir de las propiedades que verifican las frecuencias relativas, podemos
postular las mismas propiedades para las probabilidades. Observando que f ≤ n, el número
de veces que ocurre el resultado A es igual o menor que el número de veces que se repite la
experiencia, concluimos que f/n ≤ 1, es decir, que la frecuencia relativa es menor o igual a
1. Por otra parte, f ≥ 0, será igual a cero en el caso que en ninguna de las repeticiones
ocurra el resultado A, y por lo tanto f/n ≥ 0. Luego:
f
0≤ A ≤1
n
Si consideramos dos eventos A y B que se excluyen mutuamente, es decir dos
resultados o dos conjuntos de resultados no pueden suceder simultáneamente, la frecuencia
relativa de A∪B (el evento sucede A o sucede B) es igual a la suma de las frecuencias
relativas de A y de B. Esto es consecuencia del hecho que cada vez que sucede A∪B
sucede uno, y sólo uno, de los eventos A y B.
f A∪ B f f
= A + B
n n n
Esta propiedad puede extenderse a más de dos eventos.
Por último, si consideramos las frecuencias relativas del conjunto vacío, ∅, que se
denomina evento imposible porque nunca sucede, y del conjunto de todos los resultados
posibles Ω (o espacio muestral) que también se denomina evento seguro, porque siempre
sucede, estas verifican que:
16
f∅ fΩ
=0 y =1
n n
Trasladando naturalmente estas propiedades de la frecuencia relativa la probabilidad,
resultan los axiomas de probabilidad:
Axiomas de probabilidad
1. 0 ≤ P ( A) ≤ 1
2. P (∅ ) = 0 y P (Ω ) = 1
3. Si A ∩ B = ∅ , entonces P ( A ∪ B ) = P ( A) + P (B )
Si A1 , Ai , …… son tales que Ai ∩ Aj = ∅ para todo i , j tales que i ≠ j , entonces
4.
P ( A1 ∪ A2 ∪ ……) = P ( A1 ) + P ( A2 ) + ……
Si bien la propiedad 4 no es la contrapartida de una propiedad análoga de las

frecuencias relativas, como lo es la propiedad 3, es una extensión natural de esta última.
Enunciamos a continuación, algunas propiedades importantes de la probabilidad que
se deducen de los axiomas:
( )
5. P A c = 1 − P ( A)
6. P(A ∪ B ) =P(A ) + P(B ) − P(A ∩ B )
7. P ( A − B ) = P ( A) − P ( A ∩ B )
8. Si A⊂B entonces P(A) ≤ P(B)
Para aclarar el significado de los axiomas de probabilidad, daremos otro clásico y

sencillo ejemplo: arrojamos un dado. Si este dado es perfecto se pueden calcular las
probabilidades a priori, asignándoles a cada uno la misma probabilidad, en este caso 1/6 ya
que son 6 los resultados posibles. Estos valores son mayores que 0 y menores que 1.
Además cada uno de los 6 posibles resultados se excluyen mutuamente, si el
resultado fue por ejemplo 3 no ocurrió 1, ni 2, ni 4, ni 5, ni 6. Luego la suma de las
probabilidades de todos los sucesos posibles suman 1y la probabilidad de que salga un 3 o
un 4 es 2/6. En símbolos:
Ω = {1 , 2 , 3 ,4 ,5 ,6 } , P (1 ) = P (2 ) = P (3 ) = P (4 ) = P (5 ) = P (6 ) =
1
6
P ({3 } ∪ {4 }) = P (3 ) + P (4 ) =
1 1 2
+ =
6 6 6
Si por ejemplo, queremos calcular la probabilidad de que salga un número par o

mayor que 2, es decir, la probabilidad del evento A∪B donde A={2,4,6}y B={3,4,5,6}, no
podemos aplicar el axioma 3 porque los eventos no son mutuamente excluyentes (si sucede
el 4 o el 6 suceden ambos eventos). Recurrimos entonces a la propiedad 6, y obtenemos:
P(A ∪ B ) = P(A ) + P(B ) − P(A ∩ B ) =

3 4 2 5
+ − =
6 6 6 6
17
Probabilidad condicional
Este concepto fundamental en la teoría de la probabilidad surge cuando nos

planteamos el problema de cómo debe modificarse la asignación de probabilidades a los
eventos de una experiencia dada, en el caso en que sabemos (o suponemos saber) que ha
sucedido un evento A determinado.
Por ejemplo, si el suceso M es que una persona sea mujer y queremos calcular la
probabilidad de que tenga estudios secundarios (S), podemos recurrir a las frecuencias
relativas para estimar esta probabilidad condicional. La siguiente tabla resume la
información obtenida de una muestra de 500 personas:
Ejemplo 5:
Hombre Mujer
Primario 70 112 182
Secundario 152 86 238
Terciario 43 37 80
265 235 500
Luego, la frecuencia relativa condicional de tener estudios secundarios dado que es

una mujer se define naturalmente como el número de mujeres con estudios secundarios
dividido por el número total de mujeres (reducimos la muestra completa al conjunto de
mujeres y consideramos la frecuencia relativa de tener secundario de dicha submuestra).
fS∩M 86
=
fM 235
fS∩M
f
Pero S ∩ M = n y esta expresión se acerca cada vez más a P ( S ∩ M ) a
fM fM P (M )
n
medida que n crece.
Estas consideraciones nos llevan a definir en general la probabilidad condicional de
B dado (que ha sucedido) A, en símbolos P(B/A) poniendo:
P(A ∩ B)
P (B / A) = si P ( A) > 0
P ( A)
Regla de la multiplicación de probabilidades
De la definición de probabilidad condicional resulta que:
P ( A ∩ B ) = P ( A)P (B / A)
18
Si consideramos una partición del espacio muestral, es decir, una colección de
eventos B1,B2, ........., Bk mutuamente excluyentes y tales que uno de ellos deba ocurrir. En
símbolos:
k
B i ∩ B j = ∅ para todo i, j y ∪B i =Ω
i =1
y A un evento cualquiera tenemos que:
P(A ) = P(A ∩ B 1 ) + P(A ∩ B 2 ) + + P(A ∩ B k )
y, aplicando la regla de la multiplicación a cada término, obtenemos:
P(A ) = P(A / B 1 ) P(B 1 ) + P(A / B 2 ) P(B 2 ) + + P(A / B k ) P(B k )
Teorema de Bayes
La probabilidad condicional toma en cuenta la información respecto a la ocurrencia

de un evento para encontrar la probabilidad de otro evento. Este concepto puede ampliarse
para revisar probabilidades basadas en nueva información y, así, determinar la probabilidad
que un efecto particular se deba a una causa específica. El procedimiento para revisar estas
probabilidades se conoce como teorema de Bayes.
Consideremos el siguiente ejemplo:
Ejemplo 6: Un servicio de tasación de bonos municipales tiene tres categorías de

tasación (A, B y C). Suponga que el año pasado, de los bonos municipales emitidos
a lo largo del país, 70% fueron tasados como a, 20% fueron tasados como B y 10%
fueron tasados como C. De los bonos municipales tasados como A, 50% fueron
emitidos por ciudades, 40% por suburbios y 10% por áreas rurales. De los bonos
municipales tasados como B, 60% fueron emitidos por ciudades, 20% por suburbios
y 20% por áreas rurales. De los bonos municipales tasados como C, 90% fueron
emitidos por ciudades, 5% por suburbios y 5% por áreas rurales.
Dada esta información, desearíamos saber por ejemplo lo siguiente: si una ciudad ha de
emitir un bono municipal, ¿cuál es la probabilidad de que este reciba una tasación A?
El teorema de Bayes puede desarrollarse a partir de la definición de probabilidad

condicional de la siguiente manera:
P(A ∩ B ) = P(A / B ) P(B )

pero también
P(A ∩ B ) = P(B / A ) P(A )

De estas dos ecuaciones obtenemos
P(B / A ) P(A ) = P(A / B ) P(B )
19
así que, dividiendo ambos miembros de esta ecuación por P(A ) , obtenemos
P(A / B ) P(B )
P(B / A ) =
P(A )
Luego dada una partición del espacio muestral: B1,B2, ........., Bk y recordando que la
probabilidad del evento A puede escribirse como
P(A ) = P(A / B 1 ) P(B 1 ) + P(A / B 2 ) P(B 2 ) + + P(A / B k ) P(B k )
Entonces la fórmula de Bayes es:

P(A / B i ) P(B i )
P(B i / A ) =
P(A / B 1 ) P(B 1 ) + P(A / B 2 ) P(B 2 ) + + P(A / B k ) P(B k )
Ahora podemos usar el teorema de Bayes para determinar la probabilidad enunciada

en el ejemplo 6.
Definamos los siguientes eventos
A= el bono fue emitido por una ciudad

B1= el bono fue tasado categoría A
B2= el bono fue tasado categoría B
B3= el bono fue tasado categoría C
La información dada puede escribirse, entonces, como:
P(A / B 1 ) = 0.5, P(A / B 2 ) = 0.6, P(A / B 3 ) = 0.9

Usando el teorema de Bayes podemos responder nuestra pregunta de la manera
siguiente:
P(A / B 1 ) P(B 1 )
P(B 1 / A ) = =
P(A / B 1 ) P(B 1 ) + P(A / B 2 ) P(B 2 ) + P(A / B 3 ) P(B 3 )
0 .5 × 0 .7
= = 0.91
0.5 × 0.7 + 0.6 × 0.2 + 0.9 × 0.1
Es decir la probabilidad de que si un bono fue emitido por una ciudad, sea tasado
como A es del 91%.
Independencia de dos eventos
El concepto de independencia de eventos es fundamental en la Teoría de la

Probabilidad y en la Estadística, y está estrechamente relacionado con el concepto de
probabilidad condicional. La idea intuitiva de este concepto podría expresarse de la manera
siguiente: si se producen dos acontecimientos y el resultado de uno no puede influir de
ningún modo sobre el resultado del otro, se dice que los acontecimientos son
20
independientes. Por ejemplo, si se tira varias veces una moneda, cada resultado (cara o
cruz) es independiente de todos los demás resultados en la secuencia.
Sin embargo, si consideramos el ejemplo 5 no podemos asegurar a priori que el sexo
y los estudios sean eventos independientes. La información de que una persona sea de uno
u otro sexo puede condicionar la probabilidad de tener, por ejemplo estudios terciarios.
Estos conceptos se pueden formalizar en la siguiente definición:
Diremos que dos eventos A y B son independientes si se verifica que:
P ( A ∩ B ) = P ( A) P (B )
Si P(A)>0 y P(B)>0, la independencia de A y B equivale a la verificación de las

igualdades:
P(B/A)=P(B) y P(A/B)=P(A)
Las equivalencias anteriores muestran que la definición de independencia concuerda

con nuestra idea intuitiva de independencia entre eventos.
Es un error frecuente pensar que dos eventos disjuntos A, B son independientes. Si A
sucede, sabemos que B no sucede, lo cual contradice la noción de independencia.
IV. DISTRIBUCIÓNES DE PROBABILIDAD DISCRETAS

En el capítulo anterior se introdujo el concepto de distribución de frecuencia, si
sustituimos las frecuencias relativas por las probabilidades se induce naturalmente al
concepto de distribución de probabilidades.
En general, trataremos con resultados numéricos, es decir, que el resultado del
experimento aleatorio es un número o bien puede asociársele un valor numérico. Por
ejemplo si consideramos el lanzamiento de la moneda, podemos estar interesados en contar
el número de caras en 3 lanzamientos. Diremos, entonces, que se ha definido una variable
aleatoria que denotaremos mediante letras mayúsculas tales como X, Y, Z o U. Las
correspondientes letras minúsculas x, y, z o u denotarán los valores numéricos particulares
de la variable aleatoria.
Variable aleatoria discreta
Una variable aleatoria se dirá discreta, si sus posibles valores forman un conjunto
finito o numerable, tales que sus puntos estén “separados”.
Si se tiene un experimento aleatorio, cuyos valores posibles indicamos con x1, x2,......,
podemos atribuirle a cada xi una probabilidad pi=P(X= xi). Si A es un evento cualquiera,
vale entonces que:
P (A) = ∑ P (X = x i )
xi∈ A
y como P(Ω)=1, que:

∑ P(X = x ) = 1
x i ∈Ω
i
21
Ejemplo: Retomemos el ejemplo. Sea X igual al número de puntos obtenidos. Entonces
P(X= xi)=1/6, para xi= 1, 2, 3, 4, 5, ó 6.
Estos resultados pueden resumirse en una tabla de distribución de probabilidades:
X 1 2 3 4 5 6
P(X=x) 1/6 1/6 1/6 1/6 1/6 1/6
Luego, si el evento A es “el resultado es un número par”, entonces

P ( A) = ∑ P ( X = x i ) = P ( X = 2 ) + P ( X = 4 ) + P ( X = 6 ) = + + =
1 1 1 3
xi ∈A 6 6 6 6
También podemos definir la función de distribución acumulativa (cuya contraparte

empírica es la distribución de frecuencias acumuladas) poniendo:
F (x ) = ∑ P(X = x ) i
xi ≤ x
Para el ejemplo dado, se da a continuación la expresión analítica de la función de

distribución acumulativa y el gráfico correspondiente:
F(X)
⎧0 si x<1
⎪1
⎪ si 1 ≤ x < 2
⎪6 1
⎪2
⎪ si 2≤ x<3 5/6
⎪6
⎪3 4/6
F (x) = ⎨ si 3≤ x<4
⎪6 3/6
⎪4
⎪6 si 4 ≤ x < 5 2/6
⎪
⎪5 si 5 ≤ x < 6
1/6
⎪6
⎪
⎩1 si x≥6 1 2 3 4 5 6 X
Esperanza de una variable aleatoria discreta
Dada una variable discreta X, se define su esperanza, valor medio o simplemente

media, en símbolos E(X), como el número:
E(X ) = ∑ xi P(X = xi )
i
Supongamos que los posibles valores de la variable X son x1, x2, x3,.........,xk, y que
repetimos un número grande, n, de veces el experimento obteniendo la serie de frecuencias
f1, f2, f3,.........,fk. Luego, la media aritmética de los datos resulta:
22
k
∑x f i i
f1 f fk
X= i =1
= x1 + x2 2 + + xk
n n n n
y como de la interpretación empírica de la probabilidad resulta que las frecuencias relativas

fi
se aproximan, a mediada que n crece, cada vez más a las probabilidades P(X=xi), se
n
verifica que la media aritmética se aproxima cada vez más a la esperanza
E ( X ) = x 1 P ( X = x1 ) + x 2 P ( X = x 2 ) + + xk P (X = xk )
Se demuestra en la teoría matemática que esta interpretación de la esperanza E(X),

como aproximadamente igual al promedio aritmético de un gran número de observaciones
independientes de la variable X, es válida cualquiera sea X.
Por ejemplo para la variable puntos obtenidos al arrojar un dado, la esperanza resulta:
E(X ) = 1 ×
1 1 1 1 1 1 21
+ 2× + 3× + 4× + 5× + 6× = = 3.5
6 6 6 6 6 6 6
El concepto de esperanza de una variable aleatoria fue siempre uno de los conceptos
básicos de la teoría de la probabilidad. En los albores de la teoría se lo utilizaba para
establecer cuál era la ganancia (o pérdida) promedio de un jugador con determinado tipo de
apuesta.
Se utiliza también con frecuencia el símbolo μX, o simplemente μ, para denotar a
E(X).
Varianza de una variable aleatoria discreta
La varianza de una variable aleatoria discreta, en símbolos V(X), se define como:
[ ] ( )
V ( X ) = E ( X − E ( X )) = E X 2 − [E ( X )]
2 2
(La última igualdad se deduce al aplicar algunas propiedades de la esperanza)

Otra notación es σ2X, o simplemente σ2. La varianza expresa el valor medio del
cuadrado de la diferencia entre la variable y su media. Sirve para medir el grado de
dispersión de los valores de una variable alrededor de su media.
Como la varianza es una esperanza, le es aplicable la interpretación de la esperanza.
Algunas Propiedades de la Esperanza y la Varianza
Sea X una variable aleatoria. y k una constante,

Si Y = X ± k entonces E(Y) = E(X) ± k y V (Y) = V (X)
Si Y = k.X entonces E(Y) = k.E(X) y V (Y) = k2.V (X)
23
Sean X e Y dos variables aleatorias entonces E(X ± Y) = E(X) ± E(Y)
Sean X e Y dos variables aleatorias independientes entonces V (X ± Y) = V (X) + V (Y)
Algunas distribuciones discretas
• Distribución binomial: Supongamos que un experimento tiene sólo dos resultados

posibles, que llamamos convencionalmente “éxito” (E) y “fracaso” (F), y que P(E)=p
y P(F)=1-p. El experimento se repite n veces bajo las mismas condiciones, por lo tanto
la probabilidad de éxito p es constante y los resultados de cada repetición son
independientes. Nos interesa considerar la variable X: el número de éxitos obtenidos
en las n repeticiones.
Para ilustrar el procedimiento consideremos que n=3, entonces los resultados de
las n repeticiones del experimento serán 3 letras, cada una de las cuales es una E, o una
F. Calcularemos la probabilidad de obtener k=2 “éxitos” en las 3 repeticiones. Los
posibles resultados son las ternas:
EEE, EEF, EFE, FEE, EFF, FEF, FFE, FFF
donde por ejemplo EFE significa que el resultado de la primera realización del
experimento fue E, el resultado de la segunda fue F y el resultado de la tercera fue E.
Entonces,
P ( X = 2) = P (EEF , EFE , FEE ) = P (EEF ) + P (EFE ) + P (FEE ) =
⎛ 3⎞
= pp(1 − p ) + p(1 − p ) p + (1 − p ) pp = 3 p 2 (1 − p ) = ⎜⎜ ⎟⎟ p 2 (1 − p )
⎝ 2⎠
En general, P ( X = k ) es igual a la suma de las probabilidades de todos los
resultados del experimento que tiene k “éxitos” y n-k “fracasos”. Estos resultados tienen la
misma probabilidad, igual al producto que tiene un factor p por cada éxito y un factor (1-p)
por cada fracaso, o sea igual a p k (1 − p ) . La probabilidad buscada será igual, entonces, a
n− k
p k (1 − p ) multiplicado por el número de posibles sucesiones de k “éxitos” y n-k

n− k
“fracasos” considerando todas las ordenaciones, es decir multiplicado por el número

⎛ n⎞ n!
combinatorio ⎜⎜ ⎟⎟ =
⎝ k ⎠ k ! (n − k )!
Luego, la probabilidad de obtener k “éxitos” y n-k “fracasos” está dada por la
expresión:
P (X = k ) = p k (1 − p )
n! n− k
k = 0 ,1,2 ,… , n
k ! (n − k )!
La distribución que asigna estas probabilidades a los números 0, 1, 2,.....,n, se

llama distribución binomial con parámetros n y p, y se denota B(n, p).
Un ejemplo sencillo de esta distribución es el lanzamiento de la moneda n veces,
ya que este experimento tiene sólo dos resultados posibles (cara o cruz) con
P(cara)=P(cruz)=1/2, si se trata de una moneda normal.
Luego si lanzamos una moneda 3 veces ¿Cuál es la probabilidad de obtener
exactamente 2 caras?
24
Para responder a esta pregunta consideramos la variable X= número de caras
obtenidas en 3 lanzamientos de una moneda. X tiene una distribución B(3, 0.5) y por lo
tanto:
P ( X = 2) = (0.5)2 (1 − 0.5)1 = 0.375

3!
2!1!
Otro ejemplo de esta distribución: realizamos una encuesta de opinión sobre un

producto y las respuestas posibles son compra o no compra el producto, conociendo el
número n de personas entrevistada y las probabilidades p de comprar el producto,
obtendríamos un modelo binomial.
La distribución binomial puede ser simétrica o sesgada. Siempre que p=0.5 será
simétrica sin importar que tan grande o pequeño sea el valor de n. Si p≠0.5 será sesgada.
Mientras más cercana esté p a 0.5 y mayor sea el número de repeticiones n, menos
sesgada será la distribución.
Usando las definiciones de esperanza y varianza de una variable aleatoria discreta
se puede comprobar que la media y la varianza de una distribución binomial son:
E (X ) = n p y V ( X ) = n p (1 − p )
Distribución multinomial: La distribución binomial se refiere al caso en que sólo

tenemos dos resultados posibles, una extensión natural de esta distribución es cuando
tenemos un conjunto de más de dos resultados posibles que son una partición del espacio
muestral, digamos A1, A2,..........,Ak con probabilidades p1, p2, ........,pk. Entonces, es
claro que p1+ p2+ ........+pk=1.
Luego, si repetimos el experimento n veces y X1 es el número de veces que
sucedió A1, X2 es el número de veces que sucedió A2,.......y Xk es el número de veces
que sucedió Ak, la probabilidad de que A1 halla ocurrido n1 veces, A2 halla ocurrido n2
veces,......., Ak halla ocurrido nk veces es:
P( X1 = n1 , X2 = n2 ,…, Xk = nk ) =
n!
p1n1 p2n2 …pknk
n1!n2!…nk !
donde n1+n2+.....+nk=n.
Esta asignación de probabilidades se denomina distribución multinomial y se
denota M(n, p1, p2,......,pk). Observemos que involucra k variables aleatorias, por lo
tanto, decimos que es una distribución multivariada.
Un ejemplo de esta distribución es el lanzamiento del dado n veces, los seis
resultados mutuamente excluyentes tienen todos probabilidad pi=1/6. Si consideramos
n=10 y definimos X1=nº de veces que sale 1 en 10 tiradas, X2=nº de veces que sale 2 en
10 tiradas,......., X6=nº de veces que sale 6 en 10 tiradas, la probabilidad, por ejemplo de
que haya salido exactamente 2 veces el 1, tres veces el 2, ninguna vez el 3, una vez el 4,
dos veces el 5 y dos veces el 6, es:
25
2 3 0 2 2 2
⎛ 1⎞ ⎛ 1⎞ ⎛ 1⎞ ⎛ 1⎞ ⎛ 1⎞ ⎛ 1⎞
P( X1 = 2, X 2 = 3, X 3 = 0, X 4 = 1, X 5 = 2, X 6 = 2) =
10!
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ =
2!3!0!1!2!2! ⎝ 6 ⎠ ⎝ 6⎠ ⎝ 6⎠ ⎝ 6⎠ ⎝ 6⎠ ⎝ 6⎠
10
3628800 ⎛ 1 ⎞
= ⎜ ⎟ = 75600× 0.000000016= 0.00125
2× 6×1×1× 2× 2 ⎝ 6 ⎠
En forma análoga al modelo binomial, la distribución multinomial parece ser

apropiada en las encuestas de opinión donde hay más de dos respuestas posibles y sólo se
puede elegir una de ellas.
• Distribución de Poisson
La distribución de Poisson es otra función de probabilidad que tiene muchas

aplicaciones prácticas importantes. Un proceso de Poisson no sólo representa numerosos
fenómenos discretos, sino que el modelo de Poisson para proporcionar aproximaciones a
la distribución binomial.
Los siguientes son algunos de los ejemplos de fenómenos con distribución de
Poissón:
1. Número de defectos por lote en un proceso de producción
2. Número de llamadas por hora que llegan al conmutador de una central
telefónica
3. Número de clientes por hora que arriban a un servidor
4. Número de fallas por metro cuadrado de tela
En cada uno de los casos anteriores, la variable discreta, número de éxitos por
unidad (intervalo de tiempo, longitud, área, etc.) es representante de un proceso de
Poisson.
Se dice que un proceso de Poisson existe si podemos observar eventos discretos en
un intervalo continuo (de tiempo, longitud, área, etc.), de tal manera que si acortamos el
intervalo de manera suficiente
1. La probabilidad de observar exactamente un éxito en el intervalo es constante.
2. La probabilidad de observar exactamente más deun éxito en el intervalo es 0.
3. La ocurrencia de un éxito en cualquier intervalo de tiempo es estadísticamente
independiente de esta en cualquier otro intervalo.
Por ejemplo supongamos que examinamos el número de clientes que llega de 12 a 13

hs. a un banco de una ciudad grande. Cualquier llegada de un cliente es un evento discreto
en un punto particular sobre el intervalo continuo de una hora de tiempo. Durante tal
intervalo de tiempo supongamos que hay un promedio de 180 llegadas. Ahora, si
dividiéramos el intervalo en 3600 intervalos consecutivos de in segundo,
1. El número (o promedio) esperado de clientes que llega en cualquier intervalo de

un segundo sería 0.05
2. La probabilidad de que más de un cliente llegue en cualquier intervalo de un
segundo es 0.
26
3. La llegada de un cliente en cualquier intervalo de un segundo es independiente de
la llegada de cualquier otro cliente en cualquier otro intervalo de un segundo.
A la variable X= Nº de éxitos por unidad que depende del parámetro λ, el promedio o

número esperado de éxitos por unidad, le asignamos las siguientes probabilidades:
e −λ λx
P (X = x ) =
x!
Decimos, entonces, que X tiene una distribución de Poisson que depende del
parámetro λ, y escribimos X∼P(λ)
Cada vez que se especifica el parámetro λ, puede generarse una distribución
específica. Una distribución de Poisson estará sesgada a la derecha cuando λ es pequeño y
se aproximará a la simetría al crecer λ.
Una propiedad interesante de esta distribución es que la media y la varianzas son
iguales al parámetro λ, es decir:
E (X ) = λ y V (X ) = λ
Para ver las aplicaciones de este modelo regresemos al ejemplo de la llegada de

clientes al banco a la hora del almuerzo: si, en promedio llegan 0.05 por segundo, ¿cuál es
la probabilidad que en un minuto dado lleguen exactamente dos clientes? ¿Cuál es la
probabilidad de que más de dos clientes lleguen en un minuto dado?
Para resolver esto debemos calcular el promedio de llegadas por minuto, como este es
proporcional al intervalo de tiempo considerado λ es 0.05 × 60 = 3 . Luego
e −3 (3)
2
P ( X = 2 / λ = 3) = = 0.2240
2!
Para responder la segunda pregunta, tenemos
P ( X > 2 / λ = 3) = P ( X = 3 / λ = 3) + P ( X = 4 / λ = 3) + P ( X = 5 / λ = 3) +
Puesto que todas las probabilidades en una distribución de probabilidad deben sumar
1, los términos de la derecha de la ecuación pueden expresarse como
1 − P ( X ≤ 2 / λ = 3)
Por tanto,
P ( X > 2 / λ = 3) = 1 − P ( X = 0 / λ = 3) + P ( X = 1 / λ = 3) + P ( X = 2 / λ = 3) =
⎧ e − 3 (3)0 e − 3 (3)1 e − 3 (3)2 ⎫
= 1− ⎨ + + ⎬ = 0.5768
⎩ 0! 1! 2! ⎭
27
Afortunadamente, los cálculos manuales no son necesarios aquí. Refiriéndonos a las
tablas de la distribución de Poisson puede obtenerse el resultado.
• Distribución Hipergeométrica:
Este modelo se aplica cuando estamos interesados en obtener una muestra sin
reposición, en la cual no interesa el orden en el que han sido seleccionados los
integrantes de la muestra sino tan solo su naturaleza.
Supongamos que los miembros de una población de tamaño m pueden tener o no
una cierta propiedad y llamemos especiales a los miembros que la tienen. Definimos la
variable X como el número de miembros especiales de muestra sin reposición de tamaño
n y calculemos la probabilidad de que esta muestra contenga k miembros especiales con
k≤n
Sea s es l número de especiales en la población. Para obtener la probabilidad
buscada necesitamos conocer el número total de muestras que contiene exactamente k
miembros especiales y el número total de posibles muestras de tamaño n. Estas dos
cantidades está dadas por las siguientes expresiones:
⎛ s ⎞⎛ m − s ⎞ ⎛m⎞
⎜⎜ ⎟⎟⎜⎜ ⎟⎟ y ⎜⎜ ⎟⎟
⎝ k ⎠⎝ n − k ⎠ ⎝ n⎠
Luego la probabilidad buscada será:
⎛ s ⎞⎛ m − s ⎞
⎜⎜ ⎟⎟⎜⎜ ⎟
⎝ k ⎠⎝ n − k ⎟⎠
P (X = k )
⎛m⎞
⎜⎜ ⎟⎟
⎝n⎠
Obsérvese que debe ser k≤s.

La variable así obtenida se llama Hipergeométrica y la denotamos H(m,s,n).
Veamos un ejemplo: Una fábrica recibe de un proveedor una caja con 50 piezas. Antes
de aceptar el envío se revisan 4 piezas. Si dos o más piezas examinadas son defectuosas,
el envío se rechaza. Hallemos la probabilidad de rechazar el envío si si la caja contiene 5
piezas defectuosas.
De acuerdo con lo visto el número de piezas defectuosas en la muestra, X, tiene
una distribución H(50,5,4), luego
P (rechazo ) = P ( X > 2) = 1 − P ( X = 0 ) − P ( X = 1) =
⎛ 5 ⎞⎛ 45 ⎞ ⎛ 5 ⎞⎛ 45 ⎞
⎜⎜ ⎟⎟⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟⎜⎜ ⎟⎟
⎝ 0 ⎠⎝ 4 ⎠ ⎝ 1 ⎠⎝ 3 ⎠
=1− − = 0.045
⎛ 50 ⎞ ⎛ 50 ⎞
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟
⎝4⎠ ⎝4⎠
28
V- DISTRIBUCIÓN DE PROBABILIDAD CONTINUA
Una variable aleatoria se dirá continua, si sus posibles valores son números reales. En
este caso, no puede asignarse a cada valor una probabilidad ya que, incluso en un intervalo
limitado hay una infinidad no numerable de valores: sólo puede garantizarse la probabilidad
a un intervalo que puede ser muy pequeño.
Supongamos que tenemos un número grande, n, de observaciones de una variable
aleatoria continua. Para analizar el comportamiento de la variable lo apropiado es agrupar
los datos y construir la serie de frecuencias relativas correspondiente. El comportamiento
de la variable se refleja gráficamente en un histograma o en el polígono de frecuencias.
Cuando aumenta la cantidad de observaciones y la amplitud de las clases se hacen muy
pequeñas, es evidente que el polígono de frecuencias se transformará en una curva suave,
esta curva se puede aceptar como el modelo teórico de una situación real.
Por lo tanto, la asignación de probabilidades a los intervalos se efectúa por medio de una función de
densidad de probabilidad o simplemente función de probabilidad (fdp).
La función de distribución acumulativa (cuya contraparte empírica es la distribución
de frecuencias acumuladas) se define como la probabilidad asignada al intervalo (-∞, x).
En símbolos:
F (x ) = P (X ≤ x )
Luego, la probabilidad acumulada hasta x es el área comprendida bajo la curva de densidad de

probabilidades hasta x. Esta área varía entre 0 y 1.
Desafortunadamente, la obtención de probabilidades o el cálculo de valores esperados y desviaciones
estándar para fenómenos continuos implica expresiones matemáticas que requieren un conocimiento del
cálculo integral y que están más allá del alcance de este curso. No obstante para la distribución de
probabilidades continuas que estudiaremos se han diseñado tablas de probabilidad que eliminan la necesidad
de cálculos matemáticos.
Las definiciones de valor esperado y varianza para el caso continuo serán omitidas, pero la
interpretación de la media E(X) como aproximadamente igual al promedio aritmético de un gran número de
observaciones independientes de la variable aleatoria X, es válida cualquiera sea X (discreta o continua).
La Distribución Normal o Gaussiana:
La distribución normal es la distribución más importante en estadística. Constituye la

base de la inferencia estadística clásica debido a su relación con el teorema central del
límite, que se desarrollará en el capítulo siguiente. Además muchos fenómenos continuos
parecen seguir esta distribución o pueden aproximarse mediante ésta.
También puede usarse como aproximación de algunas distribuciones discretas.
Las matemáticas de la distribución normal son bastantes complicadas y no serán
discutidas aquí. Sin embargo, es importante conocer las características de esta distribución
y aprender el manejo de las tablas.
La figura b muestra la función de densidad de probabilidades de una distribución
normal. Puede verse que es simétrica y tiene forma de campana. El eje horizontal muestra
los valores de la variable, en este caso la altura de mujeres adultas. El punto donde se centra
la distribución es la media μ (o valor esperado) de la variable, en este caso la altura media.
Los puntos donde hay un cambio de la curvatura (puntos de inflexión) están situados a uno
y otro lado de la media a un desvío (σ) de distancia.
29
0.3
0.2 0.5328
0.1
X
-3 -2 -1 1 2 3
1.57 μ=1.60 1.66
figura b
Diremos, entonces que la altura de las mujeres adultas está distribuida normalmente con parámetros
μ=1.60 m y σ=0.06 m y escribimos: X∼N(1.60, (0.06)2)
El área debajo de la curva entre dos límites cualesquiera de la escala horizontal
representa una probabilidad de obtener un valor de la variable (altura) situado entre estos
límites. Por ejemplo el área marcada en la figura b, da la probabilidad de que una mujer
elegida al azar tenga una estatura entre 1.57 m y 1.66 m. En este caso la probabilidad es
igual a 0.5328, es decir, que el 53.28% de las mujeres tendrán una estatura entre 1.57 m y
1.66 m.
Para resumir: si puede darse por supuesto que una variable determinada está distribuida normalmente
con parámetros conocidos μ y σ, es posible calcular la probabilidad de que un valor de la variable
correspondiente a un individuo escogido al azar esté situado entre dos límites prefijados cualesquiera. Esta
probabilidad puede utilizarse también para dar la proporción (o porcentaje) de todos los valores de la variable
que deberían estar entre estos límites.
Enunciaremos a continuación una importante propiedad de la distribución normal,
que facilita el cálculo de las probabilidades:
X −μ
Si X∼N(μ, σ2) entonces Z = ∼N(0,1)
σ
En palabras: si una variable X tiene una distribución normal con media μ y varianza σ2, entonces la
X −μ
variable Z= tiene una distribución normal con media 0 y varianza 1. Se dice, habitualmente, que la
σ
X −μ
transformación Z= estandariza a la variable X (centra a la variable y la expresa en unidades de
σ
desviaciones estándar) o que la variable Z tiene una distribución normal estándar.
Esta propiedad nos permite calcular probabilidades, o áreas, de cualquier distribución
normal a partir de una única tabla: la tabla de distribución acumulada de la normal estándar.
Por ejemplo, si queremos calcular la probabilidad de que una mujer elegida al azar tenga una altura
menor que 1.66 m, procedemos de la siguiente manera:
• Estandarizamos este valor:

1.66 − 1.6
z= =1
0.06
• Buscamos en la tabla la probabilidad acumulada para el valor estandarizado, es decir, z=1, obteniendo el
valor 0.8414, luego:
30
P ( X ≤ 1.66) = P ( Z ≤ 1) = 0.8414
Gráficamente:
0.3
0.2
0.8414
0.1
Z
-3 -2 -1 1 2 3
X
1.60 1.66
31

5882 7025ap 02

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

5882 7025ap 02

Transféré par

Droits d'auteur :

Formats disponibles

III- MODELOS PROBABILÍSTICOS

La Estadística y la Teoría de Probabilidades se centran en el estudio de los fenómenos

Si observamos los resultados de repetir un acontecimiento aleatorio n veces, bajo

En el eje vertical se colocan las frecuencias relativas y en el eje horizontal el número

Si bien la propiedad 4 no es la contrapartida de una propiedad análoga de las

Para aclarar el significado de los axiomas de probabilidad, daremos otro clásico y

Si por ejemplo, queremos calcular la probabilidad de que salga un número par o

P(A ∪ B ) = P(A ) + P(B ) − P(A ∩ B ) =

Este concepto fundamental en la teoría de la probabilidad surge cuando nos

Luego, la frecuencia relativa condicional de tener estudios secundarios dado que es

Regla de la multiplicación de probabilidades

De la definición de probabilidad condicional resulta que:

y A un evento cualquiera tenemos que:

P(A ) = P(A ∩ B 1 ) + P(A ∩ B 2 ) + + P(A ∩ B k )

y, aplicando la regla de la multiplicación a cada término, obtenemos:

P(A ) = P(A / B 1 ) P(B 1 ) + P(A / B 2 ) P(B 2 ) + + P(A / B k ) P(B k )

La probabilidad condicional toma en cuenta la información respecto a la ocurrencia

Ejemplo 6: Un servicio de tasación de bonos municipales tiene tres categorías de

El teorema de Bayes puede desarrollarse a partir de la definición de probabilidad

P(A ∩ B ) = P(A / B ) P(B )

P(A ∩ B ) = P(B / A ) P(A )

P(B / A ) P(A ) = P(A / B ) P(B )

P(A ) = P(A / B 1 ) P(B 1 ) + P(A / B 2 ) P(B 2 ) + + P(A / B k ) P(B k )

Entonces la fórmula de Bayes es:

Ahora podemos usar el teorema de Bayes para determinar la probabilidad enunciada

A= el bono fue emitido por una ciudad

La información dada puede escribirse, entonces, como:

P(A / B 1 ) = 0.5, P(A / B 2 ) = 0.6, P(A / B 3 ) = 0.9

Independencia de dos eventos

El concepto de independencia de eventos es fundamental en la Teoría de la

Diremos que dos eventos A y B son independientes si se verifica que:

Si P(A)>0 y P(B)>0, la independencia de A y B equivale a la verificación de las

Las equivalencias anteriores muestran que la definición de independencia concuerda

IV. DISTRIBUCIÓNES DE PROBABILIDAD DISCRETAS

Variable aleatoria discreta

y como P(Ω)=1, que:

Luego, si el evento A es “el resultado es un número par”, entonces

También podemos definir la función de distribución acumulativa (cuya contraparte

Para el ejemplo dado, se da a continuación la expresión analítica de la función de

Esperanza de una variable aleatoria discreta

Dada una variable discreta X, se define su esperanza, valor medio o simplemente

y como de la interpretación empírica de la probabilidad resulta que las frecuencias relativas

Se demuestra en la teoría matemática que esta interpretación de la esperanza E(X),

Varianza de una variable aleatoria discreta

La varianza de una variable aleatoria discreta, en símbolos V(X), se define como:

(La última igualdad se deduce al aplicar algunas propiedades de la esperanza)

Algunas Propiedades de la Esperanza y la Varianza

Sea X una variable aleatoria. y k una constante,

Si Y = k.X entonces E(Y) = k.E(X) y V (Y) = k2.V (X)

Sean X e Y dos variables aleatorias independientes entonces V (X ± Y) = V (X) + V (Y)

Algunas distribuciones discretas

• Distribución binomial: Supongamos que un experimento tiene sólo dos resultados

p k (1 − p ) multiplicado por el número de posibles sucesiones de k “éxitos” y n-k

“fracasos” considerando todas las ordenaciones, es decir multiplicado por el número

La distribución que asigna estas probabilidades a los números 0, 1, 2,.....,n, se

P ( X = 2) = (0.5)2 (1 − 0.5)1 = 0.375

Otro ejemplo de esta distribución: realizamos una encuesta de opinión sobre un

Distribución multinomial: La distribución binomial se refiere al caso en que sólo

En forma análoga al modelo binomial, la distribución multinomial parece ser

La distribución de Poisson es otra función de probabilidad que tiene muchas

Por ejemplo supongamos que examinamos el número de clientes que llega de 12 a 13

1. El número (o promedio) esperado de clientes que llega en cualquier intervalo de

A la variable X= Nº de éxitos por unidad que depende del parámetro λ, el promedio o