Académique Documents
Professionnel Documents
Culture Documents
Aleatoria y Estadstica
Ao 2016
Casi toda decisin que un ingeniero tiene que tomar, de una u otra manera, presenta algn elemento
de incertidumbre, es decir, en el momento en que la decisin es tomada no se tiene la certeza
absoluta de cul ser la consecuencia de la decisin tomada. Algunas veces, los efectos de la
incertidumbre son tan pequeos que su influencia en la decisin tomada puede despreciarse y por
tanto se trata a la situacin que se presenta como que no tiene incertidumbre y se toma la decisin
con entera confianza. Pero en no pocas ocasiones se enfrentan situaciones donde la incertidumbre
es importante y no puede ser ignorada, en esas situaciones, las probabilidades y la estadstica son
herramientas eficaces para tomar las decisiones.
En la vida cotidiana se presentan situaciones que de modo general podemos llamar fenmenos, los
cuales pueden agruparse en dos tipos:
- aquellos que conociendo las condiciones en las cuales se desarrollan se puede predecir el
resultado del mismo. Al referirse a ellos se seala que la influencia de la incertidumbre es
despreciable y entre ellos se pueden relacionar un nmero de fenmenos ya estudiados en la fsica,
qumica, etc., tales como: Ley del movimiento uniforme, Ebullicin del agua a TPN, etc.
- aquellos que conociendo las condiciones en las cuales se desarrollan no se puede predecir el
resultado del mismo. En ellos la influencia de la incertidumbre es importante y hay que
considerarla. Entre ellos se puede citar la presencia de defectos en los artculos producidos; la
ocurrencia de fallos en el funcionamiento de uno equipo, tasa de transferencia de datos en redes de
datos, etc.
En los primeros predominan las leyes dinmicas y en los segundos predominan las leyes
denominadas estocsticas, a los cuales llamaremos fenmenos aleatorios y constituyen el objeto de
estudio de la teora de las probabilidades y de la estadstica.
1
Son una combinacin de los anteriores.
Los cursos de la especialidad de ingeniera electricista o electrnica incluirn simulacin y procesos
estocsticos.
2
Tema 1: Estadstica Descriptiva
Por ejemplo, Julin alumno de Ingeniera, tuvo parcial de matemtica y obtuvo un 70, Jos su
compaero un 75, estas dos notas no constituyen un conjunto de datos estadsticos ya que son dos
valores muy particulares y no posibilitan ms comentarios que el de dos buenas notas de
matemtica. En cambio si Julin registra las notas de treinta alumnos del curso, incluidas la de l y
la de Jos, obtiene estos datos: 60, 70, 75, 80, 85, 60, 65, 70, 50, 40, 70, 75, 60, 90, 80, 70, 60, 90,
60, 50, 75, 70, 60, 85, 75, 30, 70, 65, 80, 90.
Calculamos la nota promedio: 68.6. Observamos que su nota estuvo por encima del promedio del
curso y que el 60 % de sus compaeros sac 70 o ms en la prueba. Este conjunto de 30 valores
numricos constituye un conjunto de datos estadsticos.
Una vez establecidos cuales son datos estadsticos, pasaremos a hablar de los mtodos que
permiten analizarlos.
Los mtodos utilizados para tratar la informacin estadstica los llamaremos mtodos estadsticos y
los podemos ordenar de la siguiente manera:
a) recopilacin
b) organizacin
c) presentacin
d) anlisis
e) interpretacin de datos estadsticos
Antes de comenzar la recopilacin de los datos vamos a referirnos a la fuente de obtencin de los
mismos y a explicar la terminologa a usar en los pasos sucesivos.
Poblacin: Una poblacin es un conjunto finito de seres animados, de objetos o de conceptos. Este
es el conjunto de referencia sobre el cual recae el anlisis estadstico, debe ser homogneo y
definido de manera precisa.
3
Variable: La variable es una caracterstica numrica o cualitativa que vara de un individuo a otro.
Ejemplo 3: En un estudio realizado en la Universidad del Sur para evaluar el rendimiento de los
estudiantes, se eligieron al azar 50 graduados de esta Universidad y se registr el nmero de
aplazos obtenidos en el transcurso del cursado de la carrera y el promedio general.
Poblacin: Graduados de la Universidad Nacional del Sur.
Variables: Nmero de aplazos y el promedio general.
Muestra: Los 50 graduados seleccionados.
Los elementos de la muestra deben ser representativos de la poblacin y es necesario que cada uno
de los valores sea obtenido sin que intervenga la voluntad del recolector. Por ello se deben
recolectar los datos en forma aleatoria. Si necesitamos datos de 30 alumnos ingresantes a la carrera
de ingeniera del ao 2006, podramos elegirlos por su nmero de inscripcin, sacando al azar 30
nmeros que correspondan a nmeros de inscripcin de tales alumnos. Puede utilizarse un
bolillero, una tabla de nmeros al azar o una computadora.
Los siguientes son ejemplos de muestras tomadas de poblaciones de datos.
Ejemplo 4: Estamos interesados en estimar el gasto de combustible cada semana de los vehculos
de una empresa de transportes. Las unidades experimentales son los vehculos. La muestra de datos
estadsticos est determinada por los litros de combustible consumidos por semana por cada uno de
n vehculos tomados al azar.
Los datos pueden ser cualitativos o cuantitativos. Los datos cualitativos son los que se refieren a
atributos cualitativos, por ejemplo en un estudio demogrfico, el sexo, la nacionalidad, estado civil,
la raza, la religin, etc. Los datos cuantitativos pueden ser expresados en valores numricos que
resultan de una medicin. Cuando las medidas surgen de un proceso de conteo y el nmero de
valores que puede tomar es numerable (finito o infinito) se dice que la variable es discreta. Por
ejemplo: nmero de hijos de una familia, nmero de das de lluvia en un mes, etc. Cuando las
mediciones pueden tomar cualquier valor real, se dice que la variable es continua. Por ejemplo:
altura de una persona, ingreso mensual de una familia, etc.
Ms adelante veremos cmo se usan esos datos muestrales para inferir acerca de la poblacin.
Veamos ahora cules son los pasos lgicos a seguir cuando debemos obtener datos estadsticos (ya
sea una muestra o la poblacin) y sacar conclusiones acerca de ellos.
Ejemplo 6: En una compaa, el gerente de recursos humanos, registr el nmero de das laborales
perdidos por 30 empleados, obteniendo los siguientes datos: 1, 3, 5, 1, 4, 2, 4, 4, 1, 0, 3, 3, 4, 5, 2,
3, 2, 4, 3, 4, 2, 5, 4, 4, 3, 5, 2, 1, 5, 5
El valor 0 se registr una vez, indicando que solamente un empleado no registr faltas. El valor 1
aparece 4 veces, es decir, que 4 empleados registraron una nica falta. Y as siguiendo, podemos
obtener el nmero de veces que aparece un dato, es decir la frecuencia absoluta del valor y lo
notaremos fi.
4
La frecuencia relativa con que aparecen los valores de una variable es la relacin entre la
frecuencia absoluta de un valor de esta variable y la frecuencia total de todos los valores
registrados, escribimos: f ri fi a la frecuencia relativa del valor xi . Las frecuencias acumuladas se
n
obtienen por adicin sucesiva de las frecuencias absolutas partiendo del menor valor de la variable
y respetando el orden creciente. Escribimos: Fi f1 f 2 ......... f i a la frecuencia acumulada del
valor xi
Para el ejemplo dado, resumimos el clculo de las frecuencias en la siguiente tabla:
DIAGRAMA DE BARRAS
10
8
Frecuencias absolutas
0
0 1 2 3 4 5
N de das laborales perdidos
Ejemplo 7: Julin quera conocer el rendimiento en matemtica de los alumnos de ingeniera. Pidi
para ello los registros de las notas finales de un ao elegido al azar. Recopil as 125 notas
correspondientes a los alumnos:
53 65 60 88 46 71 56 69 74 57 82 54 74 57 80 78 49 83 70 47 68 70 80 66 77 67
78 41 64 79 58 67 78 60 65 55 91 74 63 66 90 42 68 49 75 50 68 60 59 62 62 72
41 70 85 55 57 53 72 76 56 73 62 73 54 65 68 51 82 72 71 63 75 68 50 69 64 65
44 60 78 83 65 76 64 57 71 59 73 67 47 78 70 59 90 67 75 58 80 70 50 50 68 52
66 70 38 78 65 84 73 53 65 83 61 85 56 73 94 91 75 88 44 90 95
5
Los organiz agrupndolos en 12 clases.
Clases nalumnos Frecuencia relativa Frecuencia acumulada
(37.5 - 42.5) 4 4/125 4
(42.5 - 47.5) 5 5/125 9
(47.5 - 52.5) 8 8/125 17
(52.5 - 57.5) 14 14/125 31
(57.5 - 62.5) 13 13/125 44
(62.5 - 67.5) 19 19/125 63
(67.5 - 72.5) 20 20/125 83
(72.5 - 77.5) 15 15/125 98
(77.5 - 82.5) 12 12/125 110
(82.5 - 87.5) 6 6/125 116
(87.5 - 92.5) 7 7/125 123
(92.5 - 97.5) 2 2/125 125
Y present los datos as agrupados en un grfico que indica cmo se distribuyen las notas de
matemtica en el conjunto de alumnos de Ingeniera.
El 31.2% de los alumnos tienen notas comprendidas entre 62.5 y 72.5; slo el 3.2% tiene notas por
debajo del 42.5 y el 7.2% de los alumnos supera la nota 87.5. Las clases con mayor frecuencia de
alumnos son la sexta (62.5 - 67.5) y sptima (67.5 - 72.5).
Pasemos ahora a explicar cada uno de los pasos que se siguieron observando tambin otras
posibilidades de manejar datos estadsticos.
b) Organizacin de datos: Una vez que se han recolectado los datos debemos revisarlos para
corregirlos (por ejemplo, aproximarlos, redondearlos) o completarlos, si fuera necesario. Una vez
que nos aseguramos que son todos correctos pasamos a clasificarlos (en general las clasificaciones
se refieren a tiempo, lugar, cantidad, calidad) y agruparlos (si hay slo unos pocos tems esto no es
necesario pero s lo es cuando son muchos los datos recogidos). Veamos algunos ejemplos
6
Ejemplo 8: El nmero de alumnos egresados de la universidad entre los aos 1973 y 1978 fue de
1010. Estos datos fueron clasificados por ao, asignando a cada individuo el ao en que egres. Se
cont el nmero de individuos en cada clase y se tabularon de la siguiente manera:
Ao de egreso N alumnos
1973 150
1974 150
1975 160
1976 180
1977 180
1978 190
Total alumnos: 1010
La primera columna est constituida por las clases o aos y la segunda por la frecuencia de la clase
respectiva, o sea el nmero de individuos que hay en la clase correspondiente.
c) Presentacin de los datos: Los datos deben ser presentados de manera tal que sean fciles de
leer e interpretar, an para los no entendidos. Los datos se presentan mediante tablas estadsticas
grficos estadsticos.
Tablas estadsticas: Constan, en general, de las siguientes partes (pudiendo faltar alguna de ellas a
causa del tema que se quiere presentar):
1) Ttulo
2) Encabezado
3) Columna matriz
4) Cuerpo
5) Nota de encabezado
6) Nota de pie
7) Fuente de datos.
El ttulo describe el contenido de la tabla; el encabezado es el ttulo de las columnas de datos; la
columna matriz est conformada por clasificaciones o conceptos de los datos. El cuerpo de la tabla
es el contenido de los datos estadsticos. La nota de encabezado es una aclaracin, que no figura en
las otras partes de la tabla (por ejemplo, unidades de los datos) y se escribe entre el ttulo y el
encabezado. La nota de pie se lee debajo del cuerpo de la tabla y explica alguna parte incluida en la
7
tabla que no est clarificada en otro lugar. La fuente de datos indica de donde provienen los datos y
se coloca al pie de la tabla. Vamos a discriminar cada una de estas partes en un ejemplo.
Ejemplo 11: No haremos ninguna aclaracin previa sobre la siguiente tabla ya que suponemos que,
si la presentacin es correcta, ella por s misma explicar los datos. Slo marcaremos las partes de
la tabla. El lector puede formarse una idea de la produccin en los distintos Departamentos a lo
largo de los cuatro aos registrados
Las grficas estadsticas nos ofrecen otra posibilidad de presentar los datos ya organizados; su
comprensin visual es ms rpida que la de una tabla. Esta presentacin sin embargo, no admite
clasificaciones muy complicadas. Veamos algunos tipos de grficas estadsticas:
8
El corte en el eje horizontal se utiliza cuando ak-a1 es mucho menor que a1 o cuando a1 es un valor
muy grande de tal manera que respetando la escala todo el grfico quedara en el extremo derecho
del plano. La suma de las reas de los rectngulos es igual a n; en efecto, si llamamos Ai al rea i-
k k
sima se cumple que Ai bi hi bi . f i bi f i y Ai f i n.
i 1 i 1
Si cada intervalo tiene la misma longitud b=bi se considera dicha longitud como unidad y la altura
de cada rectngulo es igual a la frecuencia. Se puede construir un grfico de barras usando la
frecuencia relativa, de la misma manera que para frecuencia absoluta. Con el siguiente ejemplo
veremos cmo se forman las clases
Ejemplo 12: Mediante una encuesta se registr el consumo mensual de electricidad de 50 familias
de dos integrantes (en Kwatts). Los resultados son:
92 54 32 78 68 77 53 11 23 83 78 25 66
67 45 56 41 45 46 66 65 16 13 50 78 19
16 20 95 73 33 68 80 81 75 21 54 43 52
99 62 79 17 26 72 57 55 100 39 71
Para estos datos, donde la variable puede tomar cualquier valor (existe tericamente una infinidad
de valores para el consumo mensual de electricidad en Kwatts), calcular las frecuencias relativas
para todos los valores de la variable es imposible. Como tambin lo es en el caso de que una
variable discreta tome un nmero muy amplio de valores. En este caso la variable discreta puede
ser asimilada, en la prctica, a una variable continua.
Para que la nocin de frecuencia conserve su sentido, hay que proceder a realizar agrupaciones: se
definen clases a las que se le practica el clculo de las frecuencias. Las clases dan entonces un
resumen de la distribucin de la variable. Cuando se definen las clases hay que evitar dos escollos:
una descomposicin muy amplia (un gran nmero de clases) es perjudicial, pues a medida que la
frecuencia absoluta por clase es menor ms se corre el riesgo de que la frecuencia relativa sea
aleatoria. Por el contrario una descomposicin demasiado tosca entraa una prdida de informacin
considerable y esquematiza demasiado la serie tratada. Se trata pues de encontrar un ptimo entre
estos dos extremos. El total de las observaciones determinan el nmero de clases. Ser peligroso e
ilusorio querer conseguir 10 clases cuando se dispone de una treintena de observaciones, o
proceder a una descomposicin en 5 clases para 3000 datos. Los estadsticos han desarrollado
varios criterios que no difieren entre s sustancialmente. En este curso, elegiremos como nmero de
clases convenientes el dado por la sencilla expresin: Nmero de clases = n Es decir, que
agruparemos en 507 clases los 50 datos registrados en el ejemplo.
La eleccin de los lmites de los intervalos de clase deber responder a las siguientes condiciones:
Los lmites o extremos sern preferentemente valores simples. Por convencin, el valor que
coincide con el lmite inferior de una clase forma parte de esa clase y slo de esa.
La amplitud de las clases es generalmente, y en lo posible, un mltiplo de un nmero entero para
facilitar los clculos.
Teniendo en cuenta estas condiciones, procedemos a agrupar los datos de acuerdo al siguiente
procedimiento:
1. En primer trmino determinamos el recorrido o rango de los datos originales, que es la
diferencia entre el valor mximo y el mnimo de una serie determinada. En el ejemplo,
R Rango 100 11 89
2. Calculamos la amplitud de clase dividiendo el rango por el nmero de grupos a realizar (si este
cociente no es entero lo aproximamos al entero superior)
Rango 89
a amplitud 13
n de clases 7
3. Luego, calculamos el recorrido de los datos agrupados
Rda =Rango de los datos agrupados=amplitud x n de clases=13x7=91
9
4. La diferencia entre el rango de los datos agrupados y el rango de los datos originales, se
distribuye por partes iguales a izquierda y derecha de los valores mnimo y mximo, con el fin de
no desequilibrar la serie. Si la diferencia es impar, por ejemplo 3, se distribuye en 1 y 2, pero
nunca en fraccin. En este caso: Rda R 91 89 2 Repartimos 1 a cada lado de la serie.
10 11 100 101
1 1
Rango
Una vez que hemos construido las clases en las que vamos a agrupar los datos, podemos calcular
las frecuencias. Los resultados quedan expresados en la siguiente tabla:
La segunda columna son los puntos medios o marcas de clase y se obtienen de la semisuma del
lmite inferior y el superior de cada clase, por ejemplo: (10+23)/2=16,5; (23+36)/2=29,5;
Los datos agrupados suelen ser representados grficamente por medio de histogramas: en el eje de
las abscisas marcamos los intervalos de clase y se levanta sobre cada uno de ellos, un rectngulo de
altura igual a la frecuencia (absoluta, relativa o porcentaje) correspondiente, la que podr leerse en
el eje de las ordenadas.
histograna
12
10
8
6 histograna
4
2
0
[10,23) [23,36) [36,49) [49,62) [62,75) [75,88) [88,101)
10
Podra ser tambin til considerar el histograma de frecuencias acumuladas.
histograma
60
50
40
30 histograma
20
10
0
[10,23) [23,36) [36,49) [49,62) [62,75) [75,88) [88,101)
En el caso anterior, las clases tienen todas las mismas longitudes y las alturas de los rectngulos
estn dadas directamente por la frecuencia de clase correspondiente, veamos qu sucede si las
clases tienen distinta longitud.
Ejemplo 13: Dada la siguiente tabla de distribucin de frecuencias, representarla por medio de un
histograma:
Intervalo de clase n observaciones
10 - 15 2
15 - 20 0
20 - 25 4
25 - 30 3
30 - 40 13
40 - 45 10
45 - 50 14
50 - 55 12
Total 58
Si ignoramos el hecho que la longitud de las clases no siempre es la misma y damos como altura de
la barra su correspondiente frecuencia tendramos:
11
Grfica de bastones o de barras
En el caso en que cada clase o grupo est determinada por un solo nmero podemos representar los
datos por un grfico de bastones. Cada bastn estar "parado" sobre el nmero representativo de la
clase y su altura ser igual a la frecuencia respectiva.
Ejemplo 14: Supongamos que hemos tirado 60 veces un dado y registrado los resultados de cada
tirada, sali 8 veces el as, 10 veces el 2, etc. como se indica en la siguiente tabla:
Ndel dado 1 2 3 4 5 6 Total
Frecuencia n de ocurrencias 8 10 12 7 13 10 60
Cada resultado est contado en una de las 6 clases, segn haya sido la cara del dado que qued
arriba; y cada clase est representada por un solo nmero que es 1, 2, 3, 4, 5, o 6.
En un sistema de ejes coordenados ortogonales determinamos en el eje horizontal los nmeros que
caracterizan a las clases y sobre cada uno de ellos levantamos un segmento perpendicular a este eje
de longitud igual a la frecuencia correspondiente.
12
Ejemplo 15: Consideremos la siguiente tabulacin de datos. La columna del medio contiene el
punto medio de cada intervalo o marca de clase
Altura Punto medio N de pinos
115-135 125 10
135-155 145 15
155-175 165 30
175-195 185 35
195-215 205 20
215-235 225 15
Graficamos en el plano los puntos de coordenadas (xi; fi) y por ltimo los unimos con segmentos en
orden creciente de las xi
Muchas veces se acostumbra cerrar la poligonal con los puntos de coordenadas (x1-b; 0), (xk+b; 0)
siendo b la amplitud del intervalo (en este caso es 20).
Ejemplo 16: Para averiguar qu duracin tienen las lmparas de 40 w de una determinada marca se
probaron 400 de ellas y se control el tiempo hasta que se quemaron. Se tabularon los valores de la
siguiente forma:
Tiempo duracin (en horas) n de lmparas: fi frecuencia acumulada: fai lmite superior: Li
[ 950;1150) 40 40 1150
[1150;1350) 60 100 1350
[1350;1550) 80 180 1550
[1550;1750) 100 280 1750
[1750;1950) 60 340 1950
[1950;2150) 60 400 2150
Los puntos que debemos unir con segmentos tienen coordenadas (Li;fai) La grfica de frecuencias
acumuladas ser:
A las 1150 horas de encendidas ya se haban agotado 40 lmparas, a las 1550 ya estaban quemadas
180 de ellas, quedando por lo tanto en funcionamiento 220 lmparas, razonando de esa manera
podemos observar tambin que despus de las 2150 horas de comenzado el experimento todas las
lmparas haban dejado de funcionar.
En base al grfico podemos responder la pregunta en qu tiempo de funcionamiento quedaban an
180 lmparas encendidas? o equivalentemente en qu tiempo ya se haban quemado 220
lmparas? El grfico de frecuencia acumulada nos puede dar la respuesta aproximada. Cada punto
de la poligonal es de la forma (xi; fai) donde la abscisa da el tiempo transcurrido y la ordenada el
13
nmero de lmparas quemadas hasta ese tiempo. Si entramos en el eje vertical por el valor 220 y
nos movemos paralelamente al eje horizontal hasta encontrar la poligonal, bajando
perpendicularmente, encontramos en el eje X el valor buscado que es 1630.
Ejemplo 17: Los datos siguientes son una estimacin del porcentaje de habitantes de los 4 pases
ms poblados comparados con la poblacin del resto del mundo
Pas % de
Habitantes China
22%
China 22
India 16
EEUU 5
Indonesia 4 India
Resto 53 16%
Resto
53% EEUU
Indonesia 5%
4%
d) Anlisis de datos
Una vez que hemos presentado los datos podemos comenzar a analizarlos. Esto se puede realizar
visualizando las tablas o los grficos, o por medio de frmulas matemticas como puede ser un
promedio o una medida de dispersin o clculos algo ms complicados que incluyen teora de
probabilidad. Ms adelante veremos algunos procedimientos de anlisis de datos estadsticos.
e) Interpretacin
Los resultados del anlisis, en general resultados matemticos, son traducidos al lenguaje propio
del problema que se plante para sacar conclusiones y tomar decisiones adecuadas.
a) Media aritmtica: Supongamos que se tienen n datos estadsticos que notaremos x1,, xn . La
media aritmtica de estos valores se define como la suma de todos ellos dividida por n y la
notaremos X . Si algunos de los datos est repetido, como vemos en el ejemplo anterior, podemos
calcular ms rpidamente la media razonando de la siguiente manera: si el dato x1 se repite f1 veces,
el dato x2, f2 veces y as hasta el dato xk sucede fk veces, siendo fi 1, para i=1,2,...k y con
f1+f2+...+fk = n, entonces:
n k
x1 x 2 x n x i
x1 f 1 x 2 f 2 x k f k x i fi
X i 1
i 1
(1) .
n n n n
14
Si los datos estuvieran presentados en una tabla de distribucin de frecuencias con clases dadas por
intervalos, de esta manera:
Intervalo Frecuencia
[a1; a2) f1
[a2; a3) f2
[ak; ak+1) fk
Total n
Sigue valiendo la frmula (1) tomando como valor xi el punto medio del intervalo o marca de
3 2 7 4 9 6 15 9
clase, as X 6 . 55
34
Intervalo Frecuencia Marca de clase
[1;3) 3 2
[3;5) 7 4
[5;7) 9 6
[7;11) 15 9
Veamos algunas caractersticas de este promedio que nos permitirn juzgar cundo es conveniente
usarlo, como medida de centralizacin, para representar un conjunto de datos.
Consideremos el siguiente caso hipottico: hemos ledo que en las fbricas A y B el salario
promedio de sus empleados es de 600$ quincenales. Sin embargo hay descontento en la fbrica A y
no en la B. Nos enteramos que en A hay 5 empleados y sus sueldos respectivos son 200$, 200$,
200$, 200$ y 2.200$ mientras que en la B los 5 obreros ganan 600$, 650$, 550$, 700$ y 500$
respectivamente. Si pensamos que la media debe ser un valor representativo de los datos,
evidentemente con los datos de la fbrica A esto no se verifica. Ello sucede porque:
i) En el clculo de la media entran todos los datos.
ii) La media se ve influenciada por valores extremos (en el ejemplo, 2.200 $ en la fbrica A).
Ejemplo 18: La siguiente tabla da la distribucin del salario en familias de 4 integrantes, aqu
x 1.246,1538
Gastos Nmero de familias Punto medio
[600;800) 5 700
[800;1000) 20 900
[1000;1200) 30 1100
[1200;1400) 40 1300
[1400;1600) 20 1500
[1600;1800) 15 1700
Total 130
15
Vamos a representar el valor 1246.151246.1538 en el grfico de barras de la distribucin de
frecuencias:
Si imaginamos que esas barras tienen peso igual a su frecuencia y estn ubicadas sobre una viga
suspendida, para apoyar la barra sobre un punto y que permaneciera en equilibrio debemos poner el
punto de apoyo en el lugar de la media aritmtica. Por lo tanto la media es el punto de equilibrio
de una distribucin de frecuencias.
Supongamos ahora que todos los salarios fueron incrementados en 300$, la distribucin de
frecuencias quedara transformada de esta manera:
Gastos Nmero de familias Punto medio
[900;1100) 5 1000
[1100;1300) 20 1200
[1300;1500) 30 1400
[1500;1700) 40 1600
[1700;1900) 20 1800
[1900;2100) 15 2000
Total 130
201000
x N 5 1000 20 1200 30 1400 40 1600 20 1800 15 2000 1543,15 1246,15 300
130 130
Si sabemos que cada salario ha sido triplicado, cul es la media de los nuevos salarios? La tabla de
distribucin de frecuencias de los nuevos salarios se presenta as:
Propiedades:
a) Si los datos originales son x1 ,, xn con frecuencias fi, f2,...,fk respectivamente con media x0 y
los datos transformados son x1 c, , xn c , la media de los datos transformados es:
16
1 k 1 k 1 k 1 k
xN i x c . f i i i n c
x . f f i xi f i c x0 c
n i 1 n i 1 i 1 n i 1
b) Si los datos originales son x1 ,, xn con frecuencias f1, f2,...,fk respectivamente con media x0 y
los datos transformados son cx1 , , cxn , la media de los datos transformados es:
1 k 1 k
xN
n i 1
cxi . f i c xi . f i c x0
n i 1
Ejemplo 19: Dada la siguiente tabla que representa el nmero de vehculos con 3, 4, 5, 6 7
pasajeros que pasa por un control caminero en el mes de octubre, de un total de 60 viajes, hallar el
nmero promedio de pasajeros transportados por vehculo. Representar grficamente la
distribucin de frecuencias (utilizando un grfico de bastones) y ubicar all la media hallada.
( x 290 / 60 4.83 )
(xi) n de turistas (fi) n de vehculos
3 8
4 14
5 20
6 16
7 2
Total 60
Este valor no tiene significado en la prctica, ya que no podemos hablar de 4.83 pasajeros por
vehculo. Es un nmero real y lo podemos interpretar diciendo que el promedio de pasajeros por
vehculo no llega a 5 o que es aproximadamente 5.
Ejemplo 20: Los siguientes conjuntos de datos y sus respectivas medianas nos pueden dar una idea
de las ventajas y desventajas de usar la mediana como una medida de centralizacin.
Grupo Conjunto de datos Mediana Media
1 2, 4, 6, 9, 10 6.0 6.2
2 2, 2, 2, 6, 8 2.0 4.
3 3, 3, 3, 6, 7, 8 4.5 5.
4 1, 1, 1, 1, 98 1.0 20.4
5 10, 15, 20, 26 17.5 17.75
6 4, 4, 4, 5, 5, 6, 6, 6, 6 5.0 5.1
En el grupo nmero 4 la mediana es ms representativa que la media, ya que la primera no se ve
afectada por el valor extremo 98, en tanto que la media se ve perturbada por este valor.
Propiedades:
a) Si sumamos un valor constante a los datos, la mediana se ve afectada en la misma forma, es
decir: Mediana (X + a) =Mediana (X) +a.
b) Si multiplicamos cada dato por una constante, la mediana se transformar multiplicndola por
la misma constante, es decir: Mediana (a X) = a Mediana (X)
Si los datos estuvieran agrupados en clases por medio de intervalos, podemos averiguar en qu
intervalo se encuentra el valor mediana o an encontrarla en forma aproximada mediante una
interpolacin lineal. Nosotros vamos a limitarnos a encontrar el intervalo que contiene a la
mediana, observando la columna de frecuencias acumuladas, siendo el intervalo buscado el que
sobrepasa en frecuencia acumulada el valor n/2 y cuyo intervalo anterior no la alcanza, por
17
ejemplo, en la siguiente tabla se recolectaron n=400 datos, n/2=200, el intervalo cuya frecuencia
acumulada sobrepasa a 200 y cuyo intervalo inmediato anterior no alcanza ese valor es el intervalo
[1550; 1750). En efecto, su frecuencia acumulada es 280>200 y el intervalo anterior [1350; 1550)
tiene frecuencia acumulada 180<200.
Tiempo duracin (en horas) N de lmparas fi frecuencia acumulada fai
[ 950;1150) 40 40
[1150;1350) 60 100
[1350;1550) 80 180
[1550;1750) 100 280
[1750;1950) 60 340
[1950;2150) 60 400
c) Moda: Se define como el valor o los valores que tiene mayor frecuencia. Si se trata de una
variable discreta, no agrupada en intervalos, la moda se encuentra inmediatamente observando de
la tabla el valor de la variable al que corresponde la mxima frecuencia La moda, en general, es un
valor poco representativo de una distribucin, pues no tiene en cuenta todos los valores de la
variable. La moda no tiene verdadero inters sino cuando su frecuencia se destaca claramente del
resto de la distribucin; no se puede sacar informacin de una moda poco destacada. Puede haber
varias modas: se habla entonces de distribucin bimodal para el caso de dos modas, o plurimodal
para el caso de varias modas. Dos modas bien sealadas y netamente distintas indican a menudo
que la distribucin mezcla dos poblaciones diferentes.
Ejemplo 21: Vamos a calcular la moda en cada uno de los siguientes conjuntos de datos
estadsticos.
Conjunto Moda
1, 1, 2, 2, 3, 3, 3, 6, 6 3 (unimodal)
1, 1, 1, 3, 3, 3, 4 1 y 3 (bimodal)
2, 3, 4, 5, 6 no tiene moda
2, 2, 2, 1, 5, 6, 7 2 (unimodal)
4, 4, 2, 2, 1, 1, 5 4, 2 y 1 (plurimodal)
Simetra: Si los datos son simtricos y unimodal, la media la mediana y la moda son valores
similares, y la presentacin grfica de los datos tienen una distribucin que podemos considerar
simtrica con respecto a los valores centrales. Si los datos estn sesgados, (es decir, con una larga
cola hacia uno de los extremos), entonces la media, la mediana y la moda no coinciden.
Generalmente se encuentra que moda mediana media si la distribucin est sesgada hacia la
derecha, mientras que media mediana moda si est sesgada hacia izquierda. Como se observa en
los grficos.
Medidas de dispersin: Generalmente los valores numricos de los datos estadsticos no sern
iguales sino que estarn esparcidos o diseminados en mayor o menor grado. Esta caracterstica de
los datos no la suministra las medidas de centralizacin sino otros valores llamados medidas de
dispersin. Es posible encontrar conjuntos de datos estadsticos en donde coinciden las respectivas
medidas de centralizacin y sin embargo la distribucin de los valores son distintas.
18
Ejemplo 22: Consideremos los dos conjuntos de datos estadsticos:
I) 15, 16, 22, 22, 22, 26 II) 13, 14, 22, 22, 25, 27
Media = 20.5 Media = 20.5
Moda = 22.0 Moda = 22.
Mediana = 22.0 Mediana = 22.
En los dos conjuntos se observa coincidencia en cada medida de centralizacin y sin embargo los
conjuntos son distintos. Los datos del conjunto II estn ms dispersos que los del conjunto I.
Veremos dos medidas de dispersin: el rango y el desvo estndar.
Ejemplo 23: Dado el siguiente conjunto de datos estadsticos tomemos las posibles muestras de tres
elementos y calculemos en cada caso el rango.
El rango del total de los datos es igual a 8, mientras que en las muestras vara entre 4, 6 y 8.
Volveremos a estos datos para calcular las restantes medidas de dispersin.
Datos: 1, 3, 5, 7, 9 R = 9-1 = 8
Muestras Rango
1) 3, 5, 7 R = 7-3 = 4
2) 3, 7, 9 R = 9-3 = 6
3) 1, 3, 7 R = 7-1 = 6
4) 5, 7, 9 R = 9-5 = 4
5) 1, 5, 7 R = 7-1 = 6
Ejemplo 24: En el 5 ao, las notas de los 20 alumnos de la asignatura matemtica fueron: 5, 6, 6,
6, 7, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 9, 9, 9, 10. En economa obtuvieron las siguientes: 5, 6, 6, 6, 6, 6,
6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 7, 10. En ambos casos el rango es R = 10-5 = 5. Realice un grfico
de bastones para ambos conjuntos de notas a fin de visualizar y comparar sus distribuciones.
b) Desvo estndar: Dados los valores x1,, xn con frecuencias f1, f2,...., fk respectivamente, el
1 n 2 1 k 2
desvo estndar se define como: S i x x xi x . fi .
n i 1 n i 1
La varianza (S2) es el promedio de los cuadrados de las desviaciones de cada dato respecto a su
2
1 n 1 n
media aritmtica: S 2 xi x xi2 x 2
n i 1 n i 1
Si los datos estn agrupados en intervalos de clase, los xi de la definicin de S representan los
puntos medios de los intervalos de clase y los fi las frecuencias correspondientes.
La varianza tiene cualidades matemticas ms favorables que el desvo estndar, pero este ltimo
es de ms fcil interpretacin.
19
Ejemplo 25: Se tom la altura de los 15 alumnos de un curso y los registros se presentaron en la
siguiente tabla de frecuencias de alturas:
Altura 1.57 1.58 1.59 1.60 1.61 1.62 Total
N de alumnos 1 4 3 4 2 1 15
El rango es R = 1.62m 1.57m = 0.05 m = 5 cm; lo cual nos dice que los datos se presentan en un
intervalo de longitud igual a 5 cm. El desvo estndar es S = 0.01349 m = 1.349 cm.
Coeficientes de dispersin relativa: Los coeficientes de dispersin relativa son nmeros sin
dimensin, en la relacin entre una medida de dispersin y un valor central o promedio, la unidad
de medida desaparece. Uno de los ms utilizados es el coeficiente de variacin. Cuando las series
estadsticas se refieren a variables diferentes, tales como gasto, permanencia, aos y se desean
S
comparar utilizamos el coeficiente de variacin: CV . (Suele expresarse en porcentaje)
X
Medidas de orden: Dado un conjunto de datos, ordenados de menor a mayor, vamos a definir las
siguientes medidas de orden. Suponemos que los datos estn ordenados de menor a mayor.
Cuartiles: Un cuartil es el valor, entre los datos, que deja por debajo de l una fraccin de un
cuarto de los datos. As el primer cuartil, es el que deja por debajo de l un cuarto de los datos, el
segundo cuartil deja por debajo de l dos cuartos de los datos (o sea la mitad de los datos y
coincide con la mediana) y el tercer cuartil deja por debajo de l los tres cuartos del total de los
datos. Los indicaremos Q1, Q2 y Q3, respectivamente.
Percentiles: Un percentil P (1<P<100) es el valor, entre los datos, que deja por debajo de l al P%
del total de los datos. Por ejemplo, el percentil 30 es el valor que deja el 30% de los datos por
debajo de l, o equivalentemente, el 30% de los datos son menores que el percentil 30.
Cuando el cuartil o el percentil considerado, no coincide con un dato, se interpolan los dos datos
inmediatos entre los cuales estara el valor buscado. En general, los programas de computacin
20
aplicados a la estadstica, resuelven este problema y no existe coincidencia en la manera de hacer la
interpolacin, entonces tendramos que tomar este cuartil o percentil como una aproximacin.
Generalmente, calculamos cuantiles y percentiles para un conjunto grande de datos y sus valores
aproximados son igualmente tiles.
Ejemplo 26: Si tuviramos 49 datos y queremos encontrar el percentil 60, ste sera un valor que
deja por debajo de l el 60% de los datos, con lo cual en este caso dejara 49*60/100 datos a su
izquierda. Esa cuenta da como resultado 29.4, o sea dejara 29.4 datos por debajo de l, lo cual
obliga a interpolar para encontrar el percentil 60. Los siguientes 49 datos y sus percentiles 60 y 70
se muestran a continuacin.-1.72, -1.51, -1.50, -1.50, -1.46, -1.43, -1.43, -1.04, -0.93, -0.90, -0.89, -0.85, -0.83, -
0.75, -0.75, -0.68, -0.68, -0.60, -0.51, -0.46, -0.45, -0.31, -0.25, -0.24, -0.17, -0.17, -0.15, -0.11, 0.13, 0.13, 0.16, 0.19,
0.32, 0.34, 0.40, 0.41, 0.47, 0.54, 0.58, 0.78, 0.84, 0.87, 0.93, 0.97, 1.13, 1.13, 1.34, 1.41, 1.47. P60=0.13
P70=0.358
Diagrama de Cajas: Ahora que hemos estudiado las principales propiedades de los datos
numricos (tendencia central, variacin y forma), es importante que identifiquemos y describamos
las principales caractersticas de los datos en un formato resumido. Una forma de abordar esto es
desarrollando un resumen de cinco nmeros y construir una grafica de cajas, para estudiar la forma
de la distribucin. El resumen de cinco nmeros consiste en el menor valor de los datos, el primer
cuartil Q1, la mediana, el tercer cuartil Q3 y el valor mayor. Nos permitir ver si existe un sesgo as
como puntos extremos. Utilizando otra medida de dispersin de los datos el rango intercuartlico
RQ=Q3-Q1, nos permiten ver si hay datos atpicos, tomando como datos atpicos los que disten, por
encima o por debajo, ms de 1.5 veces el rango intercuartlico. Los diagramas de cajas son muy
tiles en la comparacin grfica entre conjuntos de datos, por su impacto visual y su fcil
comprensin.
Min Max
RQ
1.5RQ 1.5RQ
Q1 Mediana Q3
21
Tema 2: Experimentos Aleatorios - Probabilidad
La terminologa usada en esta materia tiene algunas veces significado propio. Ocurre ello con el
concepto de experimento no determinstico o tambin llamado experimento aleatorio. Vamos a
llamar experimento a la realizacin de un hecho. Por ejemplo, el experimento de tirar un dado, de
sacar una carta de un mazo, de medir y pesar un pez que acaba de morder nuestro anzuelo, etc.
A un experimento lo podemos clasificar en determinstico o en aleatorio. Diremos que es
determinstico cuando estipuladas las condiciones bajo las cuales se realiza, se puede prever el
resultado. Por ejemplo, si mando una determinada seal a un receptor y la recibe s que recibir la
seal que envi. Por otro lado, un experimento se dir aleatorio o no determinstico si bajo las
mismas reglas de realizacin pueden ocurrir distintos resultados. Por ejemplo, si realizo la
accin de recibir la salida de una seal de un receptor no s qu seal recibir. Podemos decir
tambin que un experimento se dir aleatorio si tiene las siguientes caractersticas:
a) Se conoce cuales pueden ser los posibles resultados del experimento.
b) Un determinado resultado es impredecible.
c) El experimento puede repetirse bajo condiciones (casi) idnticas.
d) A la larga, hay un comportamiento predecible de los resultados (regularidad estadstica).
Ejemplo 28:
i) Tirar un dado y observar la cara superior.
ii) Una lamparita fabricada en una planta es puesta a prueba y se registra su tiempo de duracin.
iii) Se tira un par de dados y se anota el resultado de la cara superior de ambos.
iv) Un lote consistente de N artculos conteniendo D defectuosos se inspecciona tomando un artculo
por vez sin volverlo a colocar en el lote. Se repite la extraccin hasta obtener uno defectuoso. Se
anota el nmero de extracciones necesarias.
v) Se registran las tres componentes de velocidad de un satlite orbital en forma continua durante
un perodo de 24 horas.
vi) Se cuenta el nmero de nias en familias que tienen cinco hijos.
vii) Un lote consistente de N artculos conteniendo D defectuosos se inspecciona tomando un artculo
por vez y volviendo a colocarlo en el lote. Se repite la extraccin hasta obtener uno defectuoso.
Se anota el nmero de extracciones necesarias.
viii) Se hace girar una tmbola cuya aguja puede parar en cualquier punto entre 0 y 1. Se anota el
nmero donde par la aguja.
ix) Se toma un nmero al azar entre 0 y 1 y se registra.
x) Una componente de un sistema es instalada en el tiempo t = 0. Se registra el tiempo t en que deja
de funcionar.
xi) Se toma al azar un nmero entre 0 y 1; a continuacin se toma un nmero entre 0 y el nmero
observado anteriormente. Se registran ambos resultados.
xii) Se anotan las seales recibidas en un receptor binario.
xiii) Se anota secuencias de k seales sucesivas de un receptor binario.
xiv) Se registra el voltaje de un receptor medido en la salida en un instante de tiempo.
xv) Tirar una moneda y observar la cara superior.
Nuestro inters est dirigido a los experimentos aleatorios. Tengamos en cuenta que muchos
fenmenos naturales o artificiales son aleatorios en el sentido que no puede ser previsto su
resultado; tal vez avanzando en el conocimiento pudieran ser determinsticos. Los posibles
resultados de un experimento aleatorio conforman un conjunto que llamaremos espacio muestral o
conjunto fundamental y notaremos generalmente con la letra griega (omega). Segn el nmero
de elementos que contenga lo clasificaremos en finito, infinito numerable o infinito no numerable.
El conjunto fundamental o espacio muestral en los ejemplos anteriores sera, respectivamente:
i) = {1, 2, 3, 4, 5,6}, finito.
22
ii) = [0;+) infinito no numerable o continuo.
iii) = {(1,1), (1,2), (1,3),..., (6,1), (6,2),..., (6,6)}, finito.
iv) = {1, 2, 3, 4,..N-D+1}, finito.
v) = {(x,y,z) / x,y,z R }, infinito no numerable.
vi) = {0, 1, 2, 3, 4, 5}, finito.
vii) = {1, 2, 3, 4,...}, infinito numerable.
viii) = [0;1), infinito no numerable.
ix) = [0; 1] infinito no numerable o continuo.
x) = [0;+) infinito no numerable o continuo.
xi) = {(x, y): 0 y x 1} infinito no numerable
xii) = {0,1}, finito.
xiii) = {(x1, x2,..., xk)/ x i =0 o 1 para i=1,2,,k}
xiv) = [V1; V2] siendo los posibles valores de voltaje.
xv) = {C, S}, finito.
El espacio muestral es un conjunto matemticamente conveniente que incluye todos los posibles
resultados y quizs algunos otros elementos ms. En el ejemplo 28 vi), el espacio muestral es
={0, 1,2,3,4,5} y en el ejemplo 28 ix), es =[0,1]. Por otra parte, en el ejemplo que se mide el
tiempo de vida, podemos considerar por conveniencia como espacio muestral el conjunto =[0,+)
aunque la mayora de los elementos del conjunto son prcticamente imposibles.
Si n experimentos aleatorios simples tienen espacios muestrales en 1,, 2,..., n, entonces el
producto cartesiano 1,x 2x...x n es el espacio muestral natural para el experimento compuesto
que consiste en la repeticin una sucesin de n experimentos. En particular, el espacio muestral para
un experimento compuesto que consiste en la repeticin indefinida de un experimento bsico con
espacio muestral es =,x x x.......
Inclusin: Un evento A est contenido en un evento B si cada vez que ocurre A, ocurre B. Por
ejemplo, en el experimento de tirar un par de dados, si A es el evento salir par en los dos dados y
B es el evento salir par en uno de ellos entonces A B y cada vez que A ocurre tambin ocurre B.
B
A
23
Complemento: Dado un evento A, su complemento que notamos -A A , es el evento que ocurre, o
se verifica, cuando no ocurre A. En el ejemplo dado en el concepto anterior, el complemento de A es
-A = por lo menos salir un valor impar.
A B
A B
lgebras y -lgebras de conjuntos: Si nos fijamos en el experimento del ejemplo 28i), veremos
que si tiene sentido pensar en el evento A= sacar menos de cinco, tambin ser lcito preguntarse
por el contrario A = sacar cinco o ms.
As mismo, dados dos eventos posibles A y B, ser lcito preguntarse por el evento unin de ambos.
Estas dos propiedades que deben cumplir los eventos de un espacio muestral son suficientes para
definir una estructura denominada lgebra en un conjunto.
Si A es una familia de subconjuntos de , luego decimos que A es un lgebra si:
a) Para todo evento A A, tambin -A A.
b) A.
c) Si A, B A entonces A B A.
De estas propiedades se deduce que un lgebra de conjuntos es cerrada bajo un nmero finito de
operaciones de conjuntos. Sin embargo, cuando tenemos un espacio muestral infinito esto no es
suficiente. En tal caso, necesitamos que la familia de conjuntos admisibles sea cerrada bajo una
cantidad numerable de operaciones de conjuntos.
Si A es una familia de subconjuntos de , luego decimos que A es un - lgebra si:
a) Para todo evento A A, tambin -A A.
b) A.
c) Si A1,.., An,... es una sucesin numerable de eventos de A, A
n 1
n tambin es un evento de A.
24
La teora de la probabilidad tiene su origen en el estudio de los juegos de azar, que impulsaron los
primeros estudios sobre clculo de probabilidades en el siglo XVI, aunque no es hasta el siglo
XVIII cuando se aborda la probabilidad desde una perspectiva matemtica con la demostracin de
la ley dbil de los grandes nmeros segn la cual, al aumentar el nmero de pruebas, la frecuencia
de un suceso tiende a aproximarse a un nmero fijo denominado probabilidad. Este enfoque,
denominado enfoque frecuentista, se modela matemticamente en el siglo XX cuando Kolmogorov
formula la teora axiomtica de la probabilidad. Dicha teora define la probabilidad como una
funcin que asigna a cada posible resultado de un experimento aleatorio un valor no negativo, de
forma que se cumpla la propiedad aditiva. La definicin axiomtica establece las reglas que deben
cumplir las probabilidades, aunque no asigna valores concretos.
Un espacio probabilizable es simplemente el par formado por el conjunto muestral y la -lgebra
correspondiente. Ahora tenemos la casa preparada para empezar a habitarla. Las lgebras en el caso
finito (que trivialmente son -lgebras); y las -lgebras en el caso general, se mostrarn como el
objeto matemtico idneo para definir probabilidades en el seno de .
Parte del motivo de que esto sea as debe ser a estas alturas evidente por s mismo: las propiedades
elegidas para definir las -lgebras son las que necesitamos que cumplan los sucesos a los que le
podremos asociar una medida de probabilidad.
Por ejemplo, si el espacio muestral es un subconjunto de , una -lgebra en la recta es la -
lgebra de Borel, generada por los intervalos de la forma (a, b), a < b. Como consecuencia de
aplicar operaciones entre conjuntos se deduce que los puntos de la recta estn en la -lgebra de
Borel y tambin todos los intervalos. Si es un espacio con n elementos el conjunto formado por
todos los subconjuntos de (partes de ) tambin es una - lgebra que posee 2n elementos.
Hemos definido los tres elementos esenciales para el modelo de un experimento aleatorio:
a) Un espacio muestral .
b) Una coleccin de eventos A.
c) Una medida de probabilidad P.
Juntos definen el espacio de probabilidad (, P, A)
Ejemplo 29: En un laboratorio se investigan solamente las personas de sexo masculino de 60 aos
de edad, y se observa que de 2000 personas, 200 son diabticas, luego se considera P(A) =
200/2000 = 0.1, siendo A el evento persona diabtica, entre aquellas que tienen 60 aos y son de
sexo masculino.
Clculo de probabilidad por medio del anlisis combinatorio: Supongamos que sea un
espacio muestral finito, donde cada evento elemental tiene la misma posibilidad de ocurrir
(por ej., cada cara de un dado perfecto). Si es as, podemos calcular la probabilidad de cualquier
evento A contando eventos elementales. Como contar puede ser algunas veces complicado,
vamos a recurrir al anlisis combinatorio. Repasaremos algunos conceptos para luego retomar el
tema del clculo de probabilidades para este caso particular de .
Permutaciones. Supongamos tener N elementos distintos a1, a2, a3,..., aN. Consideremos grupos de
estos N elementos, de tal forma que dos grupos cualesquiera son distintos si difieren en el orden (o
ubicacin) de por lo menos uno de sus elementos. El nmero de grupos distintos que pueden
formarse con estos N elementos est dado por PN N ! .
Variaciones. Supongamos tener N elementos distintos a1, a2, a3,..., aN. Consideremos grupos de n (n
N) de estos N elementos, de tal forma que dos grupos cualesquiera son distintos si difieren por lo
menos en un elemento o en el orden (o ubicacin) de uno de ellos. El nmero de grupos distintos
N!
que se pueden formar est dado por VNn , ( N N 1N 2...N n 1 ).
( N n)!
26
Variaciones con repeticin. Supongamos tener N elementos distintos a1, a2, a3,..., aN.
Consideremos grupos de n (n N) de estos N elementos, de tal forma que se puedan repetir. El
'
nmero de grupos distintos que se pueden formar est dado por V Nn N n , ( N .N .....N )
Combinaciones. Supongamos tener N elementos distintos a1, a2, a3,..., aN. Consideremos grupos de
n (n N) de estos N elementos, de tal forma que dos grupos cualesquiera son distintos si difieren
por lo menos en un elemento. El nmero de grupos distintos que se pueden formar est dado por
N!
C Nn .
n! ( N n)!
Los conceptos que acabamos de recordar los van a aplicar para calcular probabilidades cuando el
espacio muestral sea finito ={E1,..., En} y equiprobable, es decir tal que P(Ei)=1/n. Si definimos
A= Ei, iI, siendo I un subconjunto de {1, 2,..., n}, entonces aplicando las propiedades de
i
1
probabilidad: P( A) P( Ei ) # I
iI iI n
N de elementos de A
Luego P( A) .
N total de eventos elementales
Ejemplo 30: Sea un nmero escogido entre los enteros del 1 al 100, tal que cada uno de ellos tenga
la misma posibilidad de ser elegido. Cul es la probabilidad de que el nmero elegido sea un
mltiplo de 8? Rta.: 12/100.
D ND Total
E 40 200 240
NE 360 400 760
Total 400 600 1000
Luego, la frecuencia relativa condicional de tener una enfermedad cardiovascular dado que practica
deportes se define naturalmente como el nmero de personas que practican deportes y padecen una
enfermedad cardiovascular dividido por el nmero total de personas que practican deportes
(reducimos la muestra completa al conjunto de deportistas y consideramos la frecuencia relativa de
padecer una enfermedad cardiovascular de dicha submuestra).
fDE 40
0.10
fD 400
fD E
fD E n y, por la ley de los grandes nmeros, esta expresin se acerca cada vez ms a
Pero
fD fD
n
P D E
a medida que n crece.
P D
Estas consideraciones nos llevan a definir en general la probabilidad condicional de A dado (que
ha sucedido) B, en smbolos P(A/B) poniendo:
28
P A B
P A / B si PB 0 .
PB
En el caso que B = entonces P(A/) = P(A), esto nos lleva a pensar que la idea al referirnos a la
probabilidad de un evento A, condicionada a la ocurrencia de un evento B, es restringir el espacio
muestral original a un espacio B (los elementos de que satisfacen el suceso B) ms pequeo
y trabajar all adentro.
Observacin:
i) Siempre que hablemos de probabilidad condicional suponemos que la probabilidad del evento
condicin es no nula.
ii) Cuando decimos un evento de nos referimos a un subconjunto de la -lgebra A.
Proposiciones:
~
1. Para B fijo, la P(A/B) es una medida de probabilidad. Es decir, si definimos P A P A / B con
~
A, B A, B fijo, entonces P A verifica los axiomas de probabilidad.
2. Si B A, entonces P(A/B) = 1.
3. Si A B, entonces P(A/B) = P(A)/P(B).
4. Si A y B son disjuntos; P(A/B)=0.
Decimos que A y B estn asociados positivamente si P(A/B)> P(A) o, equivalentemente, si la
P(B/A)>P(B).
Intuitivamente, la ocurrencia de cualquiera de los dos eventos hace que el otro sea ms probable.
En el ejemplo anterior, tenemos que P(E/ND) 0.67 > P(E) 0.24 y concluimos que llevar una vida
sedentaria aumenta el riesgo de desarrollar una enfermedad cardiovascular (estos eventos estn
asociados positivamente).
Anlogamente, decimos que A y B estn asociados negativamente si P(A/B) < P(A) o,
equivalentemente, si la P(B/A) < P(B).
Intuitivamente, la ocurrencia de cualquiera de los dos eventos hace que el otro sea menos probable
y este es el caso de E y D. P(E/D) 0.10 < P(E) 0.24 y concluimos que practicar deportes
disminuye el riesgo de desarrollar una enfermedad cardiovascular (estos eventos estn asociados
negativamente).
En el caso en que si P(A/B) = P(A) o, equivalentemente, si la P(B/A) = P(B), decimos que los
eventos son independientes. La interpretacin intuitiva es que la ocurrencia de alguno de los dos
eventos no incide en la probabilidad de que ocurra el otro evento. Por ejemplo, parece razonable
pensar que el largo del pie no incide en la probabilidad de sufrir una enfermedad cardiovascular (no
as, el permetro de la cintura!).
Teorema: Regla del Producto. Dados n+1 eventos cualesquiera, A0, A1, A2,..., An para los cuales
se verifica que P (A0 A1 A2 ... An-1)>0, se tiene:
P(A0 A1 A2 ... An) = P(A0)P(A1/A0)P(A2/A0 A1)...P(An /A0 A1 A2 ... An-1)
Ejemplo 31: (Urna de Polya o Esquema del Contagio) Una urna contiene dos 2 bolillas negras y 3
bolillas blancas. Se extraen dos bolillas al azar sin reposicin. Queremos hallar la probabilidad de
obtener una bolilla negra y una blanca en cualquier orden.
Aplicando la regla de la multiplicacin, tenemos que
P(la primer bolilla es negra y la segunda bolilla es blanca= P(la primer bolilla es negra) P(la
segunda bolilla es blanca / la primer bolilla es negra)= (2/5) (3/4)=3/10.
29
P(la primer bolilla es blanca y la segunda bolilla es negra= P(la primer bolilla es blanca)
P(la segunda bolilla es negra / la primer bolilla es blanca)= (3/5) (2/4)=3/10.
La figura siguiente muestra un diagrama de rbol que ilustra la solucin anterior. Las distintas
ramas representan los posibles resultados del experimento.
Los nmeros que acompaan los distintos tramos de cada rama son las probabilidades
condicionales, es decir los factores de la regla de la multiplicacin.
2/4 B2
B1
3/5
2/4 N2
3/4 B2
2/5
1/4
N2
Sumando ambas probabilidades, obtenemos la probabilidad buscada que es 3/5.
Y cul es la probabilidad de sacar las dos primeras blancas y la tercera negra?
P(B1B2R3)=P(B1).P(B2/B1).P(R3/B1B2)=3/5.2/4.2/3
Teorema: (De las Probabilidades Totales). Si B1, B2,..., Bn, son n eventos disjuntos de
n
y tales que Bi y si P(Bi)>0, B5
i 1 B1
n B3
entonces P A P A / Bi PBi
i 1
A
B2
B4 Bn
n n
Dem: A A A Bi A Bi
i 1 i 1
Como por hiptesis los Bi son disjuntos, tambin lo son los A Bi, Por la propiedad 2 de
probabilidad, se verifica:
n n n
P A P A Bi P A Bi P A / Bi PBi c.q.d.
i 1 i 1 i 1
30
Luego dada una particin del espacio muestral: B1,B2, ........., Bn y recordando que la probabilidad
del evento A puede escribirse como
P A P A / B1 PB1 P A / B2 PB2 P A / Bn PBn ,
tenemos que es:
P A / Bi PBi
PBi / A .
P A / B1 PB1 P A / B2 PB2 P A / Bn PBn
Esta frmula se conoce como la frmula de Bayes, P(Bi) es la probabilidad a priori de Bi y
P(Bi /A) es la probabilidad a posteriori de Bi, cuando se sabe que ocurri A.
Teorema: Regla de Bayes. Sea B1, B2,..., Bn,... como en el teorema anterior. Si P(A) > 0 entonces
PA / B j P B j
P B j / A .
P A / Bi PBi
iI
P A B j PA / B j PB j
Dem: Como P B j / A , reemplazando P(A) por la expresin del
P A P A
teorema anterior, queda completa la demostracin.
c.q.d.
Ejemplo 32: En medicina se ha observado que algunos pacientes tienen algunos sntomas de cierta
especificada sintomatologa A y los facultativos deben decidir cul de tres posibles enfermedades
D1, D2, D3 es la causa ms probable de los sntomas observados. Se conocen las siguientes
probabilidades: P(un paciente sufre D1) = P(D1) = 0.40 ; P(D2) = 0.25 ; P(D3) = 0.35 P(A/D1) = 0.8;
P(A/D2) = 0.6; P(A/D3) = 0.9. Entonces usando el ltimo teorema podemos encontrar la P(D1/A) o
la P(D2/A) o la P(D3/A):
0.8.0.4
PD1 / A 0.4076 ; P(D2/A) = 0.1911; P(D3/A) = 0.2473.
0.8.04 0.25.0.6 0.35.0.9
Independencia estocstica: Observemos que si los eventos son independientes, P(B/A)= P(B) y
esto equivale, por la regla de la multiplicacin, a P A B P A PB .
Usualmente se define la independencia de dos eventos a partir de esta identidad. Esto es: Dos
eventos son independientes si y slo si la probabilidad de la interseccin es igual al producto
de las probabilidades.
Diremos que n experimentos aleatorios con espacios muestrales 1, 2,...,n son independientes
si cualesquiera sean A1, A2, A3,..., An con Ai i ellos son mutuamente independientes.
En el ejemplo de tirar dos dados distinguibles o dos veces un dado, el evento A= salir par en el
primer dado y el evento B= salir cuatro o ms en el segundo dado son eventos independientes:
P(A B) = 9/36, P(A) = 18/36, P (B) = 18/36.
31
Propiedades: (para demostrar)
Si A y B son eventos independientes, tambin lo son A y -B.
Si los eventos de C son independientes, tambin sern independientes los que resulten de
sustituir alguno, varios o todos los eventos de C, por sus complementos.
Si suponemos P (B)> 0, la condicin necesaria y suficiente para que A y B sean independientes es
que P(A/B) = P(A).
Si A y B son eventos independientes entonces P(A/A B)=P(A) / (P(A)+P(B)).
Ejercicios:
10) Un sistema de comunicacin se comporta de la siguiente manera: La seal que se enva es 0 o 1,
siendo 1-p y p las respectivas probabilidades de esas entradas al sistema. El receptor tiene un
margen de error al recibir la seal, siendo 1- la probabilidad de recibir la seal correctamente.
Encontrar las probabilidades de los posibles pares de entradas y salidas del sistema. Comprobar que
la suma de esas probabilidades debe ser igual a 1. Encuentre la probabilidad de que la seal recibida
sea 1. Cul es la probabilidad que habiendo enviado 0 haya recibido uno.
11) Una fbrica produce chips buenos y malos con probabilidades 1-p y p respectivamente. La
probabilidad de que un chip bueno dure por lo menos t horas es igual a e-t y la probabilidad para
los chips malos es e-t1000. Sea C el evento el chip dura por lo menos t horas, M el evento el
chip es malo. Hallar la probabilidad del evento C y la probabilidad de que habiendo funcionado t
horas, el chip sea bueno. Puede darle valores determinados a p, y t a fin de encontrar un valor
constante para la respuesta.
12) Se arroja un dado y se anota el nmero N1 que sali. A continuacin se elije al azar un entero
N2 entre 1 y N1.
a) Describa el espacio muestral de este experimento compuesto.
b) Hallar la probabilidad que N2=3 dado que N1=5.
c) Hallar la probabilidad que N1=4 dado que N2=3.
d) Hallar la probabilidad que N2=3.
13) Existe un test para comprobar si una pieza tiene fallas o no, pero no es exacto. Consideremos los
siguientes eventos: A=el test pronostica una pieza fallada, B=la pieza est fallada, siendo P(A/B)=
P(-A/-B)=0.95, P(B)=0.005, hallar la probabilidad que nos permita afirmar que el test es til para
tomar una decisin acertada (o sea que la probabilidad que el test acierte sea alta, P(B/A)).
14) Un sistema contiene 4 componentes que pueden conectarse en las configuraciones que se
muestran a continuacin. Calcula la probabilidad de que el sistema funcione, si las componentes
funcionan de manera independiente y la probabilidad de que cada componente est funcionando es
de 0.95
a) b)
X
B
X-1(B)
. .X()
-1
X
Observaciones:
1- Como ya hemos dicho, lo que busca la definicin presentada anteriormente es que la imagen
inversa de conjuntos de la -lgebra de Borel sea un conjunto de la -lgebra A. Un contraejemplo
sera = {0,1}, A = {,} y X()=. Entonces { / X() 0}= {0} A. Si cambiamos la -
lgebra por partes de , X ser una v.a.
2-La notacin usual para v.a. es con letras maysculas, generalmente las ltimas del abecedario: X,
Y, Z, U, V, etc.
3- Frente a un experimento aleatorio, no se conoce con certeza cul de los posibles valores va a ser
el que tome la v.a. definida sobre su espacio muestral, de ah la causa de llamarla funcin aleatoria.
3-Sobre un mismo espacio muestral pueden definirse varias v.a.
Dado un espacio , se trata de asociar a los elementos del espacio con nmeros reales x=X(). El
conjunto de valores que toma X vamos a llamarlo rango o recorrido de la v.a. X y segn ste sea
un conjunto discreto o continuo as se dir a la v.a. X.
Ejemplos:
33) Sea = {1, 2, 3, 4, 5, 6}, correspondiente al experimento de tirar un dado. Podemos definir
sobre la v.a. X tal que: X (1)=1, X (2)=2,..., X (6)=6. El rango de X es el conjunto formado por
los nmeros 1, 2, 3, 4, 5, 6. Esto suele notarse R(X) ={1, 2, 3, 4, 5, 6}.
Sobre el mismo podemos definir Y tal que:
0 si es par
Y ( ) o sea que Y= 0 1 , o sea que R(Y)={0, 1}
1 si es impar
33
Entonces el evento A= salir par={2, 4, 6} coincide con la ocurrencia de Y=0 (dicho de otra
manera, A={/Y()=0}), y el evento B={1, 3, 5} coincide con la ocurrencia de Y=1
(B={/Y()=1}). Es evidente que la notacin referida a Y es ms cmoda que la de conjuntos.
34) Sea = {(1,1), (1,2), (1,3),..., (5,6), (6,6)} el espacio muestral correspondiente al experimento
de tirar dos dados distinguibles. Definimos X= suma de los dos dados. Luego X (2,3)=5, X
(4,6)=10, etc. O sea X(a, b)=a+b, y entonces R(X) ={2, 3,..., 12}. Tambin podemos definir sobre
el mismo , Z tal que: Z ()=0 si el primer dado es impar y Z()=1 si el primer dado es par, luego
Z(1,3)=0, y Z(4,6)=1 para mostrar dos ejemplos y entonces R(Z) ={0, 1}.
35) Sea = {(v, m, m, m), (m, v, m, v),..., (v, v, v, v)} el espacio muestral de sexo de hijos en
familias de 4 hijos. Sea Y = n de nias en familias de 4 hijos. Entonces R(Y) ={0, 1, 2, 3, 4}.
36) Sea el espacio muestral correspondiente al experimento de sacar una bolilla de una urna que
contiene tres blancas y dos rojas, anotar el color y volverla a colocar, repitiendo hasta obtener una
roja. Luego = {(r), (b, r), (b, b, r), (b, b, b, r),...}. Definimos X = n de extracciones antes de
obtener una roja. Luego R(X) ={0, 1, 2, 3, 4,...}.
El grfico de la distribucin de probabilidad de una variable aleatoria discreta, como en este caso de
X o Y, se puede representar mediante un grfico de bastones: en el eje horizontal se anotan los
valores de la variable aleatoria y, sobre cada uno de stos se dibuja un bastn perpendicular cuya
medida es igual a la probabilidad correspondiente
Ejercicios:
15) Representa el grfico de la distribucin de probabilidad de la variable Y definida sobre el
mismo espacio muestral.
34
Estudiemos ahora las variables aleatorias continuas.
Una v.a. se dir continua si su rango es un subconjunto continuo de los nmeros reales.
Por ejemplo, sobre el experimento aleatorio de obtener un individuo al azar podemos definir sobre
el espacio muestral de las posibles personas las siguientes v.a. continuas: i) X= peso; ii) Y=
altura; iii) Z= presin arterial.
Observemos que la mayora de las v.a. que llamamos continuas, prcticamente no lo son. Las
medidas mencionadas pueden ser registradas con un nmero muy limitado de decimales (dos o
tres?) y sus posibles valores conformaran un conjunto numerable. Sin embargo, tericamente
pueden tomar cualquier nmero real (dentro de su rango de valores).
Funcin de densidad: Sea f(x) una funcin real que verifica las siguientes condiciones:
i. f x 0 x
ii. f x dx 1
x
iii. FX x f t dt
Entonces f(x) es la funcin de densidad de probabilidad (f.d.p.) la v.a. X cuya funcin de
distribucin acumulada (f.d.a.) es FX(x).
Esta funcin de densidad no es caprichosa, y en casos concretos puede calcularse a partir de
realizaciones del fenmeno aleatorio.
Observaciones:
b
1) P(a< X<b) = f ( x) dx
a
2) P(X=a) = 0
3) P (a<X<b) = P(a X< b) = P(a X b) = P(a < X b)
4) Cualquier funcin que verifique los puntos i) y ii) anteriores es la funcin de densidad de una
variable aleatoria.
5) P( X A) f ( x) dx , A
A
6) Geomtricamente, la probabilidad que una v.a. X tome valores sobre un subconjunto A, es igual
al rea que se encuentra bajo la curva y = f(x), por encima del eje horizontal, y con x variando
dentro del subconjunto A.
Las observaciones anteriores tienen su explicacin en la teora de integracin de una funcin real.
Ejemplos:
2 x si 0 x 1
37) Sea X v.a. continua con funcin de densidad: f ( x) . Entonces
0 en el resto
a) P (X 0)=0
35
0.8
0.8
b) P(0.5<X<0.8) = 2 x dx x 2 0.8 2 0.5 2 0.39
0.5
0.5
x x
x
38) La f.d.a. FX(x) de la v.a. del ejemplo anterior es Fx x f t dt 2t dt t 2 x 2 .
0 0
0
1 e x si x 0
39) La funcin de densidad correspondiente de la variable con f.d.a. FX x
0 en el resto
es f ( x) FX x e , para x 0.
' x
Ejemplo 40: Dada la variable X con funcin de probabilidad dada por la siguiente tabla:
X -3 -2 -1 1 2 3 4
P(X=x) 0.08 0.10 0.22 0.06 0.04 0.20 0.30
Veamos cmo se interpreta este nmero. El valor esperado de X tambin se denomina media y
usualmente se lo nota con la letra . La media es el centro de la distribucin de probabilidades. Es
ms, si pensamos a la distribucin como una masa (con masa total 1), la media es centro de masa tal
como se define en fsica. En el grfico siguiente se muestra una funcin de probabilidad y su
respectiva media.
36
Segundo caso: Variable continua: Si X es una v.a. continua con funcin de densidad f(x),
entonces: E X x f x dx
1
1 si 0 x 1
Ejemplo 41: Dada la variable X con f(x) , entonces E X x.1.dx 1/ 2 .
0 en el resto 0
c) E H x H x i pi E H x Hx f x dx
i
Varianza de una variable aleatoria: La varianza de una v.a. se define a partir de la esperanza, de
esa manera vamos a poder usar los resultados obtenidos para la esperanza. Vamos a notar V(X)
X2 a la expresin de la varianza: V(X) = E[X-E(X)]2 = E[X- X]2
Se puede probar, desarrollando el cuadrado y aplicando las propiedades vistas de la esperanza, que
V(X) = E(X2) - (E(X))2 = E(X2) - X2
La raz cuadrada positiva de la varianza, , se la denomina desvo estndar.
Ejemplo 43: Dada la variable X del ejercicio 40 vimos que la esperanza es 1.28. Para calcular la
varianza primero calculemos E(X2)=(-3)2.0.08 + (-2)2.0.1 + (-1)2.0.22+12.0.06+22.0.04+32.0.2 +
42.0.3 = 8.16, entonces V(X) = E(X2)-(E(X)2)=8.16-1.282=6.5216
Ejemplo 44: Dada la variable X del ejercicio 41, vimos que E(X)= .Para calcular la Varianza
1
E X 2 x 2 .1.dx 1 / 3 2
V X E X 2 E X 1 / 3 (1 / 2) 2 1 / 12
0
Propiedades de Var(X):
a) Var(a .X) = a2 Var(X)
b) Var(X + a) = Var(X)
La esperanza y la varianza de una v.a. pueden o no existir ya que estn definidas a partir de una
serie o una integral que puede no ser convergente.
Las siguientes desigualdades nos dan una cota para la probabilidad en funcin de su valor esperado,
en particular la desigualdad de Chebychev nos da una cota que depende de la varianza para la
probabilidad de que los valores que toma una variable aleatoria estn en un entorno de su media.
Dem: Lo probaremos para el caso que Y es una v.a. discreta, pero es anloga para v.a. continuas.
37
E Y yi PY yi y PY y y PY y y PY y a PY y a PY a
i i i i i i i
i yi a yi a yi a yi a
Dem: Probar que P (|X-c| >) E(X-c)2/2 es equivalente a probar que P ((X-c)2 > 2) E(X-c)2/2.
Si en la desigualdad de Markov enunciada anteriormente llamamos Y a la variable (X-c)2 est
demostrada la desigualdad de Chebychev.
Observacin: Para el caso particular c=, se tiene que P ((X-)2 > 2) E(X-)2/2= V(X)/2.
Momentos de una Variable Aleatoria: Una aplicacin inmediata del valor esperado es el clculo
de los momentos de una variable aleatoria y definimos en momento n-simo de como mn(x)=E(Xn).
Funcin generatriz (generadora) de momentos: Se puede definir una funcin que nos permite
calcular los momentos de una variable aleatoria definida a partir de la transformada de Laplace de la
funcin de densidad de la variable aleatoria. Dada la v.a. X, vamos a definir a la funcin
generadora de momentos o funcin generatriz de momentos y la notamos MX(t) a: MX(t) = E(etX )
Esta funcin tiene su campo de definicin y su rango en el conjunto de los nmeros reales aunque
no siempre est definida para todo valor de t R, ya que se obtiene a partir del operador esperanza.
La funcin que s existe siempre y que est relacionada con la funcin generatriz es la funcin
caracterstica que es a transformada de Fourier de la funcin de densidad de la variable aleatoria.
La funcin caracterstica de la v.a. X se define como: CX(t) = E( eitX ) siendo la relacin entre ambas
funciones CX(t) = MX(it).
Propiedades:
1) MX(0) = 1
2) MX(n)(0) = E(Xn) si existen ambos lados de la igualdad (la derivada n-sima de la funcin
generadora de momentos, evaluada en t =0, da el momento n-simo de la variable)
3) Si Y = a.X + b entonces My(t) = eb.t MX(a.t) con a y b constantes reales
4) Sean X e Y v.a. con funcin generatriz MX(t) y MY(t) respectivamente. Si MX(t) = MY(t)
entonces X e Y tienen la misma distribucin de probabilidad.
38
5) Sean X e Y v.a. independientes con funcin generatriz MX(t) y MY(t) respectivamente, si
tomamos Z = X + Y entonces MZ(t) = MX(t). MY(t)
Ejemplo 45: Dada la variable X con funcin de probabilidad dada por la siguiente tabla, calcula su
funcin generadora de momentos
X 1 2 3
P(X=x) 0.5 0.1 0.4
Entonces la funcin generatriz de momentos es M X t etxi P X xi e1t 0.5 e 2t 0.1 e3t 0.4
La E(X) se obtiene derivando la expresin anterior y evalundola en t=0, lo que da como resultado
que E X 1e1t 0.5 2e 2t 0.1 3e3t 0.4 1.0.5 2.0.1 3.0.4 1.9
t 0
Experimento Binomial: La distribucin binomial es una distribucin discreta muy importante que
surge en muchas aplicaciones estadsticas. Esta distribucin aparece de forma natural al realizar
repeticiones independientes de un experimento que tenga respuesta binaria, generalmente
clasificada como xito o fracaso. Por ejemplo, esa respuesta puede ser el hbito de fumar
(s/no), si un paciente hospitalizado desarrolla o no una infeccin, o si un artculo de un lote es o no
defectuoso. La variable discreta que cuenta el nmero de xitos en n pruebas independientes de ese
experimento, cada una de ellas con la misma probabilidad de xito igual a p, sigue una
distribucin binomial de parmetros n y p. Este modelo se aplica a poblaciones finitas de las que se
toma elementos al azar con reemplazo, y tambin a poblaciones conceptualmente infinitas, como
por ejemplo las piezas que produce una mquina, siempre que el proceso de produccin sea estable
(la proporcin de piezas defectuosas se mantiene constante a largo plazo) y sin memoria (el
resultado de cada pieza no depende de las anteriores).
39
a) Supongamos tener un experimento aleatorio con dos resultados posibles que llamamos xito y
fracaso, y notamos E y F, siendo P (E)=p, P (F)=q=1-p.
b) Al repetir el experimento la probabilidad de xito p y de fracaso q no varan (las repeticiones son
independientes).
c) Repetimos n veces el experimento.
Un experimento que verifica los tres incisos anteriores se llama experimento Binomial, de
parmetros n, p.
Si sobre el experimento Binomial definimos la v.a. X = n de xitos en n repeticiones", entonces X
se llama v.a. Binomial y la indicaremos X ~ B(n,p). Luego el recorrido de X es R(X) ={0, 1,..., n}.
Ejemplo 47:
- Tiramos n veces una moneda y llamamos xito a salir cara y fracaso a salir seca.
- Tiramos n veces un dado y llamamos xito a salir as y fracaso al evento complementario.
- En una urna con b bolillas blancas y r rojas sacamos una, anotamos el color y la volvemos a
colocar; repetimos n veces y llamamos xito a salir blanca y fracaso a salir roja.
n
Para una v. a X ~B(n, p) la probabilidad es P X k p k 1 p
nk
0 k n.
k
Podemos ver que la P(X=k) es un sumando del desarrollo del binomio de Newton (p+q)n, lo que da
motivo al nombre de v.a. binomial.
n n
n nk n
Observemos tambin que P X k p k 1 p p 1 p 1 .
k 0 k 0 k
Si X ~ B(n, p), su f.g.m es M (t ) ( pet q ) n y a partir de ella podemos comprobar que E(X) = n.p
y V(X)=n.p.(1-p)
Ejemplo 48:
-Sea k el nmero de usuarios activos de un sistema de comunicacin para 8 usuarios. Supongamos
que la probabilidad que un usuario emita sonidos sea 1/3. Encontrar la probabilidad que k>6.
-Un sistema transmite informacin binaria (0 o 1) con una probabilidad de hacerlo incorrectamente
igual a 10-3. La informacin la repite tres veces registrando como valor recibido si hay 2 o ms
repeticiones de dicho valor. Encontrar la probabilidad que el receptor realice una decisin incorrecta
(o sea la probabilidad de recibir dos o ms informaciones incorrectas entre las tres recibidas)
a) Supongamos tener un experimento aleatorio con dos resultados posibles que llamamos xito y
fracaso, y notamos E y F, siendo P (E)=p, P (F)=q=1-p.
b) Al repetir el experimento la probabilidad de xito p y de fracaso q no varan (las repeticiones son
independientes)
c) Repetimos el experimento hasta obtener el primer xito.
40
Un experimento que verifica los tres incisos anteriores se llama experimento Geomtrico, de
parmetro p.
Si sobre el experimento Geomtrico definimos la v.a. X = n de repeticiones hasta del primer
xito, entonces X se llama v.a. Geomtrica y la indicaremos X ~ G (p). Luego R(X)={1, 2,...n,...}.
Tambin podramos haber definido la v.a. X = n de repeticiones antes del primer xito, entonces
X se llama v.a. Geomtrica y la indicaremos X ~ G (p). Luego R(X)={0, 1, 2,...n,...}.
Ejemplo 49:
-Tiramos una moneda hasta obtener la primer cara (xito=salir cara).
-De la urna con b bolillas blancas y r rojas sacamos una bolilla, anotamos el color y la volvemos a
colocar. Repetimos hasta obtener la primer bolilla blanca (xito= salir blanca).
Para una v. a X ~ G (p) la probabilidad es P(X=k) = p.qk-1, k=1,2, 3,..., (bajo la primer definicin
de la variable) y P(X=k) = p qk, k=0,1,2,3,...( bajo la segunda definicin de la variable).
Podemos ver que la P(X=k) es un sumando del desarrollo de la serie geomtrica, lo que da motivo
al nombre de la v.a.
1 1
Observemos tambin que: P X k p 1 p p 1 p p
k 1 j
p 1.
k 1 k 1 j 0 1 1 p p
pet
Si X ~ G(p), su f.g.m es M (t ) , y a partir de ella podemos comprobar que E(X)=1/p y
1 qe t
p
V(X)=(1-p)/p2 (bajo la primer definicin de la variable) su f.g.m es M (t ) , y a partir de ella
1 qe t
podemos comprobar que E(X)=q/p y V(X)=(1-p)/p2 (bajo la segunda definicin de la variable).
Ejercicio 17: Prueba que la distribucin Geomtrica posee la propiedad de falta de memoria, esto
es que P(X s+t | X s)= P(X t).
a) Supongamos tener un experimento aleatorio con dos resultados posibles que llamamos xito y
fracaso, y notamos E y F, siendo P (E)=p, P(F)=q=1-p.
b) Al repetir el experimento la probabilidad de xito p y de fracaso q no varan (las repeticiones son
independientes)
c) Repetimos el experimento hasta obtener n xitos.
Un experimento que verifica los tres incisos anteriores se llama experimento Binomial Negativo, de
parmetros r, p.
Si sobre el experimento Binomial Negativo definimos la v.a. X = n de repeticiones hasta obtener r
xitos, entonces X se llama v.a. Binomial Negativa y la indicaremos X ~ BN(r,p). Luego R(X)={r,
r+1, r+2,...}
Ejemplo 50:
-Tiramos una moneda hasta obtener 5 caras (xito= salir cara).
-De la urna con b bolillas blancas y r rojas sacamos una bolilla, anotamos el color y la volvemos a
colocar. Repetimos hasta obtener r bolillas blancas (xito= salir blanca).
41
k 1 r
Para una v. a X ~ BN(r, p) la probabilidad es P X k p 1 p
k r
x r , r 1,...
r 1
k 1 r
Se puede probar (ver Rohatgi, Statistical inference) que P X k
k r
p 1 p 1 .
k r k r r 1
r
pe t
Si X ~ BN(r, p), su f.g.m es M (t ) t
, y a partir de ella podemos comprobar que E(X)=r/p
1 qe
y V(X)=(r(1-p))/p2.
P X k .
N CNn
n
Para probar que la suma de las probabilidades de todos los posibles valores de X es igual a 1, se
puede usar el hecho que: (1+a) N = (1+a) N1 (1+a) N2, usar el desarrollo del binomio de Newton en
cada potencia e igualar coeficiente a coeficiente.
Cuando el tamao de la poblacin es grande, los muestreos con y sin reemplazo son equivalentes,
por lo que la distribucin hipergeomtrica se aproxima en tal caso a la binomial.
Ejemplo 51: Se tiene una urna con 10 bolillas rojas y 30 bolillas verdes. Si se sacan 8 de una vez,
cul es la probabilidad de obtener la mitad verdes y la mitad rojas?
En una gran pecera hay 50 peces enfermos y 200 sanos. Si se sacan 30 de una vez, cul es la
probabilidad de sacar 2 enfermos?
Si X ~ H(N, N1, n) entonces E(X) = n.p, donde p= N1/N es la proporcin inicial de xitos, y
N n
V X npq .
N 1
42
buena si n20 y p0,05 y muy buena si n100 y p0,01. La distribucin de Poisson tambin
surge cuando un evento o suceso raro ocurre aleatoriamente en el espacio o el tiempo. La variable
asociada es el nmero de ocurrencias del evento en un intervalo o espacio continuo, por tanto, es
una variable aleatoria discreta que toma valores enteros de 0 en adelante (0, 1, 2,...). El concepto de
evento raro o poco frecuente debe ser entendido en el sentido de que la probabilidad de observar
k eventos decrece rpidamente a medida que k aumenta.
Consideremos un suceso que ocurre en una unidad de medida y que puede verificarse ms de una
vez; siendo aleatorio el nmero de veces que ocurrir en esa unidad de medida y dando lugar dicho
nmero a la v.a. de Poisson. Los siguientes ejemplos ilustran experimentos de Poisson y su
correspondiente v.a.:
Nmero de muertes en accidentes de automvil, al mes en una gran ciudad.
-Nmero de bacterias en un cultivo dado.
-Nmero de glbulos rojos en una muestra de sangre.
-Nmero de erratas por pgina.
-Nmero de defectos en un producto manufacturado.
-Nmero de tomos desintegrados por segundo de un material radiactivo.
-Nmero de llamadas recibidas por una persona al da.
-Nmero de muertos por coces de caballo al ao, en cada cuerpo de ejrcito del ejrcito Prusiano en
un perodo de 20 aos.
En cada una de las situaciones anteriores se verifican las siguientes condiciones:
a) Los sucesos que ocurren en un intervalo (de tiempo, regin del espacio etc.) son independientes
de los que ocurren en cualquier otro intervalo (de tiempo, regin del espacio, etc.), no importando
cmo se elija el intervalo.
b) La probabilidad de que un suceso se presente, es proporcional a la longitud del intervalo.
c) La probabilidad de que dos o ms sucesos se presenten en un intervalo muy pequeo es tan
pequea que puede despreciarse.
Las condiciones anteriores definen un experimento de Poisson, y el nmero de sucesos en un
intervalo o unidad de medida define a la v.a. de Poisson. Si X~P() la est dada por:
e k
P X k k 0, 1, 2, 3,...
k!
e k
Es fcil probar que: 1 , utilizando el desarrollo de MacLaurin de g(x)=ex. La constante
k 0 k!
es el nico parmetro de esta v.a. y representa el promedio de sucesos en el intervalo considerado.
Si X ~ P(), su f.g.m es M (t ) e e 1 , y a partir de ella podemos comprobar que E(X)= y
t
V(X)=.
Ejemplo 51: Una central recibe en promedio 16 llamadas por minuto, pero puede atender a lo sumo
24 llamadas por minuto, entonces la probabilidad que en un minuto cualquiera se sature es
24
e k
P X 25 1 P X 24 1 1 0.977 0.022 .
k 0 k!
k e
lmn P( X k ) .
p0 k!
np constante
Ejemplo 53: Una computadora tiene 10000 componentes, cada una de las cuales falla
independientemente de la otra, siendo la probabilidad de falla para cada una, 10-4 en un ao. Cul es
la probabilidad que la computadora est trabajando al cabo de un ao? Rta: P(ninguna comp. falle)=
e-1 10/0! usando aprox. por Poisson.
Variable aleatoria uniforme: La distribucin uniforme es til para describir una variable aleatoria
con probabilidad constante sobre el intervalo [a,b] en el que est definida. Esta distribucin presenta
una peculiaridad importante: la probabilidad de un suceso depender exclusivamente de la amplitud
del intervalo considerado y no de su posicin en el rango de variacin de la variable.
La v.a. X se dir uniforme en el intervalo (a,b) en el intervalo [a,b] y lo notamos U(a,b), si su
funcin de densidad tiene la forma:
1
si a x b
f ( x) b a
0 en el resto
ab
Prueba que se verifican las propiedades de funcin de densidad y que E ( X )
2
V (X )
b a 2 .
12
Ejemplo 54: Si X = U(a,b), uniforme en el intervalo (a,b), su funcin generatriz de momentos est
dada por M X t E e tx
b
etx
dx
ebt e at
si t 0 , observemos que si bien no est definida
a
b a t b a
para t=0, si lo est para todo t en un entorno de 0. Adems, aplicando LHopital, se tiene que
ebt e at be bt ae at
limt 0 M X t limt 0 limt 0 1 , por lo tanto se puede calcular E(X)
t b a ba
derivando la f.g.m.
e bt e at
1
M X t M X 0 t b a e bt e at t b a
E(X) M X t lim t 0
'
lim t 0 lim t 0 ,
t 0 t 0 t t 2 b a
aplicando LHopital dos veces tenemos que
b 2 ebt a 2e at b 2 a 2 b a b a b a
E X limt 0 .
2b a 2b a 2b a 2
44
Variable aleatoria exponencial: La distribucin exponencial es el equivalente continuo de la
distribucin geomtrica discreta. Esta ley de distribucin describe procesos en los que interesa saber
el tiempo hasta que ocurre determinado evento; en particular, se utiliza para modelar tiempos de
supervivencia. Un ejemplo es el tiempo que tarda una partcula radiactiva en desintegrarse. El
conocimiento de la ley que sigue este evento se utiliza, por ejemplo, para la datacin de fsiles o
cualquier materia orgnica mediante la tcnica del carbono 14.
La distribucin exponencial se puede caracterizar como la distribucin del tiempo entre sucesos
consecutivos generados por un proceso de Poisson; por ejemplo, el tiempo que transcurre entre dos
llamadas a una central telefnica. La media de la distribucin de Poisson, que representa la tasa de
ocurrencia del evento por unidad de tiempo, es el parmetro de la distribucin exponencial, y su
inversa es el valor medio de la distribucin.
La distribucin exponencial se caracteriza por el parmetro , que representa el lapso promedio de
tiempo entre dos eventos independientes de Poisson, es decir tiempo promedio entre fallas, y por lo
tanto 1/ es la frecuencia de falla.
La v.a. X se dir exponencial de parmetro y la notamos Exp(), si su funcin de densidad puede
tener alguna de las siguientes formas, segn la informacin que tengamos para establecer su
parmetro:
1 1 x
e x si x 0 e si x 0
i) f ( x) ii ) f ( x)
0 en el resto 0 en el resto
1 1
Prueba que se verifican las propiedades de funcin de densidad y que E ( X ) y V (X ) si se
2
usa la expresin i) y que E ( X ) y V ( X ) 2 si se usa la expresin ii).
Ejercicio 18: Prueba que la distribucin Exponencial posee la propiedad de falta de memoria, esto
es que P(X s+t | X s)= P(X t)
Variable aleatoria gamma: La distribucin gamma se puede caracterizar del modo siguiente: si se
est interesado en la ocurrencia de un evento generado por un proceso de Poisson de media lambda,
la variable que mide el tiempo transcurrido hasta obtener n ocurrencias del evento sigue una
distribucin gamma con parmetros r = n. (escala) y =n (forma).
Se denota Gamma(r,) (r,). Por ejemplo, la distribucin gamma aparece cuando se realiza el
estudio de la duracin de elementos fsicos (tiempo de vida). Esta distribucin presenta como
propiedad interesante la falta de memoria. Por esta razn, es muy utilizada en las teoras de la
fiabilidad, mantenimiento y fenmenos de espera (por ejemplo tiempo que transcurre hasta la
llegada del artculo deficiente).
Se prueba que (r) = (r-1)! si r es un entero positivo y (r) = (r-1) (r-1) = (r-1) (r-2) (r-2)=....
Si r = 1 la distribucin gamma coincide con la exponencial: (1,) = Exp().
45
r r
Prueba que se verifican las propiedades de funcin de densidad y que E ( X ) , V ( x) .
2
Ejercicio 19: Prueba que si X = (,r), que MX(t) = (/(-t))r para t < y calcula E(X) y V(X).
Variable aleatoria normal: La distribucin normal es, sin duda, la distribucin de probabilidad
ms importante del Clculo de probabilidades y de la Estadstica. Fue descubierta por De Moivre
(1773), como aproximacin de la distribucin binomial. De todas formas, la importancia de la
distribucin normal queda totalmente consolidada por ser la distribucin lmite de numerosas
variables aleatorias, discretas y continuas, como se demuestra a travs de los teoremas centrales del
lmite. Las consecuencias de estos teoremas implican la casi universal presencia de la distribucin
normal en todos los campos de las ciencias empricas: biologa, medicina, psicologa, fsica,
economa, etc. En particular, muchas medidas de datos continuos se aproximan a la distribucin
normal.
Junto a lo anterior, no es menos importante el inters que supone la simplicidad de sus
caractersticas y de que de ella derivan, entre otras, tres distribuciones (2-cuadrado, t y F) que se
mencionarn ms adelante, de importancia clave en el campo de la contrastacin de hiptesis
estadsticas.
La distribucin normal queda totalmente definida mediante dos parmetros: la media y la varianza
2 (o su desviacin estndar ) y su funcin de densidad tiene la forma ( , > 0):
2
1 x
1
f x e 2 . Prueba que E ( X ) y V ( x ) 2
2
La funcin definida de esta manera tiene las siguientes caractersticas:
-Alcanza su valor mximo en x = y es simtrica con respecto al eje vertical de ecuacin x = .
-Los puntos de inflexin de la curva se encuentran en x = y
Ejercicio 20: Halla la f.g.m. de la v.a. normal estndar Z, y a partir de ella la f.g.m. de cualquier v.a.
normal Y (Y = .Z +, donde Y=N(, 2)).
Distribucin 2n, con n grados de libertad: Un caso especial, muy importante, de la distribucin
Gamma se obtiene cuando =1/2 y r=n/2. La distribucin resultante se conoce con el nombre de Ji-
o Chi-cuadrado con n grados de libertad y queda totalmente definida mediante sus grados de
libertad. En particular la suma de n variables Normales (0,1) elevadas al cuadrado sigue esta
distribucin Z12 Z 22 ... Z n2 n2 .
La 2n-cuadrado es una distribucin fundamental en inferencia estadstica y en los tests estadsticos
de bondad de ajuste y de pruebas de hiptesis para la varianza. Su funcin de densidad es:
46
n x
1 2
1
2
n 2 n x e x0
f x 2 2
.
0 x0
Distribucin t de Student con n grados de libertad: La distribucin t de Student se construye
como un cociente entre una normal y la raz de una 2n independientes, es decir si ZN(0,1) y
n 1 n 1
2
V n entonces t Z V t . Su funcin de densidad es f x
n n
n n
2
1 t 2
n
2
.
2
Esta distribucin desempea un papel importante en la inferencia estadstica asociada a la teora de
muestras pequeas. Se usa entre otras cosas en el contraste de hiptesis para la media de una
poblacin, cuando no se conoce la varianza poblacional y queda totalmente definida mediante sus
grados de libertad n. A medida que aumentan los grados de libertad, la distribucin t de Student se
aproxima a una normal de media 0 y varianza 1 (normal estndar).
Ejemplo 55: Una fbrica de chips produce dos calidades: buena y regular, con probabilidades 5/6 y
1/6 respectivamente. La duracin en meses del chip bueno sigue una distribucin Exp(1/10) y el
regular una Exp(1/2). Cul es la probabilidad que un chip tomado al azar falle antes de 6 meses de
6 1
x
uso? P(un chip bueno dure menos de 6 meses)= 101 e 10
dx 0.45 ; P(un chip regular dure menos
0
6 1
x
1 2
de 6 meses)= e 2 dx 0.95 y P(que un chip dure menos de 6 meses)=0.45.5/6+.95.1/6=0.53.
0
Transformaciones de una variable aleatoria: Sea X una v.a.; si Y = H(X), donde H(.) es una
funcin real, diremos que Y es funcin de la v.a. X; Y: R, tal que Y(w) = H(X(w)). Por
ejemplo H(X) = X2 + 4, H(X) = sen(X1/2), etc. El tratamiento que le daremos al tema depende que
la variable sea discreta o continua.
Caso discreto: Sea X v.a. discreta e Y = H(X). Como Y es una v.a. queremos conocer su rango y su
distribucin de probabilidad.
Si X = x1, x2,..., xn,... evidentemente Y = y1=H(x1), y2=H(x2),..., yn=H (xn),..., pudiendo fcilmente
conocer el rango de Y. Para conocer la distribucin de probabilidad de Y podemos hacerlo utilizando
la distribucin de X dado que P(Y=y) = P({w / w , X(w)=x, H(x)=y}). Por ejemplo, dada la
tabla
X -7 -4 -2 1 2 3 4 5
P(X) 2/16 1/16 3/16 2/16 3/16 2/16 1/16 2/16
47
Si Y = H(X) = X2 + 2, los valores que alcanza Y y sus respectivas probabilidades seran
Y 3 6 11 18 27 51
P(Y) 2/16 6/16 2/16 2/16 2/16 2/16
La probabilidad P (Y=y) = P({w / Y(w)=y}) = P({w / H(X(w))=y}) = P({X=x / H(x)=y}), luego
P(Y=3) = P({X=x / H(x)=3}) = P(X=1) = 2/16;
P(Y=6) = P({X=x / H(x)=6}) = P(X=-2) + P(X=2) = 3/16 + 3/16 = 6/16
Y as se calculan las restantes probabilidades.
Caso continuo: Sea X una v.a. continua con f.d. f(x) y f.d.a. FX(x), sea Y = H(X) notando con g(x)
y GY(y) las f.d.p y f.d.a. respectivamente de la v.a. Y. Como X e Y estn relacionadas por la
funcin H, el evento "Y A" , tiene su correspondiente en X, o sea "Y A" "X B" , y dichos
eventos son equivalentes en el sentido que cada vez que se verifica uno tambin se verifica el otro.
La forma de calcular la probabilidad de dichos eventos la conocemos: P (Y A) = A g(y) dy ;
P(X B) = B f(x) dx Como P (Y A) = P(X B), por ser eventos equivalentes, quedara:
GY (y) = P (Yy) = P (Y A) = P(X B) = B f(x) dx.
La ltima integral puede resolverse, lo cual nos llevara a encontrar la funcin de distribucin
acumulada de Y, y derivando, su funcin de densidad.
Si X es una variable aleatoria continua con funcin de distribucin de probabilidad f(x)>0 para
a<x<b, y adems Y=H(X) inyectiva, es decir que se puede calcular su inversa y sea derivable para
todo x, luego la variable aleatoria Y=H(X) tiene la funcin de distribucin de probabilidad:
dx
g y f x .
dy
Es importante calcular el recorrido de la variable Y, a partir del recorrido de la variable X.
X
Ejercicio 20: Prueba que si X ~ N , 2 entonces la variable Z
~ N 0,1 .
Ejercicio 21: Cualquiera sea la distribucin F de cierta variable X, la variable transformada Y=F(X)
sigue una distribucin uniforme en el intervalo [0,1] (Propiedad fundamental para la generacin de
nmeros aleatorios de cualquier distribucin en simulacin).
2 x si 0 x 1
Ejemplos 56: Sea Y = H(X) = 2.X3 + 4 donde f x , H(x) es una funcin
0 en el resto
biunvoca, luego X = H-1(Y) = ((Y-4)/2)1/3 ,
1
y 4 2 3
GY y PY y PY A P X B P X y 4 2 1
3 2x dx , segn sea (y-4)/2
mayor menor que 0 1, el valor de f(x) cambia, por lo tanto resolviendo la integral la funcin de
distribucin acumulada de Y sera
1
y 4 2 3
y 4 2 13 2
GY y 2 x dx x
2
y 4 2 3 , 4 y 6 , derivando encontramos la funcin de
0
2
densidad de Y que ser gY y y 4 22 3 1. 1 1 y 4 2 13 , 4 y 6 .
3 2 3
Cuando, como en este caso la funcin posee inversa se puede simplificar el clculo,
GY y PY y PY A P X B P X y 4 2 3 FX y 4 2 3 ,
1
1
derivando
aplicando la regla de la cadena, encontramos la funcin de densidad de Y que ser
g Y y FX' y 4 2 . dydx 2. y 4 2 . y 4 2 2 y 4 2
1
3
1
3
1
3
' 1
3
1
3
y 4 2 3 1. 1 1 y 4 2 3 ,
1
2 3
1
4 y6
48
Tema 3: Variables aleatorias multidimensionales.
Sea un experimento aleatorio cuyo espacio muestral es . Sean X1, X2,..., Xn, n v.a. definidas sobre
. Llamamos v.a. n-dimensional o vector aleatorio n-dimensional a la funcin Z: Rn tal que
Z(w) = (X1(w), X2(w),....., Xn(w)) y la notamos Z = (X1, X2,....., Xn) . Si la v.a. Z toma un conjunto
(rango) numerable de valores en Rn diremos que es discreta, si el rango de Z es un subconjunto
continuo en Rn, diremos que es continua. Otra manera de clasificarla en discreta o continua es la
siguiente: Z se dir discreta si todas las Xi que la componen son v.a. discretas y se dir continua si
las Xi son v.a. continuas; si algunas de las Xi fueran discretas y otras continuas la v.a. Z se dir
mixta. Nosotros vamos a usar la ltima clasificacin, o sea la que depende de la clasificacin de
cada Xi y vamos a estudiar las que son todas discretas o todas continuas ya que las mixtas son
relativamente fcil de entender a partir de stas (las veremos rpidamente, en clase). Como
siempre, cada vez que nos encontramos con una v.a., queremos conocer su rango y su ley de
probabilidad. Podemos definir la funcin de distribucin acumulada de Z cualquiera sea su
clasificacin: Si Z = (X1, X2,....., Xn) y z = (x1, x2,....., xn) Rn entonces:
FZ (z) = F(X1, X2,, Xn)(x1, x2,..., xn) = P(X1 x1, X2 x2,...., Xn xn)
Observacin: El ltimo trmino se interpreta como la probabilidad que X1 x1, y X2 x2, y..., y
Xn xn, si el y lo reemplazamos por el smbolo de interseccin, la expresin quedara escrita
como: P({X1 x1}{X2 x2 }...{Xn xn}).
La funcin as definida verifica propiedades similares a la f.d.a. de una v.a. unidimensional y tiene a
sta como caso particular (n=1).
i) Si xi yi para i=1,2,3,...,n, entonces F(X1, X2,..., Xn) (x1, x2,..., xn) F(X1, X2,..., Xn) (y1, y2,..., yn)
ii) lm (x1,x2, ..., xn)(+,+,....,+) F(X1, X2, ..., Xn)( x1, x2,..., xn) = 1
iv) F(X1, X2,..., Xn) (x1, x2,..., xn) es una funcin no decreciente en cada variable.
49
Entonces los valores de probabilidad: P (Z = z) = P(X1 = x1, X2 = x2), donde la v.a. X1 toma los
valores desde 2 hasta 12 y la v.a. X2 toma los valores 1 y 2, pueden presentarse en la siguiente
forma:
X2 \X1 2 3 4 5 6 7 8 9 10 11 12
1 1/36 0 1/36 0 1/36 0 1/36 0 1/36 0 1/36
2 0 2/36 2/36 4/36 4/36 6/36 4/36 4/36 2/36 2/36 0
Las propiedades que verifica cualquier distribucin de probabilidad conjunta de v.a. discretas, son
las siguientes:
i) ... P X
x1 x2 xn
1 x1, X 2 x2 ,..., X n xn 1 , (la suma de todos los valores de probabilidad es
igual a uno).
La ltima propiedad dice que si fijamos el valor de una de las componentes (en este caso a la Xj le
damos el valor x) de la multivariada y hacemos variar las dems sobre sus respectivos rangos,
entonces la suma de las probabilidades es igual a la probabilidad que dicha componente tome el
valor fijado. Si lo repetimos para cada posible valor que toma la v.a. Xj tenemos lo que llamaremos
distribucin marginal de Xj (y coincide con la distribucin de probabilidad de Xj).
Por ejemplo, en el caso de los dos dados, la P(X1 = 5) = P(X1 = 5, X2 = 1) + P(X1 = 5, X2 = 2). Las
restantes probabilidades marginales se encuentran muy fcilmente a partir de la tabla de
probabilidad conjunta sumando filas o columnas, resultando:
X2 \X1 2 3 4 5 6 7 8 9 10 11 12 P(X2)
1 1/36 0 1/36 0 1/36 0 1/36 0 1/36 0 1/36 6/36
2 0 2/36 2/36 4/36 4/36 6/36 4/36 4/36 2/36 2/36 0 30/36
P(X1) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 1
De manera similar, teniendo los valores de probabilidad conjunta de n v.a., podemos encontrar la
distribucin conjunta de un subconjunto de variables aleatorias, sumando sobre el rango de las
restantes, los valores de la probabilidad conjunta, por ejemplo:
P X
x1 xn
1 x1 , X 2 x2 , ..., X j a, X k b, X l c,...X n xn P X j a, X k b, X l c
j,k,l
En este caso encontramos la probabilidad de que (Xj, Xk, Xl) tome el valor (a, b, c).
50
Variables aleatorias independientes: Recordemos el concepto que se refera a eventos
mutuamente independientes. Diremos entonces que un conjunto de n v.as. Son independientes si la
probabilidad conjunta de cualquier subconjunto de ellas es igual al producto de las respectivas
probabilidades marginales. En el caso de dos v.a. debe verificarse para todo par (x1,x2), que:
P(X1 = x1, X2 = x2) = P(X1 = x1).P(X2 = x2).
Ejemplo 57: consideremos tres tiradas independientes de una moneda. Definimos X = N de caras,
e Y= N de secas antes de la primer cara. X toma los valores 0, 1, 2, 3 e Y los valores 0, 1, 2, 3
Y\X 0 1 2 3 P(Y = y)
0 0 1/8 2/8 1/8 4/8
1 0 1/8 1/8 0 2/8
2 0 1/8 0 0 1/8
3 1/8 0 0 0 1/8
P( X = x) 1/8 3/8 3/8 1/8 1
Podemos calcular:
1/ 4 si x 1 x 3
a) P X x / Y 0 1/ 2 si x 2 .
0 en el resto
b) P(X 2/Y=0) = .
c) P(X+Y > 2 /Y = 1) = .
d) Son X e Y v.a. independientes?
c) Fx1 ,x 2 ,...,xn (x1,x2 ,...,xn ) ... f(t1, t2 , ..., tn ) dt1 dt2 ,..., dtn .
51
... f(x1, x2 , ..., x j , ..., xn ) dx1 dx2 ,..., dx j-1, dx j 1,..., dxn f x j .
De manera similar, podemos calcular la distribucin conjunta de cualquier subconjunto de las n v.a.
X1, X2,....., Xn , a partir de la funcin de densidad conjunta f(x1, x2,..., xn), hallando su integral sobre
el subconjunto restante de v.a.. Por ejemplo, para hallar la conjunta de las primeras dos v.a.(X1,X2):
f x1,x2
Funcin de densidad condicional: Para el caso bivariado, definimos: f x1 /x2 . Esta
f x2
definicin se puede generalizar al caso en que la v.a. condicin y la v.a. condicionada sean
multivariadas.
Variables aleatorias independientes: Las v.a. X1, X2,....., Xn se dirn mutuamente independientes
si la funcin de densidad conjunta de cualquier subconjunto de estas variables es igual al producto
de las respectivas densidades marginales:
f xi1,xi 2 ,...,xik f xi1 f xi 2 ...f xik 1 i j n, j 1,2 ,...,k .
Ejemplo 58: Sea la funcin de densidad conjunta de las v.a. X1, X2 dada por:
e x1 x2 si x1 0 , x2 0
f x1,x2 . Calculemos la f.d.p.de X1 integrando respecto de la otra
0 en el resto
variable f x1 e x1 x 2 dx2 e x1 , con X1>0, idem para la v.a. X2. Son las variables X1 y X2
0
Ejemplo 59: Supongamos que el precio de venta U de un artculo vara sobre el intervalo (0,1)
dependiendo aleatoriamente del costo final de produccin. El volumen V de venta es tambin una
v.a. dependiendo del precio de venta. La ley de probabilidad de las v.a. U y V est dada por la
funcin de densidad conjunta:
12u 4 1-u v e-uv si 0 u 1, v 0
f u,v , entonces f u 12u 2 1-u si 0 u 1 , tambin
0 en el resto
Teorema: -1 XY 1
Dem: Consideremos las v.a. V = X - E(X), W = Y - E(Y). (1)
Entonces E(V) = 0 y E(W) = 0
Si t representa un nmero real cualquiera, se cumple que: H(t) = E(V + t.W)2 0 ya que la
variable (V + t.W)2 es siempre positiva y la esperanza de una v.a. positiva es un nmero mayor o
igual a cero, por definicin de esperanza. Entonces:
0 E(V + t.W)2 = (desarrollando el cuadrado) = E (V2 + 2.t.V.W + t2 .W2) = (usando propiedades
de esperanza) = E(V2) + 2.t.E(V.W) + t2.E(W2) = (renombrando) = a.t2 + b.t + c con a = E(W2),
b = 2.E(V.W), c = E(V2)
Si consideramos la inecuacin a.t2 + b.t+ c 0 que se verifica para cualquier t real, podemos
concluir que el discriminante b2- 4.a.c debe ser menor o igual a cero. Reemplazando a, b y c en el
discriminante queda:
4.E2(V.W) 4.E(W2).E(V2) 0 E2(V.W) - E(W2).E(V2) 0 E2(V.W) E(W2).E(V2)
E2(V.W)/(E(W2).E(V2)) 1
Reemplazando V y W por (1), la ltima desigualdad queda:
E 2 X E X Y E Y
2 XY 1 1 1.
Var X Var Y
Esperanza condicional
Sean X e Y v.a., vamos a definir la E(X/Y=y), valor esperado de la v.a. X, dado que la v.a. Y toma
el valor y.
Si X=x1,x2,...,xn,... e Y=y1,y2,...,ym,... o sea que ambas son discretas entonces
E X / Y y xi .P X xi / Y y , donde y es un valor del rango de Y, y la probabilidad
i
condicional que figura en cada sumando de ya la conocemos.
Teorema: Probar que E(E(X/Y)) = E(X) y E(E(Y/X)) = E(Y) para v.a. discretas o continuas.
Dem: Lo probamos para el caso discreto, el caso continuo queda como ejercicio:
E X / y j PX xi / Y y j xi H y j Calculando la esperanza de esta expresin se tiene
i
53
E E X / Y E H Y H y j P Y y j P X xi / y y j xi PY y j
j j i
PX xi / Y y j P y y j xi PX xi ,Y y j xi E X .
i j i j
Ejercicio 25: Probar que si X e Y son v.a. independientes entonces E(X/Y)= E(X) y E(Y/X) = E(Y).
Sea la variable vectorial X=(X1, X2,...., Xn). Diremos que tiene distribucin multinormal de
parmetros y , y lo notamos X=Nn(,), si su funcin de densidad es:
n / 2 ( 1 / 2 ) 1 T
f ( x ) f ( x1 , x2 ,..., xn ) 2 exp x 1 x donde x=(x1, x2,,xn) y =(1,
2
2,,n) es el vector de medias, y su inversa es una matriz definida positiva que contiene
informacin sobre las varianzas de cada variable que interviene en el vector Z y de cmo varan de
a pares en forma conjunta (covarianza) y|| denota su determinante.
2 2 2 2
x x exp
1 1 y y x x y y 2 x x 2 x x
exp 2 2
2 dy
2 1 x 2 1
2
2 x y 1 2 y x
y x x
2
yy x x
y
x
54
2 2
1
2
x x 1 y x x
y x 2 x
exp exp d y
x
2 1 x 2 1 y
2 2 2
2 x y 1 2 x
no depende de y
2 2
x x 2 x x x x
2
1 1 y y
exp 2
exp 2 exp d y
2 1 x 2 1 x 2 1 y
2 2
2 x y 1 2 x
2
1 2 x 2
1 x 1 y y x x
exp 2 exp dy
2 x y 1 2 2 1 x 2 y 1 x 1 2
2
2 y 1 2
1 1 x 2
x 2
exp 2 y 1
2 x y 1 2
2 x
1 1 x 2
N x , x
x 2
exp
2 x 2
x
Veamos ahora la f.d.p. condicional f (y / x)
2
x 2 x x y y y y
1 1 x
exp 2
2 1 x
2
f x, y 2 x y 1 2 x y y
f y x
f x 1 1 x 2
x
exp
2 x 2
x
2
x 2 x x y y y y 1 x 2
1 1 x x
exp 2
2 1 x
2
2 y 1 2 x y y 2 x
2
x 2 x x y y y y
2
1 1 2 x x
exp x
2 1
2 1 x
2
2 y 1 2 x y y x
2
y y y y
2
1 1 2 x x 2 x x
exp
2 1
2
2 y 1 2 x y y x
2
1 1 y y x x
exp
2
2 y 1 2 2 1 y x
2
y y y x x
1 1 x y
exp N y x x ; y2 1 2
2 y 1 2 2 y 1 2 x
55
Ejercicio 26: La distribucin conjunta de temperaturas (en grados centgrados de 2 poblaciones en
un instante y un da particular es normal bivariada con parmetros 1=2=25 1=1,5 2=2 =0.6
Cul es la densidad condicional de Y dado X = x? y encuentra P (22,5 Y27X = 22).
Un experimento que verifica los tres incisos anteriores se llama experimento Multinomial, de
parmetros n, p1, p2, ...., pk . Si sobre el experimento Multinomial definimos la v.a. multivariada de
la forma X = (X1, X2, X3,..., Xk) donde Xi = "N de ocurrencias de Ei en n repeticiones" entonces X
se llama v.a. Multinomial y la indicaremos X = Bk(n, p1, p2,...., pk) y se cumple que
P( X1 = x1, X2 = x2,..., Xk = xk) = (n!/( x1!x2!,...,xk!))p1x1...pkxk.
Si Z es un vector aleatorio discreto, Z=(X1, X2,..., Xn), Y =H (Z)= H(X1, X2,..., Xn), definimos
E(H(Z)) como: E Y ... H x1 , x2 ,..., xn P X 1 x1 , X 2 x2 ,..., X n xn .
x1i x 2 xn
Si Z es un vector aleatorio continuo, Z= (X1, X2,..., Xn), con funcin de densidad conjunta dada
por f(x1, x2,..., xn), Y = H (Z) definimos:
EY EHZ ... Hx1 , x 2 ,..., x n f x1 , x 2 ,..., x n dx1dx 2 ...dx n .
Propiedades de la esperanza: Que valen tanto para variables discretas como variables continuas
a) E(X + Y) = E(X) + E (Y) X, Y v.a.
b) Si X e Y son v.a. independientes, se verifica que E(X .Y) = E(X) .E(Y)
56
Propiedades de la varianza
a) Var(X + Y) = Var(X) + Var(Y) +2 Cov(X,Y).
b) Si X e Y son v.a. independientes, se verifica que Var(X + Y) = Var(X) + Var(Y).
Consideremos el caso en que Z = H(X1, X2, X3,..., Xn), o sea que Z es una funcin de v.a. Luego Z
es una v.a. escalar (una dimensin) de variable vectorial (dimensin n).Llegamos entonces a la
pregunta: Cul es la ley de probabilidad de Z? Cmo podemos encontrarla si conocemos la ley de
probabilidad conjunta de X1, X2, X3,...Xn ? Como se trat anteriormente, lo siguiente es considerar
el caso en que las X1, X2, X3,..., Xn son todas discretas y el caso en que las X1, X2, X3,..., Xn son
todas continuas.
a) Caso en que X1, X2, X3,..., Xn son v.a. discretas. Consideremos el caso de dos v.a. y vemoslo
solamente con un ejemplo (porque es muy fcil).
Si Z = H(X1, X2) = X1+X2, es fcil hallar los valores de Z y sus respectivas probabilidades. Z toma
el valor z = 11, cuando? Evidentemente cuando x1+x2 = 11; y ello ocurre si (x1, x2) es igual a (10,1)
o (9,2). Entonces la P (Z =11) = P(X1=10, X2=1) + P(X1=9, X2=2) = 1/36 + 4/36 . De la misma
manera se procede con los otros posibles valores que toma Z.
Z 3 4 5 6 7 8 9 10 11 12 13 14
P(Z= z) 1/36 5/36
El sistema anterior de n v.a. explicativas X1, X2, X3,..., Xn, y n v.a. dependientes U1, U2, U3,...Un
nos va a permitir encontrar la funcin de densidad de cualquier v.a. Ui. Vamos a pedir que el
sistema indicado arriba verifique las condiciones de existencia enunciadas en el curso de Anlisis
Matemtico II.
Si en principio no tuviramos este sistema sino solamente una nica funcin de las X1, X2, X3,..., Xn
tendramos que crear las restantes funciones. Por ejemplo, si X1, X2 son v.a. continuas, U=H(X1,
X2) =X1+X2 y queremos obtener la funcin de densidad de U podemos crear la v.a. V = V(X1, X2) =
X1-X2 o la v.a. W = W(X1, X2) = X1 para tener as un sistema de tantas v.a. explicativas como
dependientes.
Comencemos entonces a resolver el problema de encontrar la funcin de densidad de las Ui:
57
i) Hallemos primero la funcin de distribucin acumulada conjunta de las v.a. U1, U2, U3,..., Un,
G U1, U2, U3,..., Un (u1, u2, u3,..., un):
Por definicin G U1, U2, U3,..., Un (u1, u2, u3,..., un) = P(U1u1, U2u2, U3u3,... Unun)
Que puedo indicar como PU1,U 2 ,...,U n A ... g(t1,t2 ,...,tn ) dt1dt 2...dtn , donde A = {U1 u1,
A
El espacio (U1, U2,..., Un) est en correspondencia con el espacio (X1, X2,...,Xn) por medio de las
funciones H1, H2,..., Hn. Si llamamos B al conjunto del espacio (X1, X2,...,Xn) que est en
correspondencia con A, del espacio (U1, U2,..., Un); entonces decir que (U1, U2,...,Un) A, es
equivalente a decir que (X1, X2,..., Xn) B y por lo tanto
P ((U1, U2,..., Un) A) = P ((X1, X2,..., Xn) B).
Por otra parte, P X 1,X 2 ,...,X n B ... f x1,x2 ,...,xn dx1 dx2... dxn (cambio de variables)
B
J x1 ,x2 ,...,xn
... f x u ,u ,...,u , x u ,u ,...,u ,...,x u ,u ,...,u
A
1 1 2 n 2 1 2 n n 1 2 n
J u1 ,u2 ,...,un
du1du2 ....dun 1
Luego como esta ltima integral coincide con la de partida para todo A, se deduce que la funcin
bajo el signo integral coincide con la funcin de densidad conjunta de (U1, U2, U3,, Un).
ii) El paso siguiente es encontrar la funcin de densidad marginal de cualquiera de las Ui. Esto se
vio en este mismo captulo, integrando la funcin de densidad conjunta respecto al resto de las v.a.
dependientes
Ejemplo 61:a) Sean X e Y v.a. con funcin de densidad conjunta uniforme en el cuadrado 0 x
1, 0 y 1. U = X+Y, V = X-Y. Hallar la funcin de densidad de la v.a. U y de la v.a. V. Son
independientes U y V?
b) Hallar la funcin de densidad condicional de X dado Y (f( x / y) ).
r2
r
Ejemplo 62: Sean las variables r con distribucin de Rayleigh, es decir f r e 2 2
, r0 y
2
1
distribuido uniformemente en el intervalo (-, ) es decir f , . Hallemos la
2
distribucin de las variables X=r cos(), Y= r sen().
Calculando la transformacin inversa tenemos que r X 2 Y 2 , arctanY X y el jacobiano
X X 2 Y2 Y X2 Y2 1
es J por lo tanto la funcin de densidad est dada por
Y X 2 Y2
X X2 Y2 X Y2
2
x2 y2 x2 y2
x2 y2 1 1 1
f XY x, y f r r x, y , x, y J
2 2 2
2
e . e 2 e 2 , con x e y
2 2 x2 y2 2 2
tales que x, y , por lo tanto X e Y son independientes cada una con distribucin N(0, 2).
Ejemplo 63: Sean X e Y dos variables aleatorias independientes y ambas con distribucin N(0,2).
Hallemos la distribucin de las variables aleatorias r X 2 Y 2 y arctanY X .
58
Calculando la transformacin inversa tenemos que X=r cos(), Y= r sen() y el jacobiano es
cos r sen
J r , por lo tanto la funcin de densidad est dada por
sen r cos
r cos 2 rsen 2 r2
1 1 r
f r r , f XY xr , , y r , J
2 2 2
e 2 e 2 .r 2
e 2 , con r y tales que
2 2 2
r 0, , por lo tanto r y son independientes r con distribucin de Rayleigh, y
distribuido uniformemente en el intervalo (-, ).
La misma idea, puede aplicarse para transformacin lineal de v. a. gausianas definida por:
Y1 = a11X1+a12 X2+...+a1n Xn
Y2 = a21X1+a22 X2+...+a2n Xn
.
Yn = an1X1+an2 X2+...+ann Xn
C X T 1CY T t
1
la matriz de covarianza de [CY], se cumple que y su inversa es
C X 1
T CY T cuyo determinante es
t 1
C X 1 CY 1 T 2 , por lo tanto sustituyendo en la
notacin matricial de la distribucin normal multivariada tenemos
1 1 2
T CY x x t T t CY 1 T x x
f X1 ,..., X n x1 T11 ,..., xn Tn 1 n2
exp , y por lo tanto
2 2
se tienen que
59
1 1 2
CY y t C 1 y
y
exp
y Y
fY1 ,...,Yn y1 ,..., yn n 2 .
2 2
Ejemplo 64: Dadas las v.a. gausianas X1 y X2 con medias X1=1 y X2=-3, varianzas 2X1=4, 2X2=9
y CX1,X2=3, se transforman linealmente de acuerdo con Y1=X1-2X2; Y2=3X1+4X2, hallemos la
distribucin de Y1 e Y2.
1 2
En este caso la matriz de la transformacin es T , la matriz de covarianza del vector X es
3 4
4 3 1
CX y el vector de medias es X .
3 9 3
Para calcular el vector de medias del vector Y transformamos el vector de medias de X y para
calcular las varianzas y covarianzas tenemos que transformar la matriz de covarianza de X,
entonces tenemos que
1 2 1 7 1 2 4 3 1 3 28 66
y CY T C X T
t
Y , por lo
3 4 3 9 3 4 3 9 2 4 66 252
tanto Y1=7, Y2=-9, 2Y1=28, 2Y2=252 y CY1,Y2=-66.
60
Tema 4: Estimacin de parmetros
El anlisis estadstico parte del registro de una variable aleatoria observable X. Por ejemplo, el
experimento puede consistir en tomar una muestra de una poblacin y registrar una o varias
medidas de inters, as obtenemos una muestra X1, X2,....., Xn, donde Xi es el vector de mediciones
del i-simo individuo (unidad de muestreo).
Hay dos grandes ramas en estadstica: la descriptiva y la inferencial. El trmino descriptivo refiere a
los mtodos que exhiben y resumen el conjunto de datos x1, x2,,xn. El trmino inferencial refiere a
los mtodos que realizan inferencias acerca de la distribucin de la muestra a partir de los valores
observados xs. As, de alguna manera, la estadstica inferencial es el dual de la probabilidad. La
probabilidad trata de predecir un valor de X asumiendo el conocimiento de la distribucin. En
contraste, en estadstica, observamos valores de X y tratamos de inferir alguna informacin acerca
de la distribucin subyacente. Formalmente:
Muestreo: El objeto del muestreo es obtener, por camino inferencial, conclusiones vlidas para una
poblacin numerosa, partiendo de la observacin del comportamiento de una parte, en general
pequea, llamada muestra. Es evidente que hay que escoger cuidadosamente los individuos de la
muestra para asegurarse que la muestra obtenida sea representativa del comportamiento de toda la
poblacin.
Mtodos de muestreo: No todos los mtodos de muestreo son igualmente adecuados para escoger
muestras representativas de la poblacin. La eleccin del mtodo de muestreo depende tanto de la
naturaleza de la situacin como del fin al que se destina la muestra. Se dispone de un nmero
grande de mtodos de muestreo, pero pueden hacerse dos distinciones elementales: primero, entre
mtodo sistemtico y aleatorio y, segundo, entre mtodos espaciales y no espaciales. Trataremos
primeramente el muestreo cuando se trate de una muestra homognea.
Muestreo sistemtico: Se dice que una muestra es sistemtica cuando se ha seleccionado de algn
modo regular. Por ejemplo, si se est sacando una muestra sistemtica del 10 % en una lista de 100
nombres, elegimos cada 10 nombres partiendo del nmero 1. No es difcil demostrar que un
61
muestreo sistemtico no ofrece a cada individuo de una poblacin la misma probabilidad de salir
elegido. Para el ejemplo dado, la probabilidad de seleccionar los nombres primero, dcimo primero,
vigsimo primero, etc. es igual a 1. La probabilidad de seleccin para todos los dems nombres es
0. En otras palabras, una vez obtenida la primera seleccin, el 90 % de los nombres de la lista han
perdido toda probabilidad de salir representados en la muestra. Para poder aplicar este tipo de
muestreo lo importante es asegurarse de que el mtodo no introduzca un elemento consistente de
parcialidad dentro de la muestra. La ventaja que tiene sobre el muestreo aleatorio es que resulta ms
fcil y rpido obtener una muestra sistemtica que una muestra aleatoria.
Figura a Figura b
Muestras estratificadas: En muchos casos la hiptesis de homogeneidad de la poblacin, respecto a
la variable que se estudia, no es aceptable, existiendo una manera de clasificar de tal modo que en
cada uno de los grupos o estratos que resultan de la clasificacin, sea aceptable la hiptesis de
homogeneidad. En este caso se efecta lo que se llama una muestra estratificada; es decir, una
muestra compuesta por tantas muestras al azar como estratos haya. Por ejemplo, si deseramos
estudiar presupuestos de gastos familiares en una ciudad, lo ms lgico es dividir la poblacin en
estratos por niveles de ingreso, y efectuar una muestra al azar en cada uno de los estratos. En este
mismo ejemplo, si se desean obtener resultados an ms detallados, a veces no basta la clasificacin
por ingresos y se hace necesaria otra clasificacin, por ejemplo por profesiones, nmero de
integrantes de la familia, etc. Esta ltima decisin es ms una cuestin de diseo experimental que
de muestreo. Si el investigador se interesa concretamente por el presupuesto de gasto familiar,
necesita controlar el mayor nmero posible de variables que puedan afectar al presupuesto. Al
limitar su estudio a personas situadas dentro de una banda estrecha de ingresos, puede prescindir del
ingreso como variable capaz de influir sobre el presupuesto en gastos familiares. Es evidente que se
pondran controlar de esta manera muchas ms variables, como el nmero de personas que integran
la familia, el sexo o las edades de los integrantes, etc. La estratificacin puede ser muy til tambin
en el muestreo espacial. Una persona que investiga las formas de esparcimiento de una ciudad
decide entrevistar al 5 % de los habitantes de la ciudad. Utiliza para ello el registro electoral como
62
base para la seleccin de la muestra. Sera posible elegir una muestra del 5% del total del registro,
pero el investigador prefiere seleccionar el 5% de los habitantes de cada distrito (subdivisin
electoral) de la ciudad. La muestra obtenida de esta manera es una muestra aleatoria del 5% de la
poblacin votante de la ciudad, estratificada por distrito. La ventaja de esta forma de estratificacin
espacial es que asegura un grado igual de representacin de las sub-zonas de la ciudad. Si se realiza
una muestra aleatoria global, quizs algunas zonas de la ciudad quedarn seriamente sub-
representadas, y se pasarn por alto elementos locales importantes de la estructura general del
comportamiento en el esparcimiento.
X i
Algunos ejemplos de estimadores son: X n i 1
, K n min X 1 ,..., X n , M n mx X 1 ,..., X n ,
n
n
X
i 1
i
p , donde Xi son variables aleatorias Bernoulli con parmetro p.
n
Ya que una m.a. se puede pensar como una sucesin de variables aleatorias todas con la misma
distribucin, veamos primero como trabajar con ellas y que propiedades tienen cuando n crece.
Sucesiones de v.a. - Convergencia: Sea (Xn), n N una sucesin de v.a. o sea X 1 , X 2 ,..., X n ,...
v.a. definidas sobre (, P, ). Conocemos el concepto de convergencia de una sucesin de nmeros
reales (Xn), n N a un lmite X0: imn Xn = X0; si dado >0 n0 tal que para todo n>n0 se
verifica que Xn-X0< .
63
1. Convergencia segura: Diremos que (Xn) n N converge a X en forma segura s notamos
S.
X n X si: imn Xn () = X (); para todo donde X es la v.a. definida sobre .
2. Convergencia casi segura: Diremos que (Xn) n N converge a X en forma casi segura y notamos
X n C
.S .
X si el conjunto de los tal que: imn Xn () = X () tiene probabilidad = 1, es
decir P ({ / imn Xn () = X ()})=1
X si: E X n X 0
r
Se generaliza la convergencia en media de orden r, que notamos X n m
.r .
m. s .
cuando n , y adems X n m
.r .
X , si s r .
X X n
Observacin importante:
Ejemplos:
1 1
66) Sea = [0,1] con distribucin uniforme Xn () = . 1 , i.e. Xn = U 1 con U = U
n n
1
(0,1), entonces Xn U en forma segura, ya que imn Xn () = imn . 1 = , tenemos
n
que Xn () X() para todo
n n 1
67) Sea Z n e , = [0,1] con distribucin uniforme, entonces Z n 0 para
todo (0,1]. Luego, {/ imn Zn () = 0} tiene probabilidad 1.
Observemos que el conjunto donde Zn no converge a 0 es el conjunto formado por el nico valor
=0, que tiene probabilidad nula.
En este ejemplo se verifica la convergencia casi segura (c.s.) pero no la convergencia segura.
68) Sea X n , = [0,1], con distribucin uniforme en ese intervalo entonces
n
P
Xn
0.
2 2
64
1
u2 1
Por otra parte: E X n 2
n 2
du
1 1
. 0 si n , luego
n2 3
P X n 0
3n 2 2
0 si n .
0
0 si nx 0 0 si x 0
U
Fn x P x PU nx nx si 0 nx 1 nx si 0 x 1 / n , grafiquen
n 1 1
si nx 1 si x 1 / n
0 si x0
F1, F2, F3, para ver como converge a: F x . Luego imn Fn x F x .
1 si x 0
casi segura.
1 2 1
1 1 1
2
E Z n 0 E Z n e
2 n nu 1
1 du e 2 n nu 1
du 2 .e 2 n nu 1 2 . e 2 n n1 e 2 n
0 0 2n 0 2n
imn E Z n 0 = imn
2
1
2n 2
e 2 n n1 e 2 n .
que P X n X
E X n X
2
0 cuando n , ya que X m
.c .
X .
2 n
1 1
72) Sea (Yn)n N tal que PYn 0 1 y PYn n , probar que converge a 0 en
n n
probabilidad pero no en media cuadrtica.
1
En efecto PYn 0 P Yn n 0 si n , por lo tanto converge en probabilidad:
n
1 1
Sin embargo como E Yn 2
0 2.1 n 2 . n no 0 si n , no converge a 0 en media
n n
cuadrtica:
Ejercicios:
0 si x n
x n
28) Sea X i iN con Fn x si n x n , hallar el imn Fn x y comprobar que
2n
1 si x n
la sucesin no converge en distribucin a ninguna variable aleatoria (v.a.)
29) Sea X i iN i.i.d., X i U 0, . Hallar la distribucin de Yn min X 1 ,..., X n . Si Z n nYn ,
Converge la sucesin Z n nN en distribucin?
65
Ayuda: G y y PYn y 1 P X 1 y,..., X n y 1 P X 1 y 1 1 F y , donde F es
n n
e x si x
30) Sea X i iN i.i.d. con densidad: f x , probar que X n P
1
0 si x
y que min X 1 ,..., X n P
Propiedades de los estimadores: Dos propiedades deseables para un estimador son que sea
insesgado y consistente. Diremos que un estimador n es insesgado, si verifica que E
cualquiera sea el valor (desconocido) de , y que es consistente, si n
P
cuando n ,
cualquiera sea el valor (desconocido), esto significa que P n n
0 o en otras
palabra la probabilidad de que el estimador difiera mucho del valor del parmetro es muy chica,
casi despreciable si el estimador est basado en un nmero grande de elementos de una muestra
( n ).
Ocurre con frecuencia que el sesgo de un estimador sesgado disminuye a medida que aumenta el
nmero de observaciones n. Si se verifica que E n , cuando n , diremos que n es
asintticamente insesgado.
Varianza de un estimador puntual: Supongamos que y son estimadores insesgados de ,
esto indica que la distribucin de cada uno tiene su centro en el valor real de , sin embargo las
varianzas de estas d distribuciones pueden ser diferentes. Un principio lgico de la estimacin,
cuando se escoge entre varios estimadores, es elegir el estimador que tenga varianza mnima. En
cierto sentido un estimador de varianza mnima es el estimador que tiene mayores posibilidades de
producir una estimacin que est prxima al valor real de .
n
Xi
2
Si X n i1
n
entonces E X n y
Var X n
n
.
Para el caso que cada Xi sean v.a. i.i.d. Bernoulli con parmetro p, talque E(X)=p y V(X)=p(1-p),
entonces E p p y V p p1 p n .
Dem: P X n
2
E X n
Var X n 2
, luego P X n 0 si n ,
2 2 2n
P
por lo tanto X n
.
67
Ejemplo 73: Consideremos la variable X, la altura de mujeres adultas, distribuida normalmente con
parmetros =1.60 m y =0.06 m. Podemos determinar probabilidad (o riesgo) de que la altura
promedio de una muestra aleatoria de tamao n= 36 sea menor a 1.59 m. o mayor a 1.61 m, es decir
que el error del estimador sea =0.01 m. o mayor:
PX 1.59 X 1.61 P X 1.59 PX 1.61 PZ 1 PZ 1 0.1587 0.1587 0.3174.
En efecto, como el tamao de la muestra es mayor que 30, podemos considerar que la media
muestral tiene una distribucin aproximadamente normal.
Anlogamente fijando un riesgo determinado, por ejemplo del 5%, podemos encontrar el tamao de
la muestra que mantiene el error dentro de 0.01 m. En ese caso la probabilidad para cada extremo es
0.05 2 = 0.025. En la tabla de la distribucin normal se ve que el valor de z que corresponde a
0.025 es 1.96, luego:
0.06 1.61 1.60 1
1.61 1.96 1.60, es decir, de donde n 138.29 139.
n 1.96 0.06 n
Si el muestreo se hace en una poblacin que tiene una distribucin de probabilidad desconocida, la
distribucin de muestreo de la media muestral seguir siendo aproximadamente normal con media
y varianza 2/n, si el tamao de la muestra n es grande, este es uno de los resultados ms tiles de la
estadstica llamado Teorema central de lmite.
Teorema central del lmite: Si X1, X2,, Xn es una muestra aleatoria de tamao n de una
poblacin con media y varianza 2, (es decir las variables Xi se suponen independientes e
idnticamente distribuidas), la media muestral X tiene una distribucin normal con media y
2 X
varianza 2/n, cuando n es decir X N , . O equivalentemente Z N 0,1 .
n
n
En muchos casos de inters prctico, si n 30 la aproximacin ser satisfactoria
independientemente de la forma de la poblacin, caso contrario el teorema funcionar si la
distribucin de la poblacin no se aparta significativamente de la distribucin normal.
Observacin:
Una forma equivalente del teorema anterior puede enunciar para la suma de variables aleatorias:
Error estndar estimado de la media muestral: Hemos visto que el error estndar de la media
depende del desvo y del tamao de la muestra. Pero en muchos casos prcticos, el desvo
estndar se desconoce. En tales casos, se hace necesario estimar el desvo estndar a partir de datos
1 n
de la muestra, recordemos que la varianza de los datos se define como: S n2 xi X .
n i 1
2
2
n 1 2
Se puede probar que el valor esperado de Sn2 es: E S n2 2 , lo que demuestra que
n n
si se elige un gran nmero de muestras de tamao n, la media de todas las varianzas se aproxima a
2 ms un sesgo o vicio (-2/n). Esto es, Sn2 es un estimador sesgado de 2.
68
Para muestras de gran tamao podemos despreciar este sesgo, pero no para muestras pequeas. Por
ejemplo, si n=3, E S n2 3 1 2 , entonces Sn2 subestima a 2 en 1/3=33%.
3
Podremos ajustar a Sn de modo que sea un estimador insesgado de 2? En efecto, consideremos
2
n 2
x
n 2 i 1 i
X
n 2 n n n 1 2
S n21
n 1
Sn
n 1
, luego
E S n21 E
n 1
Sn
n 1
E S n2
n 1
n
2,
entonces S n21 es un estimador insesgado de 2. De aqu en ms emplearemos a S n21 como estimador
de 2 y, cuando no haya lugar a dudas, lo denotaremos simplemente S2.
X
Una pregunta lgica es, qu efecto tiene sobre la distribucin del estadstico que se enuncia
n
en el Teorema Central del lmite, reemplazar por su estimacin puntual S? Si n es grande, la
respuesta a esta pregunta es muy poco, y puede procederse con la distribucin normal como hasta
ahora, sin embargo si n es pequeo debe emplearse una distribucin diferente. Ahora nos podemos
X
preguntar cul es la distribucin de t ? Seguir una distribucin t de Student con n-1
S
n
grados de libertad. El estadstico W. S. Gossett, que escribi bajo el seudnimo de Student,
dedujo una distribucin exacta para t. La distribucin se denomina distribucin de Student o
distribucin t. Gossett demostr que si X tiene una distribucin normal, t tiene una distribucin que
depende de n-1 (grados de libertad del estimador S). El trmino grados de libertad resulta del hecho
de que las n desviaciones que se utilizan el S (el estimador insesgado de ), siempre suman cero,
por lo que al especificar los valores de n-1 cualesquiera de ello, automticamente queda
determinado la nica que queda, por lo tanto slo n-1 de las n desviaciones estn determinadas
libremente.
Estimacin por intervalos de confianza: Los estimadores puntuales que hemos considerado tienen
propiedades que nos llevan a pensar que proporcionan en general valores cercanos al parmetro
desconocido. Estos estimadores son, a la vez, variables aleatorias cuya distribucin, exacta o
aproximada, tiene forma conocida (en general en funcin de la distribucin de las variables de los
datos)
La prueba de hiptesis es una decisin estadstica, la conclusin ser rechazar la hiptesis nula a
favor de la alternativa o no rechazarla. La decisin que tomaremos se basa por supuesto en los datos
X1,X2,...,Xn y, en general, se define en trminos de un estadstico W(X1,X2,...,Xn) que se conoce
como estadstico de la prueba o variable de ensayo. La distribucin del estadstico depende de la
hiptesis planteada.
Para el ejemplo dado, bajo el supuesto de la hiptesis nula, podemos elegir la variable de ensayo
n
W(X1,X2,...,Xn)= X
i 1
i que sigue una distribucin binomial con parmetros n y p=0.5
n
W(X1,X2,...,Xn)= X
i 1
i n p que, para n suficientemente grande, podemos aproximar a la
distribucin normal con media 0.5 y varianza 0.5(1-0.5)/n. Sobre la base de la distribucin
especificada para el estadstico y de su valor observado en la muestra, se decide el rechazo o no de
la hiptesis estadstica.
Supongamos que el estadstico p calculado a partir de 100 datos arroj un valor de 0.75, pareciera
discrepar demasiado con el modelo asumido y por lo tanto rechazaramos la hiptesis nula. Y si el
valor que arrojado fue de 0.58? Deberamos establecer un criterio para decidir si esta discrepancia
es significativa o no, es decir deberamos establecer un intervalo de valores lo suficientemente
alejados del valor hipottico p=0.5 de manera tal que si observamos una muestra que arroja un p
que pertenece a dicho intervalo, decidimos rechazar la hiptesis nula.
En general, cualquiera sea la prueba de hiptesis, vamos a encontrar un conjunto R y rechazar H0 si
y slo si W(X1,X2,...,Xn) R. El conjunto R se conoce como zona de rechazo o regin crtica.
Grficamente:
Regin crtica Regin critica
R 0.5 R
Errores
La decisin tomada puede ser correcta o puede ser un error. Hay dos tipos de errores, dependiendo
de cul de las dos hiptesis es realmente verdadera.
1. Un error tipo I es rechazar la hiptesis nula cuando es verdadera.
2. Un error tipo II es no rechazar la hiptesis nula cuando es falsa.
De manera similar, hay dos maneras de tomar una decisin correcta: rechazando la hiptesis nula
cuando es falsa o no rechazndola cuando es verdadera. Las posibilidades se resumen en la
siguiente tabla:
NO RECHAZAR H0 RECHAZAR H0
H0 VERDADERA Decisin correcta Error tipo I
Si H0 es verdadera (esto es, la distribucin de la muestra est especificada por H0) luego
P(W(X1,X2,...,Xn) R/H0) o, equivalentemente, P(rechazar H0/ H0 verdadera) es la probabilidad de
cometer un error tipo I. Si H0 es compuesta, luego H0 especifica una variedad de distribuciones de
la muestra y as habr un conjunto de probabilidades tipo I. La mxima probabilidad de error tipo I
se conoce como nivel de significacin de la prueba, el cual denotaremos con la letra .
Usualmente, la regin de rechazo se construye de modo que el nivel de significacin se establece en
un valor pequeo (tpicamente 0.1, 0.05, 0.01).
70
Veamos cmo construimos la regin crtica para un nivel de significacin = 0.05.
p p p p p p
Puesto que N (0,1) , P 1,96 1,96 H 0 : p 0.5 0.05 ,
p 1 p p 1 p p 1 p
n n n
p 0.5 p 0.5
, equivalentemente, P 1.96 1.96 0.05 , esto es
0.51 0.5 0.51 0.5
100 100
0.51 0.5 0.51 0.5
P p 1.96 0.5 0.402 p 1.96 0.5 0.598 0.05 .
100 100
Tomamos como regin crtica el conjunto
p 0.5 p 0.5
R Z : Z 1.96 Z 1.96 , que se puede escribir de
0.51 0.5 0.51 0.5
100 100
forma equivalente como R p : p 0.402 p 0.598, de manera tal que si rechazamos la
hiptesis nula el error asociado a esta decisin ser menor o igual a 0.05. Grficamente:
H 0 : p 0.5
= 0.025
= 0.025
p
0.402 0.5 0.598
Z
-1.96 0 1.96
72
Valor P (en ingls, P-value): Un forma de reportar los resultados de una prueba de hiptesis es
enunciando que la hiptesis nula fue rechazada o no con un valor o nivel de significacin
especificado. Este enunciado de las conclusiones con frecuencia es inadecuado, pues no le da al
responsables de tomar decisiones ninguna idea acerca de si el valor calculado del estadstico de
prueba apenas lleg a la regin de rechazo o si se adentr bastante en ella. Adems, al enunciarse
los resultados de esta manera se impone el nivel de significacin predefinido a los dems usuarios
de la informacin, este enfoque puede ser insatisfactorio ya que algunos responsables de tomar
decisiones podran sentir incmodos con los riesgos que implica el valor de elegido.
Para evitar estas dificultades, en la prctica se ha adoptado de manera generalizada el enfoque del
valor P. El valor P es la probabilidad de que el estadstico de prueba tome un valor que es al menos
tan extremo como el valor observado del estadstico cuando la hiptesis nula es verdadera. Por lo
tanto, el valor P comunica bastante informacin acerca del peso de la evidencia en contra de H0, y
as el responsable de tomar decisiones puede sacar una conclusin con cualquier nivel de
significacin especificado. Para formalizar la definicin diremos que el valor P es el nivel de
significacin ms bajo que llevara al rechazo de la hiptesis nula con los datos dados, esto es, el
menor nivel de significacin para el cual H0 es rechazada dado los datos X1,,Xn. Si P
rechazamos H0 para el nivel de significacin ; si P> entonces no rechazamos H0 para el nivel de
significacin .
Para las pruebas de la distribucin normal es relativamente sencillo calcular el valor P. Para el
ejemplo dado, prueba de hiptesis para la proporcin, si z0 es el valor del estadstico calculado en la
prueba y (z0)=P(Z z0) en la distribucin normal entonces el valor P es
Valor P Prueba
2(1-(z0)) a dos colas H0:p=p0 H1: p p0
1-(z0) una cola superior H 0:p=p0 H1: p > p0
(z0) una cola inferior H0:p=p0 H1: p < p0
No siempre es sencillo calcular el valor P exacto de una prueba ya que depende de la distribucin
del estadstico de prueba, sin embargo la mayora de los paquetes estadsticos de computacin
reportan valores P. Por ltimo, cuando se usa el enfoque del valor P no es necesario enunciar
explcitamente la regin crtica.
A continuacin mostramos algunas pruebas de hiptesis clsicas para uno parmetro poblacional:
En muchos problemas de ingeniera existe inters en una variable aleatoria que sigue una
distribucin binomial. Por ejemplo, consideremos un proceso de produccin en el que se fabrican
artculos que se clasifican como aceptables o defectuosos, por lo general es razonable modelar la
73
ocurrencia de los artculos defectuosos con una distribucin binomial, donde su parmetro p
representa la proporcin de artculos defectuosos producidos. Por consiguiente, muchos problemas
de toma de decisiones incluyen pruebas acerca de p.
Se considerarn pruebas del tipo H0: p=p0 H1: p p0, H0: p=p0 H1: p >p0 H0: p=p0 H1: p < p0.
Se presentar una prueba aproximada basada en la aproximacin normal de la distribucin
binomial. Este procedimiento ser vlido siempre que p no est muy cerca de cero o uno, y si el
tamao de la muestra n es relativamente grande. Sea X el nmero de observaciones de una muestra
aleatoria de tamao n que pertenece a la clase asociada con p. Entonces, si la hiptesis nula H0:
p=p0 es verdadera, para probar la hiptesis se utiliza el estadstico de prueba que tiene una
distribucin Normal
p p0
Z0 .
p0 1 p0
n
Ejemplo 74: En una muestra de 1000 nacimientos el nmero de varones ha sido 542 Puede
considerarse, con un nivel de significacin del 10%, que en general nacen ms nios que nias?
La hiptesis nula sera que nacen igual nmero de nios que de nias, o lo que es lo mismo que la
proporcin de nios nacidos es igual 1/2. Las hiptesis que planteamos son H0: p = 0.5 H1: p > 0.5
Como la proporcin muestral es 542/1000 = 0,542, sustituyendo se obtiene el valor del estadstico:
Como el contraste es unilateral, buscamos en las tablas de la Normal el valor de la variable que deja
por debajo de s una probabilidad de 0,9, este valor es 1,282. El valor del estadstico 2,66 es mayor
que el valor crtico 1,282 por consiguiente, se rechaza la hiptesis nula. Efectivamente, nacen en
mayor proporcin nios que nias. (Queda para el lector establecer la zona de rechazo).
Prueba de hiptesis para la media de una poblacin
Supongamos que tenemos una muestra aleatoria de una poblacin normal y queremos realizar
alguna inferencia respecto al valor de su media. En algunos casos lo que se desea probar como
alternativa a H0 es si la media ha disminuido Entonces las hiptesis adecuadas son:
1. H0: 0 contra H1: <0
Si al contrario, lo que interesa detectar, son valores de mayores que 0, se deben usar las
hiptesis:
Para ilustrar las hiptesis dadas en la expresin 1 damos el siguiente ejemplo: la Secretara de
Turismo de una ciudad serrana ha implementado una campaa publicitaria orientada a los
adolescentes con el fin de promover el turismo en dicha ciudad. Los registros indican que la edad
promedio de los turistas es de 45 aos. Para evaluar si la campaa ha sido efectiva se quiere saber si
74
la edad promedio de los turistas ha disminuido y como no se tiene una idea especfica de la
magnitud de dicha disminucin, se plantean las hiptesis:
H0: =45 contra H1: <45
En una muestra de 150 turistas se obtienen los valores X =41 aos y S=9 aos. Para ver si ha
disminuido la edad promedio, la regin crtica de la prueba es de la forma X < X c y se utiliza un
nivel =5%. Luego:
9
X c 1.65 45 43.78
150
Como el valor de la muestra es X =41 se encuentra dentro de la regin crtica, es adecuado rechazar
H0, es decir que la campaa ha sido efectiva reduciendo la edad promedio de los turista
significativamente. Esta conclusin tiene una probabilidad de error menor al 5%. Estos resultados
se ilustran en la siguiente figura:
Si H0 es verdadera
=0.05
X observada
X
41 X c=43.78 45
-3,299 -1.65 0 Z
La regin crtica para las pruebas bilaterales de la media consiste en los valores de X que distan
demasiado de 0 en cualquiera de las dos direcciones.
Un caso en que la formulacin 3 es til es el de una envasadora de mermelada que quiere asegurar
que el llenado de sus envases cumple con los 500 gr. especificados en la etiqueta. Si la mquina
envasadora est fuera de ajuste y se excede demasiado en el llenado de sus envases, habr una
disminucin de utilidades, si al contrario, falta peso, la compaa perder el favor de sus clientes y
posiblemente tendr problemas con los inspectores gubernamentales. Entonces la prueba de
hiptesis adecuada es:
H0:=500 contra H1: 500
Una muestra aleatoria de 20 envases extrados de la produccin arroja una media muestral X =504
Gr., con S= 21.2 gr. Se decide permitir que la probabilidad de un error tipo I sea de =0.05.
X
Recordando que tn-1, los valores crticos situados a ambas colas de la distribucin de X
S n
21,2 21,2
sern de la forma: X C1 500 2,093 . 490,08Gr. y X C 2 500 2,093 . 509,92Gr.,
20 20
donde el valor t=2,093 se obtiene de la tabla t de Student y es el valor que deja un rea a la derecha
igual a 0.025. Estos resultados aparecen en la siguiente figura:
75
Si H0 es verdadera
X obse
0.025 0.025
X
X C1 490,08 500 504 X C 2 509,92
tc1 2,093 tc1 2,093 t19
Puesto que el valor de la media muestral X =504 Gr. no cae en la regin crtica, se acepta la
hiptesis nula, es decir que la diferencia entre X =504 Gr. y =500 se considera debida al azar. Por
lo tanto, no se detectaron diferencias con el contenido promedio que asegura la etiqueta, trabajando
con un nivel de significacin = 0.05.
76
Tema 5: Procesos estocsticos.
Definicin: Un proceso estocstico es una familia {Xt}t T de v.a. definidas sobre y donde
T , representando un conjunto de ndices, generalmente al tiempo.
Luego, para c/t T y , Xt () = n real.
Para c/t fijo, Xt en una v.a.
Para c/ fijo, Xt () es una realizacin o funcin muestral del proceso estocstico.
Xt (1)
t
Xt (2)
bi b1 b2 b3
... ; bi = 0 o bi = 1
i 1 2i 21 22 23
Definimos {Xt}t T como Xn () = bn. Para obtener la representacin binaria de un n [0,1], por
ejemplo 0,3 se procede de la siguiente manera:
Si [0, 1] entonces 0 bi 0i y 1 bi 1i
1 1 1
Por otra parte bi 1 1, luego P X 1 1 P 1 y tambin
2 2 2
1
P X 1 0 1 P X 1 1
, con lo que podemos calcular
2
P (X1 = 1, X2 = 0) = P [ (0,5; 0,75)] = 0,25
P (X1 = 0, X2 = 1) = P [ (0,25; 0,5)] = 0,25
P (X1 = 0, X2 = 0) = P [ (0; 0,25)] = 0,25
P (X1 = 1, X2 = 1) = P [ (0,75; 1)] = 0,25
Ejemplo 80: Sea (Xt)t T tal que Xi Bi (1, p); Xi i.i.d., hallar la distribucin conjunta de orden k.
k
P X t1 b1 , X t 2 b2 ,..., X tk bk p s 1 p
k s
, donde s bi ; bi = 0 bi = 1
i 1
Observamos que en este caso no importa que valores ti tomemos si no cuantos tomemos.
Ejemplo 81: Para el ejemplo 77 hallar la distribucin de cada Xt del proceso. Graficar una
realizacin del proceso. Si el proceso Xt = A cos (2 t); con A U (-1, 1) entonces se puede
demostrar que el proceso Xt U (-cos (2 t) ; cos (2 t) )
Ejemplo 82: Sea Xt = A cos (2 t); A v.a. sobre con E (A) = E (Xt) = cos (2 t) = t que
depende de t si 0
Como el proceso en cada instante es una v.a., generalizamos la nocin de covarianza entre dos
variables aleatorias mediante la funcin de autocovarianza definida por :
C X (t1 , t2 ) Cov X t1 , X t 2 E X t1 X t 2 E X t1 E X t 2
78
Al primer trmino se lo llama funcin de autocorrelacion del proceso definida como
RX t1 , t2 R X t1 , X t 2 E X t1 X t 2 , y definimos el Coeficiente de correlacin del proceso
CovX , X t1 t2
X .
t1 , X t2
Var X Var X
t1 t2
1
cos2 t1 t 2 .
2
1 1
V X t cos2 t t , t.
2 2
Ejercicio 31: Hallar las tres funciones definidas anteriormente si Xt = A cos (2 t); A U (-1, 1)
Definicin: Sea (Xt)t T diremos que es estacionario en sentido amplio o dbilmente estacionario si:
EX t , Var X t 2 ,
C X t1 , t2 Cov X t1 , X t 2 H t2 t1 t , t1 , t 2
Si Xt es al menos dbilmente estacionario RX(t1,t2) tiene que ser funcin de la diferencia de los
tiempos y tomando = t2 -t1, la podemos notar RX(t,t+) y por lo tanto para procesos dbilmente
estacionarios podemos notar su funcin de autocorrelacin como RX()=E(Xt.Xt+) y algunas de las
propiedades de la funcin de autocorrelacion de estos procesos son:
1. RX RX 0 , es decir la funcin de autocorrelacin est limitada por su valor en el origen
2. RX 0 E X t2 , dicho lmite es el valor cuadrtico medio y se llama la potencia del proceso.
3. RX RX , la funcin es simtrica respecto del eje Y.
La correlacin entre dos procesos Xt e Yt, en dos instantes distintos de tiempo de define como
funcin de autocorrelacion cruzada, RXY t1 , t2 R X t1 , Yt 2 E X t1 Yt 2 . Si adems los procesos
son conjuntamente estacionarios en sentido amplio, entonces se cumple que dicha funcin
depender de la diferencia de os tiempos y por lo tanto RXY t , t E X tYt , y la podemos
79
escribir como RXY E X tYt . Algunas de las propiedades de la funcin de autocorrelacin
cruzadas de estos procesos son
1. RXY RXY , simetra.
2. RXY RX 0 RY 0 .
1
3. RXY RX 0 RY 0 ,
2
Las dos ltimas establecen lmites, uno ms estricto que otro, para el mdulo de RXY .
Ejercicios 32: Sea (Xt)t T tal que Xt son i.i.d., prueba que el proceso es estrictamente estacionario
n
Ejercicios 33: Si S n X i donde Xi son i.i.d., prueba que el proceso (Ss)n N no es dbilmente
i 1
estacionario.
1
1 ( probabilidad 9 / 10)
Ejemplos 84: Sea (Xn)n N donde: X 2k ( probabilidad 1 / 2) y X 2 k 1 3
1 3( probabilid ad 1 / 10)
X i independientes. Probar que es un proceso dbilmente estacionario pero no fuertemente
estacionario.
1 1 1 9 1
En efecto E X 2k 1 1 0 k , E X 2 k 1 3 0 k
2 2 3 10 10
2
1 1
E X 2 k 2 1 12 1
2 2
,
1 9
E X 2 k 1 2
3 10
32
1
10
1 y
Cov X n1 , X n2 0 por ser v.a.
independiente
Veamos que no es fuertemente estacionaria, si lo fuera debera cumplirse que:
1 1
F X t x F X t t x t , t 0 N ; x y FX 2 0 FX 21 0 o sea con x 0, t 2, t 0 1 no se
0 2 10
cumple.
80
Ejemplo 86: Probar que todo proceso Gaussiano dbilmente estacionario es tambin fuertemente
estacionario (el nico de los vistos donde se cumple la implicacin inversa).
Alcanzara con probar que f xt1 ,..., X t x1 ,..., xk f X t1t0 ,..., X tk t0 x1 ,..., xk , dnde:
k
1 1 1 '
f X t1 , X t2 ,..., X tk x1 , x2 ,..., xk exp x k 1 x .
2
k
k
1/ 2
2
Si es dbilmente estacionario:
E Xt t
:
1 1
:
; Cov X ti , X t j ht
i, j
j ti i, j ;
E X tk tk
1 1 1 '
f Xt , X t2t 0 ,..., X tk t 0 x1 , x2 ,..., xk k 1/2
exp x 1 1k1 x 1
1t 0
2 1k 2
Por ser dbilmente
estacionario
Donde:
E X t1 t0
.
1
1 Cov X ti t0 , X t j t0 ht
i, j
j t 0 t i t 0 i, j ht j ti i, j
.
E X t t
k 0
Entonces las dos matrices de covarianza son iguales.
O sea, la ley de probabilidad conjunta de orden k de variables del proceso, X t1 ,..., X t k coincide con
la conjunta de X t1 M ,..., X tk M .
81
Ejemplo 88: Sea (Dn)n N; Dn = 2 In -1, con In como en el ejemplo anterior, es decir
1 si In 1
Dn . Describir el proceso. Calculemos sus momentos
1 si In 0
1 si n1 n2
R Dn1 , Dn2 E Dn1 .Dn2 E 2 I n1 1 . 2I n2 1 4 E I n1 .I n 2 2 E I n1 2E I n2 1 2
4 p 4 p 1 si n1 n2
4 p(1 p) si n1 n2
y Cov Dn1 , Dn2 E Dn1 .Dn2 E Dn1 E Dn2
si n1 n2
0
Este proceso ejemplifica el movimiento de una partcula por unidad de tiempo (1, 2, 3,).
Observemos que en cada instante no importa el movimiento que realizo en el pasado ni condiciona
los movimientos futuros.
Ejemplo 89: (proceso de conteo binomial) Sea Ii como en el ejemplo 87. Sea (Sn)n N,
n
donde S n I i , Describe el proceso.
i 1
n
Ejemplo 90: Camino al azar. Sea S n nN donde: S n Di ; Di segn ejemplo 88
i 1
Movimiento:
Dn (0)
Posicin:
Sn (0)
tenemos PS t j j t p
2
1 p . Siendo k = 0, 1, 2,, t, entonces t j t
2
82
Definiciones sobre algunas caractersticas de procesos estocsticos:
y no el pasado lejano)
n m
Yn Ym
i 1
Xi X
j 1
j X m 1 X m 2 ... X n
Luego: Incrementos
estacionarios
D X k = D Yk Yk 1 = D Yk k 1 = D Y1 k
Esto es que las Xk estn igualmente distribuidas
Adems, si: i < j
X i Yi Yi 1 Son independientes
por incrementos
X j Y j Y j 1 independientes
i
Yi X
j 1
j Y1 Y2 Y1 Y3 Y2 ... Yi Yi 1 con lo que queda probado el teorema.
83
Proceso de Poisson: Un proceso (Xt)t [0, +) se dir de Poisson si Xt P (t) donde es el
promedio de sucesos por unidad de tiempo. Por ejemplo, si Xt = n de mensajes que entran en un
dispositivo telefnico en el intervalo [0, t) cuando se sabe que en promedio entran 2 por unidad de
tiempo (que puede ser 1 minuto, 1 hora, etc.).
Recordando lo que vimos en variable y experimento de Poisson, se deduce que:
E X t t y Var X t t
Veamos que este proceso tiene las propiedades de incrementos independientes y estacionarios.
Sea t1 < t2 < t3, entonces:
X t 2 X t1 = n de sucesos en [0, t2) menos n de sucesos en [0, t1) = n de sucesos en [t1, t2)
Sabemos que: D (n de sucesos en [t1, t2)) = D (n de sucesos en [0, t2- t1))
Por lo tanto: D X t 2 X t1 = D X t 2 t1 Incrementos estacionarios
Por otro lado el n de sucesos en [t1, t2) es independiente del n de sucesos en [t2, t3), luego:
Ejemplo 91: Consideremos el proceso de Poisson (Xt)t [0, +) donde Xt= n de clientes que llegan a
una fila en el intervalo [0, t), siendo el promedio en 10 minutos de 15 clientes. Hallar la
probabilidad que en media hora lleguen 3 clientes en los primeros 10 minutos y 4 en los ltimos 10
minutos.
Si llegan 15 en promedio, por 10 minutos de tiempo, entonces llegan = 1,5 por minuto.
84
Si t esta dado en minutos, entonces Xt= P (1,5t).
Grficamente podemos representar la situacin de la siguiente manera:
Una realizacin
Con una cruz indicamos la ocurrencia de un suceso de Poisson en el tiempo sealado. Entonces, si
X0= 1, Xt= 1 hasta el primer suceso, luego pasa a ser -1, hasta el segundo suceso y as siguiendo.
Luego si el proceso de la seal telegrfica comenz en 1 o sea X0()= 1 entonces ser Xt()= 1 si
en (0, t] ocurrieron un nmero par de sucesos de Poisson y ser Xt()= -1 si en el intervalo (0, t] se
registraron un nmero impar de sucesos de Poisson.
Entonces:
X 1 P X t 1
e t ( t ) 2 k
( t ) 2 k
P t P (Y =2k, k= 0, 1, 2,) t
X 0 1
X 0 1 t
k 0 (2k )!
e .k 0 ( 2k )!
xk x
( x) k
x 2k
Como: ex y e y adems e x e x 2
k 0 k! k 0 k! k 0 ( 2k )!
( t ) 2 k e t e t 1 e 2t
Se tiene que e t . e t 2 2 .
k 0 (2k )! 2
1 e 2t 1 e 2t
Entonces: P X t 1 X 1 P X t 1 X 1 PYt 2k 1; k 1,2,.. 1 .
0 0 2 2 2 2
Ahora podemos obtener la distribucin de probabilidad de Xt, para todo t.
2 t 2 t
X 1
P X t 1 P t .P X 1 P X t 1 .P X 1 1 e . 1 1 e 1 1
. ,
X 0 1 0
X 0 1 0 2 2 2 2 2
2 2
1 1
por lo tanto P X t 1 1 .
2 2
1 1 1 2 1
E X t 1. 1. 0 y var X t 12 . 1 . 1 .
2 2 2 2
cov X t1 , X t2 E X t1 . X t2 0 1.P X t1 . X t2 1 1.P X t1 X t2 1 1.P X t1 X t2 1.P X t1 X t2 ,
1 e 2 t2 t1
La PX t1 X t2 = P(en (t1, t2] hay un n par de sucesos de Poisson) =
2 2
85
1 e 2 t2 t1 1 e 2 t2 t1 2 t2 t1
cov X t1 , X t2 1. 1. e .
2 2 2 2
O sea, cuando mayor es t2-t1, menor es la covarianza y tambin el coeficiente de correlacin X t , X t .
1 2
Ejemplo 92: El proceso de la seal telegrfica es estrictamente estacionario. Debemos probar que:
P X t1 x1 ,..., X t k x k P X t1 t0 x1 ,..., X tk t0 x k
Comencemos con del primer miembro:
regla
del
X x2 X xk
producto
P X t1 x1 ,..., X tk x k
P X t1 x1 .P t2
X
x .....P tk X t1 x1 ,..., X tk 1 x k 1
t1 1
por la propiedad de Markov se cumple que
1 PX t1 x1 P X t2 x2 X x ...P X tk xk X x
t1 1 tk 1 k 1
De la misma forma:
2 P X t1 t 0 x1 ,..., X t k t 0 xk P X t1 t 0 x1 P X t 2 t 0 x2 X x ...P X t k t 0 xk X
x
t1 t 0 1 t k 1 t 0 k 1
1 1
Como P X t 1 P X t 1 ; t , entonces: P X t x1 P X t1 t0 x1 y
2 2
Xt xj
P j P (n par (impar) de sucesos de Poisson en (tj-1,tj]) = P (n par (impar) de
X t j 1 x j 1
sucesos de Poisson en (0, tj -tj-1]) = P (n par (impar) de sucesos de Poisson en (0, tj+t0-tj-1-t0]) =
X t j t0 x j
P (n par (impar) de sucesos de Poisson en (tj-1+t0 ,tj+t0]) = P
X t j 1 t0 x j 1
Con esto demostramos que (1) = (2)
Ejemplo 93: Probar que si un proceso tiene la propiedad de incrementos independientes tambin
tiene la propiedad de Markov.
En efecto
X xk
P t k
P X t1 x1 ,..., X t k 1 xk 1 , X t k xk
X t1 x1 ,..., X t k 1 xk 1
P X t1 x1 ,..., X t k 1 xk 1
P X t1 x1 , X t2 X t1 x2 x1 ,..., X tk X tk 1 xk xk 1 incrementos
independientes
P X tk X tk 1 xk xk 1
P X t1 x1 , X t2 X t1 x2 x1 ,..., X tk 1 X tk 2 xk 1 xk 2
X xk
P tk
P X tk 1 xk 1 , X tk xk
y
X tk 1 xk 1
P X tk 1 xk 1
P X tk 1 xk 1 , X tk X tk 1 xk xk 1
incrementos
independie
ntes
P X t k X t k 1 xk xk 1
P X tk 1 xk 1
Ejercicios 37: Probar que el proceso de la seal telegrfica verifica la propiedad de Markov.
86
Proceso estocstico de Winner: En el camino al azar una partcula se mova en una magnitud 1 -
n
1 en cada unidad, y S n Di era la posicin de esa partcula luego de n tiempos.
i 1
Consideremos ahora una partcula que se mueve en h o en h cada unidades de tiempo
t
t t t
Observemos que: E S t , h. E Di h 0
y Var S t , h 2 .Var Di h 2
i 1
Supongamos ahora que los movimientos h y h tienden a cero y el lapso en que los realiza
tambin, o sea tiende a moverse continuamente en pequeos movimientos. Supondremos adems
h
que h 0 1 2 o que h tiende a cero de la misma forma que entonces
a 0 h a. .
x2
1
Se prueba que E X t 0 , Var X t a.t y f X x
2
e 2 at , t 0 o sea X t N 0, at
2 . at
Por otra parte (Xt)t (0,+) tiene la propiedad de incrementos estacionarios. Esto puede deducirse
observando que St, es suma de v.a. i.i.d. y Xt hereda esa propiedad.
Sabiendo esto, es posible encontrar la distribucin conjunta de orden k del proceso de Winner:
Fxt , xt
1 2
,..., xtk x1 , x2 ,..., xk FX x1 .FX
t1 t2 X t1 x2 x1 ...FX tk Xt
k 1
xk xk 1
87
2
1x x x 2 x x 2
1 2 1 ... k k 1
2 at1 a t 2 t1 a t k t k 1
e 1 x'
1
e
x
, donde Cov X ti , X t j ; i= 1, k,
k
2a t1 t 2 t1 ...t k t k 1 2 .
k 1
2
X1
j = 1,, k, X : y Cov X ti , X t j a. min ti , t j (slo verificar para k=2).
X
k
Si esa propiedad se verifica para todo t T, diremos que el proceso es continuo en media
cuadrtica.
Observacin: E X t X t0 2
2
E X t 2 E X t X t0 E X t0 2
=R X t , t 2 RX t , t 0 RX t 0 , t 0 .
E X X lim R t , t 2 R t , t R t , t
2
limt t0 t t0 t t0 X X 0 X 0 0
RX t0 , t0 2 RX t0 , t0 RX t0 , t0 0 c.q.d.
88
Sabemos que:
0 Var X t X t0 E X t X t0 2 E X t X t 2 0 E X t X t 2 E X t X t 2 0
0 0 0
cuando t t 0 , luego:
E X t X t0 E X t E X t 0 cuando t t 0 EX t E X t cuando t t 0
0 0
c.q.d.
Derivabilidad en media cuadrtica: Diremos que el proceso {Xt}t T es derivable en t0, con
2
X t t X t0
derivada X t0 si y solo si limt t0 E 0 X t0 0
t
Rt1 , t 2
2
Propiedad: (sin demostracin) Si existe limt1 ,t2 t0 ,t0 entonces existe X t0 .
t1t 2
89
X Xt E X t t E X t
lim t 0 E t t E X t o lim t 0 E X t ,
t t
d
El primer miembro es por definicin de derivada de una funcin de t E X t H t la EX t .
dt
d
E X t E X t .
dt
2
Propiedad: (sin demostracin). E X t1 . X t2 t 2
E X t1 . X t2
y E X t1 . X t2
t1t 2
E X t1 . X t2 .
Consideremos la suma X
k 1
tk . k ; con k t k t . Definimos Yt X s ds limn
k 1 X
k 1
tk . k .
t0
2
n
O sea Yt verifica que: lim n E X t k . k Yt 0.
k 1
Propiedades: (sin demostracin).
t t t
1. Si existe la E X
t0 t0
t1
. X t2 dt1 dt 2 entonces existe Yt X s ds
t0
t
2. E Yt E X s ds
t0
t1 t2
3.
E Yt1 .Yt2 t t E X s .X s ds1 ds2 1 2
0 0
Ejemplo 100: Sea Xt= A cos 2 t ; con A=U (-1,1). Decir si existe el proceso integrado. Hallar su
esperanza y funcin de autocorrelacin. Es el proceso integrado, dbilmente estacionario?
90