Académique Documents
Professionnel Documents
Culture Documents
El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino
sobre todo el proceso de interpretación de esa información.
El desarrollo de la teoría de la probabilidad ha aumentado el alcance de las aplicaciones de
la estadística. Muchos conjuntos de datos se pueden aproximar, con gran exactitud, utilizando
determinadas distribuciones probabilísticas; los resultados de éstas se pueden utilizar para
analizar datos estadísticas.
La probabilidad es útil para comprobar la fiabilidad de las inferencias estadísticas y para
predecir el tipo y la cantidad de datos necesarios en un determinado estudio estadístico.
En Química, incluye tareas tan diversas como calcular el promedio aritmético de la cantidad de
sólidos suspendidos en muestras de agua, determinar cuántos compuestos de tres elementos
pueden elaborarse con cinco sustancias, comparar dos métodos de determinación del porcentaje
de calcio, el crecimiento del número de bacterias según días de inoculación.
Definición:
La estadística se define como una rama de las matemáticas que trata de la recopilación, el análisis,
la interpretación y la representación de una gran cantidad de datos numéricos.
2 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Escalas de Medición
Escala Nominal
El término nivel nominal es normalmente usado para referirse a datos que solamente pueden
clasificarse en categorías. Sin embargo, no hay mediciones y no hay escalas involucradas, solo hay
conteo. En este tipo de nivel de medición el orden en que están acomodadas la categorías es
totalmente arbitrario.
2. Escala Ordinal
Este tipo de nivel de medición tiene características similares al nivel nominal con la diferencia de
que en el nivel ordinal las categorías indican que unas son más que las otras.
3 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Clasificación de las variables
1) Determinar el número mayor y el menor en los datos sueltos con el fin de especificar el
rango (diferencia entre ambos).
2) Dividir el rango el rango en un número adecuado de intervalos de clase del mismo
tamaño.
3) Determinar el número de observaciones que corresponden a cada intervalo de clase; es
decir, hallar la frecuencia de clase.
Los histogramas y los polígonos de frecuencia son dos representaciones gráficas de las
distribuciones de frecuencia. Un histograma se construye a partir de la distribución de frecuencias
representado sobre cada intervalo, un rectángulo que tiene a este segmento como base. El criterio
para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las
frecuencias absolutas (o relativas) de cada intervalo y su área. Los histogramas, son gráficas de
barras verticales, construidos sobre los límites reales de cada clase.
Ejemplo
Por ejemplo, los siguientes datos son los tiempos de ignición de ciertos materiales expuestos al
fuego, dados a la más cercana centésima de segundo:
4 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
2,58 5,50 6,75 2,65 7,60 6,25 3,78 4,90 5,21 2,51 6,20 5,92 5,84 7,86 8,79 4,79
3,90 3,75 3,49 4,04 3,87 6,90 4,72 9,45 7,41 2,45 3,24 5,15 3,81 2,50 1,52 4,56
8,80 4,71 5,92 5,33 3,10 6,77 9,20 6,43 1,38 2,46 7,40 6,25 9,64 8,64 6,43 5,62
1,20 1,58
Solución:
Suponga, que se tiene interés de construir cinco clases. Con el arreglo ordenado de los tiempos se
determina que la observación más grande es de 9,65 y la más pequeña, de 1,20. Por tanto, la
amplitud o rango se calcula como:
Rango=9.64-1.20=8.44
y se tiene la aproximación del tamaño del intervalo de clase , dividiendo el rango entre el número
de intervalos que nos piden así obtenemos el
Intervalo de clase=8.44/5=1.688 se aproxima a 1.69
Con esta tabla, se pueden calcular los porcentajes por clase al multiplicar por 100 cada frecuencia
relativa. Un 32% de los materiales fueron consumidos por el fuego entre 4,58 y 6,26 centésima de
segundo.
Ejemplo 2
En la tabla que sigue se registran los pesos de 40 estudiantes hombres de una universidad, con
precisión de una libra. Construya una distribución de frecuencias.
164 150 132 144 125 149 157 146 158 140 147 136 148 152 144 168 126 138 176 163 119 154
165 146 173 142 147 135 153 140 135 161 145 135 142 150 156 145 128 138
Solución
El mayor peso es de 176lb y el menor es de 119lb.
Por lo que el rango es 176-119=57lb
Si se usan 5 intervalos de clase, su tamaño será de 57/12=4.75 aproxima 5
5 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
frecuencia
9
8
7
6
5
4
3 frecuencia
2
1
0
6 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
La tabla siguiente muestra la distribución de frecuencia de los salarios semanales de 65 empleados
$250.00-$259.99 8 12.3
$269.00-$268.99 10 15.4
$270.00-$279.99 16 24.6
$280.00-$289.99 14 21.5
$290.00-$299.99 10 15.4
$300.00-$309.99 5 7.7
$310.00-$319.99 2 3.1
Total 65 Total 100%
30
25
20
15
10
5
Series1
0
7 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Medidas de localización
Media aritmética
Mediana
Moda
Media muestral
Es un conjunto de n valores, es el resultado de la suma de todos ellos divididos entre n.
x i
x x1 x2 ... xn i 1
x i
i 1
N
N número de elementos de la población
La media aritmética de datos no agrupados:
Si los números datos x1 ,x2, …xn ocurren f1,f2,…,fn veces respectivamente (es decir , con
frecuencias f1,f2,…,fn )
n
fx i i
La media aritmética es x i 1
n
f
i 1
i
8 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
La mediana
Cuando una serie de datos contiene uno o dos valores muy grandes o muy pequeños, la media
aritmética no es representativa. El valor central en tales problemas puede ser mejor descrito
usando una medida de tendencia central llamada mediana.
La mediana es el punto medio de los valores de una serie de datos después de haber sido
ordenados de acuerdo a su magnitud. Hay tantos valores antes que la mediana como posteriores
en el arreglo de datos.
Ejemplo:
El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de
producción son (en ml): 85.4, 85.3, 84.9, 85.4, y 84.0. ¿Cuál es la mediana de las observaciones
muestreadas?
85.4
85.4
85.3--- x%
84.9
84.0
° como la mediana poblacional; esto es, la mitad de la población se encuentra por
Se define
debajo de la ° , mientras que la otra mitad está por encima de este valor.
La mediana para datos agrupados
Cuando los datos se encuentran agrupados en una distribución de frecuencia no conocemos los
datos originales, por lo tanto es necesario estimar la mediana mediante los siguientes pasos:
1. Calcular el valor n / 2
2. Localizar el intervalo de clase donde se encuentra la mediana (intervalo mediano). Esto se hace
encontrando el primer intervalo de clase donde la frecuencia acumulada es igual o mayor que
n / 2.
3. Aplicando la siguiente fórmula con los valores del intervalo mediano:
N
2 fA
Mediana LSR c
f mediana
Ejemplo:
Calcular mediana de la siguiente distribución de frecuencia del número de meses de duración de
una muestra de 40 baterías para coche.
duración de las baterías (meses) Número de baterías
15 - 19 2
20 - 24 1
9 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
25 - 29 4
30 - 34 15
35 - 39 10
40 - 44 5
45 - 49 3
1.- n/2=40/2=20
2.- el intervalo mediano es:
LI LS LSR X F FA
15 19 19.5 17 2 2
20 24 24.5 22 1 3
25 29 29.5 27 4 7
intervalo
30 34 34.5 32 15 22
mediano
35 39 39.5 37 10 32
40 44 44.5 42 5 37
45 49 49.5 47 3 40
N= 40
N
2 fA (20 22)
Mediana LSR c 34.5 (5) 33.8
f mediana 15
Moda
La moda es la observación que se presenta con mayor frecuencia en la muestra.
Es decir, el valor más frecuente. La moda puede no existir e incluso no ser única.
10 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Si los datos son simétricos y hay una sola moda entonces la media la mediana y la moda coinciden.
Generalmente se encuentra que la moda<mediana<media si la distribución está sesgada a la
derecha, mientras que la media<mediana<moda si la distribución está sesgada a la izquierda.
Para datos agrupados en una distribución de frecuencia, la moda puede ser estimada por la marca
de clase del intervalo que contenga la frecuencia de clase más grande. Si hay dos intervalos
contiguos con frecuencia máxima la moda será la media aritmética de las dos marcas de clase. Si
hay dos o más intervalos no contiguos con frecuencia de clase máxima habrá dos o más modas
que serás las marcas de clase de dichos intervalos
11 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
En general, preferimos la media primero porque se utiliza más adelante con mucho más
frecuencia y segundo porque es más estable que la mediana y la moda, es decir de una muestra a
otra varía menos que la mediana o la moda de valores calculados en la población.
Elegiremos la mediana como medida de tendencia central cuando la distribución sea muy
sesgada, cuando tenga valores muy extremos ya que en estos casos la media se desplaza hacia las
puntuaciones extremas y no así la mediana.
Percentiles y Cuartiles
Sabemos que la mediana de la muestra la divide en dos partes iguales. Cuando se divide un
conjunto ordenado de datos en cuatro partes iguales, los puntos de división se conocen como
cuartiles.
204 228 252 300 324 444 624 720 816 912 1176 1296 1392
1488 1512 2520 2856 3192 3528 3710
1512 2520
De manera similar el tercer cuartil q3 2016
2
Cuando el conjunto ordenado de datos se divide en cien partes iguales, los puntos de división
reciben el nombre de percentiles.
Definición: el 100k-esimo percentil Pk es un valor tal, que al menos el 100k% de las observaciones
están en el valor o por debajo de él, y al menos el 100(1-k)% están en el valor o por encima de él.
Nótese que el primer cuartil q1=P0.25, el tercel cuartil q3=p0.75, y que la mediana es p0.50. El
procedimiento para encontrar el valor de cualquier percentil pk a partir de datos clasificados, es el
siguiente:
12 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
1) Encontrar el número de la posición i del percentil mediante el cálculo de nk. Si nk no es
entero, entonces i es el siguiente entero más grande. Si nk es entero entonces i es igual a
nk+.5
2) si i es entero, cuentese desde la observación más pequeña hasta hallar el i-ésimo valor. Si i
no es entero, entonces contiene una fracción igual a un medio, con lo que el valor de pK es
el promedio de las observaciones ordenadas nk y (nk+1)
Ejemplo
Se desea encontrar los percentiles 10 y 88 de los datos del ejemplo anterior.
Primero queremos calcular p0.10, nk=20(.10)=2 es un entero, el número de la posición es i=2+.5,
el cual es el promedio de las observaciones segunda y tercera. Por tanto, el percentil 10 es
p.010=(228+252)/2=240. El percentil 88 se encuentra de manera similar. Puesto que ahora
k=0.88, nk=20(0.88)=17.6, que no es entero, y el número de la posición es i=18. Por tanto, el
percentil 88 es la observación ordenada número 18, esto es p.88=3192
Ejercicio
Los datos siguientes representan la temperatura del fluido de descarga de una planta para el
tratamiento de aguas negras durante varios días consecutivos
43 47 51 48 52 50 46 49 45 52 46 51
44 49 46 51 49 45 44 50 48 50 49 50
a)Calcule la media muestral y la mediana
b) Calcule la varianza muestral y la desviación estándar muestral
c) Encuentre los percentiles 5 y 95 de la temperatura
****
Cuartiles
Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos
ordenados en cuatro partes iguales.
13 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
2, 5, 3, 6, 7, 4, 9
2, 5, 3, 4, 6, 7, 1, 9
Ejercicio de cuartiles
fi Fi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
14 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65
Deciles
Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales.
Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos.
15 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
D5 coincide con la mediana.
Ejercicio de deciles
fi Fi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65
16 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Cálculo del segundo decil
17 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Cálculo del séptimo decil
Percentiles
Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.
Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos.
18 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
En primer lugar buscamos la clase donde se encuentra , en la tabla
de las frecuencias acumuladas.
Ejercicio de percentiles
fi Fi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65
Percentil 35
Percentil 60
19 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
MEDIDAS DE DISPERSIÓN O VARIABILIDAD
El rango
La varianza
La desviación estándar
El coeficiente de variación
Para estimar el rango de una distribución de frecuencia se resta el límite inferior del intervalo de
clase más chico del límite superior del intervalo de clase más grande
Ejemplo:
Una muestra de las edades del público de un concierto se encuentra distribuida de la siguiente
manera:
15 - 19 2
20 - 24 1
25 - 29 4
30 - 34 15
20 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
35 - 39 10
40 - 44 5
45 - 49 3
Varianza
x
2
s s2
x 2
n
s2
n 1
x
2
2
x 2
N
2
N 1
Sin embargo si trabajamos con la raíz cuadrada de la varianza esto nos dará una medida de
dispersión expresada en la mismas unidades que la variable original y esto es sacar la desviación
estándar.
Por ejemplo: Considere los datos de resistencia al estallamiento obtenidos de dos muestras de 6
botellas cada una :
L a media de ambas muestras es 248. Sin embargo observe que la dispersión de la muestra es 2 es
mucho mayor que la de la muestra 1
228 51984
305 93025
240 57600
265 70225
260 67600
Suma=1488 Suma=376534
x
2
x 2
n 376534 1488 / 6
2
s
2
1502
n 1 5
Ejemplo 2
85.4 7293.16
85.3 7276.09
22 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
84.9 7208.01
85.4 7293.16
84.0 7056.00
La varianza es
x
2
(425) 2
x 2
n
36126.42
5 .355
s2
n 1 5 1
El coeficiente de variación
El coeficiente de variación es una medida de variabilidad relativa, tal que expresa la magnitud de la
desviación estándar como un porcentaje de la media. Se expresa como porcentaje en vez de las
mismas unidades que los datos. La fórmula de cálculo es,
Sx
CVx *100
x
El coeficiente de variación se utiliza para comparar variabilidad entre dos o más variables que se
miden en diferentes unidades o cuya media es muy diferente.. Por ejemplo, las siguientes cifras
son las horas de estudio de 10 alumnos para presentar un examen de Química General 1 y las
calificaciones que obtuvieron:
Horas de estudio: 7 5 10 12 10 6 18 15 4 9
Calificación: 60 44 80 75 70 65 90 90 35 65
Sustancia x S2 s CV
Un error sería comparar la variabilidad absoluta usando la varianza o la desviación estándar entre
las variables, tal que están medidas en diferentes unidades, con lo cual, podría concluirse que las
23 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
calificaciones tienen mayor variabilidad. Se podría decir que entre los alumnos existe una mayor
variabilidad con respecto a las horas de estudio en relación a las calificaciones obtenidas en el
examen de Química General 1.
Medidas de Simetría:
Las medidas de la asimetría, al igual que la curtosis, van a ser medidas de la forma de la
distribución, es frecuente que los valores de una distribución tiendan a ser similares a ambos lados
de las medidas de centralización. La simetría es importante para saber si los valores de la variable
se concentran en una determinada zona del recorrido de la variable.
24 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Esta medida es muy fácil de calcular, pero menos precisa que el coeficiente de asimetría de
Pearson. El coeficiente de asimetría de Pearson, se basa en la comparación con la media de todos
los valores de la variable, así que es una medida que se basará en las diferencias, xi x
como vimos en el caso de la dispersión si medimos la media de esas desviaciones sería nulas, si las
elevamos al cuadrado, serían siempre positivas por lo que tampoco servirían, por lo tanto
precisamos elevar esas diferencias al cubo.
Para evitar el problema de la unidad, y hacer que sea una medida escalar y por lo tanto
relativa, dividimos por el cubo de su desviación típica. Con lo que resulta la siguiente expresión:
x x
3
n fi
i
N
As i 1
3
x
x x
4
n fi
i
N
K i 1
3
Apuntes de Estadística 4
25 x
Profesora Homaira Athenea Ramírez Gutiérrez
PROBABILIDAD
Introducción
Experimento Aleatorio: experimento que puede ser repetido bajo "las mismas condiciones", del
que puede establecerse el conjunto de sus posibles resultados, pero no predecir un resultado
concreto.
Espacio muestral: Es elconjunto de posibles resultados de un experimento aleatorio. ( y se denota
por )
Punto muestral: elemento del espacio muestral.
Suceso o Evento: cualquier subconjunto del espacio muestral y lo denotamos por E
B obtenerunnumeroprimo 2,5
26 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
La probabilidad clásica se define como el número de resultados favorables a A, dividido entre el
número total de posibles resultados del experimento aleatorio, o sea:
P[A] =Número de casos favorables A/Número de casos posibles
Una desventaja importante del concepto clásico de probabilidad es su limitada aplicación, ya que
hay muchas situaciones en que las posibilidades que se presentan no pueden considerarse
igualmente probables.
Los elementos básicos de la teoría de probabilidad son los resultados del proceso o fenómeno en
estudio. Cada posible resultado de un experimento se llama evento.
Cada vez que un espacio muestral esté formado por N posibles resultados igualmente probables,
la probabilidad de cada uno de ellos será 1/N.
Probabilidades como conjuntos
1) : espacio muestral o conjunto de todos los resultados posibles.
4) Ac : el evento A no ocurre
Axiomas de Probabilidad
Axioma 1
La probabilidad de que ocurra un evento A cualquiera se encuentra entre cero y uno.
0 < P(E) < 1
Axioma 2
La probabilidad de que ocurra el espacio muestral es 1. (un evento seguro)
P( ) = 1
La probabilidad de un evento imposible es cero
Axioma 3
Si A y B son eventos mutuamente excluyentes, es decir que no tienen elementos en común,
entonces: P(A U B) = P(A) + P(B)
Si se tienen n eventos mutuamente excluyentes A1, A2, A3,.....An, entonces:
P( A1 A2 ... An ) = P(A1) + P(A2) + ... + P(An)
La probabilidad de que alguno de dos eventos pertenecientes a un mismo espacio muestral se
determina mediante la siguiente ecuación.
P( A B) P( A) P( B) P( A B)
P A B C P( A) P( B) P(C) P( A B) P( B C) P( A B C)
La probabilidad del suceso contrario de A, deber ser P(A)=1-P(Ac)
La probabilidad de que un evento dado ocurra pero no ocurra otro dado
P( A B) P( A) P( A B)
27 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Ejemplo 1: una mujer portadora de hemofilia tiene 3 hijos ¿Cuál es el espacio muestral apropiado
para estudiar la posible hemofilia de estos?
Opción a: Cada hijo puede padecer hemofilia (s) o no (n), por tanto
W1={sss, ssn, sns, nss, snn, nsn, nns, nnn}
Donde, por ejemplo, 'sns' significa el primero y el tercero la padecen y el segundo no.
Hay que asegurarse que no se olvida ninguno.
En este espacio muestral, el suceso "dos hijos padecen hemofilia" se representa
como A1={ssn, sns, nss} y el suceso "los dos primeros no la padecen" como
A2={nns, nnn}
Ejemplo: Si el experimento es lanzar un dado una vez, el espacio muestral es: S = { 1, 2, 3, 4, 5, 6 }
Si el evento A es cae un número par A = { 2, 4, 6 }
Si el evento B es cae un número menor de 3 B = { 1, 2 }
¿Cuál será la probabilidad de que suceda alguno de estos dos eventos?
Solución:
Primero identificamos que es lo que queremos, "la probabilidad de que sea par o menor de
tres",es decir, P( A U B ). Ya que identificamos lo que queremos , ahora debemos saber lo que
conocemos la probabilidad de A y la probabilidad de B es: P(A)=3/6=.50 y P(B)=2/6=.33
Para aplicar este teorema es necesario conocer la probabilidad de la intersección de estos dos
eventos A B 2 entonces P( A B )=.16
si se quiere conocer la probabilidad de la unión, o de manera inversa, conocer la probabilidad de la
unión para calcular la probabilidad de la intersección.
En este caso queremos saber la unión, entonces es necesario conocer la intersección, que es "
número par y menor de 3". Si aplicamos la regla de adición: P( A U B ) = P( A ) + P( B ) – P( A ∩ B )
P( A U B ) = 0.50 + 0.33 – 0.16 = 0.67
Ejemplo: En el experimento de lanzar un dado y registrar que cara es la de arriba, si el suceso
B=“es menor que 3” es: P(B)=2/6=0.33
P( B) 1 P( B) 1 0.33 .67
Ejercicios
1.- Si la P(A)= 0.3, P(B)=0.2 y P A B 0.1 Determine P( A ) P A B P A B
c c
2.- Cada pregunta de un examen tiene dos respuestas alternativas de las que solo
Una es correcta. Un alumno contesta al azar un examen de este tipo con 3 preguntas.
a) Construya un espacio muestral adecuado a esta experiencia
P B C
28 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
b) Calcule P(B) P, A B , P(C) y siendo
A:”El alumno contesta correctamente la primera pregunta”
B: “El alumno contesta correctamente dos de las 3 preguntas”
C:”El alumno contesta correctamente las 3 preguntas”
3.- Un experimento consiste en lanzar una moneda (perfecta) y un dado (perfecto)
Suponga que los resultados de la moneda son águila o sol. Considere los sig. eventos
A: Observar un águila y un número mayor o igual a 3
B: Observar un número par
Determine P(A), P(B), P A B y P A B
Eventos Independientes
Se refiere a dos o más eventos que podrían presentarse al mismo tiempo.
Si la ocurrencia de uno no afecta la probabilidad que suceda otro evento cualquiera, se dice que
son eventos estadísticamente independientes.
P A B P( A) P(B)
Ejemplo:
Al lanzar un dado tres veces, ¿según las probabilidades, es conveniente apostar a favor o en contra
de obtener al menos una vez el 2? "Al menos una vez el 2" quiere decir "alguna vez se obtiene el
2".Llamando A={alguna vez se obtiene el 2}, su complemento es Ac={ninguna vez se obtiene el 2}
P(Ac)=P(no sale 2 en 1er lanzam.)• P(no sale 2 en 2º lanzam.)•P(no sale 2 en 3er
lanzam.)=(5/6)•(5/6)•(5/6) =125/216 =0,58.
Luego, como P(A)+P(Ac)=1
P(A)=1-0,58=0.42=42%. Por lo tanto, no conviene apostar a favor.
Probabilidad condicional
La dependencia estadística existe cuando la probabilidad de un evento depende o está asociada a
la ocurrencia de otros eventos. La probabilidad conjunta en condiciones de dependencia
estadística:
P A B P( A) P( B A)
Ejemplo: En una tómbola hay dos bolitas blancas y tres bolitas negras, ¿cuál es la probabilidad de
sacar una blanca y después una negra?
a) Si hay reposición, esto es, después de sacar la primera bolita, ésta se devuelve a la tómbola.
b) Si no hay reposición, esto es, después de sacar la primera bolita, ésta no se devuelve a la
tómbola.
Solución:
a) En este caso los eventos son independientes ya que al reponer la bolita la ocurrencia
de un evento no afecta al otro.
Sean los eventos A: "sacar una bolita blanca" y B: "sacar una bolita negra",
entonces, usando P A B P( A) P( B) (2 / 5)(3/ 5) 6 / 25
29 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
b) Si no hay reposición, los eventos son dependientes ya que la bolita no es repuesta a
la tómbola, por lo que ocupamos P A B P( A) P( B A) =2/5·3/4=3/10
Ejercicios:
Repita el problema anterior, pero ahora la pregunta es ¿cuál es la probabilidad de sacar una
blanca y una negra? (note que ahora no importa el orden).
a) Si hay reposición, esto es, después de sacar la primera bolita, ésta se devuelve a la
tómbola
b) Si no hay reposición, esto es, después de sacar la primera bolita, ésta no se devuelve a la
tómbola.
2.- Para obtener licencia para conducir, es necesario aprobar tanto el examen teórico como el
práctico. Se sabe que la prob. que un alumno apruebe la parte teórica es 0,68, la de que apruebe
la parte práctica es 0,72 y la de que haya aprobado alguna de las dos partes es 0,82. Si se elige un
alumno al azar, ¿cuál es la prob. de que apruebe el examen para obtener licencia?
Teorema de Bayes
Si B1 , B2 ,..., Bn son n eventos mutuamente excluyentes, de los cuales uno debe de ocurrir, es
n
decir
i 1
P( Bi ) 1 , entonces
P( B j ) P( A B j )
P ( B j A) n
P( B ) P( A B )
i 1
i i
Técnicas de Conteo
Regla de producto para pares ordenados
Si el primer elemento y objeto de un par ordenado se puede seleccionar en n1 formas, y por cada
una de las n1 formas se puede seleccionar el segundo elemento del par en n2 formas, entonces el
número de pares es n 1n 2.
Ejemplo: El propietario de una casa desea efectuar algunas remodelaciones y requiere los servicios
de un contratista plomero y un contratista electricista.
Si hay 12 plomeros y 9 electricistas en la zona. ¿De cuantas formas se puede seleccionar los
contratistas? N1=12 y n2=9 asi que el producto es N=(12)(9)=108 formas posibles de escoger los
dos tipos de contratistas.
Permutaciones
30 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Para calcular las probabilidades de varios eventos es necesario contar el número de resultados
posibles de un experimento.
Una permutación es un arreglo en un orden particular, de los objetos que forman un conjunto. Por
ejemplo considere las diferentes formas en que pueden situarse las letra a,b y c.
Para la primera posición puede elegirse una de las 3 letras para la segunda cualquiera de las 2
restantes y para la tercera la letra que quedó.
Así que existe 3x2x1=6 maneras en que pueden arreglarse tres letras y estos
Areglos son: abc, acb, bac, bca, cab, cba.
En general el número de permutaciones de n objetos diferentes es:
n(n-1)(n-2)…(2)(1)=n!
El número de permutaciones de n objetos si se toma r a la vez es:
Ejemplo En muchos estados de la Unión Americana, las placas de los automóviles , se identifican
por tres letras y tres números. ¿Cuál es el número total si ninguna letra de placas puede usarse
más de una ocasión en la misma placa? ¿Cuál es el número total sin esta restricción?
Solución
Con la restricción, el número total de permutaciones que puede obtenerse con
Las 26 letras tomadas 3 a la vez es: P(26,3)=26!/23!=26x25x24x23!/23!=15600
Combinaciones
Una combinación de los objetos de un conjunto es una selección de estos sin importar el orden. Se
entenderá por el número de combinaciones de r objetos tomados de un conjunto que contiene n
de estos, al número total de selecciones distintas en la que cada una de estas tiene r objetos.
La diferencia entre una permutación y una combinación es que la primera se centra en contar
todas las posibles selecciones y todos los arreglos de éstas. Mientras que la segunda solo recae e
contar el número de selecciones diferentes
Puede obtenerse el número de combinaciones de n objetos tomando r a la vez denotado por
n P(n, r ) n!
r r! (n r )!r !
Ejemplo: Supóngase que van a enviarse cinco jueces federales a cierto Estado . El jefe del senado
estatal envía al presidente una lista que contiene los nombres de diez hombres y cuatro mujeres.
Si el presidente decide que de los cinco jueces tres deben de ser hombres y dos mujeres ¿de
cuántas maneras puede lograrse lo anterior empleando a los candidatos de la lista?
El número de maneras distintas en que pueden seleccionarse tres hombres entre diez es:
10 n! 10 x9 x8 x7!
3 (n r )!r ! 7!3!
31 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Así el número de maneras en que pueden seleccionarse dos mujeres de entre 4 es:
4 n! 4 x3x 2!
6
2 (n r )!r ! 2!2!
Nota: En una permutación, el orden de los objetos de cada posible resultado es diferente. Si el
orden de los objetos no es importante, cada uno de estos resultados se denomina combinación.
Por ejemplo, si se quiere formar un equipo de trabajo formado por 2 personas seleccionadas de un
grupo de tres (A, B y C). Si en el equipo hay dos funciones diferentes, entonces si importa el orden,
los resultados serán permutaciones. Por el contrario si en el equipo no hay funciones definidas,
entonces no importa el orden y los resultados serán combinaciones. Los resultados en ambos
casos son los siguientes:
Permutaciones: AB, AC, BA, CA, BC, CB
Combinaciones: AB, AC, BC
Combinaciones: Es el número de formas de seleccionar r objetos de un grupo de n objetos sin
importar el orden.
Ejercicios
1.-Tres componentes electrónicos - un transistor, un capacitor, y un diodo - serán ensamblados en
una tablilla de una televisión. Los componentes pueden ser ensamblados en cualquier orden. ¿De
cuantas diferentes maneras pueden ser ensamblados los tres componentes?
2.- En una compañía se quiere establecer un código de colores para identificar cada una de las 42
partes de un producto. Se quiere marcar con 3 colores de un total de 7 cada una de las partes, de
tal suerte que cada una tenga una combinación de 3 colores diferentes.
Definición: Una variable aleatoria Y se dice discreta si solamente puede tomar un conjunto
numerable de valores.
El número de bacterias por unidad de área en el estudio de control de fármacos respecto al
crecimiento bacteriano e una variable aleatoria discreta.
¿Por qué estudiar la teoría de la probabilidad? Necesitamos la probabilidad de una muestra
observada para hacer inferencias acerca de una población.
Dado que cierto tipos de variables aleatorias ocurren con mucha frecuencia en la práctica, es útil
disponer de las posibilidades para cada valor de una variable aleatoria. Este conjunto de
posibilidades se llama distribución de probabilidad.
Se utilizan mayúsculas para denotar variables aleatorias y minúsculas para denotar valores
particulares que puede tomar una variable aleatoria.
Distribuciones de Probabilidad
32 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Distribuciones aleatorias continuas (Uniforme, Exponencial, Normal, t de Student, Ji-
cuadrada y F)
Puede concebirse una distribución de probabilidad como una distribución teórica de frecuencia.
Una distribución teórica de frecuencia es una distribución de probabilidad que describe cómo se
espera que varíen los resultados del experimento
Definición. Sea S un espacio muestral sobre el que se encuentra definida una función de
probabilidad. Sea X una función de valor real definida sobre S, de manera que transforma los
resultados de S en puntos sobre la recta de los reales. Se dice entonces que X es una variable
aleatoria.
Estas dos funciones se usan para predecir el comportamiento de las variables aleatorias y se
denominan función de densidad y función de distribución acumulativa
Definición. Sea X una variable aleatoria discreta. Se llamará a p(x)=P(X=x) función de probabilidad
de la variable aleatoria X, si satisface las siguientes propiedades:
1.- P ( X ) 0
2.- x P( X ) 1
Definición: (densidad discreta) Sea X una variable aleatoria discreta. La función f de densidad
dada por f(x)=P(X=x)
Condiciones necesarias y suficientes para que una función sea una densidad discreta
1.- P ( X ) 0
f ( x) 1
2.- x
Definición. La función de distribución acumulativa de la variable aleatoria X es la probabilidad de
que X sea menor o igual a un valor específico de x y está dada por:
F ( x) P( X x) P( xi )
xi x
En general, la función de distribución acumulativa F(X) de una variable aleatoria discreta es una
función no decreciente de los valores de X, de tal manera que
1.- 0 F ( x) 1
2.- F ( xi ) F ( x j ) xi x j
3.- P( X x) 1 P( X x) 1 F ( x)
Además, puede establecerse que para variables aleatorias de valor entero se tiene que
4.- P( X x) F ( x) F ( x 1)
5.- P( xi X x j ) F ( x j ) F ( xi 1)
33 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
suponer que las células se comportan en forma independiente. Los valores posibles de Y son
{1,2,3,…}. La probabilidad de que la primera célula se fusione es ½. En otras palabras:
P[Y=1]=f(1)=1/2
La probabilidad de que la primera célula no se fusione proporciona un valor de 2 para Y, es:
P[Y=2]=f(2)=P[la primera célula no se fusione]P[la segunda célula si se fusione]=(1/2)(1/2)=1/4
En forma similar P[Y=3]=f(3)=(1/2)(1/2)(1/2)=1/8 es posible identificar una expresión de forma de
la densidad.
(1/ 2) y y=1,2,3,…
En este caso: f ( y)
0 en cualquier otro caso
Esta es una densidad porque cumple 1) y 2) una vez que se sabe que la función es una densidad,
puede usarse para responder preguntas concernientes al comportamiento de Y
Tabla
y 1 2 3 4 5 6 7
f(y)
Ejemplo
¿Cuál es la probabilidad de que sea necesaria la exposición de cuatro o más células
a linfocitos portadores de antígeno en presencia de de poli etilenglicol para obtener
la primera fusión? En otras palabras ¿Cuál es el valor de la densidad de Y es la del ejemplo
anterior y encontraremos la probabilidad buscada de la siguiente manera:
P[Y 4] 1 P[Y 4] 1 P[Y 3] = 1-(P[Y=1]+P[Y=2]+P[Y=3])=
1 1 1
2
1
3
1-(f(1)+f(2)+f(3))=1-(1/2+1/4´1/8)= 1
2 =1-7/8=1/8
2 2
34 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Un agente químico produce la decoloración del 5% de los rollos de papel producido por cierta
compañía. ¿Cuál es probabilidad de que en una muestra aleatoria de 7 rollos de papel, 1 rollo
presente decoloración debido al agente químico?.
Solución
Este problema se puede considerar como un problema de distribución binomial para el cual n=7 y
p=0,05. Por medio de la fórmula la probabilidad de 1 rollo decolorado está dada por,
7 7!
P( y 1) (0.05)1 (0.95)7 1 (0.05)(0.95) 6 0.257
1 6!1!
Por lo tanto, hay una probabilidad de 0,257 de que de los 7 rollos de papel ocurra que uno
presente decoración debido al agente químico.
Ejemplo 2
La experiencia ha demostrado que el 30% de todas las personas afectadas por cierta enfermedad,
se recupera. Una compañía farmacéutica desarrolló una nueva vacuna. Se seleccionaron al azar
10personas con la enfermedad en cuestión y se les administró la vacuna; poco después 9 se
recuperaron. Supóngase que la vacuna es absolutamente eficaz. ¿Cuál es la probabilidad de que al
menos 9 de 10 personas se recuperen?
Solución
Sea y el número de personas que se recuperen. Si la vacuna no funciona la probabilidad de que la
persona se recupere es p=0.3. Si el número de pruebas es n=10, la probabilidad de que
exactamente 9 personas se recuperen es:
10
P( y 9) (0.3)9 (0.7) 0.000138
9
De manera similar la probabilidad de que 10 personas se recuperen es:
10
P( y 10) (0.3)10 (0.7) 0 0.000006
10
Entonces P( y 9) p(9) p(10) 0.000138 0.000006 0.000144
Ejercicios
La probabilidad de que un enfermo se recupere de un padecimiento gástrico es 0.8 . Supóngase
que 20 personas han contraído tal afección.
a) ¿Cuál es la probabilidad de que sobrevivan exactamente 14?
b) ¿cuál es la probabilidad de que al menos 10 sobrevivan?
c) ¿cuál es la probabilidad de que al menos 14, pero no más de 18 sobrevivan?
d) ¿cuál es la probabilidad de que a lo más 18 sobrevivan?
35 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Propiedades binomiales negativas
1) El experimento consta de una secuencia de ensayos independientes.
2) Cada ensayo puede resultar en un éxito S o o fracaso F (cada ensayo con probabilidad p
de éxito).
3) Los ensayos se observan hasta obtener exactamente r éxitos, donde el experimentador fija
el valor de r.
4) La variable aleatoria X es el número de ensayos necesarios para lograr los r éxitos.
Definición :
Se afirma que una variable aleatoria X tiene distribución binomial negativa, con parámetros p y r,
si su densidad f está dada por:
x 1 xr r
r=1,2,3,…
f ( x) (1 p ) p x=r,r+1,r+2
r 1
Ejemplo: Las fibras de algodón usadas en los propulsores de cohetes son sometidas a un proceso
de nitración, el cual permite que las fibras de algodón entren en solución. Este proceso tiene
efectividad de 90% en cuanto a que el material producido pueda conformarse según se requiera
en una etapa anterior al proceso, con probabilidad de 0.9. ¿Cuál es la probabilidad de que se
produzca exactamente 20 lotes para obtener el tercer lote defectuoso?
Solución
En este caso el éxito es la obtención de un lote defectuoso por lo que p=0.1 y r=3. La probabilidad
de que X=20 está dada por
19
f (20) (.9)17 (.1)3
2
Distribución de probabilidad geométrica
La variable aleatoria que tiene distribución geométrica se define para un experimento que es muy
similar al experimento binomial. También se refiere a pruebas idénticas e independientes, y cada
una puede tener dos resultados, éxito o fracaso. La probabilidad de tener existo es p . Sin embargo
la variable aleatoria geométrica Y es el número de prueba en la cual ocurre el primer éxito, en
lugar del número de éxitos que ocurren en n pruebas.
El espacio muestral S para el experimento contiene el siguiente conjunto infinito
Contable de puntos muestrales.
E1: S
E2:FS
E3:FFS
E4:FFFS
.
.
Ek:FFF…FS. De modo que p(y)=P(Ey)=P(FFFF…FS)
36 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
De modo que la distribución de probabilidad geométrica
p( y) q y 1 p y=1,2,3,… 0 p 1
Ejemplo
Supongamos que la probabilidad de que falle un motor durante cualquier periodo de una hora es
p=0.02. Encuentre la probabilidad de que dicho motor funcione bien durante dos horas.
Solución
Sea Y el número de intervalos de una hora hasta la primera falla, entonces
P(de que funcione bien en dos hora)= P(Y 3) p( y)
y 3
2
P(de que funcione bien en dos hora)= 1 P(Y 2) 1 p( y) 1 p qp 1 0.02 (0.98)(0.02) .9604
y 1
Un explorador de petróleo perforará una serie de pozos en cierta área para encontrar un pozo
productivo. La probabilidad de que tenga éxito en una prueba es 0.2.
a) ¿Cuál es la probabilidad de que el primer pozo productivo sea el tercer pozo
perforado?
b) ¿Cuál es la probabilidad de que el explorador no vaya a encontrar un pozo
productivo si solamente puede perforarse a lo más 10 pozos
Ya que un muestreo aleatorio implica que todos los puntos muestrales son equiprobables.
El número total de puntos muestrales en el evento numérico Y=y sería el número de puntos
muestrales de S que contienen y elementos rojos y (n-y) elementos Negros.
Distribución de probabilidad hipergeométrica
r N r
y entero 0,1,2,…,n
y n y
p ( y ) yr
N
37 Apuntes de Estadística
n Ramírez Gutiérrez
Profesora Homaira Athenea
n y N r
Ejemplo:
Se seleccionan 10 personas para un trabajo de un grupo de 20 ingenieros con doctorado. ¿Cuál es l
probabilidad de que el grupo de los 10 ingenieros seleccionados incluya a los cinco mejores del
grupo de20?
Solución:
En este ejemplo N=20, n=10 y r=5. Es decir , hay solamente 5 del conjunto de los mejores
ingenieros y buscamos la probabilidad de que Y=5, siendo Y el número de los mejores ingenieros
entre los 10 seleccionados.
5 15
15! 10!10!
p (5)
5 5 21
0.0162
20 5!10! 20! 1292
10
Ejercicio
En un almacén se tienen 10 impresoras, de las cuales cuatro son defectuosas. Una compañía
selecciona 5 de las máquinas al azar, suponiendo que todas funcionan bien. ¿Cuál es la
probabilidad de que las 5 máquinas sean no defectuosas?
e x
f ( x)
x!
Pasos en la solución de un problema de Poisson:
1.-Determinar la unidad de medición básica que se usa
2.-Determinar el número promedio de casos del evento por unidad. Este número se denota con
38 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
3.-Determinar la magnitud o el tamaño del periodo de observación. Se denota por s.
4.-La variable aleatoria X, el número de ocurrencias del evento en el intervalo de tamaño s
corresponde a una distribución de Poisson, con parámetro k s
Ejemplo1. Supóngase que partículas radiactivas dan en cierto blanco a una tasa promedio de 3
partículas por minuto. ¿Cuál es la probabilidad de que 2 partículas den en el blanco durante un
minuto cualquiera?.
Solución:
Aplicando la fórmula, se puede calcular la probabilidad de exactamente dos partículas:
32 e3
p( x 2) 0.224
2!
Ejemplo2:
El número de glóbulos blancos de un individuo sano puede promediar apenas 6000 células por
milímetro cúbico de sangre. A fin de identificar la deficiencia de glóbulos blancos se toma una gota
de 0.001 milímetros cúbicos de sangre y se cuenta el número de glóbulos blancos, X. ¿Cuántos
glóbulos blancos se esperarían en una persona sana ? Si se identificaron cuando mucho 2, ¿es ello
un signo de deficiencia de glóbulos blancos?
Solución:
El evento discreto de interés es la presencia de glóbulos blancos, y el intervalo continuo, la gota de
sangre, sea la unidad de medición el milímetro cúbico entonces s=0.001 y 6000
¿Cuan frecuente es que haya cuando mucho dos? Es decir P ( X 2)
2 2
e6 6 x e6 60 e6 61 e6 62
P( X 2) f ( x)
x 0 x 0 x! 0! 1! 2!
Ejemplo:
Cierto tipo de árboles tiene retoños dispersos de manera aleatoria sobre un área extensa, con una
densidad promedio de retoños de aproximadamente cinco por yarda cuadrada. Encuentre la
probabilidad de que un guardabosques, al escoger al azar 10 porciones de una yarda cuadrada en
esa área, no encuentre retoño alguno en ninguna de las porciones.
Solución.
Si la distribución de un retoño es realmente aleatoria, entonces el número de retoños por región Y
se puede representar por una variable aleatoria de Poisson con 5 (la densidad promedio es
de cinco por yarda cuadrada) Entonces
50 e 5
P(Y 0) p (0) e 5
0!
Esperanza Matemática
Un concepto general es la esperanza matemática o el valor esperado, lo que se requiere es el valor
promedio teórico a largo plazo de X.
39 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Definición: Sea Y una variable aleatoria discreta con función de probabilidad P(y). Entonces, el
valor esperado de Y, E(Y), está definido por
E (Y ) yp ( y )
y
Definición: La varianza de una variable aleatoria Y está definida como el valor esperado de
V (Y ) E[(Y )2 ]
Ejemplo
Encuentre la media, la varianza y la desviación estándar de la variable aleatoria Y, cuya distribución
de probabilidad se da en la siguiente tabla
Tabla
y P(y)
0 1/8
1 ¼
2 3/8
3 1/4
40 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
3
E (Y ) yp( y) (0)(1/ 8) (1)(1/ 4) 2(3/ 8) (3)(1/ 4) 1.75
y 0
3
E[(Y )2 ] ( y ) 2 p( y )
2
y 0
2 0.9375 0.97
Toda variable aleatoria se relaciona con constantes y parámetros que son descriptivos. Se
consideran 3 parámetros a saber, la media, la varianza y la desviación estándar.
Esto es, la probabilidad de que X tome un valor en el intervalo [a,b] es el área bajo la gráfica de la
función de densidad.
Para que f(x) sea una pdf legítima, debe satisfacer las siguientes dos condiciones
1.- f ( x ) 0 para toda x
2.-
f ( x)dx 1 área bajo toda la gráfica de f(x)
Proposición: Sea X una va continua con pdf f(x) y cdf F(x). Entonces para cualquier número a,
P( X a) 1 P( X a) 1 F (a)
41 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Vea las siguientes figuras
Definición: El valor esperado o valor medio de una va X continua con pdf f(x) es
x E( X ) xf ( x)dx
Definición: La varianza de una va X continua con pdf f(x) y valor medio esperado
V (X ) (x ) f ( x)dx E[( X ) 2 ]
2 2
x
Proposición: V ( X ) E[ X 2 ] [ E ( X )]2
La desviación estándar de X es x V (X )
Distribución de probabilidad uniforme
Def: Se dice que X es una va continua tiene una distribución uniforme en el intervalo [A,B] si la pdf
de X es:
1 A x B
f ( x; A, B) B A
0
deotro mod o
Ejemplo:
1 3 7
Si 0 x 10 entonces f ( x) y f(x)=0 en otro caso. Si queremos P x
b
10 7 2
recuerde que P ( a X b) f ( x)dx
a
42 Apuntes
3 de Estadística
7
7/2
1
7/2
2
P xHomaira
Profesora
7
Athenea
2
3/ 2
x Gutiérrez
f ( x)dxRamírez
10 3/ 2 10
Así que
Definición: (Función Ji cuadrada). La función , definida por :
( ) z 1e z dz
0
Densidad Exponencial
f ( x)
1
e x / x, 0
Ejemplo:
Algunas cepas paramecios producen y secretan partículas “asesinas”, que causan al contacto la
muerte de un individuo sensible. Todos los paramecios incapaces de producir dichas partículas son
sensibles. El número medio de partículas asesinas emitido por un paramecio asesino es de cada 5
horas. En la observación de estos paramecios, ¿Cuál es la probabilidad de que se deban esperarse
cando mucho 4 horas antes de que se emita la primera partícula?
Solución
1 1
Tiene una distribución exponencial con 5 . Así que f ( w) e w / 5 y la probabilidad
5
4
1
P W 4 e w / 5 dw e
4
w/5 0
que nos interesa es: 1 e 4 / 5 0.5507
0
5
Distribución Ji-cuadrada y F
Definición: (Distribución Ji-cuadrada). Sea X una variable aleatoria gamma con 2 y / 2 ,
donde es un entero positivo. Se afirma que X tiene una distribución Ji-cuadrada con
grados de libertad. Esta variable se denota por
2
f ( x; , )
1
e ( x ) /(2 )
2 2
x
2
Distribución Normal Estándar
1
f ( z;0,1) e z /(2)
2
2
z
z
La cdf de X es P( Z z )
f ( y;0,1)dy La cual señalamos como ( z )
límite de la distribución de
X
Z
/ n
Cuando n , es la distribución normal estándar.
44 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Ejemplo 1. Suponga que el tiempo medio de reacción de una sustancia es de 30 segundos y la
desviación estándar de 4 segundos. ¿Cuál es la probabilidad de que en cierto experimento, la
reacción se produzca en menos de 25 segundos?.
Solución:
25 30
P( x 25) P Z P( Z 1.25) 0.10565
4
Distribución t de Student
El hecho fue reconocido por W. S. Gosset, un químico irlandés que en 1908 publicó, bajo el
pseudónimo de Student, un trabajo titulado “El error probable de una medida”. En parte por
consideraciones teóricas y, en parte, por el uso de muestras aleatorias, obtuvo la distribución
teórica del promedio de tamaños de muestra pequeñas (n≤30), ajustada a una distribución
normal.
La distribución de Student tiene propiedades parecidas a N(0,1):
• Es de media cero, y simétrica con respecto a la misma;
• Es algo más dispersa que la normal, pero la varianza decrece hasta 1 cuando el número de
grados de libertad aumenta
45 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
• Para un tamaño de muestra grande se puede aproximar la distribución de Student por la normal.
Estimación
Definición: Un estadístico es una función de las variables aleatorias que se pueden observar en
una muestra y de las constantes conocidas. Los estadísticos se utilizan para hacer inferencias
(estimaciones o decisiones) con respecto a parámetros poblacionales conocidos.
Un estadístico es en si una variable aleatoria, por consiguiente deduciremos su distribución de
probabilidad, que llamaremos distribución muestral.
Hay dos tipos de estimación; puntual y por intervalo. Una estimación puntual utiliza un solo valor
de la muestra para estimar el parámetro de la población de estudio. Por ejemplo, la media de la
muestra x es una estimación puntual de la media μ de la población. La variancia s2 de la
muestra es una estimación puntual de la variancia σ2 de la población.
Consistencia
Cuando el tamaño de la muestra crece, el valor estimado se aproxima al parámetro desconocido.
Insesgado
Un estimador es insesgado cuando su esperanza matemática coincide con el valor del parámetro
poblacional. A efectos de esta aplicación un estimador será insesgado cuando al repetirse el
proceso de muestreo, mediante reiteraciones1, un número suficiente de veces la diferencia entre
el valor medio de estas reiteraciones y el valor objetivo poblacional converja a cero.
Se dice que un estimador $ de un parámetro θ es insesgado si:
E($)
Definición: El sesgo B de estimador puntual $ está dado por B E ($)
Eficiencia
46 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Al estimador, al ser v.a., no puede exigírsele que para una muestra cualquiera se obtenga como
estimación el valor exacto del parámetro. Sin embargo, se puede esperar que su dispersión con
respecto al valor central (varianza) sea tan pequeña como sea posible.
Entonces dado µ 1
y µ 2
de un mismo parámetro es más eficientes µ1 que µ 2 si:
Var (µ µ
1 ) Var ( 2 )
Una distribución muestral es la distribución de todos los posibles valores del estadístico de la
muestra, que se pueden obtener de la población para un determinado tamaño de muestra.
Estimadores puntuales
10
y desviación estándar x 2
n 25
95 100
Estandarizando el punto X 95 se tienen que z 2.5
2
95 100
z 2.5
2
Apuntes de Estadística
47
Profesora Homaira Athenea Ramírez Gutiérrez
y por lo tanto
12 22
y varianza 2 x x 2 x 2 x
1 2 1 2
n1 n2
Así que si se tienen dos poblaciones independientes con medias , 1 y 2 y varianzas 1 , 2
2 2
Ejemplo:
La vida eficaz de un componente utilizado en la turbina de una aeronave es una v.a. con media
5000 hras. Y desviación estándar de 40 horas. La distribución de la vida eficaz es muy próxima a
48 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
X 2 X1
una distribución normal. El fabricante de la turbina introduce una mejora en el proceso de
fabricación de este ccomponente, que aumenta el tiempo de vida útil promedio a 5050 hras y
disminuye la desviación estándar a 30 horas. Supóngase que se toma del proceso antinuguo
n₁=16 componentes y una muestra aleatoria del proceso mejorado de n₂ =25 componentes. ¿cuál
es la probabilidad de que la diferencia entre las dos medias muestrales sea al menos
25 horas?
Solución
1 40
Para X 1 con media 1 5000hras y desviación estándar 10hras
n1 16
2 30
Para X2 con media 2 5050hras y desviación estándar 6hras
n2 25
25 30
Así que P( X 2 X 1 25) P Z P( Z 2.14) 0.9838
136
Teorema: Sean y1 , y2 ,..., yn una muestra aleatoria de tamaño n de una distribución normal con
1 n Yi
n 2
Yi Y (n 1)2 S
2 2
2
i 1
tiene una distribución con (n-1) grados de libertad. Y y S 2 son también variables
2
aleatorias independientes.
Como ejemplo de una v.a. que sigue una distibución ji-cuadrada, supóngase que y1 , y2 ,..., yn es
una muestra de una población normal con media y varianza 2 . La función de la varianza
( n 1) S 2 n 12
muestral es está distribuida como
2
49 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Ejemplo:
Al fabricante de un agente propulsor utilizado en sistemas de escape de emergencia de
aeronaves, le gustaría afirmar que su producto tiene una tasa promedio de combustión de 40 in
por minuto. Para investigar esta afirmación, el fabricante prueba 25 granos de propulsor
seleccionados al azar, y si el valor calculado de T cae entre t0.05,24 y t0.05,24 , entonces queda
satisfecho. ¿A que conclusión debe llegar el fabricante si tiene una muestra con una media de
in/min y una desviación estándar s=0.75in/min? Supóngase que la tasa de combustión tiene una
distribución normal.
Solución
t0.05,24 1.711 de modo que t tendrá que caer entre -1.711 y 1.711 para que el fabricante quede
satisfecho, pero si sacamos t obtenemos que T X 42.5 40 16.67 que es un valor
S/ n 0.75 / 25
que excede por mucho a 1.711.
12 / v1
F
22 / v2
Se dice que tiene una distribución F con v1 grados de libertad del numerador y v2 grados de
libertad en el denominador.
Teorema del límite central
Sean y1 , y2 ,..., yn variables aleatorias independientes y distribuidas idénticamente con E (Yi )
y V (Yi ) Definimos U n n Y donde y 1 yi
2 n
n i 1
Hay otro método para hacer una estimación mucho más precisa, la estimación por intervalos de
confianza.
Al procedimiento de encontrar un intervalo de valores dentro del cual se espera que se encuentre
un parámetro poblacional es conocido como estimación por intervalos de confianza.
El nivel de confianza es la probabilidad de que el parámetro poblacional se encuentre dentro del
intervalo. Los niveles de confianza más ampliamente usados son 0.95 y 0.99, sin embargo puede
usarse cualquier probabilidad cercana a 1.
50 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Para entender mejor el concepto de intervalo de confianza vamos a suponer que seleccionamos
100 muestras de una población y calculamos la media de las muestras e intervalos de confianza
del 95% para cada muestra. Descubriremos que cerca de 95 de los 100 intervalos de confianza
contienen la media poblacional.
Pasos para construir un intervalo de confianza.
1. Establecer el nivel de confianza.
2. Determinar el valor de la variable aleatoria estándar.
3. Calcular los estadísticos de la muestra.
4. Calcular el error estándar.
5. Calcular el error máximo de estimación.
6. Determinar los límites del intervalo de confianza e interpretar.
Intervalos de confianza
La estimación por intervalo de confianza consiste en determinar un posible rango de valores o
intervalo, en los que pueda precisarse –con una determinada probabilidad– que el valor de un
parámetro se encuentra dentro de esos límites.
A la probabilidad de acertar al decir que el parámetro estaba contenido en dicho intervalo se la
denomina nivel de confianza.
Intervalos de confianza del 95% para la media de una población media verdadera μ=20
51 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Si es la media muestral de una muestra aleatoria de tamaño n de una población con varianza
conocida , un intervalo de confianza para del 100(1 ) por ciento está dada por
2
x z / 2 x z / 2
n n
Ejemplo
Considérese los datos de conductividad térmica ara el hierro Armco del ejemplo anterior.
Supóngase que se desea encontrar un intervalo de confianza del 95% para conductividad térmica
promedio de este material, y que se sabe que la desviación estándar de la conductividad térmica a
100ºF y 550W es 0.30 Btu/hr-ft-ºF. Si se sabe que la conductividad térmica
Está distribuida de manera normal.
Solución
x z / 2 x z / 2
n n
41.728 42.110
Ejemplo 2
Un artículo publicado en el Journal of Testing and Evaluation presenta las siguientes 20 mediciones
del tiempo de combustión residual ( en según dos ) de especímenes tratados de ropa de dormir
para niños:
9.85 9.93 9.75 9.77 9.67 9.87 9.67 9.94 9.85 9.75
9.83 9.92 9.74 9.99 9.88 9.95 9.95 9.93 9.92 9.89
Solución
La media y la desviación muestrales son: x 9.8525, s 0.0965
Así que los límites de confianza del 95% inferior y superior son:
s
li x t / 2, n 1 9.8525 2.093(0.0965) / 20 9.8073seg
n
s
ls x t / 2, n 1 9.8525 2.093(0.0965) / 20 9.8977 seg
n
52 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Por lo tanto, se tiene una confianza del 95% de que el tiempo de combustión residual promedio se
encuentra entre 9.8073 y 9.8977
Tamaño de la muestra
Si x se utiliza como estimación de , entonces puede tenerse una confianza de 100(1 )por
ciento de que el error x no será mayor que una cantidad específica E cuando el tamaño de
la muestra sea
z / 2
2
n
E
Ejercicios
1.-Un ingeniero civil analiza la resistencia a la comprensión del concreto. La resistencia está
distribuida aproximadamente de manera normal, con una varianza 2 1000( psi) 2 . Al tomar
una muestra aleatoria de 12 especímenes, se tiene que x 3250 psi
Ejemplo:
Un articulo publicado en el journal presenta las siguientes 20 mediciones del tiempo de
combustible residual (en segundos) de especímenes tratados de ropa de dormir para niños
53 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
9.85 9.93 9.75 9.77 9.67
9.87 9.67 9.94 9.85 9.75
9.83 9.92 9.74 9.99 9.88
9.95 9.95 9.93 9.92 9.89
Se desea encontrar un intervalo de confianza del 95% para el tiempo de combustible residual
promedio
Intervalos de confianza para la diferencia de medias
Intervalo de confianza para la diferencia de medias, varianzas conocidas
Si x1 y x2 son las medias de dos muestras aleatorias independientes n1 y n2 tomadas
de poblaciones que tienen varianzas conocidas 1 y 22 respectivamente, entonces un
2
Ejemplo:
Se llevan a cabo pruebas de resistencia a la tensión sobre dos diferentes clases de largueros de
aluminio utilizados en la fabricación de alas de aeroplanos comerciales . De la experiencia pasada
con el proceso de fabricación delargueros y del procedimiento de prueba, se supone que las
desviaciones estándar de las resistencias a la tensión son conocidas. Los datos obtenidos aparecen
en la tabla
1 10 87.6 1.0
2 12 74.5 1.5
54 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
de las dos muestras son iguales (n1 n2 n) entonces puede determinarse el tamaño de la
muestra de modo que se tenga una confianza de 100(1 ) por ciento n que el error en la
estimación de 1 2 por x1 x2 sea menos que E. El tamaño requerido para la muestra
de cada población. 2
Z
n /2
E
1
2
22
HASTA AK SE QUEDARON
1 1 1 1
x1 x 2 t / 2,n1 n2 2 S p 1 2 x1 x 2 t / 2,n1 n2 2 S p
n1 n2 n1 n2
55 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Supóngase que el porcentaje de calcio está distribuido de manera normal. Encuéntrese un
intervalo del 95% para la diferencia de 1 2 de los dos tipos de cementos.
Donde v 2
( S1 / n1 ) 2 ( S 22 / n2 ) 2
n1 1 n2 1
al porcentaje /2 de la distribución t con v grados de libertad.
Ejercicio
Se piensa que la concentración del ingrediente activo de un detergente líquido para ropa, es
afectada por el tipo de catalizador utilizado en el proceso de fabricación. Se sabe que la desviación
estándar de la concentración activa es de 3g/l, sin importar el tipo de catalizador utilizado. Se
realizan 10 observaciones con cada catalizador, y se obtienen los datos siguientes:
Catalizador 1 57.9 66.2 65.4 65.4 65.2 62.6 67.6 63.7 67.2 71.0
Catalizador 2 66.4 71.7 70.3 69.3 64.8 69.6 68.6 69.4 65.3 68.8
Suponga que la concentración activa está distribuida normalmente, y que la varianza de la
concentración activa de ambos tipos de catalizador es desconocida
a) Encuentre un intervalo de confianza del 95% para la diferencia entre las medias de las
concentraciones activas, suponiendo que ambas varianzas son iguales
b)Encuentre un intervalo de confianza del 95% para la diferencia entre las concentraciones
activas promedio, suponiendo que las varianzas no son iguales. Compare este intervalo con el del
a). ¿Cuán diferentes son los intervalos?
2 (n 1)S 2
P 1 / 2,n1 2 / 2,n1 1
2
(n 1) S 2 (n 1) S 2
P 2 2 2 1
1 / 2, n 1 / 2, n 1
Donde 1 / 2,n1 y / 2,n1 son los puntos críticos superior e inferior que corresponden al
2 2
Respectivamente.
Ejemplo
57 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Sabemos que es un estimado puntual de la proporción de la población, note que n y p
son parámetros de una distribución binomial, y se sabe que la distribución de muestreo de µ
p es
aproximadamente normal con media p y varianza p(1-p)/n . Por lo tanto la distribución de
µ
p p
Z
µ
p (1 µ
p)
n
Así que para construir el intervalo de confianza para p
P(Z / 2 Z Z / 2 ) 1
µ
p p
P( Z / 2 Z / 2 ) 1
µ
p(1 µ
p)
n
µ
p(1 µ
p) µ
p(1 µ
p)
P( µ
p Z / 2 pµ
p Z / 2 ) 1
n n
µ
p(1 µ
p) µ
p(1 µ
p)
Por lo que el intervalo de confianza es: µ
p Z / 2 pµ
p Z / 2
n n
Ejemplo
Solución
µ
p(1 µ
p) µ
p(1 µ
p)
µ
p Z / 2 pµ
p Z / 2
n n
0.12(.88) .12(.88)
0.12 1.96 p 0.12 1.96
85 85
58 0.05 p 0.19
Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Selección del tamaño de la muestra
µ µ
Puesto que p es el estimador de p, puede definirse el error de estimar p por p como E p µ
p
µ
p1 µ p 2 ( p1 p2 )
Z
p1 (1 p1 ) p2 (1 p2 )
n1 n2
De modo que para encontrar el intervalo de confianza aproximado de 100(1 ) por ciento para
p1 p2
µ
p (1 µ
p1 ) µ
p (1 µ
p2 ) µ
p (1 µ
p1 ) µ
p (1 µ
p2 )
µ
p1 µ
p 2 Z / 2 1 2 p1 p2 µ
p1 µ
p 2 Z / 2 1 2
n1 n2 n1 n2
Prueba de hipótesis
Def: Una prueba de hipótesis estadística es una proposición sobre los parámetros de una o más
poblaciones.
H 0 : 0
59 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
La proposición se conoce como hipótesis alternativa.
En algunas ocasiones lo que se desea es formular una hipótesis alternativa unilateral es decir:
H 0 : 0 O H 0 : 0
H1 : 0 H1 : 0
Def: El error de tipo I se define como el rechazo de la hipótesis nula H 0 cuando esta es
verdadera.
Def: El error tipo II se define como la aceptación de la hipótesis nula cuando esta es falsa.
60 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Prueba de hipótesis sobre la media, varianza conocida
H 0 : 0
H1 : 0
Z0 Z / 2 o Z0 Z / 2
Z / 2 Z0 Z / 2
Ejemplo
Los sistemas de escape de emergencia para tripulaciones de aeronaves son impulsados por un
combustible sólido. Una de las características importantes de este producto es la rapidez de
combustión. Las especificaciones requieren que la rapidez promedio de combustión sea 50cm/s.
Se sabe que la desviación estándar es 2cm / s . El experimentador decide especificar un nivel
de confianza de 0.05 . Selecciona una muestra aleatoria de n=25 y obtiene una rapidez
promedio muestral de combustión de x 51.3cm / s . ¿A que conclusión debe llegar?
61 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Solución
6.- Dado que z₀=3.25>1.96, se rechaza H₀: 50 con un nivel de significancia de 0.05. Se
concluye que con base en una muestra de 25 mediciones, la rapidez promedio de combustión es
diferente de 50cm/s. De hecho, existe una evidencia fuerte que la rapidez promedio de
combustión es mayor que 50cm/s
La región crítica debe colocarse en la cola superior de la distribución normal estándar y el rechazo
de H₀ se hará cuando el valor calculado de z₀ sea muy grande. Esto es, H₀ será rechazada si Z0 Z
.
H₀ será rechazada si Z 0 Z
62 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Ejemplo
Un investigador desea contrastar la hipótesis que el límite de concentración del isótopo radiactivo
estroncio 90 en la leche es de 5 por litro. Para tal efecto, selecciona aleatoriamente una muestra
de lecherías. La hipótesis nula considera el límite de referencia μ=5, contra la hipótesis alternativa
que es mayor a 5.
Para verificar si las especificaciones se cumplían en cierta región del
país, fueron seleccionadas aleatoriamente 40 lecherías, encontrándose una media aritmética de
5,4 y una desviación estándar de la muestra de 0,493 por litro. ¿Existe una diferencia en la
concentración promedio con el límite tolerable?. Realizar la prueba con un nivel de confianza del
90%.
H0 : 5
H1 : 5
5.4 5 0.4
Z obs 5.13
.493/ 40 0.07795
El valor teórico de la distribución normal al nivel significancia establecido de 0,10, resulta
aproximadamente 1,64. Dado que 5,13 es mayor a 1,64, entonces la decisión sería rechazar la
hipótesis nula H₀.
La conclusión a que se llegaría al nivel de confianza del 90% es que la concentración del isótopo
radiactivo estroncio 90 en todas las lecherías es significativamente mayor al límite tolerable.
63 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Prueba de hipótesis alternativa bilateral
H 0 : 0
H1 : 0
Se rechaza H₀ si t0 t / 2, n 1 o t0 t / 2,n 1
Se rechaza H₀ si t0 t ,n 1
H 0 : 20
H1 : 20
x 0 20.7 20 0.7
tobs 3.34
s/ n .469 / 5 0.2097
Dado que el valor teórico determinado con la tabla t de Student para un área de 0,025 en cada
cola de la distribución con 4 grados de libertad es 2,7764, entonces se rechaza H₀ ya que
t₀=3.34>2.77
64 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Prueba de hipótesis sobre las medias de dos distribuciones normales, varianzas conocidas
Se desea probar H 0 : 1 2
H1 : 1 2
Para ello se tiene la distribución del siguiente estadístico de prueba calculado bajo el supuesto que
las poblaciones (o variables consideradas en cada población) tienen aproximadamente una
distribución normal y las variancias poblacionales son conocidas
x1 x 2 ( 1 2 )
Z0
12 22
n1 n2
Se desea probar
H 0 : 1 2
65 H1 : 1 2
Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Se desea probar
H 0 : 1 2
H1 : 1 2
66 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Prueba de hipótesis sobre las medias de dos distribuciones normales, varianzas desconocidas
Caso 1: 1 2
2 2 2
Supóngase que se tienen dos poblaciones normales independientes con medias desconocidas,
varianzas desconocidas pero iguales.
H 0 : 1 2
Se desea probar
H1 : 1 2
S 2
n1 1 s12 n2 1 s22
Donde p
n1 n2 2
Por lo que se rechaza H₀ si t0 t / 2,n1 n2 2 o t0 t / 2,n1 n2 2
De manera similar se tratan las alternativas unilaterales
H 0 : 1 2
Para probar
H1 : 1 2
Se rechaza H₀ si t0 t , n1 n2 2
H 0 : 1 2
Para probar
H1 : 1 2
Se rechaza H₀ si t0 t , n1 n2 2
Ejemplo
x2 92.733 s2 2.98
67 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
, ¿Existe alguna diferencia entre los rendimientos promedio? Utilice
Prueba de hipótesis sobre las medias de dos distribuciones normales, varianzas desconocidas
Caso 1: 12 22
Supóngase que se tienen dos poblaciones normales independientes con medias desconocidas,
varianzas desconocidas pero iguales.
H 0 : 1 2
Se desea probar
H1 : 1 2
x1 x 2
Se calcula el estadístico de prueba T0*
S 22 S 22
n1 n2
Tiene una distribución t con grados de libertad dados por
S / n1 S 22 / n2
2 2
v 2
1
( S12 / n1 ) 2 ( S 22 / n2 ) 2
n1 1 n2 1
Por lo que se rechaza H₀ si t0 t / 2, n1 n2 2 o t0 t / 2,n1 n2 2
Se rechaza H₀ si t0 t , n1 n2 2
Para probar H :
0 1 2
H1 : 1 2
Ejemplo
68 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Con 0.10 , se desea determinar si existe alguna diferencia significativa en el flujo de
corriente promedio entre los dos diseños, supongamos que 1 2
2 2
Solución
Los parámetros de interés son los flujos de corriente promedio de los circuitos diseños μ₁ y μ₂
H 0 : 1 2
H1 : 1 2
α=0.10
2
10 20
S / n1 S / n2
2 2 2
v 2
1 2
2 15 10 2 16.17 16
2 2 2
( S1 / n1 ) ( S2 / n2 ) (20 /15) 2 (20 /10) 2
n1 1 n2 1 16 11
t / 2,n 1 t0.05,16 1.746
Puesto -1.746<0.18<1.746 no es posible rechazar H₀ con el nivel de significancia de 0.10. Esto es
no hay evidencia fuerte que indique que el flujo de corriente promedio de los dos diseños sea
diferente.
69 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
No es posible considerar a X e Y como variables independientes ya que va a existir una
dependencia clara entre las dos variables. Cuando se quiere contrastar el que los pacientes han
experimentado o no una mejoría con el tratamiento, simbólicamente di es la diferencia entre las
observaciones antes y después del tratamiento.
di xi yi
Suponga que la v.a. que define la diferencia entre el antes y después del tratamiento es una v.a.
que se distribuye normalmente, pero cuyas media y varianza son desconocidas.
Debe rechazarse H₀ si el valor calculado del estadístico tobs t / 2,n 1 o tobs t / 2, n 1 . Las
alternativas unilaterales se tratan igual que en el caso usual de la prueba de t.
70 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Se desea determinar si existe diferencia en los análisis de los laboratorios.
En este caso, Δ=0, donde las hipótesis nula y alternativa pueden expresarse como sigue:
71 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
de modo que,
Supóngase que se desea probar la hipótesis de que la varianza de una población normal es igual a
un valor específico por ejemplo 0 . Para probar
2
H 0 : 2 02
H1 : 2 02
Para probar H 0 : 2 02
H1 : 2 02
Se rechaza H₀ si 0 ,n1
2 2
Para probar H 0 : 2 02
H1 : 2 02
72 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Ejemplo
Considérese el ejemplo anterior de la máquina de llenado de botellas que se tomó una muestra de
20 botellas y con una varianza muestral de s 2 0.0153 . Si la varianza del volumen de llenado es
mayor a 0.01, entonces existe una proporción inaceptable de botellas que serán llenadas con una
cantidad menor de líquido. ¿Existe evidencia en los datos muestrales que suefiera que el
fabricante tiene un problema con el llenado de las botellas? Utilícese 0.05
Solución
Considérese la prueba
H 0 : p p0
H1 : p p0
Se calcula el estadístico de prueba
X np0
Z
np0 (1 p0 )
Y se rechaza H₀ si Z 0 Z / 2 o Z0 Z / 2
Las regiones críticas para las hipótesis alternativas unilaterales se construyen de la manera usual.
Ejemplo.
Una compañía farmacéutica afirma que un antibiótico tiene 80% de efectividad. Se somete a
prueba una muestra aleatoria de 50 casos de estudio y se obtiene una proporción de 75,7%.
73 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
¿Presentan los datos suficiente evidencia para refutar la afirmación de la compañía?. Para este
problema, si se selecciona un nivel de significación α de 0,05.
Las hipótesis nula y alternativa para este problema se pueden expresar
como sigue:
Al 95% de confianza el valor teórico Z es -1,645; por tanto, la hipótesis nula no se rechazaría
porque el estadístico de prueba(-0,76) no ha caído en la región de rechazo, o simplemente
comparando los valores absolutos, se observa que 1,645 es mayor 0,76. Se llegaría a la conclusión
de que no hay suficiente evidencia para refutar la afirmación de la compañía.
µ
p1 µ p 2 ( p1 p2 )
Z
p1 (1 p1 ) p2 (1 p2 )
n1 n2
µ X1 X 2
P
n1 n2
El estadístico de prueba es:
µ
p1 µp2
Z
µ
p1 (1 µ
p1 ) µp (1 µ
p2 )
2
n1 n2
Ejemplo. Una planta de energía eléctrica operada con carbón ha considerado dos sistemas
diferentes para reducir la contaminación del aire. El primer sistema redujo la emisión de
74 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
contaminantes a niveles de 68% del tiempo, según se determinó de 200 muestras de aire. El
segundo sistema, a niveles de 76% de las veces, según quedó determinado en 250 muestras de
aire. ¿Pruebe la hipótesis de que no hay diferencia entre los sistemas, aun nivel de confianza de
97,5%?.
Las hipótesis nula y alternativa para este problema son:
El valor teórico de la prueba con dos colas según la distribución normal estándar para una
confianza del 97,5% es ±2,24. Resulta que -1,876 >-2,24, por tanto, se toma la decisión de no
rechazar H0. La conclusión es que no hay pruebas de diferencias entre los sistemas en la reducción
de la contaminación del aire, a un nivel de confianza del 95%.
Ejercicio
Se evalúan dos tipos diferentes de soluciones para pulir, para su posible uso en una operación de
pulido en la fabricación de lentes intraoculares utilizados en el ojo humano después de una cirugía
de cataratas. Se pulen 300 lentes con la primera solución y de estos, 253 no presentaron defectos
inducidos por el pulido. Después se pulen otros 300 lentes con la segunda solución, de los cuales
196 resultan satisfactorios. ¿existe alguna razón para creer que las dos soluciones para pulir son
diferentes? Utilícese α=0.01
E (Y x) Y x 0 1 x
Y=β₀+ β₁x+ε
Donde ε es un error aleatorio con media 0 y varianza . Supóngase que se tiene n pares de
2
La siguiente figura contiene una representación gráfica de la dispersión de los datos observados y
un candidato para la recta de regresión.
Las estimaciones de β₀ y β₁ deben dar como resultado una línea que se ajuste mejor a los datos. El
científico alemán Karl Gauss propuso estimar los parámetros β₀ y β₁ de modo que se minimice la
suma de los cuadrados de las desviaciones verticales de la figura.
Este criterio para estimar los coeficientes de regresión se conoce como el método de mínimo
cuadrados.
Y la suma de los cuadrados de las desviaciones de las observaciones con respecto a la recta de
regresión es: n n
L i2 yi o 1 xi
2
i 1 i 1
L
n
2 yi ¶0
µx 0
0
1 i
¶0 , µ i 1
1
L
n
2 yi
¶ µx x 0
1Estadística
0 1 i i
76 Apuntes de ¶ ,
0
µ
1
i 1
i 1 i 1 i 1
n ….(*)
µ i 1
1 2
n
xi
xi i 1
n
i 1
2
n
n n
Donde y (1/ n) yi
i 1
y x (1/ n) xi
i 1
Por lo tanto la línea de regresión estimada o ajustada es:
¶
y
$ µx
0 1
Donde ei yi µ
yi recibe el nombre de residuo. El residuo describe el error en el ajuste del
i 1 n
n n
yi xi
S xy yi xi i 1 i 1
n
i 1 n
Ejemplo
77 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
En el siguiente ejemplo y es la pureza del del oxígeno producido en proceso de destilación
químico, y x es el porcentaje de hidrocarburos presentes en el condensador principal de la unidad
de destilación.
78 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
1 0.99 90.1
2 1.02 89.05
3 1.15 91.43
4 1.29 93.74
5 1.46 96.73
6 1.36 94.45
7 .87 87.59
8 1.23 91.77
9 1.55 99.42
10 1.40 93.65
11 1.19 93.54
12 1.15 92.52
13 0.98 90.56
14 1.01 89.54
15 1.11 89.85
79 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
16 1.20 90.39
17 1.26 93.25
18 1.32 93.41
19 1.43 94.98
20 0.95 87.33
Solución
n=20,
2
n
xi (23.92)2
S xx xi i 1 29.29
n
2
0.68
i 1 n 20
n n
yi xi
S xy yi xi i 1 i 1
n
i 1 n
(23.92)(1843.21)
2214.66 10.18
20
S xy 10.18
µ1 14.97
S xx 0.68
¶0 y µ
1 x 92.16 (14.97)(1.20) 74.20
¶
y
$ µx 74.20 14.97 x
0 1
µ
1 14.97 : el cambio promedio de la pureza de hidrocarburo es de 14.97% cuando el nivel de
80 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
102
100
98
y = 14.947x + 74.283
96
94 Series1
92 Linear (Series1)
90
88
86
0 0.5 1 1.5 2
Ejercicio
Un investigador tiene interés de estudiar la elasticidad de cierto plástico(en grados) como una
función de la temperatura(°F) a la que
se produce. Se preparan diez piezas de plástico utilizando distintas temperaturas y los valores
observados de la elasticidad fueron:
yi2 0 yi 1 xi yi
Se i 1 i 1 i 1
n2
0 : es la intersección de la recta
1 : es el coeficiente de regresión
n: es el tamaño de la muestra
Def: En regresión lineal simple, el error estándar estimada dela pendiente es:
µ
2
µ
Se ( )
S xx
81 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Y el error estándar de la ordenada al origen es
Donde
2 1 x$
2
¶ µ
Se ( 0 )
n S xx
µS
S yy
µ
2
1 xy
n2
Para probar hipótesis sobre la pendiente y la ordenada al origen del modelo de regresión, debe
hacerse la hipótesis adicional de que componente de error en el modelo, ε tiene una distribución
normal. Supóngase que se desea probar la hipótesis de que la pendiente es igual a una constante,
por ejemplo,
La hipótesis apropiada son:
H 0 : 1 1,0
H1 : 1 1,0
La estadística que se utiliza es:
µ ¶
1 1,0 µ ¶
1 1,0
T0
µ
2
µ
Se 1
S xx
Se ¶0
n S xx
82 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Se rechaza H₀ si t0 t / 2, n 2 o t0 t / 2, n 2
La hipótesis nula plantea que la pendiente de la recta es cero contra la hipótesis alternativa que es
diferente. Simbólicamente se denota como,
H0:β=0 (no hay relación lineal)
H1:β≠0 (si hay relación lineal)
La hipótesis nula implica que no existe ninguna relación lineal entre las variables. La hipótesis
alternativa es que existe una relación lineal, positiva o negativa. Podríamos decir, que cuando no
se rechaza, entonces indica que la variable independiente no aporta información para predecir la
variabilidad de Y. Para realizar la prueba se utiliza una estadística t con n-2 grados de libertad
Un intervalo de confianza alrededor de la respuesta media del 100(1-α) por ciento para el valor de
x=x₀, y x0 está dado por
¶
Donde ¶
µx se calcula a partir del modelo de regresión ajustado.
yx 0 1 0
2 2
1 x0 x x x
0
2 1
¶ t
µ2
¶ t µ
yx / 2, n 2
n S xx y x0 yx / 2, n 2
n S xx
El intervalo de confianza para una predicción para una observación futura de 100(1-α) por ciento
y₀ en el valor de x₀, está dada por
x0 x
2 2
x0 x
µ µ
y0 t / 2,n 2 1
1
2
y0 y0 t / 2, n2
µ µ2 1
n S xx n S xx
El valor de µ y se calcula a partir del modelo de regresión
0
Yµ ¶ µ
0 0 1 x0
83 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Análisis de correlación lineal
84 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
Tablas
85 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
86 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
87 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
88 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
89 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
90 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
91 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez
92 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez