Académique Documents
Professionnel Documents
Culture Documents
INDUSTRIAL
ESTADÍSTICA INFERENCIAL
Lunes 14-16
Jueves 14-16
Viernes 16-18
Coordinación de Vinculación y
Área Académica de Ingeniería (M.C.
extensión. (Mtro. Carlos Guzmán
Joel Montesinos Hernández)
León)
Campo Problemático
Gestión de Operaciones (ET1)
Ingeniería de Métodos y Factores Humanos( ET2)
Ubicación, planeación, diseño y operación de instalaciones de producción (ET3)
Gestión de la Calidad (ET4)
Ejes Temáticos
Ejes Temáticos
Gestión de Operaciones (ET1)
Ingeniería de Métodos y Factores Humanos( ET2)
Ubicación, planeación, diseño y operación de instalaciones de producción (ET3)
Gestión de la Calidad (ET4)
Ejes transversales
Igualdad de
Respeto y oportunidades por
valoración por la género.
interculturalidad
EDUCACIÓN
PARA LA
EQUIDAD
Capacidad para
vivir escenarios Accesible para todos y
culturales para toda la vida.
cambiantes.
Desarrollo
equilibrado,
armonioso y Considera las
proporcionado de capacidades del
la personalidad individuo.
(biopsicosocial).
EDUCACIÓN
INTEGRAL
Desarrolla
habilidades,
capacidades,
valores, actitudes
y aptitudes
interpersonales.
Capacidad
emprendedora y
creativa para Consolidación del
identificar, plantear estudiante como
y resolver profesional.
problemas.
EDUCACIÓN
PARA LA VIDA
ACTIVA
EDUCACIÓN
AMBIENTAL
Objetivo de la asignatura:
Estadística Inferencial
Forma de Evaluación
Examen Parcial (50%)
Evaluación Continua (Coevaluación, Autoevaluación,
Heteroevaluación)
Tareas
Participaciones
Portafolio de Evidencias
Proyecto Integrador
Ponderaciones por parcial
Ejemplos:
Experimento Variable aleatoria X Valores posibles de
la variable aleatoria
3 5
f(1)=P(X=1)= 1 1 = 15/28
8
2
3 5
f(2)=P(X=2)= 2 0 = 3/28
8 x 0 1 2
2 f(x) 10/28 15/28 3/28
Ejemplo
Si 50% de los automóviles extranjeros que vende una
agencia está equipado para que trabaje con diesel,
encuentre una fórmula para la distribución de
probabilidad del número de modelos diesel entre los
próximos 4 automóviles que venda esta agencia.
4
f(x)= x
16
Distribución acumulada
F(0)= f(0)=1/16
F(1)= f(0)+f(1)= 5/16
F(2)= f(0)+f(1)+ f(2)= 11/16
F(3)= f(0)+f(1)+ f(2)+f(3)=15/16
F(4)= f(0)+f(1)+ f(2)+f(3)+f(4)=1
0 para x<0
1/16 para 0≤x≤1
5/16 para 1≤x<2
F(x)= 11/16 para 2≤x<3
15/16 para 3≤x<4
1 para x≥4
P(a<X<b)=F(b)-F(a)
f(x)= dF(x)
dx
Si la derivada existe.
Actividad
Realizar ejercicios propuestos.
Esperanza matemática
Definición:
Sea X una variable aleatoria con distribución de
probabilidad f(x). La media o valor esperado de X es:
µ= E(X)= ∑ x f(x)
x
Si X es discreta, y
∞
µ= E(X)= ∫-∞ x f(x) dx
Si X es continua.
Ejemplo
Sea X la variable aleatoria que presenta la vida en horas
de un dispositivo electrónico. La función de densidad de
probabilidad es:
σ2 =E(X 2 )-µ2
Ejemplo
Sea que la variable aleatoria X represente el número de
automóviles que se utilizan para propósitos de negocios en un
día cualquiera de trabajo. La distribución de probabilidad para
la compañía A esta dada por:
x 1 2 3
F(x) 0.3 0.4 0.3
x 0 1 2 3 4
F(x) 0.2 0.1 0.3 0.3 0.1
Para la compañía B
Actividad
Hacer ejercicios propuestos
Ejemplo
La demanda semanal de una empresa refresquera, en
miles de litros, en una cadena local de tiendas, es una
variable aleatoria continua X que tiene la densidad de
probabilidad:
Ejemplo:
La cantidad de precipitado P y el volumen de gas V que se
librera en un experimento químico controlado, (p,v). O se
podría estar interesado en la dureza H y en la fuerza de
tensión (h,t), etc.
Definición
La función f(x,y) es una distribución de probabilidad
conjunta o función masa de probabilidad de las
variables aleatorias discretas X y Y, si
2. ∑∑ f(x,y)=1.
3. P(X=x,Y=y)=f(x,y).
Para cualquier región A en el plano xy, P[(X,Y) A]= ∑∑
f(x,y).
Ejemplo:
Seleccionan al azar dos repuestos para una pluma de una
caja que contiene 3 repuestos azules, 2 rojos y 3 verdes.
Si x es el número de repuestos azules seleccionados y Y
el de rojos, encuentre: a) la función de probabilidad
conjunta f(x,y) y sus probabilidades
x
f(x,y) 0 1 2
0 3/28 9/28 3/28
1 3/14 3/14
y 2 1/28
Tabla Repuestos
Nota:
Cuando X y Y son variables aleatorias continuas, la
función de densidad conjunta f(x,y) es una superficie
arriba del plano xy, y P[(X,Y) ∈ A ], donde A es cualquier
región en el plano xy, es igual al volumen del cilindro
recto cuyos límites son la base A y la superficie.
Definición
La función f(x,y) es una función de densidad conjunta de
las variables aleatorias continuas X y Y, si:
Ensayos 1 2 3 4 5 6 7 8
Resultados S F F S S F S S
El problema de la tienda de ropa
Considere las decisiones de compra de los tres clientes
siguientes que entran en la tienda de ropa. Basado en la
experiencia, el gerente de la tienda estima que la
probabilidad de que un cliente cualquiera haga una
compra es de 0.30 ¿Cuál es la probabilidad de que dos de
los tres clientes siguientes realicen una compra?
Diagrama de árbol
Primer cliente Segundo cliente Tercer cliente Resultado Valor de X
experimental
S S,S,S 3
S S,S,F 2
F
S S,F,S 2
S
F S,F,F 1
F
S S F,S,S 2
F
F,S,F 1
F
F S F,F,S 1
S= Hay compra
F F,F,F 0
F= No hay compra
x= Número de clientes que efectúan una compra
Número de resultados experimentales que proporcionan
x éxitos en n ensayos.
n = n!
x x!(n-x)!
Donde n!=n(n-1)(n-2)…(2)(1)
Y por definición 0!=1
Ejemplos
X=2 éxitos en n=3 ensayos
n 3 3! (3)(2)(1)
= = = = 3
x 2 2!(3-2)! (2)(1)(1)
px(1-p)n-x
Función de probabilidad binomial
f(x)= n px(1-p)n-x
x
Donde
x= número de éxitos.
p= probabilidad de un éxito en un ensayo.
n= número de ensayos.
f(x)= probabilidad de x éxitos en n ensayos.
Valor esperado y varianza de la distribución
binomial
E(x)=µ=np
r N-r
x n -x
f(x) =
N
n
Donde:
x= números de éxitos .
n= número de ensayos.
f(x)= probabilidad de x éxitos en n ensayos.
N= número de elementos en la población.
r= número de elementos en la población etiquetados como
éxitos.
Valor esperado y varianza
E(x)=µ= n r
N
Var(x)=σ2= n r 1 - r N-n
N N N-1
Ejemplo
Los fusibles eléctricos producidos por Ontario Electric se
empacan en cajas de 12 unidades cada una. Suponga que un
inspector selecciona al azar tres de los 12 fusibles de una caja
para probarlos sin remplazo. Si ésta contiene exactamente
cinco fusibles averiados,
a) n=4, x=1
b) n=2, x=2
c) n=2,x=0
d) n=4, x=2
e) n=4, x=4
Distribución Poisson
Una variable aleatoria discreta que a menudo es útil
para estimar el número de ocurrencias en un
intervalo específico de tiempo o espacio. Por
ejemplo, la variable aleatoria de interés podría ser el
número de llegadas a un centro de lavado automotriz
en una hora, el número de reparaciones necesarias en
10 millas de una autopista o el número de fugas en
100 millas de tubería.
Propiedades de un experimento Poisson
f(x)= µx e-µ
x!
Donde
f(x)= probabilidad de x ocurrencias en un intervalo.
µ= valor esperado o número medio de ocurrencias en un
intervalo.
e= Número Euler
Nota: Para la distribución de probabilidad de Poisson, x es una
variable aleatoria discreta que indica el número de ocurrencias
en el intervalo. Como no hay un límite superior establecido
para el número de ocurrencias, la función de probabilidad f (x)
es aplicable para los valores x = 0, 1, 2, . . . sin límite. En las
aplicaciones prácticas, x a la larga se volverá lo suficientemente
grande para que f (x) sea aproximadamente cero y la probabilidad
de cualquier valor mayor que x se vuelva insignificante.
Ejemplo
Considere una distribución de Poisson apropiada.
a) Escriba una función de probabilidad de Poisson
apropiada.
b) Calcule f(2).
c) Determine f(1).
d) Calcule P(x≥2)
Actividad
Realizar los ejercicios propuestos.
2.2. Distribuciones Continuas: Normal,
Exponencial, T Student, F Fisher, Chi
cuadrada.
Distribución de probabilidad normal
La distribución normal describe qué tan probables
son los resultados obtenidos de un muestreo.
La forma de la distribución normal se ilustra por
medio una curva con forma de campana.
µ
Media
Función de probabilidad
σ√ 2∏
Donde
µ= media.
σ= desviación estándar
∏= 3.141592
e= 2.71828
Se formulan varias observaciones a cerca de las características
de la distribución normal.
σ=10
µ
6. Las probabilidades para la variable aleatoria normal están representadas
por las áreas bajo la curva normal. El área total bajo la curva de una
distribución normal es 1. Como la distribución es simétrica, el área bajo
la curva hacia la izquierda de la media es 0.50 y el área a la derecha
también es 0.50.
7. Los porcentajes de los valores en algunos intervalos de uso común son
los siguientes.
a) 68.3% de los valores de una variable aleatoria normal se sitúan más o
menos a una desviación estándar de su media.
b) 95.4% de los valores de una variable aleatoria normal se encuentran más
o menos a dos desviaciones estándar de su media.
c) 99.7% de los valores de una variable aleatoria normal están más o menos
dentro de tres desviaciones estándar de su media.
Distribución de probabilidad normal
estándar
Se dice que una variable aleatoria que muestra una distribución normal con una media de
cero y una desviación estándar de uno tiene una distribución de probabilidad normal
estándar.
La letra z se usa comúnmente para designar esta variable aleatoria normal. La distribución normal
estándar tiene la misma apariencia que otras distribuciones normales, pero con las
propiedades especiales de σ=1, µ=0.
99.7%
95.4%
68.3%
f(z)= 1 e-z2 /2
√2π
P(z≤1.00)
0 1
Cálculo de probabilidades para cualquier
distribución de probabilidad normal
Cuando se tiene una distribución normal con cualquier media µ y cualquier
desviación estándar σ, las preguntas de probabilidad acerca de la
distribución se responden convirtiendo primero a la distribución normal
estándar. Luego se usa la tabla de probabilidad normal estándar y los
valores de z apropiados para obtener las probabilidades buscadas. La
fórmula para convertir cualquier variable aleatoria normal x con media µ y
su desviación estándar σ a la variable aleatoria normal z se representa a
continuación.
z= x-µ
σ
Problema de aplicación
Grear Tire Company desarrolló un nuevo neumático radial con
cinturón de acero que se vende a través de una cadena nacional de
tiendas de descuento. Debido a que el neumático es un nuevo
producto, los gerentes de Grear creen que la garantía de millaje
ofrecida con la llanta será un factor importante para su aceptación.
Antes de que la póliza de garantía de millaje de los neumáticos
caduque, los gerentes de Grear quieren información de probabilidad
sobre los x = número de millas que éstos durarán.
𝑓 𝑥 = 𝛼𝑒 −𝛼𝑥 𝑆𝑖 𝑥 ≥ 0
0 𝐶. 𝑂. 𝐶
𝑃 𝑋 ≤ 𝑥 = 1 − 𝑒 −𝛼𝑥
𝑃 𝑋 > 𝑥 = 1 − 𝑃 𝑋 ≤ 𝑥 = 𝑒 −𝛼𝑥
F(x) ∝= 1 𝜇
Distribución exponencial
Ejemplo
Considere la función de densidad de probabilidad exponencial siguiente.
f(x)=⅛ e-x/8
a) Calcule P(x≤6)
b) Encuentre P(x≤4)
c) Determine P(x≥6)
d) Defina P(4≤x≤6)
Actividad
Realizar los ejercicios propuestos.
Distribución de probabilidad T Student
Para muestras de tamaño n≥30, se proporciona una buena
estimación de σ2 al calcular un valor de S2. ¿ Qué le ocurre al
estadístico ( -µ) del teorema del límite central si se reemplaza
σ2 por S2.
𝑍
𝑇=
𝑉
𝑣
Ejemplo
Un fabricante de focos afirma que su producto durará un promedio de 500 horas
de trabajo. Para conservar este promedio, esta persona verifica 25 focos cada mes.
Si el valor t calculado cae entre –t0.05 y t0.05, él se encuentra satisfecho con esta
afirmación. ¿Qué conclusión deberá él sacar de una muestra que tiene una media
= 518 horas y una desviación estándar s= 40 horas? Asuma que la distribución de
los tiempos de vida es aproximadamente normal.
Actividad
Realizar los ejercicios propuestos.
Distribución chi-cuadrado (ji cuadrado)
Definición:
Sean x1,x2,…, xn variables independientes que siguen una
distribución N(0,1)
X=x21+x22+…+x2n=∑i=1n x2i
U 2m y V 2n
P(-Zα/2<Z<Zα/2)=1-α,
Intervalo de confianza de µ; conociendo σ
Si es la media de una muestra aleatoria de
tamaño n de una población con varianza
conocida σ2 , el intervalo de confianza de (1-α)100%
para µ es,
Ejemplo
Se calcula que la media de los promedios de los puntos
de calidad de una muestra aleatoria de 36 alumnos
universitarios de último año es de 2.6. Encuentre los
intervalos de confianza del 95% y del 99% para la media
del total de alumnos del último año. Asuma que la
desviación estándar de la población es de 0.3.
Teorema
Si se utiliza como una estimación de µ se
puede tener una confianza del (1- α) 100% de
que el error no excederá Z α/2 σ/√n.
n= Zα/2σ 2
e
Ejemplo
¿Qué tan grande se requiere que sea la muestra del
ejemplo anterior si se desea una confianza del 95% de
que la estimación de µ difiera de esta por menos de 0.05?
Intervalo de confianza para µ; σ
desconocida
Si y s son la media y la desviación estándar
de una muestra aleatoria de una población
normal con varianza desconocida σ2, un intervalo
de confianza del (1- α)100% para µ es:
σ 1-σ 2 =√(σ1
2/n )+(σ 2/n )
1 2 2
Intervalo de confianza para µ1-µ2;
conociendo σ12 y σ22
2
𝑆12 𝑆22
𝑛1 + 𝑛2
𝑣=
2 2
𝑆12 𝑆22
𝑛1 𝑛2
+
𝑛1 − 1 𝑛2 − 1
𝑆𝑑 𝑆𝑑
𝑑 − 𝑡𝛼 < 𝜇𝐷 < 𝑑 + 𝑡 𝛼
2 𝑛 2 𝑛
𝑛 2 𝑛 2
𝑛 𝑑
𝑖=1 𝑖− 𝑖=1 𝑑𝑖
𝑆𝑑 =
𝑛(𝑛 − 1)
Ejemplo
En el artículo “Essential Elements in Fresh and Canned Tomatoes”, publicado en el Journal of
Food Science (Vol. 46, 1981), los contenidos de elementos esenciales en jitomates frescos y
enlatados se determinaron mediante el método de espectrofotometría de absorción atómica.
El contenido de cobre en jitomates frescos en comparación con el que los mismos jitomates
registraron después de ser enlatados se muestra a continuación:
𝑝𝑞 𝑝𝑞
𝑝 − 𝑍𝛼 𝑛 < 𝑃 < 𝑝 + 𝑍𝛼 𝑛
2 2
𝑍𝛼 𝑝𝑞
2
𝑛=
𝑒2
Ejemplo
¿Qué tan grande se requiere que sea una muestra en el
ejemplo de los suscritos a HBO si se desea tener una
confianza del 95% de que la estimación de p estará
dentro de 0.02?
Estimación de la diferencia entre dos
proporciones
Intervalo de confianza para p1-p2 de una muestra grande Si 𝑝1 y 𝑝2 son las
proporciones de éxitos en muestras aleatorias de tamaños 𝑛1 𝑦 𝑛2 , respectivamente,
𝑞1 = 1 − 𝑝1 y 𝑞2 = 1 − 𝑝2 , un intervalo aproximado de confianza del (1 −
Ejemplo
Se está considerando cambiar el procedimiento de manufactura de partes.
Se toman muestras tanto del procedimiento actual como del nuevo para
determinar si este último resulta ser mejor. Si 75 de los 1500 artículos del
procedimiento actual presentaron defectos y lo mismo sucedió con 80 de
2000 partes del nuevo procedimiento, determine un intervalo de confianza
del 90% para la diferencia real de las fracciones de partes defectuosas entre
los dos procesos.
Estimación de la varianza
Intervalo de confianza para 𝜎 2 es es la varianza de
una muestra aleatoria de tamaño 𝑛 de una población
normal, un intervalo de confianza del 1 − 𝛼 100%
para 𝜎 2 es:
𝑛−1 𝑆 2 𝑛−1 𝑆 2
< 𝜎2 <
𝑋𝛼2 2
𝑋1−𝛼
2 2
Ho: p= ¼
H1: p> ¼
α= P(error tipo I)
=P(X>8 cuando p=1/4)
=∑x=9:20 b(x;20,1/4)
=0.0409
La probabilidad de cometer un error de tipo II es β
𝑍 = 𝜎𝑥−𝜇
𝑛
Pruebas relacionadas con una sola media
(Varianza conocida)
Una muestra aleatoria de 100 muertes registradas en los
Estados Unidos durante el año pasado mostró una vida
promedio de 71.8 años. Suponiendo una desviación
estándar poblacional de 8.9 años, ¿Parecería esto indicar
que la vida promedio hoy en día es mayor que 70 años?
Utilice un nivel de significancia del 0.05.
Ejemplo
Un fabricante de equipo deportivo ha desarrollado un
nuevo sedal sintético para pesca que se considera tiene
una resistencia a la ruptura de 8 kilogramos con una
desviación estándar de 0.5 kilogramos. Pruébese la
hipótesis de que µ=8 kilogramos en contra posición a la
alternativa de que µ≠8 kilogramos si se prueba una
muestra aleatoria de 50 sedales y se encuentra que tiene
una resistencia promedio a la ruptura de 7.8 kilogramos.
Utilice un nivel de significancia del 0.01.
Pruebas sobre una sola media (variancia
desconocida)
La estructura de la prueba es idéntica que para el caso de σ
conocida con la excepción de que el valor σ en el estadístico
de prueba se remplaza por la estimación calculada S y la
distribución normal estándar se reemplaza por una
distribución t.
−𝜇0
𝑡=𝑠
𝑛
Ejemplo
El Edison Electric Institute ha publicado cifras acerca de la cantidad anual de kilowatts-hora
consumida por varios aparatos para el hogar. Se afirma que la aspiradora consume un
promedio de 46 kilovatios-hora al año. Si una muestra aleatoria de 12 hogares incluidos en un
estudio planeado indica que las aspiradoras consumen un promedio de 42 kilovatios – hora al
año con una desviación estándar de 11.9 kilovatios – hora, ¿sugiere esto con un nivel de
significancia de 0.05 que las aspiradoras consumen, en promedio, menos de 46 kilovatios-hora
al año? Suponga que la población de kilovatios-hora es normal.
Pruebas sobre dos medias
Variancias desconocidas
Si se está dispuesto a asumir que las distribuciones son normales y que σ1 = σ2 =σ puede
usarse la prueba t combinada.
1 − 2 − 𝑑0
𝑡=
1 1
𝑆𝑝 +
𝑛1 𝑛2
𝑆12 𝑛1 − 1 + 𝑆22 𝑛2 − 1
𝑆𝑝2 =
𝑛1 + 𝑛2 − 2
𝑑−𝑑0
𝑡 = 𝑆𝑑
𝑛
𝑛 𝑛 2 𝑛
𝑖=1 𝑑𝑖 −( 𝑖=1 𝑑𝑖 )
2
𝑆𝑑 = 𝑛(𝑛−1)
Andrógeno(ng/ml)
Ciervo Al momento de la inyección 30 minutos después di
de la inyección
1 2.76 7.02 4.26
2 5.18 3.10 -2.08
3 2.68 5.44 2.76
4 3.05 3.99 0.94
5 4.10 5.21 1.11
6 7.05 10.26 3.21
7 6.60 13.91 7.31
8 4.79 18.53 13.74
9 7.39 7.91 0.52
10 7.30 4.85 -2.45
11 11.78 11.10 -0.68
12 3.9 3.74 -0.16
13 26.00 94.03 68.03
14 67.48 94.03 26.55
15 17.04 41.70 24.66
Si se supone que las poblaciones de andrógeno al momento de
la inyección y 30 minutos más tarde tienen distribución normal,
pruébese, en un nivel de significancia del 0.05, si las
concentraciones de andrógeno se alteran después de 30
minutos de inhibición.
Pruebas relacionadas con proporciones
𝑝1 − 𝑝2
𝑧=
1 1
𝑝𝑞 +
𝑛1 𝑛2
Decisión
2 (𝑛−1)𝑠2
𝜒 = 𝜎02
Con 𝑣 = 𝑛 − 1
Ejemplo
Un fabricante de baterías para automóvil asegura que la
duración de sus baterías tiene distribución
aproximadamente normal con una desviación estándar
igual que 0.9 años. Si una muestra aleatoria de 10 de estas
baterías tiene una desviación estándar de 1.2 años. ¿Piensa
usted que 𝜎 > 0.9 años? Utilice un nivel de significancia
de 0.05.
Pruebas sobre diferencia de varianzas
Distribución F
𝐻0 : 𝜎12 = 𝜎22
Regiones críticas:
𝜎12 < 𝜎22 𝑓 < 𝑓1−𝛼 𝑣1 , 𝑣2
1
𝑓1−𝛼 𝑣1 , 𝑣1 = 𝑓
𝛼 𝑣1 ,𝑣1
Ejemplo
Se llevó a cabo un experimento para comparar el deterioro abrasivo de dos
materiales laminados diferentes. Se probaron doce piezas del material 1,
exponiendo cada una a una máquina para medir el deterioro. De la misma
manera, se probaron diez piezas del material 2. En cada caso, se observó,
la profundidad del deterioro. Las muestras del material 1 dieron un deterioro
promedio (registrado) de 85 unidades con una desviación estándar muestral
de 4, mientras que las muestras del material 2 dieron un promedio de 81 y
una desviación estándar muestral de 5; y se asumió que las dos varianzas
poblacionales desconocidas eran iguales. ¿Se justifica esta suposición?
Utilice un nivel de significancia de 0.10.
Solución
1. 𝐻0 : 𝜎12 = 𝜎12 .
2. 𝐻1 : 𝜎12 ≠ 𝜎12 .
3. 𝛼 = 0.10.
4. Región crítica: 𝑓0.05 11,9 = 3.11
𝑓0.95 11,9 = 𝑓 1(9,11)=0.34
0.05
Estadístico de contraste:
D= sup1≤i ≤n |Fˆn(xi)-F0(xi)|
Xi= i-ésimo valor observado en la muestra (cuyos valores se han
ordenado de menor a mayor).
Fˆn(xi)= es un estimador de la probabilidad de observar valores
menores o iguales que xi.
F0(x)=Es la probabilidad de observar valores menores o iguales
que xi cuando H0 es cierta.
Notas
D es la mayor diferencia absoluta observada entre la
frecuencia acumulada observada Fˆn(x) y la frecuencia
acumulada teórica F0(x), obtenida a partir de la
distribución de probabilidad que se específica como
hipótesis nula.
Weibull 𝑘 𝑛 = 𝑛
D+= max 1≤i≤n{ i/n – F0 (xi)}, D-= max
1≤i≤n{F0(xi) - (i-1)/n}
D=max{D+,D-} ; Dα =Cα/k(n)
Y Y-ordenados Orden F Z F0 D+ D-
Ho: Fo=Fe
H1: F0≠Fe
Procedimiento
1. Confirmar que el propósito del estudio consiste en comparar la distribución observada en la escala de una
variable medida en un grupo en estudio (distribución observada) con la distribución esperada de dicha
variable considerando el antecedente de algún grupo de referencia para verificar si ambas distribuciones
se ajustan bien o no.
2. Disponer de las frecuencias absolutas de la distribución observada en la escala de la variable medida en el
grupo en estudio (distribución observada).
3. Disponer de las frecuencias absolutas o de las relativas (porcentajes o proporciones) de la distribución en
la escala de la variable medida en el grupo de referencia.
4. Calcular las frecuencias esperadas aplicando al total del grupo en estudio las proporciones o porcentajes
de la distribución de referencia, modalidad por modalidad o clase por clase, para obtener las
correspondientes frecuencias esperadas.
5. Utilizar una tabla auxiliar para determinar el valor de Chi cuadrada calculada.
6. Comparar el valor de Chi cuadrada calculada con el valor de Chi cuadrada crítica, usando una tabla de
valores críticos. Identificar el renglón de los grados de libertad (G.L.) correspondientes al número de
modalidades o clases de la variable en estudio mediante la fórmula G.L. = k – 1 (donde: k número de
modalidades o clases)
7. En caso de que el valor de Chi cuadrada calculada rebase al valor crítico de la tabla, rechazar a la hipótesis
estadística nula Ho señalando que el nivel de significancia fue de 0.05; usualmente se acostumbra redactar
lo anterior de la siguiente forma: se rechazó Ho con una p < 0.05; en caso de que el valor calculado haya
sido igual o no hubiera rebasado al valor crítico se señala que no fue posible rechazar la Ho.
8. De acuerdo al paso anterior, establecer la conclusión referente a si ambas distribuciones se ajustan bien o
no.
El estadístico que nos permite determinar si se acepta o
rechaza la hipótesis es:
2=∑i=1:k (oi-ei)2
ei
v=k-1
Para un nivel de significancia igual que α se encuentra el
valor critico 2α y entonces 2 >2α constituye la región
critica.
Ejemplo
Se lanza un dado 120 veces y se registra cada uno de los resultados. Teóricamente,
si el dado no está cargado, se esperaría que cada dado cayera 20 veces. Los
resultados se observan en la tabla. Al comparar las frecuencias observadas con las
correspondientes frecuencias esperadas, se debe decidir si estas discrepancias
tienen posibilidad de ocurrir como resultado de las fluctuaciones muestrales, de que
el dado no está cargado y que la distribución de resultados no es uniforme.
Cara
1 2 3 4 5 6
Observada 20 22 17 18 19 24
Esperada 20 20 20 20 20 20
UNIDAD V. DISEÑO DE EXPERIMENTOS
Objetivo de la Unidad. El estudiante diseñará
experimentos mediante la utilización de parámetros
estadísticos, para tomar decisiones referentes a dos o
más variables.
5.1.Regresión Lineal
5.3.Diseños 2k
5.4.ANOVA
5.1.Regresión Lineal
En la práctica, con mucha frecuencia es necesario resolver
problemas que implican conjuntos de variables, cuando se
sabe que existe alguna relación inherente entre ellas.
a= ∑i=1:n yi – b ∑i=1:n xi
n
Ejemplo
Uno de los problemas más desafiantes para el control de
la contaminación del agua lo presenta la industria del
curtido de pieles. Los desechos de esta industria son
químicamente complejos. Se caracterizan por valores
elevados en la demanda de oxígeno bioquímico, los
sólidos volátiles y otras mediciones de contaminación.
Considérense los datos experimentales de la tabla
obtenidos de 33 muestras de desperdicios que se tratan
químicamente en el estudio “Chemical Treatment on
Spent Vegetable Tan Liquor”
Mediciones de sólidos y demanda de oxígeno químico
Reducción de sólidos, x(%) Demanda de oxígeno químico, y (%)
3 5
7 11
11 21
15 16
18 16
27 28
29 27
30 25
30 35
31 30
31 40
32 32
33 34
33 32
34 34
36 37
36 38
36 34
37 36
38 38
39 37
39 36
39 45
40 39
41 41
42 40
42 44
43 37
44 44
45 46
46 46
47 49
50 51
Diseños 2K
Estudio del efecto sobre una respuesta de k factores, cada
uno en dos niveles (alto y bajo). El diseño factorial
completo requiere que cada uno de los niveles de cada
factor se dé en todos los niveles de todos los otros
factores, es decir 2k tratamientos.
Mezcla (% de peso)
1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679
Total 3320 3416 3663 2791 3664 16,854
Media 553.33 569.3 610.5 465.17 610.67 561.8
Si se tienen 6 observaciones que se toman de cada una
de las 5 poblaciones con medias µ1,µ2,…µ5,
respectivamente. Se desea probar
H0: µ1=µ2=…=µ5
H1: Al menos dos de las medias no son iguales.
Análisis de variancia en una sola dirección
Diseño completamente aleatorizado
Se seleccionan muestras aleatorias de tamaño n de cada una de las k poblaciones. Las k
diferentes poblaciones se clasifican sobre la base de un criterio único tal como el de
tratamientos o grupos diferentes.
El termino tratamiento se utiliza para referirse a las diferentes clasificaciones, sea que se trate
de mezclas diferentes, analistas diferentes, fertilizantes diferentes, o regiones diferentes de un
país. Se asumirá que las k poblaciones son independientes y tienen una distribución normal
con medias µ1,µ2,…,µk y variancia común σ2.
H0= µ1=µ2=…= µk
H1= Al menos dos de las medias no son iguales.
Sea yij la j-ésima observación del tratamiento i-ésimo y se ordenan los datos. Ti es el total de
todas las observaciones en la muestra correspondiente al i-ésimo tratamiento. Cada
observación puede escribirse en la forma: yij=µi + εij.
TRATAMIENTO
1 2 … i …k
y11 y12 … yi1 … yk1
y12 y22 … yi2 … yk2
. . .
.
. . .
.
. . .
.
y1n y2n … yin … yk2
Total T1 . T2 . … Ti. … Tk. T..
Media 1. 2. … 1. … k 1..
εij mide la desviación de la observación j-ésima de la i-ésima muestra de la
correspondiente media de tratamiento.
Una forma alterna y preferida de esta ecuación se obtiene al sustituir
µi=µ+αi.
La hipótesis nula de que las medias de la población k son iguales contra la alternativa de que
al menos dos de las medias son diferentes puede ahora reemplazarse por las hipótesis
equivalentes.
Ho= α1= α2=…= αk=0,
H1= Al menos una de las αi’s no es igual a cero.
Identidad de suma de cuadrados
SST=SSA+SSE
Teorema Suma de cuadrados en tratamiento
SSE=SST-SSA
Análisis de variancia para la clasificación de
una dirección
Mezcla (% de peso)
1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679
Total 3320 3416 3663 2791 3664 16,854
Media 553.33 569.3 610.5 465.17 610.67 561.8
Fórmulas para el cálculo de la suma de
cuadrados; tamaños desiguales de muestra.
SSE = SST-SSA
Los grados de libertad se dividen igual que antes: N-1 para SST, k-1 para SSA y N-1-(k-1)=N-
k para SSE
Ejemplo
Parte del estudio “Serum Inorganic Phosphorus Levels un Children with Seizure Disorders
Taking Anticonvulsant Drugs”, que se llevó a cabo en la Virginia Polytechnic Institute and State
University en 1982, se diseño para medir los niveles de actividad de fosfata alcalina del
suero(unidades Bessey-Lowry) en niños que padecían ataques convulsivos y quienes habían
recibido terapia anticonvulsionante bajo el cuidado de un especialista privado. Se encontraron
cuarenta y cinco sujetos para el estudio y se clasificaron en cuatro grupos de acuerdo con la
medicina que se les proporcionó:
G-1: Control (sin recibir anticonvulsionantes y sin tener una historia de desórdenes de este tipo),
G-2: fenobarbital,
G-3: carbamazapina
G-4: otros anticonvulsionantes.
A partir de las muestras sanguíneas obtenidas de cada sujeto se determinaron los niveles de
actividad de fosfata alcalina de suero y se registraron en la tabla siguiente. Pruebe la hipótesis,
a nivel de significancia de 0.05, de que el nivel promedio de actividad de la fosfata alcalina en
suero es el mismo para los cuatro grupos anteriores.
Nivel de actividad del suero fosfatado
alcalino
Grupo de medicamento
G-1 G-2 G-3 G-4
49.20 97.50 97.07 62.10 110.60
44.54 105.00 73.40 94.95 57.10
45.80 58.05 68.50 142.50 117.60
95.84 86.60 91.85 53.00 77.71
30.10 58.35 106.60 175.00 150.00
36.50 72.80 0.57 79.50 82.90
82.30 116.70 0.79 29.50 111.50
87.85 45.15 0.77 78.40
105.00 70.35 0.81 127.50
95.22 77.40
Pruebas para la igualdad de varias
variancias
Supóngase que desea probar la hipótesis nula
Ho: σ12= σ22= …= σk2
H1: No son iguales todas las variancias.
b={[(S12)n1-1(S22)n2-1…(Sk2)nk-1]1/(N-k)}/Sp2
5. Para el caso especial cuando n1= n2=…= nk=n, se rechaza Ho al nivel de significancia α si
b<bk(α;n), donde bk(α;n) es el valor crítico que deja un área de tamaño α
en la cola izquierda de la distribución Bartlett.
6. Cuando los tamaños de las muestras son desiguales, se rechaza la
hipótesis nula de significancia α si: b<bk(α;n1, n2,…, nk),donde:
s2p=
b=
Ejemplo
Utilice la prueba Barlett para probar la hipótesis a nivel de significancia de 0.01, de
que las variancias de la población de los cuatro grupos en el ejemplo del estudio
“Serum Inorganic Phosphorus Levels un Children with Seizure Disorders Taking
Anticonvulsant Drugs”son iguales.
Ejercicios
Comparaciones con un solo grado de
libertad
No se sabe aún dónde existe la diferencia entre las mezclas.
Cualquier función lineal de la forma ω=∑i=1:k Ciµi, donde ∑i=1:k Ci=0, recibe el
nombre de una comparación o contraste delas medias de los tratamientos.
µw=∑i=1:k Ciµi
Mezcla (% de peso)
1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679
Total 3320 3416 3663 2791 3664 16,854
Media 553.33 569.3 610.5 465.17 610.67 561.8
Procedimiento de Tukey (el método T)
Qα,k,v √SSE/n
Supóngase, que k=5 y que 2< 5< 4< 1< 3
Entonces
1. Considere en primer lugar la media más pequeña 2.Si 5- 2≥w, prosiga al paso 2. Sin
embargo, si 5- 2<w, conecte estas primeras dos medias con un segmento de línea. Luego si
es posible extienda este segmento de recta más a la derecha de la i más grande que difiera
de 2 , en menos de w (de modo que la recta pueda conectar dos, tres o incluso más
medias).
2. Ahora siga con 5 y otra vez extienda el segmento de línea hasta la derecha de la i más
grande que difiera de 5 en menos de w (pude que no sea posible trazar esta línea o
alternativamente puede que subraye sólo dos medias o tres o incluso las cuatro medias
restantes).
3. Continúe con 4 y repita y finalmente continúe con 1.
Ejemplo
Se realizó un experimento para comparar cinco marcas diferentes de filtros de aceite para
automóviles con respecto a su capacidad de atrapar materia extraña. Sea µ
Ejemplo
Se realizó un experimento para comparar cinco marcas diferentes de filtros de aceite para
automóviles con respecto a su capacidad de atrapar materia extraña. Sea µi la cantidad
promedio verdadera de material atrapado por los filtros marca i (i=1,…,5) en condiciones
controladas. Se utilizo una muestra de nueve filtros de cada marca y se obtuvieron las
siguientes cantidades medias muestrales: 1=14.5, 2=13.8, 3=13.3, 4=14.3 y 5=13.1. La
tabla ANOVA muestra el resumen de la primera parte del análisis. Determine si existe
diferencia significativa y cual de las medias es significativamente diferente, si con F0.05,5,40=2.61,
Ho es rechazada a un nivel de 0.05.
Experimento
1 2 de
… bdos factores con n réplicas.
. . . . . .
. . . . . .
y21n y22n y2bn
a Ta.. a..
ya11 ya21 yab1
ya12 ya22 yab2
Total T.1. T.2. …T.b. T…
E(S2)=E[SSE/(ab(n-1))]= σ2
Las cuatro estimaciones de σ2 son insesgadas cuando Ho’,H”o y H”’0 son verdaderas.
Para probar la hipótesis Ho’, de que los efectos de los factores A son todos iguales que cero, se
calcula la razón f1=s21/s2 la cual es un valor de la variable aleatoria F1 que tiene una distribución F
con α-1 y ab(n-1) grados de libertad cuando H’ 0 es verdadera.
En forma semejante, para probar la hipótesis H”0, de que los efectos del factor B son todos iguales a
cero, se calcula la relación f2=s22/s2 la cual es el valor de la variable aleatoria F2 que tiene distribución
F con b-1 y ab(n-1) grados de libertad cuando H”0 es verdadera. Esta hipótesis se rechaza en el nivel
de significancia α cuando f2>fα[b-1, ab(n-1)].
Finalmente, para probar la hipótesis H”’ o de que los efectos de interacción son todos iguales que
cero, se calcula la razón f3 = s23/s2, la cual es el valor de la variable aleatoria F3 que tiene la
distribución F con (a-1)(b-1) y ab(n-1) grados de libertad cuando H”’o es verdadera. Se concluye que
la interacción está presente cuando f3>fa[(a-1)(b-1), ab(n-1)].
Es conveniente realizar la prueba de interacción antes de intentar hacer inferencias acerca de los
efectos principales.
Análisis de varianza para el experimento de
dos factores con n réplicas
Fuente de Suma de Grados de Cuadrado f calculada
variación cuadrados libertad medio
Efecto
principal
AB
SS(AB) (a-1)(b-1) S23=SS(AB)/((a-1)(b-1)) f3= s23/s2
Error
SSE ab(n-1) S2=SSE/(ab(n-1))
Total SST abn-1
En general las sumas de cuadrados se obtienen construyendo la siguiente tabla de totales:
A B Total
1 2 … b
SSE=SST-SSA-SSB-SS(AB)
Ejemplo
En un experimento llevado a cabo para determinar cual de tres sistemas de misiles
es preferible, se midió el promedio de consumo de los propulsores para 24
encendidos estáticos. Se utilizaron cuatro tipos diferentes de propulsores. En el
experimento se obtuvieron observaciones duplicadas de promedios de consumo en
cada combinación de los tratamientos. Los datos después de codificarse aparecen
en la tabla. Utilice un nivel de significancia de 0.05 para probar las siguientes
hipótesis: a) H’0 no existe diferencia en las tasas medias de consumo del propulsor
cuando se utilizan diferentes misiles; b) H”0: no existe diferencia en las tasas medias
de consumo de los cuatro tipos de propulsor; c) H”’0: no existe interacción entre
los diferentes sistemas de misiles y los diferentes tipos de propulsor.
Sistema Tipo de impulsor
de b1 b2 b3 b4
misiles
a1 34.0 30.1 29.8 29.0
32.7 32.8 26.7 28.9
a2 32.0 30.2 28.7 27.6
33.2 29.8 28.1 27.8
a3 28.4 27.3 29.7 28.8
29.3 28.9 27.3 29.1
Ejercicios
Experimentos de tres factores
En un experimento con tres factores A, B y C en niveles a,b y c, respectivamente, en un diseño
experimental completamente aleatorizado. Supóngase de nuevo que se tienen n observaciones
para cada una de las abc combinaciones de tratamiento. Se procederá a esbozar las pruebas
de significancia para los tres efectos principales y las interacciones involucradas.
yijkl=µ+αi+βj+γk+(αβ)ij+(αγ)ik+(βγ)jk+(αβγ)ijk+εijkl,
C B Total
20 1 2 3
minutos
A
1 34.5 31.9 34.9 101.3
2 32.0 30.0 32.5 94.5
3 35.1 32.6 35.7 103.4
Total 101.6 94.5 103.1 299.2
A B Total
1 2 3
A
1 67.3 62.9 69.7 199.9
2 66.7 61.6 63.9 192.2
3 77.3 67.7 69.3 214.3
Total 211.3 192.2 202.9 606.4
A C Total
1 2
A
1 98.6 101.3 199.9
2 97.7 94.5 192.2
3 110.9 103.4 214.3
Total 307.2 299.2 606.4
A C Total
1 2
A
1 98.6 101.3 199.9
2 97.7 94.5 192.2
3 110.9 103.4 214.3
Total 307.2 299.2 606.4
SST= 10.72+10.82+…+12.22 - (604.42/54)=
SSA={(199.992+192.22+214.32)/18} - (604.42/54)=
SS(AB)=
SS(AC)=
SS(BC)=
SS(ABC)=
SSE=