Vous êtes sur la page 1sur 17

II examen Parcial

Curso: Probabilidad y Estadística Inferencial


Profesor: Dónald Mora Jiménez

Nombre del estudiante:


Pts: Nota:

Instrucciones generales:
 El examen debe resolverse de forma individual, el plagio será sancionado con la pérdida del curso.
 El tiempo que dispone para completarlo y subirlo al link en el campus será hasta el Domingo 25
agosto a las 12 MD
 Lea con atención cada apartado, todo el examen es de desarrollo, algunas partes serán teóricas y
otras prácticas, las cuales deberá resolver mediante Excel o Minitab. No es necesario el entregar
los archivos donde realizó el procedimiento, pero si deberá explicar cómo llego a ese resultado y
qué conclusiones se obtienen al respecto. Coloque los datos principales de Minitab
 Asuma que todos lo niveles de significancia son 0,05 en caso de que se diga lo contrario
 Valor del examen: 52 puntos, 25%
I parte: Respuesta breve
1. Se realiza un estudio en el que se obtienen las siguientes mediciones:

# Medición # Medición # Medición


1 3,5 11 3,4 21 3,2
2 4,1 12 3,5 22 4,0
3 3,6 13 3,8 23 3,6
4 3,5 14 4,0 24 4,1
5 3,6 15 3,5 25 3,6
6 3,7 16 3,6 26 3,9
7 3,3 17 3,2 27 3,9
8 3,7 18 3,4 28 3,6
9 3,7 19 3,6 29 4,0
10 3,4 20 3,1 30 3,0
Con ellas determine gráficamente:

Page 1 of 17
a) Si los datos son normales 1Pt

b) ¿Cuál es la probabilidad de que la media tome un valor entre 2,90 y 3,4? 1Pt

Page 2 of 17
c) ¿Cuál es la probabilidad de que la media sea mayor de 3,5? 1Pt

2. ¿Qué es una proporción y para qué sirve una prueba de hipótesis basada en ella? Brinde dos
ejemplos de casos de la industria 2Pt
Relación de correspondencia entre las partes y el todo, o entre varias cosas relacionadas entre si en
cuanto a tamaño, cantidad, dureza, etc.
Una prueba de hipótesis sirve para evaluar las afirmaciones con respecto a una proporción (o
Porcentaje) de población.
Además sirve para evaluar:
A) Un parámetro de población único
B) La igualdad de parámetros de dos poblaciones
C) La igualdad de más de 2 poblaciones

Ejemplos: % Defectuoso: Producción de baterías


% Eficiencia

Page 3 of 17
3. Describa el proceso correcto para realizar un análisis estadístico, ¿Qué se debe validar y cómo?
2pts
1) Definir el problema
2) Recolectar los datos del problema
3) Resumir y Organizar los datos
4) Analizar los datos para saber cuál método aplicar
5) Conclusiones del problema
Se debe validar y asegurar que los datos del análisis estadístico sean INA (Independientes, Normales y
Aleatorios) Revisar si esta buena

4. Al realizar un estudio de la medida de un grupo de personas de una edad similar se obtuvieron


los datos que se muestran en la tabla siguiente. Pruebe por medio de una hipótesis que al menos
un 80% de las personas miden 1,72 metros o menos. 2Pts

Prueba Medición Prueba Medición Prueba Medición


1 1,8 11 1,6 21 1,7
2 1,7 12 1,6 22 1,8
3 1,6 13 1,6 23 1,9
4 1,8 14 1,8 24 1,7
5 1,9 15 1,7 25 1,6
6 1,7 16 1,7 26 1,6
7 1,8 17 1,9 27 1,7
8 1,6 18 1,6 28 1,8
9 1,7 19 1,8 29 1,6
10 1,7 20 1,7 30 1,7

Para un conteo de eventos igual a 20 (medición = < 1,72) de 30, no se encuentra evidencia de que al
menos un 80% de la muestra tenga una medición significativamente igual o menor a 1,72 metros (p =
0,966)

Test and CI for One Proportion


Test of p = 0,8 vs p > 0,8

Sample X N Sample p 95% Lower Bound Z-Value P-Value


1 20 30 0,666667 0,525100 -1,83 0,966

Using the normal approximation.

5. Al realizar 38 pruebas para dos lotes de producción, se determinó que para el lote 1 se tienen 9
defectos, mientras que el lote 2 se tienen 13 defectos. Determine con una prueba de hipótesis que la
proporción de defectos entre ambas muestras no es menor al 5%. 2Pts

Page 4 of 17
Para un total de trials de 38+38 = 76, y un numero de eventos 9+13 = 22, La prueba de
hipotesis para proporciones acepta la hipotesis alternativa, aportando evidencia para la
hipotesis de que la proporcion de defectos entre ambas muestras es significativamente
mayor al 5% (p < 0.0001).

Test and CI for One Proportion

Test of p = 0,05 vs p > 0,05

Sample X N Sample p 95% Lower Bound Z-Value P-Value


1 22 76 0,289474 0,203905 9,58 0,000

Using the normal approximation.

6. ¿Qué es el factor de correlación y para que se utiliza? ¿Qué implica que este sea cero? 2Pts
Es una medida que permite conocer el grado de asociación lineal que existe entre dos variables
cuantitativas X o Y
Al ser cero, esto implica que hay ausencia de correlación.

7. Cite un caso y explique cómo se puede utilizar la estadística no paramétrica 1Pt


Un caso de Estadística no Paramétrica puede ser una Prueba Binomial, ya que se realiza una
comparación en este caso compara las frecuencias observadas en las dos categorías de una variable
dicotómica con las frecuencias esperadas en una distribución normal con un parámetro de probabilidad
especificado.

8. En una prueba Wilcoxon con una significancia del 5%, se determinó que el p-value es de 0,03.
¿Qué se puede concluir de la prueba? 1Pt
Nivel de significancia= 0,05
P-Value= 0,03
p≤α
Se concluye en la prueba que la hipótesis nula se rechaza, es decir la diferencia entre la mediana de
la población y la mediana hipotética es muy significativa.
9. ¿Para que sirve una prueba de bondad de ajuste? Realice una prueba de bondad de ajuste e indique
la mejor distribución de los datos de la siguiente tabla y que no sea la Normal 3Pt

3,43 2,19 0,96


2,13 3,44 0,24
3,21 2,91 4,70
1,05 1,08 0,02
2,00 0,66 2,43
2,51 0,05 0,72
1,51 0,16 0,46
1,66 0,53
Page 5 of 17
1,40 0,30

Sirve para probar que tan bien se ajustan los datos observados a una determinada distribución teórica.

Se explora por medio una prueba de bondad de ajuste que distribución se ajusta mejor a los
datos. Se observan los valores p más cercanos a 1, que indicarían una menor diferencia entre la
distribución observada y la teórica. Se omiten las transformaciones de variable. En este caso, con
un valor p = 0,706 los datos presentan menor discrepancia con una distribución exponencial.

Goodness of Fit Test

Distribution AD P LRT P
Normal 0,504 0,186
Box-Cox Transformation 0,181 0,904
Lognormal 0,955 0,013
3-Parameter Lognormal 0,350 * 0,033
Exponential 0,359 0,706
2-Parameter Exponential 0,377 >0,250 1,000
Weibull 0,327 >0,250
3-Parameter Weibull 0,231 >0,500 1,000
Smallest Extreme Value 0,920 0,018
Largest Extreme Value 0,374 >0,250
Gamma 0,342 >0,250
3-Parameter Gamma 0,254 * 1,000
Logistic 0,497 0,167
Loglogistic 0,661 0,048
3-Parameter Loglogistic 0,406 * 0,284

ML Estimates of Distribution Parameters

Distribution Location Shape Scale Threshold


Normal* 1,59000 1,26828
Box-Cox Transformation* 1,13932 0,55148
Lognormal* -0,07581 1,35492
3-Parameter Lognormal 0,51253 0,67323 -0,46255
Exponential 1,59000
2-Parameter Exponential 1,63542 -0,04542
Weibull 1,10476 1,64304
3-Parameter Weibull 1,36889 1,89559 -0,14514
Smallest Extreme Value 2,24530 1,34703
Largest Extreme Value 1,01189 0,96622
Gamma 1,06239 1,49663
3-Parameter Gamma 1,88538 0,96953 -0,23795
Logistic 1,49151 0,72787
Loglogistic 0,10906 0,70923
3-Parameter Loglogistic 0,36499 0,49176 -0,23168

* Scale: Adjusted ML estimate

Page 6 of 17
10. ¿Para que sirve un modelo de regresión y cuál es el supuesto bajo el que trabaja? 1Pt
Se utiliza para resolver problemas que implican conjuntos de variables de las cuales se saben que
tienen alguna relación entre si.

11. En un análisis de regresión se obtuvo el siguiente gráfico de residuos vs. ajustes. ¿Qué se puede
concluir al respecto? 1Pt

Se puede concluir que los datos tienden a la aleatoriedad.

12. Al realizar un modelo de regresión se obtuvieron los datos que se muestran a continuación. ¿Qué
implican? 1Pt

Implican que el R cuadrado 84.47% es igual a √84.47% = 0.91, lo cual se argumenta que cuanto más
cercano sea a la unidad (1) sea el valor, mayor será el grado de relación lineal entre las variables
analizadas y entre más cercano sea a 0, menor será esa asociación.
El S se mide en las unidades de la variable de respuesta y representa la distancia que separa a los
valores de los datos de los valores ajustados. Mientras más bajo sea el valor de S, mejor será descrita la
respuesta por el modelo.
R-cuad es el porcentaje de variación en la respuesta que es explicada por el modelo. Al ser mayor que
35% esto implicaría un buen ajuste de los datos al modelo.
Page 7 of 17
R-cuad (ajustado) se utiliza cuando se desea comparar modelos que tengan diferentes números de
predictores.

13. Al realizar una prueba de Tukey en un ANOVA, se obtuvo el grafico de que muestra a
continuación.
a. ¿Cuál de las combinaciones presenta menor variación entre las medias? 1Pt
El estadístico de diferencia de medias con valor más cercano a cero, es decir
Blend3 - Blend1
b. ¿Cuál de las combinaciones presenta mayor variación entre las medias? 1Pt
El estadístico de diferencia de medias en donde su intervalo de confianza no
contiene el valor cero, es decir, Blend4 - Blend2

14. En una bolsa de papel se tienen 200 bolas azules y 88 rojas. ¿Cuál es la proporción de bolas azules
y por qué? 1Pt
La proporción de bolas azules es de 25 por cada 11 rojas, o 0.694 en función de la
totalidad de bolas (n total = 288).

15. Al realizar una ANOVA para experimentar sobre los efectos del tiempo que se tarda al transitar por
cierta zona en relación con la ruta de providencia y la hora del día, se obtuvieron los siguientes
resultados:

¿Qué se puede concluir de las variables y la respuesta que es el tiempo? 2Pts


De acuerdo a los datos en la tabla podemos observar de acuerdo a las variables el valor de p del cual
podemos concluir que estas variables (factores) no afectan al modelo, sin embargo al observar la
variable de respuesta de tiempo (hora), observamos el valor de p el cual es menor a 0,05 por lo tanto
concluimos que esta variable si afecta al modelo.

Page 8 of 17
16. Cuando en una prueba de regresión con un nivel de significancia de 0.05, el p-value es de 0.02,
¿qué implicaciones tiene respecto a la hipótesis nula y por qué? 2Pt
Un p-valor menor a (< 0.05) implica que se rechaza la hipótesis nula. En otras palabras, un predictor
que tenga un p-valor bajo es probable que tenga una adición significativa a su modelo porque los
cambios en el valor del predictor están relacionados con cambios en la variable de respuesta.
Al rechazar la hipótesis nula y aceptar la hipótesis alternativa, se concluiría que hay regresión.

17. Al realizar un muestreo sobre dos servicios de encuestas se determinó que, para el primero por 230
llamadas, se presentaron 9 quejas, mientras que, para el otro, de 180 llamadas, solo se presentaron
10 quejas. Calcule mediante una hipótesis nula que la proporción de quejas en ambos servicios es
la misma. 2Pts

Con p = 0,483; no se rechaza la hipótesis nula de igualdad entre dos proporciones. Por lo
tanto no se encuentra una diferencia significativa en la proporción de quejas de ambos
servicios muestreados.

Test and CI for Two Proportions

Sample X N Sample p
1 9 230 0,039130
2 10 180 0,055556

Difference = p (1) - p (2)


Estimate for difference: -0,0164251
95% CI for difference: (-0,0582312; 0,0253810)
Test for difference = 0 (vs ≠ 0): Z = -0,77 P-Value = 0,441

Fisher’s exact test: P-Value = 0,483

II Parte. Desarrolle cada pregunta de acuerdo con los ítems que se le solicitan
1. Un equipo de manufactura está probando una serie de aditivos para mejorar la resistencia del
compuesto plástico que utilizan para agregar dureza a este. Para esto escogieron 4 aditivos y
realizaron mediciones a cada uno. Tomando un nivel de significancia del 0,05 calcule de
acuerdo con la tabla siguiente:

Núm. Medición Lote


1 11,8 3
2 12,0 3
3 10,9 1
4 12,5 1
5 10,5 1
6 10,8 1
7 12,3 1
8 11,6 2
9 9,17 1
10 12,8 2
11 10,2 1

Page 9 of 17
12 11,3 2
13 10,2 2
14 11,1 2
15 10,8 2
16 9,60 3
17 7,40 3
18 12,5 2
19 8,20 1
20 11,6 4
21 13,5 4
22 9,30 4
23 10,7 4
24 10,4 1
25 13,1 2
26 11,7 1
27 10,9 2
28 11,7 2
29 12,9 3
30 10,0 3
31 6,80 3
32 13,4 4
33 10 3
34 11,8 3
35 9,5 4
36 12,8 4
37 12,9 4
38 11,6 4
39 14,8 4
40 10,6 3

a) Demuestre si los datos son INA 1Pt


Se pone a prueba el supuesto de normalidad por medio de la prueba
K-S. Con un valor p = 0,150, la distribución de residuos no es
significativamente diferente de una distribución normal.
Ademas se evalúan los gráficos de residuos vs valores ajustados para
establecer que los residuos están distribuidos aleatoriamente y con
varianza homogénea. Se cumplen estos supuestos ya que presentan
una distribucion regular para ambos lados del eje 0.
Finalmente, el grafico de orden no muestra una tendencia
dominante, por lo que los residuales cumplen el supuesto de
independencia.

Page 10 of 17
b) Explique si hay relación en la variable de respuesta y los aditivos 3Pts

Se aplica la prueba de ANOVA de un factor con el fin de evaluar si


existe al menos un promedio grupal de lote que difiera
significativamente. La prueba no detecta diferencias significativas
entre los grupos (p = 0,067), por lo tanto no hay evidencia de la
relación entre los aditivos y la variable de respuesta.

Analysis of Variance

Source DF Adj SS Adj MS F-Value P-Value


lote 3 19,15 6,382 2,60 0,067
Error 36 88,37 2,455

Page 11 of 17
Total 39 107,52

Model Summary
S R-sq R-sq(adj) R-sq(pred)
1,56674 17,81% 10,96% 0,00%

Means
lote N Mean StDev 95% CI
1 10 10,667 1,325 ( 9,662; 11,672)
2 10 11,600 0,939 (10,595; 12,605)
3 10 10,290 1,988 ( 9,285; 11,295)
4 10 12,010 1,797 (11,005; 13,015)

Pooled StDev = 1,56674

c) M
e
d
i
a
n
t
e

u
na prueba de Tukey, explique cuál pareja de aditivos difiere más 1Pts

La prueba de Tukey para comparaciones múltiples, al igual que


ANOVA no encuentra diferencias significativas entre los pares de
lotes testeados.
Manteniendo esta consideración, el par que muestra mayor
diferencia de medias al interior de la muestra son los lotes 4 y 3
(Diferencia de medias = 12,010 – 10,290 = 1,72)

Tukey Pairwise Comparisons

Grouping Information Using the Tukey Method and 95% Confidence


lote N Mean Grouping
4 10 12,010 A
2 10 11,600 A
1 10 10,667 A
3 10 10,290 A

Means that do not share a letter


are significantly different.

d) Indique
cuál
aditivo
Page 12 of 17
es mejor y porqué en caso de que sean diferentes y como procedería en el caso
de que fueran iguales 3Pts
La prueba de ANOVA no encontró diferencias significativas entre
los aditivos. En tal situación se recomienda aumentar el tamaño
muestral o colapsar lotes mas o menos homogéneos.

2. Un equipo de diseño esta experimentando sobre la duración de una batería. Para el mismo
experimento realizaron combinaciones respecto a tres factores: Tipo de metal interno, la forma
de cobertura y el tipo de conexión entre los dipolos. Al realizar varias combinaciones, desean
saber cuál es la mejor. De acuerdo con los datos determine:

Tipo de Tipo de
Duración Cobertura
metal conexión
0,91 1 2 1
0,89 1 1 2
1,03 1 2 3
0,97 1 1 1
1,28 2 1 2
1,23 2 2 3
1,42 2 2 1
0,91 3 2 2
0,99 3 2 3
1,08 3 2 1

a) Si los datos son INA. Asegure la normalidad con una prueba sobre los residuos 2Pts

Se pone a prueba el supuesto de normalidad por medio de la


prueba K-S. Con un valor p > 0,150, la distribución de
residuos no es significativamente diferente de una
distribución normal. Ademas se evalúan los gráficos de
residuos vs valores ajustados para establecer que los residuos
están distribuidos aleatoriamente y con varianza homogénea.
Se cumplen estos supuestos ya que presentan una distribucion
regular para ambos lados del eje 0. Finalmente, el grafico de
orden no muestra una tendencia dominante, por lo que los
residuales cumplen el supuesto de independencia.

Page 13 of 17
b) ¿
Q
u
é

f
a
c
t
o
r
e
s
afectan y cuales no? ¿Porqué? 2Pts

Se aplica la prueba de ANOVA de 3 factores por medio de un


modelo lineal general con el fin de evaluar si existe al menos
un promedio grupal para cada factor que difiera
significativamente. La prueba no detecta diferencias
significativas entre los grupos para los factores tipo de
conexion (p = 0,411) ni para cobertura (p = 0,890), por lo
tanto no hay evidencia de la relación entre estos factores y la
variable de respuesta. Por otro lado, si se encuentran
diferencias significativas por grupo para el factor “metal” (p
< 0.01). Al realizar la prueba de Tukey para comparaciones
multiples, encontramos que para los niveles 1 y 3 del factor
metal no se encuentran diferencias significativas, sin embargo
el nivel 2 del factor metal, es significativamente mayor tanto
al factor 3 como al 1.

Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
metal 2 0,257659 0,128830 18,72 0,009
cobertura 1 0,000149 0,000149 0,02 0,890
conexion 2 0,015402 0,007701 1,12 0,411
Error 4 0,027525 0,006881
Total 9 0,293890

Tukey Pairwise Comparisons: Response = duracion, Term = metal

Page 14 of 17
Grouping Information Using the Tukey Method and 95% Confidence

metal N Mean Grouping


2 3 1,31208 A
3 3 0,99958 B
1 4 0,93708 B

Means that do not share a letter are significantly different.

c) ¿Cuál es el grado de ajuste del modelo? ¿Es bueno? 2Pts


El modelo presenta un ajuste de 78,93% siendo este un buen
ajuste del modelo.

Model Summary
S R-sq R-sq(adj) R-sq(pred)
0,0829533 90,63% 78,93% 47,36%

d) Utilizando las gráficas factoriales, ¿Cuál es la mejor combinación si se quiere alargar


la duración al máximo? 3Pts
De acuerdo al grafico factorial, la mejor combinacion de
factores esta dada por Metal (1) * Cobertura (1) * Conexion
(1). Es importante mencionar el factor relevante es Metal, ya
que Cobertura y Conexion no presentaron diferencias
significativas.

e) R
e
a
l
i
c
e

u
n

g
ráfico de interacciones e indique como se comporta cada factor a medida que la
duración se incrementa 3pts

Page 15 of 17
f) U
t
i
l
i
z
a
n
d
o

e
l

m
ó
d
u
l
o “Predecir” del ANOVA, ¿Qué duración aproximada se tendría al utilizar el metal 2
con la cobertura 1 y el tipo de conexión 3? 2Pts

El valor ajustado de duración para un modelo con niveles de factor Metal (2) *
Cobertura (1) * Conexion (3) es de 1,325.

Variable Setting
metal 2
cobertura 1
conexion 3

Fit SE Fit 95% CI 95% PI


1,325 0,101597 (1,04292; 1,60708) (0,960840; 1,68916) X

X denotes an unusual point relative to predictor levels used to fit the model.

Page 16 of 17
Page 17 of 17

Vous aimerez peut-être aussi