Académique Documents
Professionnel Documents
Culture Documents
Métodos Estadísticos
I+D+i
H0 : μ = μ 0
H1 : μ ≠ μ 0
μ0 μ1
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i
• Error Tipo I: Es el error que se comete • Error Tipo II: Es el error que se
con el rechazo de la hipótesis nula H0 comete con el rechazo de la
cuando es verdadera (Falso Positivo) hipótesis nula H0 cuando es falsa
(Falso Negativo)
No está
Embarazada
Está
Embarazado
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i
H0 es verdadera H0 es falsa
No rechazar H0 Decisión correcta Error Tipo II (β)
H0 es verdadera H0 es falsa
No rechazar H0 Decisión correcta Error Tipo II (β)
Potencia de la prueba
1–β
Hipótesis estadísticas
Región Crítica I+D+i
H0 es verdadera H0 es falsa
No rechazar H0 Decisión correcta Error Tipo II (β)
Si Z ∈ RC se rechaza H0
Si Z ∉ RC se acepta H0
H0 : μ = 68
H1 : μ ≠ 68
Región de no rechazo
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i
Región de no rechazo
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i
H0 : μ = 68
H1 : μ ≠ 68
• El 9.5% de todas las muestras de tamaño 36
nos conducirían a rechazar μ = 68 kilogramos
cuando ésta es verdadera
Región de no rechazo
PT<-seq(66,70,0.1)
Hipótesis estadísticas n1<-36
sigma<-3.6
Prueba de una hipótesis sigma0<-sigma/sqrt(n1)
I+D+i
estadística mu0<-68
mu1<-70
DP0<-dnorm(PT, mu0,sigma0)
H0 : μ = 68 plot(PT,DP0, type = "l", col="brown",
H1 : μ ≠ 68 ylab = "Densidad de Probabilidad", xlab
= "Kilos")
abline(v=mu0, col="green")
PErrorTipoI<-pnorm(67,mu0,sigma0)+
(1-pnorm(69,mu0,sigma0))
PErrorTipoI
[1] 0.0955807
Región de no rechazo
H0 : μ = 68
H1 : μ ≠ 68
Fliminf<-0
Flimsup<-67
xv<-PT[PT>=Fliminf & PT<=Flimsup]
yv<-DP0[PT>=Fliminf & PT<=Flimsup]
xv<-c(xv,Flimsup,Fliminf)
yv<-c(yv,DP0[1],DP0[1])
polygon(xv,yv,col = "gray")
Fliminf<-69
Flimsup<-85
xv<-PT[PT>=Fliminf & PT<=Flimsup]
yv<-DP0[PT>=Fliminf & PT<=Flimsup]
xv<-c(xv,Flimsup,Fliminf)
yv<-c(yv,DP0[1],DP0[1])
polygon(xv,yv,col = "gray")
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i
H0 : μ = 68
H1 : μ = 70
• El valor de β será incluso más pequeño
cuando n = 64 y, en consecuencia, habrá
poca oportunidad de no rechazar H0
cuando sea falsa
Prueba de una hipótesis estadística
Propiedades y Conclusiones
• Los errores tipo I y tipo II están relacionados. Por lo general una disminución en la
probabilidad de cometer uno da como resultado un incremento en la probabilidad de
cometer el otro.
• En este caso:
152
Bajo H0 : 𝑥𝑥̅ ∈ 𝑁𝑁(110, 𝑛𝑛 )
152
Bajo H1 : 𝑥𝑥̅ ∈ 𝑁𝑁(115, 𝑛𝑛 )
� ∈ RC se rechaza H0
Si 𝒙𝒙
� ∉ RC se acepta H0
Si 𝒙𝒙
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i
152 � ∈ RC se rechaza H0
Si 𝒙𝒙
Bajo H0 : 𝑥𝑥̅ ∈ 𝑁𝑁(110, 𝑛𝑛 )
� ∉ RC se acepta H0
Si 𝒙𝒙
1 − 𝑃𝑃 𝑧𝑧𝛼𝛼 = 0.05
𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙 − 110
qnorm(0.95) 𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙 − 𝜇𝜇 1.645 =
[1] 1.644854 𝑧𝑧𝛼𝛼 = 1.645 𝑧𝑧𝛼𝛼 = 𝜎𝜎 15�
� 𝑛𝑛 100
pnorm((112.49-115)/((15/sqrt(100))))
• En este caso: [1] 0.04713085 𝜷𝜷 = 𝑃𝑃 −1.673 = 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
• Los valores de α y β mantienen entre sí una relación inversa, la única manera de bajar
ambos es subir el tamaño muestral
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i
𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙 − 110
𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙 − 𝜇𝜇 2.33 =
𝑧𝑧𝛼𝛼 = 2.33 𝑧𝑧𝛼𝛼 = 𝜎𝜎 15�
� 𝑛𝑛 100
• Cómo el valor del estadístico (media muestral) 𝒙𝒙� = 111 no está en la región crítica
RC, se acepta H0
113.495 − 115
𝜷𝜷 = 𝑃𝑃 = 𝑃𝑃 −1.003 = 𝟎𝟎. 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
15�
100
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i
𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙 − 110
𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙 − 𝜇𝜇 1.64 =
𝑧𝑧𝛼𝛼 = 1.64 𝑧𝑧𝛼𝛼 = 𝜎𝜎 15�
� 𝑛𝑛 1000
n1<-100
sigma<-15
mu0<-110
mu1<-115
alfa<-0.05
media_muestral<-111
PErrorTipoI
[1] 0.05
Xlimite
[1] 112.4673
PErrorTipoII
[1] 0.04565959
Hipótesis estadísticas
Prueba de una hipótesis estadística
n1<-100
sigma<-15
mu0<-110
mu1<-115
alfa<-0.1
media_muestral<-111
PErrorTipoI
[1] 0.1
Xlimite
[1] 111.9223
PErrorTipoII
[1] 0.02009544
Hipótesis estadísticas
Prueba de una hipótesis estadística
n1<-100
sigma<-15
mu0<-110
mu1<-115
alfa<-0.01
media_muestral<-111
PErrorTipoI
[1] 0.01
Xlimite
[1] 113.4895
PErrorTipoII
[1] 0.1569709
Hipótesis estadísticas
Prueba de una hipótesis estadística
n1<-1000
sigma<-15
mu0<-110
mu1<-115
alfa<-0.05
media_muestral<-111
PErrorTipoI
[1] 0.05
Xlimite
[1] 110.7802
PErrorTipoII
[1] 2.892905e-19
Potencia de una Prueba en R
Nivel de Significancia
α
Hipótesis estadísticas
Prueba de una hipótesis estadística
n1<-100
pwr.t.test(n=n1,d= (mu1-mu0)/sigma, sig.level = alfa,
sigma<-15
type = "one.sample", alternative= "greater")
mu0<-110
mu1<-115
One-sample t test power calculation
alfa<-0.05
media_muestral<-111
n = 100
PErrorTipoI
d = 0.3333333
[1] 0.05
sig.level = 0.05
Xlimite
power = 0.9521004
[1] 112.4673
alternative = greater
PErrorTipoII
[1] 0.04565959
potencia<-1-PErrorTipoII;potencia
[1] 0.9543404
Hipótesis estadísticas
Prueba de una hipótesis estadística
n1<-1000
sigma<-15 pwr.t.test(n=n1,d= (mu1-mu0)/sigma, sig.level = alfa,
mu0<-110 type = "one.sample", alternative= "greater")
mu1<-115
alfa<-0.05 One-sample t test power calculation
media_muestral<-111
PErrorTipoI n = 1000
[1] 0.05 d = 0.3333333
Xlimite sig.level = 0.05
[1] 110.7802 power = 1
PErrorTipoII alternative = greater
[1] 2.892905e-19
potencia<-1-PErrorTipoII;potencia
[1] 1
Hipótesis estadísticas
Prueba de una hipótesis estadística
Potencia de una Prueba en R
• Puede utilizarse pwr para calcular cualquier parámetro dados los demás.
potencia<-1-beta
potencia
n1<-¿?
[1] 0.9
sigma<-15
pwr.t.test(d= (mu1-mu0)/sigma, sig.level = alfa, power= potencia, type = "one.sample",
mu0<-110 alternative= "greater")
mu1<-115
alfa<-0.05 One-sample t test power calculation
beta<-0.1
n = 78.44742
d = 0.3333333
sig.level = 0.05
power = 0.9
alternative = greater
RC RC
RC RC
Una sola muestra
Pruebas respecto a una sola media
(Varianza Conocida)
• Considérese un experimento con X1, X2,..., Xn, que representan una muestra
aleatoria de una distribución con media μ y varianza σ2 > 0
• Hipótesis:
• Rechazar H0 si :
Una sola muestra
Pruebas respecto a una sola media
(Varianza Conocida)
• Ejemplo Hipótesis Unilateral: Una muestra aleatoria de 100 muertes registradas
en Las Palmas de Gran Canaria el año pasado reveló una vida promedio de 71.8
años. Si se supone una desviación estándar de la población de 8.9 años, ¿Se
puede decir que que la vida media actual es mayor que 70 años? Utilizar un nivel
de significancia de 0.05.
H0 : μ = μ0 = 70 años
H1 : μ > 70 años
qnorm(0.95,0,1)
• α = 0.05 [1] 1.644854
�
𝒙𝒙−𝝁𝝁𝟎𝟎
• Región critica: z > 1.645, donde 𝒛𝒛 = 𝝈𝝈
� 𝒏𝒏
PErrorTipoI<- (1-
pnorm(Edad_critica,mu0,sigma0))
PErrorTipoI
[1] 0.05
# Región Error tipo I
Fliminf<-Edad_critica
Flimsup<-73
xv<-PT[PT>=Fliminf & PT<=Flimsup]
yv<-DP0[PT>=Fliminf & PT<=Flimsup]
xv<-c(xv,Flimsup,Fliminf)
yv<-c(yv,DP0[1],DP0[1])
polygon(xv,yv,col = "gray")
� − 𝝁𝝁
𝒙𝒙
Una sola muestra 𝒛𝒛 = 𝝈𝝈
Pruebas respecto a una sola media � 𝒏𝒏
(Varianza Conocida)
• Ejemplo Hipótesis Bilateral: Un fabricante de cables desarrolló un nuevo producto
que, según afirma, tiene una resistencia media a la rotura de 8 kilogramos con una
desviación estándar de 0.5 kilogramos. Pruebe la hipótesis de que μ = 8 kilogramos
contra la alternativa de que μ ≠ 8 kilogramos si se prueba una muestra aleatoria de
50 cables y se encuentra que tienen una resistencia media a la rotura de 7.8
kilogramos. Utilice un nivel de significancia de 0.01.
H0 : μ = μ0 = 8 Kgs.
H1 : μ ≠ 8 Kgs.
• α = 0.01 qnorm(0.995,0,1)
[1] 2.575829
𝒏𝒏
Zona_critica1<-qnorm((1-
alfa/2),mu0,sigma0)
Zona_critica2<-
qnorm(alfa/2,mu0,sigma0)
Zona_critica1
[1] 8.182139
Zona_critica2
[1] 7.817861
Fliminf<-Zona_critica1
Flimsup<-8.4
xv<-PT[PT>=Fliminf & PT<=Flimsup]
Región de no rechazo
• Considérese un experimento con X1, X2,..., Xn, que representan una muestra
aleatoria de una distribución con media μ y varianza σ2 desconocidas
� −𝝁𝝁𝒐𝒐
𝒏𝒏 𝑿𝑿
• Estadístico: La variable aleatoria
𝑺𝑺
tiene una distribución t de Student
con n – 1 grados de libertad
Hipótesis Bilateral
H0 : μ = μ0 = 46 Kw-h.
H1 : μ < 46 Kw-h.
qt(0.05,12-1)
• α = 0.05
[1] -1.795885
�
𝒙𝒙−𝝁𝝁𝟎𝟎
• Región critica RC: t < -1.796, donde t= 𝒔𝒔
� 𝒏𝒏
alfa<-0.05
# Intevalo de decision
Zona_critica1<-qt(alfa,n1-
1)*(sigma_muestra/sqrt(n1-1))+mu
Zona_critica1
Región de no rechazo
[1] 39.55639
Región de no rechazo
Dos muestras: Pruebas sobre dos Medias
(Varianza desconocidas pero Iguales)
Procedimiento (1)
𝝈𝝈𝟏𝟏 = 𝝈𝝈𝟐𝟐 = 𝝈𝝈
Con:
n1 + n2 -2 grados de libertad
Procedimiento General
• �𝟏𝟏 y 𝒙𝒙
Se calculan los valores 𝒙𝒙 �𝟐𝟐 , y 𝝈𝝈𝟏𝟏 y 𝝈𝝈𝟐𝟐
• Estadístico:
H0 : μ1 - μ2 = 2 Unidades
H1 : μ1 - μ2 > 2 Unidades
qt(0.95,12+10-2)
• α = 0.05 [1] 1.724718
�
𝒙𝒙𝟏𝟏 −�
𝒙𝒙𝟐𝟐 −𝒅𝒅𝟎𝟎
• Región critica RC: t > 1.725, donde t=
𝒔𝒔𝒑𝒑 𝟏𝟏�𝒏𝒏𝟏𝟏 +𝟏𝟏�𝒏𝒏𝟐𝟐
Estadístico:
H0 : μ1 = μ2
H1 : μ1 ≠ μ2
• α = 0.05
Weight Sex
Min. : 300 Female:13
1st Qu.:1480 Male :15
Median :1800
Mean :2099
3rd Qu.:2750
Max. :5400
attach(octopus)
names(octopus)
[1] "Weight" "Sex"
Comparación de dos Medias
H0 : μ1 = μ2
• Ejemplo: ….. H1 : μ1 ≠ μ2
$Male
0% 25% 50% 75% 100%
1150 1800 2700 3300 5400
H0 : μ1 = μ2
Comparación de dos Medias
H1 : μ1 ≠ μ2
• Ejemplo: Como n<30 se deben testear la normalidad de las poblaciones
para poder aplicar los diferentes test que la necesitan
qqnorm(octopus[select.males,"Weight"])
qqline(octopus[select.males,"Weight"],
col="grey")
shapiro.test(octopus[select.males,"Weight"])
t.test(Weight~Sex, alternative='two.sided’,
conf.level=.95,var.equal=FALSE, data=octopus)
• Para calcular la potencia del test t de una o dos muestras, o determinar sus
parámetros (cómo el tamaño de la mestra adecuado), puede utilizarse la
función pwr.t.test () de la librería pwr().
• Sintaxis:
pwr.t.test(n = NULL, d = NULL, sig.level = 0.05, power = NULL,
type = c("two.sample", "one.sample", "paired"),
alternative = c("two.sided", "less", "greater")
• Argumentos:
• Para calcular la potencia del test t de una o dos muestras, o determinar sus
parámetros, puede utilizarse también la función power.t.test ()
• Sintaxis:
power.t.test(n = NULL, delta = NULL, sd = 1, sig.level = 0.05,
power = NULL, type = c("two.sample", "one.sample", "paired"),
alternative = c("two.sided", "one.sided"),
strict = FALSE, tol = .Machine$double.eps^0.25
• Argumentos:
• Determinar el número de vacas lecheras necesaria para alcanzar una potencia del
80%
• Usar R
Potencia de una Prueba ( 1 – β )
n = 46.34674
delta = 1
sd = 1.7
sig.level = 0.05
power = 0.8
alternative = two.sided
• En este caso tomaremos n=47, que nos garantiza alcanzar una potencia del 80%
Potencia de una Prueba ( 1 – β )
• Ejemplo (parte 2): Calcular la potencia de la prueba para n=20 individuos por grupo.
n = 20
delta = 1
sd = 1.7
sig.level = 0.05
power = 0.4416243
alternative = two.sided
• Para n=20, se tiene una potencia del 44.16%, esto es de probabilidad de detectar
diferencias entre las medias de niveles de proteína de δ = 1g/Kg de leche.
Potencia de una Prueba ( 1 – β )
n = 20
delta = 1.545522
sd = 1.7
sig.level = 0.05
power = 0.8
alternative = two.sided
• Como X es una variable binomial discreta, es poco probable que se pueda establecer
una región crítica de tamaño exacto α.
Una muestra: prueba sobre una sola
proporción
• Hipótesis
• 1. H0 : p=0.7
• 2. H1 : p≠0.7
• 3. α = 0.1
• 4. Estadístico de prueba: Variable binomial X con p = 0.7 y n = 15.
• 5. Cálculos: x = 8 y np0 = (15)(0.7) = 10.5. el valor P calculado es
2*pbinom(8,size=15,prob=0.7)
[1] 0.2622851
• 6. Decisión: No rechazar H0
Contraste para la proporción en una población
• La función binom.test ()
• Sintaxis:
binom.test(x,n,p=0.5,alternative=c("two.sided","less","greater"),
conf.level=0.95)
• Argumentos:
• Cómo p > 5% aceptamos la hipótesis que la proporción es igual al 50% también, pero al
ser bilateral podemos decir que el porcentaje de intención de voto está entre 49.31% y
55.47%
Una muestra: prueba sobre una sola
proporción (n grande)
• Para aplicar esta aproximación se necesita que np0 y np0q0 sean mayores o
iguales a 5
Una muestra: prueba sobre una sola
proporción (n grande)
• 1. H0 : p=0.6
• 2. H1 : p > 0.6
• 3. α = 0.05
• 4. Estadístico de prueba z, región crítica z > 1.645
• 5. Cálculos: x = 70 n = 100, 𝒑𝒑�= 70/100=0.7
𝒙𝒙
• �=
En general para 𝒑𝒑
𝒏𝒏
la esperanza matemática del estimador es
� = 𝒑𝒑𝒐𝒐
𝐸𝐸 𝒑𝒑
𝑝𝑝̂ 1 − 𝑝𝑝̂ 𝑁𝑁 − 𝑛𝑛
𝜎𝜎� =
𝑛𝑛 − 1 𝑁𝑁
𝑝𝑝̂ 1 − 𝑝𝑝̂
𝑝𝑝̂ ± 𝑧𝑧𝛼𝛼
2 𝑛𝑛
Una muestra: prueba sobre una sola
proporción
Intervalos de Confianza Hipótesis laterales
𝑝𝑝̂ 1 − 𝑝𝑝̂
• Se puede realizar una aproximación simple de 𝑝𝑝̂ ± 𝑧𝑧𝛼𝛼
2 𝑛𝑛
Para contemplar el caso de intervalos de confianza de una cola
𝑝𝑝̂ 1 − 𝑝𝑝̂
𝑝𝑝̂ − 𝑧𝑧𝛼𝛼 ≤ 𝑝𝑝
𝑛𝑛
𝑝𝑝̂ 1 − 𝑝𝑝̂
𝑝𝑝 ≥ 𝑝𝑝̂ + 𝑧𝑧𝛼𝛼
𝑛𝑛
Una muestra: prueba sobre una sola
proporción
Error tipo II y tamaño de la muestra
•H 0 : p = p0
•H 1 : p ≠ p0
𝑝𝑝0 + δ
•H 0 : p = p0
•H 1 : p ≠ p0
𝑝𝑝0 + δ
• Hipótesis Bilateral:
•H 0 : p = p0
•H 1 : p ≠ p0
𝑝𝑝0 + δ
• Hipótesis lateral:
•H 0 : p = p0
•H 1 : p < p0
𝑝𝑝𝑜𝑜 1 − 𝑝𝑝0 �
𝑝𝑝𝑜𝑜 − 𝑝𝑝 − 𝑧𝑧𝛼𝛼� 𝑛𝑛
2
𝛽𝛽 = 1 − 𝑃𝑃 𝑧𝑧 ≤
𝑝𝑝(1 − 𝑝𝑝)�
𝑛𝑛
• Hipótesis lateral:
•H 0 : p = p0
•H 1 : p > p0
𝑝𝑝𝑜𝑜 1 − 𝑝𝑝0 �
𝑝𝑝𝑜𝑜 − 𝑝𝑝 + 𝑧𝑧𝛼𝛼� 𝑛𝑛
2
𝛽𝛽 = 𝑃𝑃 𝑧𝑧 ≤
𝑝𝑝(1 − 𝑝𝑝)�
𝑛𝑛
𝒙𝒙
• � = se puede tomar de una muestra piloto o de
La proporción muestral 𝒑𝒑
𝒏𝒏
algún estudio análogo. En caso de desconocimiento absoluto se puede
� 𝟏𝟏 − 𝒑𝒑
tomar la cota superior de 0.25 como valor de 𝒑𝒑 � . Esto equivale a
asumir que p=0.5. En este caso
𝑧𝑧𝛼𝛼2�
2
𝑛𝑛 =
4 𝐸𝐸 2
Una muestra: cálculo del tamaño muestral para
estimar la proporción en poblaciones finitas
𝑝𝑝̂ 1 − 𝑝𝑝̂ 𝑁𝑁 − 𝑛𝑛
𝐸𝐸 = 𝑧𝑧𝛼𝛼
2 𝑛𝑛 − 1 𝑁𝑁
• Si la muestra no es muy pequeña (𝒏𝒏 ≈ 𝒏𝒏 − 𝟏𝟏) se puede cambiar la ecuación anterior por:
𝑧𝑧𝛼𝛼2� 𝑁𝑁
2
𝑛𝑛 =
4 𝐸𝐸 2 𝑁𝑁 + 𝑧𝑧𝛼𝛼2�
2
Una muestra: cálculo del tamaño muestral para
estimar la proporción en poblaciones infinitas
• Ejemplo: El ayuntamiento de Las Palmas de GC desea conocer la proporción
de familias de una determinada zona que tienen niños en edad escolar.
Realizada una encuesta entre 400 familias, resulta que 220 tienen niños en
edad escolar. Se pide:
a) Estimar con confianza del 90% la proporción de familias con niños en
edad escolar en esa zona.
b) Para ese mismo grado de confianza, determinar el tamaño muestral
necesario para una semiamplitud ( margen de error, E ) de 0.03
• a) Se supone que se trata de una zona con un número de familias muy grande, es decir
que se trabaja con un muestreo aleatorio simple (población prácticamente infinita)
𝑥𝑥 220
La proporción muestral es 𝑝𝑝̂ = = = 0.55
𝑛𝑛 400
qnorm(0.95)
𝛼𝛼� = 0.05
2 [1] 1.644854
𝑧𝑧𝛼𝛼�2 = 1.644854
Una muestra: cálculo del tamaño muestral para
estimar la proporción en poblaciones infinitas
• Ejemplo: …..
𝑝𝑝̂ 1 − 𝑝𝑝̂
• El intervalo de confianza (1-α ) y n grande : 𝑝𝑝̂ ± 𝑧𝑧𝛼𝛼
2 𝑛𝑛
0.55 ∗ 0.45 (0.509, 0.591)
0.55 ± 1.644854
400
𝑧𝑧𝛼𝛼�2 = 1.959964
0.16 4000 − 299
𝑝𝑝̂ 1 − 𝑝𝑝̂ = 𝟎𝟎. 𝟐𝟐 ∗ 0.8 = 0.16 0.2 ± 1.959964
299 − 1 4000
• El intervalo de confianza (1-α ) del 95% es: (𝟎𝟎. 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐)
Dos muestras: pruebas sobre dos
proporciones
• � 𝟏𝟏 − 𝑷𝑷
Para n1 y n2 suficientemente grandes, el estimador puntual 𝑷𝑷 � 𝟐𝟐 está
distribuido de forma casi normal con media y varianza:
Dos muestras: pruebas sobre dos
proporciones
• Para calcular un valor de Z hay que estimar los parámetros q y p . Al agrupar los
datos de ambas muestras el estimado agrupado de la proporción 𝒑𝒑 � es
• Ejemplo: Se organizará una votación entre los estudiantes de tercero y cuarto de la EII para
determinar si se aprueba una propuesta para la consideración de festivo el cumpleaños del
director Como la fecha en que se propone realizarla cae en el límite de las vacaciones del
semestre, muchos estudiantes de cuarto consideran que la propuesta será aprobada debido a
la gran proporción de estudiantes que está a favor de considerarlo. Se realiza una encuesta
para determinar si hay una diferencia significativa en la proporción de estudiantes de
tercero y de cuarto que favorecen la propuesta. Si 120 de 200 votantes de tercero
favorecen la propuesta y 240 de 500 estudiantes de cuarto también lo hacen, ¿estaríamos
de acuerdo en que la proporción de estudiantes de tercero que favorecen la propuesta es
mayor que la proporción de estudiantes de cuarto? Utilice un nivel de significancia de α =
0.05.
• 1. H 0 : p1 = p2
qnorm(0.95)
[1] 1.644854
• 2. H 1 : p1 > p2
• 3. α = 0.05
• 4. Estadístico de prueba z, región crítica z > zα=1.644854
Dos muestras: pruebas sobre dos
proporciones
• Ejemplo: 120 de 200 votantes de tercero favorecen la propuesta y 240 de
500 estudiantes de cuarto también lo hacen
• 1. H 0 : p1 = p2
• 2. H 1 : p1 > p2
• 3. α = 0.05
• 4. Estadístico de prueba z, región crítica RC: z > 1.644854
• 5. Cálculos:
• 6. Decisión: rechazar H0
Contrastes de Hipótesis Paramétricas
Contraste para la proporción en una población
• La función prop.test()
Se parte del hecho de que conocemos el número de éxitos y fracasos en la
muestra. Si no fuera así, sino que tenemos los datos en una hoja de datos,
podemos rápidamente tabularla mediante la función table() a la que sólo
hay que especificarle la hoja de datos a tabular y, si ésta tuviera más de
una variable, cuál de ellas queremos tabular.
• Sintaxis:
prop.test(x, n, p = NULL, alternative = c("two.sided", "less",
"greater"), conf.level = 0.95, correct = TRUE)
• Argumentos:
• x puede especificar dos cosas. O bien simplemente el número de éxitos, o bien, mediante una matriz de
dos columnas, el número de éxitos y de fracasos en cada muestra.
• n especifica el número de datos de la muestra en el caso en que x sea el número de éxitos, y es ignorado
en el caso en que x proporcione también el número de fracasos.
• p es el vector de probabilidades de éxito bajo la hipótesis nula. Debe ser un vector de la misma
dimensión que el número de elementos especificado en x.
• alternative especifica la dirección de la hipótesis alternativa, tomando los valores "two.sided", "greater"
o "less".
• conf.level es el nivel de confianza de los intervalos que se muestran entre los resultados.
• correct especifica si se usa la corrección por continuidad de Yates. La opción por defecto es que sí se
use esta corrección.
Dos muestras: pruebas sobre dos
proporciones
• Ejemplo: …..
Tercero Cuarto
Si 120 240
No 80 260
prop.test(c(120,240) ,n=c(200,500))
2-sample test for equality of proportions with continuity correction
Negro
Rubios Pelirrojos Castaños Oscuros
Azabache
Chicos 592 119 849 504 36
Chicas 544 97 677 451 14
• Hformados
0: las proporciones de los chicos en los distintos grupos
con los colores de pelo son iguales.
• H : Alternativa, las proporciones de chicos son diferentes.
1
• α = 0.05
Dos muestras: pruebas sobre dos
proporciones
• Ejemplo: …..
prop.test(c(592,119,849,504,36),n=c(1136,216,1526,955,50))
data: c(592, 119, 849, 504, 36) out of c(1136, 216, 1526, 955, 50)
X-squared = 10.467, df = 4, p-value = 0.03325
alternative hypothesis: two.sided
sample estimates:
prop 1 prop 2 prop 3 prop 4 prop 5
0.5211268 0.5509259 0.5563565 0.5277487 0.7200000
• El valor de p es menor que el 5% , lo que implica que se rechaza la H0, esto es las
proporciones de los chicos en los distintos grupos formados con los colores de pelo no
son iguales.
Pruebas de una y dos muestras referentes a
varianzas
• Ejemplo: Un fabricante de baterías para automóvil afirma que la duración de sus baterías
se distribuye de forma aproximadamente normal con una desviación estándar, 𝝈𝝈 , igual a
0.9 años. Si una muestra aleatoria de 10 de tales baterías tiene una desviación estándar
𝒔𝒔 de 1.2 años. ¿Es correcto considerar que 𝝈𝝈 > 0.9 años? Utilice un nivel de significancia
de 0.05.
• Alternativa unilateral 𝝈𝝈𝟐𝟐 > 𝝈𝝈𝟐𝟐𝟎𝟎 , la región crítica RC es χ𝟐𝟐 > χ𝟐𝟐𝜶𝜶
Pruebas de una y dos muestras referentes a
varianzas
• Hipótesis nula H0 de que la varianza de la población 𝝈𝝈𝟐𝟐 =0.81
• Hipótesis Alternativa H1 : 𝝈𝝈𝟐𝟐 > 0.81
• v = 9 grados de libertad, 1-α =0.95
qchisq(0.95,9)
[1] 16.91898
• Región crítica RC (hipótesis alternativa) χ𝟐𝟐 > χ𝟐𝟐𝜶𝜶
• Rechazamos la hipótesis nula H0 cuando χ𝟐𝟐 >16.91898
• 𝒔𝒔 𝟐𝟐
=1.44
pchisq(16,9)
[1] 0.9331184
• Hay muy poca evidencia para 0.05, pero rechazamos la hipótesis nula
H0 por el alto valor del estadístico χ𝟐𝟐 estamos al 0.066
Pruebas de una y dos muestras referentes a
varianzas
Problema de probar la igualdad de las
varianzas 𝝈𝝈𝟐𝟐𝟏𝟏 y 𝝈𝝈𝟐𝟐𝟐𝟐 de dos poblaciones.
• Hipótesis nula H0 de que 𝝈𝝈𝟐𝟐𝟏𝟏 = 𝝈𝝈𝟐𝟐𝟐𝟐 contra una de las alternativas: 𝝈𝝈𝟐𝟐𝟏𝟏 < 𝝈𝝈𝟐𝟐𝟐𝟐 , 𝝈𝝈𝟐𝟐𝟏𝟏 > 𝝈𝝈𝟐𝟐𝟐𝟐 o
𝝈𝝈𝟐𝟐𝟏𝟏 ≠ 𝝈𝝈𝟐𝟐𝟐𝟐 .
• Donde 𝒔𝒔𝟐𝟐𝟏𝟏 y 𝒔𝒔𝟐𝟐𝟐𝟐 son las varianzas calculadas de las dos muestras
• Ejemplo (parte 1): Se llevó a cabo un experimento para comparar el efecto de utilizar un
material en la fabricación de producto. Se probaron 12 piezas del material 1 y se probó
cada pieza en una máquina de medir la calidad del producto. Se probaron 10 piezas del
material 2 de manera similar. En cada caso se observó la calidad del producto. Las
muestras del material 1 revelaron una calidad promedio (codificado) de 85 unidades con
una desviación estándar muestral de 4. Las muestras del material 2 revelaron un
promedio de 81 y una desviación estándar muestral de 5. ¿Podríamos concluir, a un nivel
de significancia de 0.05, que la calidad del producto fabricado con el material 1 excede al
del material 2 en más de 2 unidades?. Asumir que las poblaciones son normales con
varianzas iguales.
H0 : μ1 - μ2 = 2 Unidades
H1 : μ1 - μ2 > 2 Unidades
qt(0.95,12+10-2)
• α = 0.05 [1] 1.724718
�
𝒙𝒙𝟏𝟏 −�
𝒙𝒙𝟐𝟐 −𝒅𝒅𝟎𝟎
• Región critica RC : t > 1.725, donde t=
𝒔𝒔𝒑𝒑 𝟏𝟏�𝒏𝒏𝟏𝟏 +𝟏𝟏�𝒏𝒏𝟐𝟐
• Ejemplo (parte 2): Justificar la decisión de considerar que las poblaciones son
normales con varianzas iguales . Tomar un nivel de significancia de 0.1
• H : 𝝈𝝈 = 𝝈𝝈
0
𝟐𝟐
𝟏𝟏
𝟐𝟐
𝟐𝟐
• H :𝝈𝝈 ≠ 𝝈𝝈
1
𝟐𝟐
𝟏𝟏
𝟐𝟐
𝟐𝟐 qf(0.95, 11,9)
[1] 3.102485
• α = 0.1 v1 = n1 -1 =12-1, v2 = n2 -1 =10-1 grados de libertad qf(0.05, 11,9)
[1] 0.3452773
Región de no rechazo
(Resumen)
Técnica del Análisis de Varianza
(ANOVA de un factor)
Técnica del Análisis de Varianza (ANOVA)
• El procedimiento más utilizado para probar las medias de población en problemas de k > 2
muestras, donde se supone que hay k muestras provenientes de k Poblaciones se
denomina análisis de varianza, o ANOVA .
• En el procedimiento del análisis de varianza se supone que cualquier variación que exista
entre las muestras se atribuye a:
1) La variación entre observaciones dentro de las muestras (intro) que se considera
como una variación aleatoria al azar
2) La variación entre las distintas muestras (inter)
• H : μ = μ =…. = μ
0 1 2 k
• H : Al menos dos de las medias no son iguales.
1
• Sean
• 𝒚𝒚 la j-ésima observación del i-ésimo tratamiento,
𝒊𝒊𝒊𝒊
• Y el total de todas las observaciones de la muestra, del i-ésimo tratamiento,
i.
• 𝒚𝒚� la media de todas las observaciones en la muestra del i-ésimo tratamiento,
𝑖𝑖.
• Y.. el total de todas las nk observaciones,
• 𝒚𝒚�.. Es la media de todas las nk observaciones.
Técnica del Análisis de Varianza
(ANOVA de un factor)
• Con:
1
• 𝜇𝜇 = ∑𝑘𝑘𝑖𝑖=1 𝜇𝜇𝑖𝑖 media general de todas las 𝜇𝜇𝑖𝑖
𝑘𝑘
• 𝛼𝛼 efecto del i-ésimo tratamiento
𝑖𝑖
• H : 𝛼𝛼 = 𝛼𝛼 =…. = 𝛼𝛼 = 0
0 1 2 𝑘𝑘
• H : Al menos una de las 𝛼𝛼 no es cero.
1 𝑖𝑖
Técnica del Análisis de Varianza
(ANOVA de un factor)
• Si H1 es verdadera (αi ≠ 0)
Datos<-data.frame(Variable=c(x1,x2,...,xk),
Grupo=factor(c(rep(1,n1),rep(2,n2),...,rep(k,nk))))
Contrastes de Hipótesis Paramétricas
ANOVA de un factor
• Sintaxis de aov():
aov(Variable~Grupo,data=Datos))
• Argumentos:
• Variable : nombre de la variable que contiene los datos.
• Grupo : nombre del factor que distingue a qué grupo pertenece cada dato.
• Datos :nombre de la hoja de datos
ANOVA<-aov(Variable~Grupo,data=Datos))
summary(ANOVA)
Técnica del Análisis de Varianza
(ANOVA de un factor)
69 74 76
72 69 75
69 73 72
72 74 77
72 76 76
67 72 71
70 70 74
69 74 74
71 71 79
69 67 76
• H :μ =μ =μ
0 1 2 3
• H : Al menos dos de las medias no son iguales.
1
• k=3, N = ∑ 𝒏𝒏 = 30 𝒌𝒌
𝒊𝒊=𝟏𝟏 𝒊𝒊
• Grados de libertad k - 1 = 2, N- k = 27
• Nivel de significancia: 0.05
qf(0.95,2,27)
[1] 3.354131
𝒔𝒔𝟐𝟐𝟏𝟏
En este caso la razón 𝒇𝒇 = �𝒔𝒔𝟐𝟐 debe ser mayor que
3.354131 para considerar que es falsa H0 y rechazar
la igualdad de medias μ1 = μ2 = μ3
𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆
𝑠𝑠12 = 𝑠𝑠 2 =
𝑘𝑘 − 1 𝑁𝑁 − 𝑘𝑘
Técnica del Análisis de Varianza
(ANOVA de un factor)
𝑆𝑆𝑆𝑆𝑆𝑆 126.7
𝑠𝑠12 = = = 𝟔𝟔𝟔𝟔. 𝟑𝟑𝟑𝟑 𝑆𝑆𝑆𝑆𝑆𝑆 144
𝑘𝑘 − 1 3 − 1 𝑠𝑠 2 = = = 𝟓𝟓. 𝟑𝟑𝟑𝟑
𝑁𝑁 − 𝑘𝑘 30 − 3
𝟐𝟐 𝟔𝟔𝟔𝟔.𝟑𝟑𝟑𝟑
𝒔𝒔
𝒇𝒇 = 𝟏𝟏�𝒔𝒔𝟐𝟐 = = 𝟏𝟏𝟏𝟏. 𝟖𝟖𝟖𝟖
𝟓𝟓.𝟓𝟓𝟓𝟓
datos<-data.frame(variable=c(x1,x2,x3))
grupo=factor(c(rep(1,length(x1)), rep(2,length(x2)), rep(3,length(x3))))
attach(datos)
ANOVA<-aov(variable~grupo,data = datos)
summary(ANOVA)
qf(0.95,2,27) summary(ANOVA)
[1] 3.354131
Df Sum Sq Mean Sq F value Pr(>F)
grupo 2 126.7 63.33 11.88 2e-04 ***
Residuals 27 144.0 5.33
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
• H :μ =μ =μ = μ
0 1 2 3 4
• H : Al menos dos de las medias no son iguales.
1
• k=4, N = ∑ 𝒏𝒏 = 45 𝒌𝒌
𝒊𝒊=𝟏𝟏 𝒊𝒊
• Grados de libertad k - 1 = 3, N- k = 41
• Nivel de significancia: 0.05
qf(0.95,3,41)
[1] 2.832747
𝒔𝒔𝟐𝟐𝟏𝟏
En este caso la razón 𝒇𝒇 = �𝒔𝒔𝟐𝟐 debe ser mayor que 2.8327 para considerar
que es falsa H0 y rechazar la igualdad de medias μ1 = μ2 = μ3 = μ4
.
𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆
𝑠𝑠12 = 𝑠𝑠 2 =
𝑘𝑘 − 1 𝑁𝑁 − 𝑘𝑘
Técnica del Análisis de Varianza
(ANOVA de un factor)
x1<-c(49.2, 97.5, 44.54, 105.0, 45.8, 58.05, 95.84, 86.6, 30.1,
58.35, 36.5, 72.8, 82.3, 116.7, 87.85, 45.15, 105.0, 70.35, 95.22,
77.4)
x2<-c(97.07, 73.4, 68.5, 91.85, 106.6, 0.57, 0.79, 0.77, 0.81)
x3<-c(62.10, 94.95, 142.5, 53.0, 175.0, 79.5, 29.5, 78.4, 127.5)
x4<-c(110.6, 57.1, 117.6, 77.71, 150.0, 82.9, 111.5)
datos<-data.frame(variable=c(x1,x2,x3,x4))
grupo=factor(c(rep(1,length(x1)),rep(2,length(x2)),rep(3,length(x3)),
rep(4,length(x4))))
attach(datos)
ANOVA<-aov(variable~grupo,data = datos)
summary(ANOVA)
𝑆𝑆𝑆𝑆𝑆𝑆 Df Sum Sq Mean Sq F value Pr(>F)
𝑠𝑠12 = grupo 3 13939 4646 3.569 0.022 *
𝑘𝑘 − 1
𝒔𝒔𝟐𝟐𝟏𝟏 Residuals 41 53376 1302
𝒇𝒇 = �𝒔𝒔𝟐𝟐 ---
𝑆𝑆𝑆𝑆𝑆𝑆 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
𝑠𝑠 2 =
𝑁𝑁 − 𝑘𝑘 qf(0.95,3,41)
[1] 2.832747
5 7 8 15 11 9 10 60 10.00
10 12 17 13 18 19 15 94 15.67
15 14 18 19 17 16 18 102 17.00
20 19 25 22 23 18 20 127 21.17
x5<-c(7,8,15,11,9,10)
x10<-c(12,17,13,18,19,15)
x15<-c(14,18,19,17,16,18)
x20<-c(19,25,22,23,18,20)
xdatos<-
data.frame(x5,x10,x15,x20)
boxplot(xdatos,
col = "green",
ylab="Resistencia a la
Tensión (psi)",
xlab="Concentración en
% de madera
dura",
staplewex=1,
border = "brown")
grid()
Técnica del Análisis de Varianza
(ANOVA de un factor)
• Con:
1
• 𝜇𝜇 = ∑𝑘𝑘𝑖𝑖=1 𝜇𝜇𝑖𝑖 media general de todas las 𝜇𝜇𝑖𝑖
𝑘𝑘
• 𝛼𝛼 efecto del i-ésimo tratamiento
𝑖𝑖
• H : 𝛼𝛼 = 𝛼𝛼 =…. = 𝛼𝛼 = 0
0 1 2 𝑘𝑘
• H : Al menos una de las 𝛼𝛼 no es cero.
1 𝑖𝑖
• k=4, N = ∑ 𝒌𝒌
𝒊𝒊=𝟏𝟏 𝒏𝒏𝒊𝒊 = 24
• Grados de libertad k - 1 = 3, N- k = 20
• Nivel de significancia: 0.05
Técnica del Análisis de Varianza
(ANOVA de un factor)
• k=4, N = ∑ 𝒌𝒌
𝒊𝒊=𝟏𝟏 𝒏𝒏𝒊𝒊 = 24
• Grados de libertad k - 1 = 3, N- k = 20
• Nivel de significancia: 0.05
qf(0.95,3,20)
[1] 3.098391
𝒔𝒔𝟐𝟐𝟏𝟏
• En este caso la razón 𝒇𝒇 = �𝒔𝒔𝟐𝟐 debe ser mayor que 3.098391 para considerar que
es falsa H0 y rechazar el efecto de la concenración de madera dura en la
resistencia a la tensión, esto es: 𝛼𝛼1 = 𝛼𝛼2 =…. = 𝛼𝛼𝑘𝑘 = 0
𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆
𝑠𝑠12 = 𝑠𝑠 2 =
𝑘𝑘 − 1 𝑁𝑁 − 𝑘𝑘
Técnica del Análisis de Varianza
(ANOVA de un factor)
𝑘𝑘 𝑛𝑛𝑖𝑖 𝑘𝑘
2
𝑆𝑆𝑆𝑆𝑆𝑆 = � � 𝑦𝑦𝑖𝑖𝑖𝑖 − 𝑦𝑦�.. 𝑆𝑆𝑆𝑆𝑆𝑆 = � 𝑛𝑛𝑖𝑖 𝑦𝑦�𝑖𝑖. − 𝑦𝑦�.. 2
𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑆𝑆𝑆𝑆𝑆𝑆 − 𝑆𝑆𝑆𝑆𝑆𝑆
𝑖𝑖=1 𝑗𝑗=1 𝑖𝑖=1
x5<-c(7,8,15,11,9,10)
x10<-c(12,17,13,18,19,15)
x15<-c(14,18,19,17,16,18)
x20<-c(19,25,22,23,18,20)
n<-length(x5)
yij<-c(x5,x15,x10,x20)
Y_m_T<-mean(yij)
4 6
STC<-sum((yij-Y_m_T)^2);STC
2
[1] 512.9583 𝑆𝑆𝑆𝑆𝑆𝑆 = � � 𝑦𝑦𝑖𝑖𝑖𝑖 − 𝑦𝑦�.. = 512.9583
SCT<-n*((mean(x5)-Y_m_T)^2+(mean(x10)-Y_m_T)^2+ 𝑖𝑖=1 𝑗𝑗=1
(mean(x15)-Y_m_T)^2+(mean(x20)-Y_m_T)^2);SCT 4
[1] 382.7917
𝑆𝑆𝑆𝑆𝑆𝑆 = � 𝑛𝑛𝑖𝑖 𝑦𝑦�𝑖𝑖. − 𝑦𝑦�.. 2 = 382.7917
SCE<-STC-SCT;SCE
𝑖𝑖=1
[1] 130.1667
s12<-SCT/3;s12
𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑆𝑆𝑆𝑆𝑆𝑆 − 𝑆𝑆𝑆𝑆𝑆𝑆 = 130.1667
[1] 127.5972
s2<-SCE/(20);s2 𝑆𝑆𝑆𝑆𝑆𝑆
[1] 6.508333 𝑠𝑠12 = = 127.5972 𝑠𝑠12�
𝑘𝑘 − 1 𝑓𝑓 = = 𝟏𝟏𝟏𝟏. 𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔
FA<-s12/s2;FA 𝑠𝑠 2
[1] 19.60521
𝑆𝑆𝑆𝑆𝑆𝑆 qf(0.95,3,20)
𝑠𝑠 2 = = 6.508333 [1] 3.098391
𝑁𝑁 − 𝑘𝑘
Como F>3.098391 Se rechaza H0
Técnica del Análisis de Varianza
(ANOVA de un factor)
x5<-c(7,8,15,11,9,10)
x10<-c(12,17,13,18,19,15)
x15<-c(14,18,19,17,16,18)
x20<-c(19,25,22,23,18,20)
n<-length(x5)
datos<-data.frame(variable=c(x5,x10,x15,x20))
grupo=factor(c(rep(1,n),rep(2,n),rep(3,n),rep(4,n)))
attach(datos)
ANOVA<-aov(variable~grupo,data = datos)
summary(ANOVA)
𝑆𝑆𝑆𝑆𝑆𝑆 Df Sum Sq Mean Sq F value Pr(>F)
𝑠𝑠12 = grupo 3 382.8 127.60 19.61 3.59e-06 ***
𝑘𝑘 − 1
𝒔𝒔𝟐𝟐𝟏𝟏 Residuals 20 130.2 6.51
𝒇𝒇 = �𝒔𝒔𝟐𝟐 ---
𝑆𝑆𝑆𝑆𝑆𝑆 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
𝑠𝑠 2 =
𝑁𝑁 − 𝑘𝑘 qf(0.95,3,20)
𝑘𝑘 [1] 3.098391
Condiciones (resumen)
• var.test()
• bartlett.test()
• fligner.test(),
• leveneTest() (Librería car)
(… más en http://ww2.coastal.edu/kingw/statistics/R-tutorials/oneway.html)
Ejercicios de Repaso Recomendados …
Métodos Estadísticos