Vous êtes sur la page 1sur 38

Estadistica Comparativa

• La estadística comparativa propone


comparar dos o mas poblaciones.
Existen algunas herramientas para
hacer comparaciones.
• Las mas conocidas son las pruebas
de hipótesis y el análisis de varianza,
pero existen muchas más.
Contrastando una
Son demasiados...
hipótesis
No se si los
ESTUDIANTES de %
Nivel pesarán como el
resto… unos 70Kg
(hipótesis nula)...

¡Gran
diferencia!

Muestra Rechazo la
aleatoria de hipótesis
estudiantes de
5 NIVEL

X = 85 kg
3
¿Qué es una hipótesis? Creo que el porcentaje
de enfermos será el 5%
• Una creencia sobre la
población, principalmente sus
parámetros:
– Media
– Varianza
– Proporción/Tasa

• OJO: Si queremos contrastarla,


debe establecerse antes del
análisis.
4
Tipos de error al contrastar
hipótesis
Realidad
H0 cierta H0 Falsa
No Rechazo H0 Error de tipo II
Correcto
El tratamiento no El tratamiento si tiene
tiene efecto y así efecto pero no lo
se decide. percibimos.

Probabilidad β

Rechazo H0 Error de Correcto


Acepto H1
tipo I El tratamiento tiene efecto y
El tratamiento no el experimento lo confirma.
tiene efecto pero
se decide que sí.

Probabilidad α 5
Pruebas de hipótesis referentes a dos medias
Pruebas de hipótesis referentes a dos medias con muestras
independientes de tamaño grande y/o varianza conocida.

Muy frecuentemente el interés del investigador puede estar centrado en la


comparación de dos poblaciones en relación a sus valores medios. Cuando
el tamaño de las muestras es grande, el valor estandarizado de la diferencia
entre medias que se desean comparar estará dado de la siguiente forma:

x1 − x 2 S S 2 2
Z= Sd = + 1 2
Sd n1 n 2
en donde Z es el valor estandarizado de la diferencia entre dos medias.
x y x son las medias muéstrales de las poblaciones 1 y 2, respectivamente.
1 2

Sd es el error estándar de la diferencia entre dos medias.


S yS
2
1
2
2 son las varianzas de las muestras 1 y 2, respectivamente.
n1 y n2 son los tamaños de muestra de las poblaciones 1 y 2 (n1 y n2 >30).
Sí se desea contrastar la Ho: µ1=µ2 a un nivel de significancia α, las
regiones de rechazo estarán determinadas de la siguiente forma:
HIPOTESIS ALTERNATIVA RECHAZAR Ho: Sí

Z  Z
µ1>µ2
Z  Z
µ1<µ2
Z  Z ó
2
µ1≠µ2 Z  − Z Z  Z
2 2

Ejemplo 1

Un investigador esta interesado en determinar sí la aplicación de cierto


fungicida en el cultivo de crisantemo, incrementa el diámetro de la flor.
Con tal propósito establece 60 parcelas con aplicación y 40 sin aplicación
y encuentra los siguientes resultados.
Con aplicación Sin aplicación
x 12.6 cm
1
x 10.2 cm
2

S 2
1
4.25 S 2
2
3.85
n1 60 n2 40
Prueba T de Student
La prueba de t Student, es un método de análisis estadístico,
que compara las medias de dos grupos diferentes. Es una
prueba paramétrica, o sea que solo sirve para comparar
variables numéricas de distribución normal.

La prueba t Student, arroja el valor del estadístico t. Según


sea el valor de t, corresponderá un valor de significación
estadística determinado.

En definitiva la prueba de t Student contrasta la H0 de que la


media de la variable numérica “y”, no tiene diferencias para
cada grupo de la variable categórica “x”.
Prueba de dos medias
muestras pequeñas

Sigmas descono-
cidas e iguales

Sigmas desconocidas
9
y desiguales
Prueba de hipótesis de dos pob.
Comparando dos medias con t
Investigar si hay diferencia en los promedios de las ventas diarias de dos tiendas
Las varianzas de las dos poblaciones son iguales pero desconocidas  1 =  2
2 2

Determinar el intervalo de confianza al 99% donde se encuentra la media (alfa = 0.01)


Tienda 1 Tienda 2
Semanas n1 12 n2 15
Ventas promedio X1 125.4 X2 117.2
Desv. Estandar s1 34.5 s2 21.5

Paso 1. Establecimiento de hipótesis

Ho : m T 1 = m T 2
Ha : m T 1 ¹ m T 2 Por tanto se trata de una prueba de dos colas

Paso 2. Cálculo del estadístico de prueba tc

s12 ( n1 − 1) + s 22 (n 2 − 1) 19564.25 Sp2 = 782.57


s =
2

n1 + n 2 − 2
p
25

X1 − X 2 8.2 = > tc = 0.75684444


tc =
s 2p s 3p 10.8344589
+
n1 n2
Tomamos a X1 como el mayor para comparar tc contra te positiva
Si se toma a X1 como la media menor se debe comparar Zc contra -Ze

Paso 3. Determinar la te de Excel o de tablas para una alfa de 0.01 que corresponde a alfa/2 = 0.005 10
Se tienen n1 + n2 - 2 grados de libertad o sean 25
te (0.01) = 2.78743581 DIST.T.INV (0.01, 25) Asi es para dos colas
Paso 4. Comparando los valores tc calculado contra texcel (0.01) se tiene

P(t<=-2.787 ) = alfa/2 P(t>=2.787 ) = alfa/2

te(0.01,25) = -2.787 te(0.01, 25) = 2.787


Valor p para tc es igual a
tc = 0.7568 P(tc) = 0.46025521
p > Alfa / 2
Como tc es menor que texcel, no cae en el área de rechazo,
y por tanto no hay suficiente evidencia para rechazar Ho
Se concluye que no hay diferencia sig. En las ventas de las dos tiendas
Paso adicional. El Intervalo de confianza del 99% sobre la diferencia de medias poblacionales,
con sigmas desconocidas es:
s 2p s 2p
+ = Error estándar 10.8344589
n1 n2
s 2p s 2p = Intervalo de confianza (8.2 + - 2.787*10.83)
( X 1 − X 2 )  t / 2 +
n1 n2
Se observa una diferencia positiva sin embargo el cero está incluido ( -21.98 <= u <= 38.38) 11
Prueba de hipótesis de dos pob.
Comparando dos medias con t
Investigar si hay diferencia en los promedios de las ventas diarias de dos tiendas
Las varianzas de las dos poblaciones son iguales pero desconocidas  1 =  2
2 2

Determinar el intervalo de confianza al 99% donde se encuentra la media (alfa = 0.01)


Tienda 1 Tienda 2
Semanas n1 12 n2 15
Ventas promedio X1 125.4 X2 117.2
Desv. Estandar s1 34.5 s2 21.5

Paso 1. Establecimiento de hipótesis

Ho : m T 1 = m T 2
Ha : m T 1 ¹ m T 2 Por tanto se trata de una prueba de dos colas

Paso 2. Cálculo del estadístico de prueba tc

s12 ( n1 − 1) + s 22 (n 2 − 1) 19564.25 Sp2 = 782.57


s =
2

n1 + n 2 − 2
p
25

X1 − X 2 8.2 = > tc = 0.75684444


tc =
s 2p s 3p 10.8344589
+
n1 n2
Tomamos a X1 como el mayor para comparar tc contra te positiva
Si se toma a X1 como la media menor se debe comparar Zc contra -Ze

Paso 3. Determinar la te de Excel o de tablas para una alfa de 0.01 que corresponde a alfa/2 = 0.005 12
Se tienen n1 + n2 - 2 grados de libertad o sean 25
te (0.01) = 2.78743581 DIST.T.INV (0.01, 25) Asi es para dos colas
Paso 4. Comparando los valores tc calculado contra texcel (0.01) se tiene

P(t<=-2.787 ) = alfa/2 P(t>=2.787 ) = alfa/2

te(0.01,25) = -2.787 te(0.01, 25) = 2.787


Valor p para tc es igual a
tc = 0.7568 P(tc) = 0.46025521
p > Alfa / 2
Como tc es menor que texcel, no cae en el área de rechazo,
y por tanto no hay suficiente evidencia para rechazar Ho
Se concluye que no hay diferencia sig. En las ventas de las dos tiendas
Paso adicional. El Intervalo de confianza del 99% sobre la diferencia de medias poblacionales,
con sigmas desconocidas es:
s 2p s 2p
+ = Error estándar 10.8344589
n1 n2
s 2p s 2p = Intervalo de confianza (8.2 + - 2.787*10.83)
( X 1 − X 2 )  t / 2 +
n1 n2
Se observa una diferencia positiva sin embargo el cero está incluido ( -21.98 <= u <= 38.38) 13
Prueba de hipótesis de dos pob.
Comparando datos pareados con t
Las muestras pareadas de tamaño 25 reportaron una diferencia media de 45.2 y una desviación
estándar de las diferencias de 21.6. Pruebe la igualdad de medias a un nivel del 5%.
Paso 1. Establecimiento de Hipótesis
Ho : m1 = m 2
Ha : m1 ¹ m 2 Grados de libertad = No. de pares - 1
No. Pares de muestras n = 25
Paso 2. Se calcula el estadístico tc: Diferencia media = 45.2
Desv. Estándar de difs. = 21.6
Alfa 0.05
d gl = 24
tc = = 10.462963
sd
n
Paso 3. Se determina el valor crítico del estadístico t de Excel o tablas para Alfa / 2 0.025

t excel = 2.06389855 DISTR.T.INV(0.05, 24) Excel divide entre 2 colas14


Paso 4. Comparando el estadístico tcalculado contra t excel (0.025, 24) se tiene:
tc = 10.462963

P(t<=-2.063 ) = alfa/2 P(t>=2.063 ) = alfa/2

te(0.025,24) = -2.063 te(0.025, 24) = 2.063


Valor p para tc es igual a
P(t > tc) = 0
p < Alfa / 2
Como tc es mayor que t excel, si cae en el área de rechazo,
y por tanto si hay suficiente evidencia para rechazar Ho y aceptar Ha
se concluye que si hay diferencia significativa entre las medias
Paso 5. El intervalo de confianza para las diferencias en medias pareadas es
t alfa/2 = 2.063
Error estándar = 0.864
Dif. Promedio = 45.2
sd
I .C. para.m d = d  t / 2 45.2 +- 0.864
n
Se observa diferencia positiva significativa entre diferencia de medias 43.4176 <= dm < =46.9824
15
DIFERENCIA DE MEDIAS GRUPOS INDEPENDIENTES (t)
ejemplo: Se desea saber si existen diferencias entre lotes de queso
LOTE 1 6,2 6,3 5,4 4,5 5,0 4,7 5,7 3,3
LOTE 2 5,8 6,6 6,8 5,9 5,4 5,0 6,5 6,7
___
S1 = 0,99
n1 = 8 X 1 = 5,14
S 2 = 0,66
___
n2 = 8 = 6,09
X 2
___ ___

=
( X − X ) − (m − m )
1 2 1 2
t ( n −1 ) S + ( n − 1 ) S  1 1
2 2

1 1
 +
2 2

(n − 1) + (n − 1)  
1 n n
2 1 2
DIFERENCIA DE MEDIAS GRUPOS INDEPENDIENTES (t)

___
S1 = 0,99
n1 = 8 X 1 = 5,14
S 2 = 0,66
___
n2 = 8 = 6,09
X 2

___ ___

=
( X − X ) − (m − m )
1 2 1 2
t ( n −1 ) S + ( n − 1 ) S  1 1
2 2

1 1
 +
2 2

(n − 1) + (n − 1)  
1 n n
2 1 2

CÁLCULO DEL VALOR t OBSERVADO


5,14 − 6,09
t =
(8 − 1)0,99 2 + (8 − 1)0,66 2  1 1 
 + 
(8 − 1) + (8 − 1) 8 8
DIFERENCIA DE MEDIAS GRUPOS INDEPENDIENTES (T)

Valor calculado
to = −2.28
Existen diferencias de rend. favorables
 = 0.05 bilateral al grupo 2 (M=6,09) respecto del grupo 1
(M=5,14), t(14)=2,28, p<.05.
valor critico
t0.025;14 = 2.14
t0.975;14 = 2.14
grados de libertad to = −2.28
(n1-1)+(n2-1)

Se Rechaza Ho
PRUEBAS DE HIPÓTESIS
DOS GRUPOS RELACIONADOS

• Prueba T de Student
Prueba T de Student
para muestras relacionadas
La prueba de t Student para muestras dependientes se utiliza
para comparar las medias de un mismo grupo en diferentes
etapas. Se utiliza, por ejemplo, para las comparaciones de los
resultados de una prueba antes y después para un grupo
determinado.

A continuación se explicará la operación de esta prueba a


través de un caso para contraste unilateral y otro bilateral.
DIFERENCIA DE MEDIAS GRUPOS RELACIONADOS (T)
ejemplo: Se desea saber si la conciencia de lo impreso de niños de
Primer año básico ha variado positivamente después de una
intervención pedagógica. Los datos son los siguientes :

CONC. IMPR PRE CONC. IMPR POST


92 94
85 97
74 93
70 99
36 92
85 98
55 77
66 93
88 96
75 100
89 95
66 93
DIFERENCIA DE MEDIAS GRUPOS RELACIONADOS (T)
En este caso se utiliza la prueba t para muestras relacionadas

xn−x
DS d = i1 i2

t= M d
1 n
2
 n ___

DS d 1  d 1 − X d 

 
n
DS d = n −1
M = Media aritmética de las diferencia s
d
DS = Desviación Estándar de las diferencia s
d
n = Número de sujetos de la muestra
DIFERENCIA DE MEDIAS GRUPOS RELACIONADOS (T)
En nuestro caso, se obtienen los siguientes valores:

CONC. IMPR PRE CONC. IMPR POST d


92 94 -2
85 97 -12
___
74 93 -18
70 99 -29 X d = −20,50
36 92 -56
85 98 -14
s d
= 14,39
55 77 -23

n = 12
66 93 -27
88 96 -8
75 100 -25
89 95 -6
66 93 -27
DIFERENCIA DE MEDIAS GRUPOS RELACIONADOS (T)
CÁLCULO DEL VALOR T OBSERVADO

n = 12 M d = −20,50 DS d
= 14,39

t= M d
SUSTITUYENDO
− 20,50
tO = = −4,93
DS d 14 , 39
12
n
DIFERENCIA DE MEDIAS GRUPOS RELACIONADOS (T)
Valor calculado  = 0.05 unilateral
to = −4,93 valor critico
t0.05;11 = 1,796

grados de libertad
t0.95;11 = −1,796 n-1

to = −4,93

Se Rechaza Ho
Al comparar los valores, podemos rechazar la hipótesis nula con un margen
de error de 5%, por lo cual podemos afirmar que la conciencia de lo impreso
de niños de Primer año básico ha variado positivamente después de la
intervención pedagógica.
DIFERENCIA DE MEDIAS GRUPOS RELACIONADOS (T)
Ejemplo Contraste Bilateral:
Un Director de un colegio intentaba encontrar un modo
eficaz de estimular la concentración de los niños,
entendida como la capacidad que tienen para centrarse
en aquello que están realizando en cada momento. Con el
fin de elegir la técnica más apropiada, probó en un
Segundo básico dos opciones, una basada en ejercicios
de respiración y relajación y otra basada en el efecto
Mozart, pues tenía antecedentes que la música también
incide en la concentración, la atención y la memoria,
fundamentales para el proceso del aprendizaje. Los
resultados fueron medidos a través de los tiempos de
concentración de cada niño en cada una de las
experiencias.
DIFERENCIA DE MEDIAS GRUPOS RELACIONADOS (T)
En nuestro caso, se obtienen los siguientes valores:
TÉC. ERR TÉC. EM d
15 27 -12
12 25 -13
22
20
17
30
5
-10
M d = −4,83
18 22 -4
16 19 -3 DS d
= 5,61
14 15 -1
19
17
22
25
-3
-8
n = 12
10 19 -9
25 23 2
20 22 -2
DIFERENCIA DE MEDIAS GRUPOS RELACIONADOS (T)
CÁLCULO DEL VALOR T OBSERVADO

n = 12 M d = −4,83 DS d
= 5,61

t= M d SUSTITUYENDO
− 4,83
tO = = −2,99
DS d 5, 61
12
n
DIFERENCIA DE MEDIAS GRUPOS RELACIONADOS (t)
Valor calculado  = 0.05 bilateral
to = −2,99 valor critico
t0.025;11 = 2,201

grados de libertad
t0.975;11 = −2,201 n-1

to = −2,99

Se Rechaza Ho
Al comparar los valores, podemos rechazar la hipótesis nula de la igualdad de
las técnicas de estimulación de la concentración, con un margen de error de
5%, por lo cual podemos afirmar que la existen diferencias entre ellas, a favor
de la técnica basada en el efecto Mozart.
Prueba de hipótesis de dos pob.
Comparando dos proporciones con Z
Investigar si tiene razon el analista sobre si los bonos convertibles se sobrevaloraron más que los
bonos de ingresos.
Probar la hipótesis a un 10% de nivel de significancia o error de equivocarse en rechazar Ho.
Convertibles Ingresos
Bonos n1 312 n2 205 Alfa 0.1
Sobrevalorad X1 202 X2 102 1-Alfa 0.9
7.8
p1 0.647 p2 0.498 Fracción de las muestras
Paso 1. Establecimiento de hipótesis
Ho :  1 −  2  0....otra. forma....Ho :  1   2
Por tanto se trata de una prueba de cola derecha
Ha :  1 −  2  0..........................Ha :  1   2
Paso 2. Cálculo del estadístico de prueba Zc
p1 − p 2 0.150 = > Zc = 3.393046759
Zc =
p1 (1 − p1 ) p 2 (1 − p 2 )
+ 0.04417119
n1 n2
Tomamos a p1 como el mayor para comparar Zc contra Ze positiva (1- Alfa)
Paso 3. Determinar la Ze de Excel o de tablas para 1-Alfa 0.9
Ze (0.9) = 1.28155157 DIST.NORM.STAND.INV (0.9) 30
Paso 4. Comparando los valores Zc calculado contra Zexcel (0.9) se tiene

Zc = 3.39304676

P(Z>= + 1.28 ) = Alfa

Ze(0.9) = 1.281551566
Valor p para Zc es igual a
P(-Zc) = 0.00034946
p < Alfa
Como Zc es mayo que Zexcel, si cae en el área de rechazo,
y por tanto hay suficiente evidencia para rechazar Ho y aceptar Ha
Se concluye que la diferencia en conv. entre los bonos es significativa
Paso adicional. El Intervalo de confianza del 98% sobre la diferencia de medias poblacionales,
con sigmas desconocidas es:
p1 (1 − p1 ) p 2 (1 − p 2 )
s p1− p 2 = + = Error estándar 0.044171193
n1 n2 Zexcel (para alfa/2) 1.644853627

( p1 − p 2 )  Z  / 2 s p1− p 2 = Intervalo de confianza ( 0.150  0.07265515


Se observa difererencia positiva entre proporciones ( 0.077 <= PI <= 0.223
el cero no está incluido en el intervalo 31
Resumen

32
Prueba de hipótesis para la varianza

• Las pruebas de hipótesis para


comparar una varianza poblacional a un
cierto valor constante 0, si la población
sigue la distribución normal es:

• Con el estadístico Chi Cuadrada con n-


1 grados de libertad
33
Prueba de hipótesis para la varianza

2.17

Ejemplo: ¿El material muestra una variación (sigma) en la resistencia a la


tensión menor o igual a 15 psi con 95% de confianza?. En una
muestra de 8 piezas se obtuvo una S = 8psi.

X2c =(7)(8)^2/(15)^2 = 1.99


Como La Chi calculada es menor a la Chi de Excel de 2.17 se debe
rechazar la hipótesis nula. Si hay decremento en la resistencia 34
Prueba F de dos varianzas
• Si se toman dos muestras de dos poblaciones normales con
varianzas iguales, la razón de sus varianzas crea una distribución
muestral F. Las hipótesis son las siguientes:

• El estadístico F se muestra a continuación donde S1 se acostumbra


tomar como la mayor

35
Prueba F de dos varianzas

• Sea S1 = 900 psi, n1 = 9, s2 = 300 psi, n2 = 7. A un 95% de nivel de


confianza se puede concluir que hay menor variación?

Ho: Varianza 1 <= Varianza 2 H1: Varianza 1 > Varianza 2


Grados de libertad para Var1 = 8 y para var 2 = 6

Falfa = F(0.05, 8, 6) = 4.15


Fcalculada = (900^2)/(300^2) = 9 >> Falfa, se rechaza Ho.
Hay evidencia suficiente para indicar que la variación ya se ha
reducido
36
Prueba de hipótesis de dos pob.
comparando varianzas con F
Se quiere comprobar si las varianzas de dos diferentes métodos de ensamble de CDs son diferentes en prod .
A un nivel de siginificancia del 5% ¿Qué se puede concluir?

Método 1 Método 2
No. De CDs n1 15 n2 17 Alfa/2 0.025
Desv. Estan. s1 5.4 X2 4.8
Varianza s12 29.16 s22 23.04

Paso 1. Establecimiento de hipótesis

Ho :  12 =  22
Ha :  12 ¹  22 Por tanto se trata de una prueba de dos colas

Paso 2. Cálculo del estadístico de prueba Fc


Grados de libertad
2
s 1.266 Numerador = n1 - 1 = 14
Fc = 1
2 Denominador = n2 - 1 = 16
s
2

Tomamos a s12 como el mayor para comparar Fc contra Fexcel (1- Alfa/2)

Paso 3. Determinar la Fe de Excel o de tablas para Alfa/2 0.025


37
Fe (0.975) = 2.81701784 DIST.F.INV (0.025, 14,16)
Paso 4. Comparando los valores Fc calculado contra Fexcel (0.025) se tiene

f(F)

P(F>= + 2.81 ) = alfa/2

Fe(0.025) = 2.81701784

Fc = 1.266 Valor p para Fc es igual a


P(Fc) = 0.32259599
Como Fc es menor que Fexcel, no cae en el área de rechazo, p > Alfa / 2
y por tanto no hay suficiente evidencia para rechazar Ho
Se concluye que la varianza de los dos métodos de ensamble no difieren
significativamente
38

Vous aimerez peut-être aussi