Académique Documents
Professionnel Documents
Culture Documents
X y varianza X 2 y que Y1 , Y2 ,
2
varianza Y , ambas muestras independientes entre si. Pruebas de Hiptesis para Medias. Sea
X1 , X 2 ,
, X n una muestra aleatoria de una de una poblacin con media X y varianza X 2 . Si el tamao
2
X X aprox n ( 0, 1) . X n + n
x z
2
2
X n
, donde P Z > z =
. 2
1 n 1
(x
n i =1
y un Intervalo de
x z
2
sX n
.
Si 0 es un valor particular para X , podemos establecer tres hiptesis alternativas respecto al valor real de
H 0 : X = 0 vs
media de la poblacin. Cabe Anotar que la parte interactiva del SAS asume que las poblaciones involucradas SON NORMALES independiente del tamao de la muestra. Si las poblaciones no son normales, para realizar pruebas de hiptesis para la Media con muestras grandes, debe hacerse manualmente. Similarmente pasa para la diferencia de medias de dos poblaciones con muestras grandes. Ejemplo 1: Se tom una muestra aleatoria de 213 estudiantes de una universidad a los cuales se les registr: Estrato Socioeconmico (EST), Nmero de horas dedicadas semanalmente a estudiar (HORAS), su EDAD, si trabajaba (TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Una parte de los datos se muestra a continuacin. Observe que en este caso no se sabe nada acerca de la distribucin de las variables EDAD Y PROM. Suponga que se desea probar si la edad promedio real de un estudiante en dicha comunidad es superior a los 24 aos con base en esta muestra aleatoria. Las hiptesis a probar son: H 0 : = 24 vs H a : > 24 . Como el tamao de la muestra es grande, el estadstico de prueba ser: Z C =
x 24 sX 213
data est; infile " c:\Estadistica I\datos\induc.txt" firstobs=2; input est horas edad trab$ prom; run; Usando la parte interactiva del SAS se obtienen los siguientes resultados:
Analysis Variable EDAD N Mean Std Dev 213 24.6807512 5.0330470
Por notacin: x = 24. 68 , s X = 5. 033 , n = 213 Parte de la Base de Datos de los 213 estudiantes encuestados
EST HORAS EDAD TRAB PROM EST HORAS EDAD TRAB PROM EST HORAS EDAD TRAB PROM
1 1 1 1 1 2 2 2 2 2 2
28 22 25 24 21 12 30 4 9 72 12
20 21 24 28 30 35 26 32 26 25 25
NO NO SI SI NO NO NO NO NO NO NO
3.8 3.5 3.8 3.7 3.2 3.0 3.2 2.9 3.4 3.2 3.1
2 2 2 2 2 2 2 2 2 2 2
15 30 15 10 25 15 20 16 8 40 20
26 21 22 21 26 22 21 22 19 37 29
NO NO NO NO NO NO NO NO NO SI SI
3.7 3.9 3.1 4.0 3.0 3.0 3.0 3.2 2.9 2.9 3.3
2 2 2 2 2 2 2 3 3 3 3
24 16 18 24 18 16 14 20 30 20 30
29 24 25 26 24 40 27 30 36 27 27
SI SI SI SI SI SI SI NO NO NO NO
2.8 3.0 3.2 2.8 3.5 2.8 2.8 3.7 3.3 3.2 2.8
De esta manera Z C =
Rechazo es: R.C. = Z C | Z C > 1. 645 . Como Z C > z 0. 05 = 1. 645 , entonces rechazamos la hiptesis Nula y concluimos que segn la informacin suministrada, la edad promedio real de los estudiantes en dicha universidad es superior a los 24 aos. Observe que el valor p de la prueba se calcula como:
Ejemplo 2. Suponga que se tiene la creencia de que el promedio obtenido por los estudiantes que no trabajan es superior al promedio de los que si trabajan. Para resolver esta pregunta primero expliquemos el procedimiento general de la prueba para diferencia de medias con muestras grandes. Suponga que X 1 , X 2 ,
, Ym los
, n , y que E Y j = Y ,
V Y j = Y 2 , j = 1, 2 ,
son apreciables, podemos usar el Teorema Central del Lmite para hallar la distribucin de la diferencia entre las medias muestrales:
X Y ( X Y ) S X2 n + S Y2 m
aprox n ( 0 , 1) .
n +
ZC =
X Y ( X Y ) S X2 n + S Y2 m
H 0 : X Y = 0 vs H a : X Y > 0 .
ZC =
= 1.306
grande no podemos rechazar la hiptesis Nula, es decir, que segn la informacin suministrada, no existe suficiente evidencia para afirmar que la nota promedio de los que NO trabajan sea superior a la nota promedio de los que trabaja: Pueden asumirse iguales.
Prueba de Hiptesis para Proporciones Suponga que X e Y son variables aleatorias Independientes tales que
pruebas de hiptesis para proporciones asumen que los tamaos n o m son grandes para utilizar la aproximacin dada por el TLC. Sea p 0 un valor particular de p 1 . Se desea probar alguna de las siguientes hiptesis:
H 0 : p1 = p 0
p 1 < p 0 vs H a : p 1 > p 0 . p 1 p 0
ZC =
p 0 (1 p 0 ) n
p p0
Ejemplo 3. Usando la base de datos anterior, suponga que se tiene la creencia de que ms del 20% de los estudiantes en dicha universidad Trabajan. Es cierta dicha afirmacin? Sea X: Nmero de Estudiantes en la muestra de 213 que trabajan. Entonces X bin n , p , con p desconocida. Las hiptesis a probar son: H 0 : p = 0. 2 vs
Cargamos el archivo de datos que se encuentra en la librera WORK y cuyo nombre es EST.
Las pruebas de hiptesis para medias y diferencia de medias aqu relacionadas asumen que las respectivas poblaciones son Normales. La primera es una prueba de hiptesis para la media de una poblacin Normal con varianza conocida La segunda es una prueba de hiptesis para la media de una poblacin Normal con varianza desconocida La tercera es prueba de hiptesis para una proporcin poblacional. Se asume un tamao de muestra grande La cuarta es prueba de hiptesis para la varianza de una poblacin Normal La quinta prueba de hiptesis para diferencia de medias de dos poblaciones Normales con varianzas desconocidas. Aqu se relacionan dos casos: Varianzas Iguales o Varianzas desiguales La sexta es una prueba de medias para datos Pareados La sptima es una prueba de hiptesis para la diferencia entre dos proporciones de dos poblaciones diferentes. Se asumen tamaos de muestra grandes La ltima es una prueba de hiptesis para igualdad entre varianzas de dos poblaciones normales.
Retomando el ejemplo 3, escogemos la opcin 3: Prueba para una proporcin: Aparece un recuadro donde se puede seleccionar el tipo de hiptesis alterna. Seleccionamos la variable TRAB. El aspecto que nos interesa medir es los que trabajan. Seleccionamos la opcin level of interest y hacemos click en SI. El valor de p 0 y la alternativa se colocan en Hypotheses Nula y Alternate respectivamente:
En la opcin Intervals puede pedirle al programa que calcule un Intervalo de Confianza al nivel preferido para p. Podemos calcular un Intervalo de Confianza al 95% para p.
Ejemplo 4. Usando la base de datos anterior. El profesor de Estadstica afirma que para los estudiantes mayores de 22 aos, la proporcin de estudiantes que no trabajan es diferente a la proporcin de estudiantes que trabajan. Es cierta dicha afirmacin? Sea X: Nmero de estudiantes que No trabajan en la muestra y sea Y: Nmero de estudiantes que trabajan en la muestra. Suponga que X bin n , p 1
) y Y bin ( m , p ) , donde p
2
en la universidad mayores de 22 aos que No trabajan y Trabajan respectivamente, n y m son los tamaos de muestra respectivos. X e Y son variables aleatorias Estadsticamente Independientes. Las hiptesis que se desea contrastar son: H 0 : p 1 p 2 = 0 vs H a : p 1 p 2 0 . El estadstico de Prueba en este caso es:
ZC =
p 1 (1 p 1 ) n
p1 p 2 0 +
p 2 (1 p 2 ) m
aprox n ( 0 , 1)
n , m +
Como p 1 y p 2 son desconocidos, no podemos evaluar directamente este estadstico de prueba. Dos alternativas pueden ser propuestas para resolver este problema. 1. Cambiar p 1 y p 2 por sus estimadores de mxima verosimilitud:
p1 =
x y y p2 = . As el estadstico de prueba m n
ser:
ZC =
p1 1 p1 n
p1 p 2 0
2
) + p (1 p )
2
aprox n ( 0 , 1)
n , m +
m p1 y p 2
ZC =
p1 p 2 0 1 1 p (1 p ) + n m
ap rox n ( 0 , 1 ) .
n , m +
Como p tambin es desconocido puede ser estimado por usando un promedio ponderado de
p1 y p 2 :
p=
Para aplicar el procedimiento en la parte interactiva del SAS primero debemos crear una variable categrica que indique si el estudiante es mayor o menor de 22 aos. En el Paso DATA creamos la variable MAYOR: data est; infile " c:\rana\estadistica I\datos\induc.txt" firstobs=2; input est horas edad trab$ prom; if edad>22 then mayor="SI"; else mayor="NO"; run; Ejecutamos el programa y volvemos a la parte interactiva.
En el men de pruebas de Hiptesis seleccionamos la opcin Two Smaples Test for Proportions.
Los estudiantes que nos interesan son los mayores de 22 aos. El en cuadro de dilogo que aparece la opcin Groups are In aparece por defecto: One variable. En el cuadro Dependent seleccionamos la variable MAYOR, y el recuadro Group seleccionamos la variable TRAB. El nivel de inters para la variable MAYOR es los que SI son mayores de 22 aos. Por ltimo seleccionamos la hiptesis nula y la alterna respectivas. La opcin intervals permite hallar el respectivo intervalo de Confianza para p 1 p 2 .
Tanto el Valor P de la Prueba como el Intervalo de Confianza para p 1 p 2 indica que las proporciones son diferentes. Ms an, que para los estudiantes mayores de 22 aos es mayor la proporcin de los que trabajan que la proporcin de los que no trabajan. (Hay ms estudiantes que trabajan que los que no trabajan mayores de 22 aos).
POBLACIONES NORMALES. Para realizar pruebas de hiptesis acerca de la media o de la diferencia entre medias cuando los tamaos de las muestras son pequeos, es necesario el supuesto de normalidad en las muestras. Supongamos que
X1 , X 2 , Y1 , Y2 ,
, X n es una muestra aleatoria de una poblacin normal con media X y varianza X 2 y que , Ym es otra muestra aleatoria de otra poblacin normal con media Y y varianza Y 2 , ambas muestras
XX X n
independientes entre si. De la teora de distribuciones muestrales sabemos que si X es conocida entonces
2
~ n ( 0 , 1) .
Si X es desconocida, entonces
2
XX sX n
~ t ( n 1) .
Sea 0 un valor particular para X . Tres hiptesis puedes ser planteadas respecto a X :
H 0 : X = 0 vs
H a : X < 0 H a : X > 0 . H a : X 0
Si X es conocida entonces, el estadstico de prueba y la Regin Crtica para un valor dado de son:
2
Se tiene la creencia de que el consumo de gasolina (Millas por Galn) es superior a 25 millas/galn. Es cierta esta afirmacin? Asuma que el consumo de gasolina se distribuye aproximadamente normal sin importar el tipo de automvil.
10
Suponga que X 1 , X 2 ,
, X 25 es una muestra aleatoria que representa los consumos de gasolina en millas por
2
galn para los 25 automviles considerados en el estudio. Suponemos que cada X i es una variable aleatoria normal con media X y varianza X . As, cada
X i n ( X , X 2 ) i = 1, 2,
H 0 : X = 20 vs H a : X > 20 .
Como X es desconocida y la muestra proviene de una distribucin normal, entonces el estadstico de prueba y la
2
TC =
X 20 sX 25
El valor P de esta prueba se calcula como: Vp = P t 24 > TC . En SAS. DATA AUTO; INFILE "C:\RANA\ESTADISTICA II\SEM 01_2003\DATOS\ejer10-5_Mont_Run.txt" FIRSTOBS=2; INPUT AUTO $ Y X1 X2 X3 X4 $ X5 $ X6-X10 TIPO $; RUN;
(( )
El en cuadro de opciones, al igual que el en caso de proporciones, seleccionamos la variable de Inters (Y: Consumo de Gasolina), el valor de la hiptesis Nula ( H 0 : X = 20 ) y la respectiva alternativa ( H a : X > 20 ). Adems podemos indicar el clculo de un Intervalo de Confianza al 95% para X . Esta opcin del SAS asume que los consumos de Gasolina estn distribuidos Normalmente.
11
Como el Valor P es grande, Vp = P t 24 > 0. 473 = 0. 3202 , No tenemos suficiente evidencia para rechazar Ho, es decir el consumo promedio de gasolina puede ser inferior o igual a 20 millas/galn.
(( )
12
Para Diferencia de Medias. Si lo que se desea es comparar el comportamiento promedio de una misma caracterstica en dos poblaciones diferentes, cuando los tamaos de muestra son pequeos, no podemos usar el Teorema Central del Lmite para construir un Estadstico de Prueba adecuado. De nuevo, supongamos que X 1 , X 2 , varianza X
2
y que Y1 , Y2 ,
( n 1) S 2 X
X
2 2 2
2 ( n 1) y
( m 1) S 2 Y
Y
2 X
2
+ 2 ( n + m 2 ) . Adems: 2 2 X Y ( X y ) X Y ( X y ) Z= = n ( 0 , 1) . Entonces: 1 1 2 2 + + n m n m
( n 1) S
2 ( m 1) S Y
( X Y) (
y )
1 1 + n m T= 2 ( n 1) S 2 + ( m 1) S Y X 2
( X Y) ( =
Sp
y )
( n + m 2)
2
1 1 + n m
t ( n + m 2) , donde S =
2 p
2 ( n 1) S 2 + ( m 1) S Y X
n+m2
Caso I: X Y . Bajo el supuesto de normalidad en las muestras aleatorias se puede demostrar que:
2
T=
( X Y) (
X2 n +
y )
Y2 m
2 S2 SY X + n m t ( ) , donde = 2. 2 2 aprox 2 SX S2 X n m + n +1 m +1
La demostracin de este hecho es un poco ms elaborada y por eso no se presentar aqu. Las hiptesis a probar son entonces: Para probar si las varianzas de ambas muestras son iguales o diferentes, aunque sean desconocidas, podemos usar un Intervalo de Confianza al 100 1 % para el cociente de las varianzas poblacionales, es decir para
X2 Y2
13
Si dicho intervalo contiene el nmero 1, podemos afirmar que posiblemente las varianzas sean iguales. Si no contiene el nmero 1, podemos asumir que las varianzas son diferentes. Un Intervalo de Confianza al 100 1 % para
X2 Y2
Y2 S 2 X
2 X2 S Y
f ( n 1, m 1) . As, un
X2 Y2
es de la forma:
S2 S2 1 X X , 2 f ( m 1, n 1) , donde P f ( n 1 , m 1) > f ( m 1 , n 1) = . 2 S f ( n 1 , m 1) S Y Y
Los valores para f m 1 , n 1 se encuentran tabulados, para valores pequeos de . Usualmente se toman valores de iguales a 0.05, 0.025, 0.01 (que corresponden a Intervalos de Confianza del 90%, 95% y 98%).
H0 :
Estadstico de Prueba: FC =
X2 Y2
= 1 vs H 0 :
X2 Y2
1.
S2 X
2 SY
Si la hiptesis Nula es rechazada, se concluye que las varianzas poblacionales no son iguales. En caso contrario podemos asumir que las varianzas poblacionales son iguales.
H0 :X Y = 0
Usualmente 0 se toma como cero y entonces hablamos de una prueba de Igualdad de Medias.
t (n + m 2) . 1 1 Sp + n m La regin crtica es similar al caso de una muestra aleatoria: R.C. = TC | TC > t ( n + m 2 ) , dado. El valor P
Caso I: X = Y = . El estadstico de prueba es: TC =
2 2 2
X
( X Y ) (
{
y )
((
( X Y ) (
S2 X n +
y )
2 SY
t () .
14
((
Ejemplo 6. Suponga que se cree que los automviles con transmisin Mecnica consumen en promedio ms gasolina que los automviles con transmisin Automtica. Usando la base de datos anterior, es cierta esta afirmacin? Usando la parte interactiva del SAS podemos obtener unas estadsticas descriptivas bsicas respecto al Consumo de Gasolina en autos con ambos tipos de transmisiones:
Tenemos 18 automviles con transmisin automtica y 7 con transmisin mecnica. De nuevo, supongamos que X 1 , X 2 , , X 7 es una muestra aleatoria que representa los consumos de gasolina de los autos con transmisin mecnica, asumamos que estos consumos se distribuyen normalmente con media X y varianza X
2
y que
Y1 , Y2 ,
2
, Y18 es otra muestra aleatoria que representa los consumos de gasolina de los autos con transmisin
2 2
automtica, asumamos que estos consumos se distribuyen normalmente con media Y y varianza Y , donde X y Y son desconocidas y ambas muestras independientes entre si. Las hiptesis a probar son:
H0 :X Y = 0
vs
X2 Y2
Aparece un recuadro con un men de opciones. Seleccionamos grupos en una variable, variable dependiente Y, grupo la variable TIPO. La variable TIPO permite identificar la poblacin. En este caso la Poblacin 1, ser los autos con transmisin Automtica y la Poblacin 2, ser los autos con transmisin mecnica (esto debido a que el SAS organiza en orden alfabtico). Esto no Importa lo que interesa es determinar si el Intervalo de Confianza contiene o no el nmero uno o el resultado de la Prueba de Hiptesis. Las hiptesis a probar son:
H0 :
X2 Y2
= 1 vs H 0 :
X2 Y2
1.
Seleccionamos la opcin Intervals, escogemos un nivel de confianza del 95% y la opcin Interval. Los resultados obtenidos son:
15
Observe que la Hiptesis Nula es rechazada, pues el valor P es pequeo. Al mismo tiempo el Intervalo de Confianza para
Y2 X2
NO contiene el nmero uno. Ambos resultados permiten concluir que las varianzas poblacionales No son
2 2
Iguales. As, para probar la hiptesis inicial acerca del consumo de gasolina, debemos asumir que X Y .
( X Y ) (
S2 X n +
y )
2 SY
16
En SAS seleccionamos las opciones: Hyptesis Test Two-Sample t-test for Means.
En el recuadro que aparece seleccionamos la variable dependiente Y, el grupo la variable TIPO, la hiptesis Nula 0 = 0 , la hiptesis alternativa es Mean 1 Mean 2 < 0, pues los grupos a comparar aparecen primero Automtica y Luego Manual, al revs de lo planteado en la Hiptesis alterna inicial: H a : X Y > 0
Los resultados obtenidos muestran las hiptesis tanto para varianzas iguales como para varianzas diferentes:
17
Observe que el valor del estadstico de Prueba para Varianzas diferentes es negativo, esto es porque para el SAS la poblacin 1 son los consumos de los autos con transmisin Automtica y la Poblacin 2 los autos con transmisin Mecnica. La conclusin de la prueba, usando el Intervalo de Confianza o el Valor P, permite afirmar que el consumo de gasolina para los autos con transmisin Mecnica es SUPERIOR al consumo de gasolina para autos con transmisin Automtica. El siguiente grfico nos muestra evidencia inicial de que esta afirmacin es cierta.
18