Vous êtes sur la page 1sur 13

ESTADISTICA INFERENCIA ESTADSTICA

TITULO:

Una corta introduccin terica de inferencia estadstica Test o Pruebas de hiptesis CHI-CUADRADO. Ejercicios resueltos y propuestos

AUTOR:

JUAN VICENTE GONZLEZ OVANDO

Inferencia Estadstica
La inferencia estadstica es la forma de tomar decisiones basadas en probabilidades y presenta dos aspectos: 1. Estimacin de parmetros: - Puntual - Por intervalos

2. Prueba de Hiptesis con respecto a una funcin elegida como modelo. Estimacin Puntual Una estimacin puntual del valor de un parmetro poblacional desconocido (como puede ser la media , , o la desviacin estndar , ), es un nmero que se utiliza para aproximar el verdadero valor de dicho parmetro poblacional. Una estimacin puntual es el valor de la estadstica de la muestra correspondiente. Estimacin por intervalos Nos proponemos determinar dos nmeros entre los cuales se halla el parmetro estudiado con cierta certeza. El procedimiento para obtener un intervalo (de confianza) para un parmetro, la media , por ejemplo, requiere de la determinacin de un estimador del parmetro y de la distribucin del estimador.

Nos ocuparemos del 2. aspecto: Prueba de hiptesis con respecto a una funcin elegida como modelo.
Qu es una Hiptesis? Hiptesis: Es un suposicin acerca del valor de un parmetro de una poblacin con el propsito de discutir su validez. Ejemplo de hiptesis acerca de un parmetro de una poblacin son: - El sueldo promedio de un profesional asciende a $2,625.

- El veinte por ciento de los consumidores utiliza aceite de oliva Qu es una prueba, test o contraste de hiptesis? Prueba de hiptesis: es un procedimiento, basado en la evidencia de la muestra y en la teora de las probabilidades, usado para determinar si la hiptesis es una afirmacin razonable y debera no ser rechazada o si no es razonable debera ser rechazada
Prueba de Hiptesis Paso 1: Establecer la hiptesis nula y la alternativa Paso 2: Seleccionar el nivel de significacin Paso 3: Identificar el estadstico de prueba Paso 4: Formular una regla de decisin Paso 5: Tomar una muestra, llegar a una decisin No realizar la hiptesis Rechazar la nula y aceptar la alternativa

Cules son algunos de los contrastes de hiptesis?

1) 2) 3) 4)

Contraste de hiptesis para la media Contraste de hiptesis para la varianza Contraste de hiptesis para la diferencia de medias de dos poblaciones Contraste de hiptesis para muestras relacionadas.

Algunas Definiciones
Hiptesis nula H0: Una afirmacin acerca del valor de un parmetro de la poblacin. Zona de aceptacin. Hiptesis Alternativa H1: Una afirmacin que es aceptada si la muestra provee la evidencia de que la hiptesis nula es falsa. Zona de rechazo. Nivel de significacin: La probabilidad de rechazar la hiptesis nula cuando en realidad es verdadera. Error tipo I: Rechazar la nula cuando en realida es verdadera Error tipo II: Aceptar la hiptesis nula cuando en realidad es falsa. Estadstico de prueba: Es un valor, determinado a partir de la informacin de la muestra, usado para decidir si rechazar o no la hiptesis nula. Valor crtico: El punto que divide la regin entre el lugar en el que la hiptesis nula es rechazada y y la regin donde la hiptesis nula es no rechazada.

En este trabajo concentraremos nuestro estudio en la prueba o test Chi-cuadrado 2

TEST o PRUEBA CHI-CUADRADO


Consideraciones generales:

La prueba o test chi-cuadrado es considerada como una prueba no paramtrica que mide la discrepancia entre una distribucin observada y una observacin terica (bondad de ajuste), indicando en que medida las diferencias existentes entre ambas, de haberlas, se deben al azar en el contraste de hiptesis. Tambin se utiliza el test chi-cuadrado para probar la homogeneidad entre dos poblaciones o independencia de dos variables entre si, mediante la presentacin de datos dados en tablas de contingencia. Es decir: a) Chi-cuadrado de bondad de ajuste o significancia: para comprobar si los datos se ajustan a una distribucin concreta. b) Chi-cuadrado de homogeneidad: para ver si dos muestras provienen de una misma poblacin o una poblacin con una misma familia de distribucin (los datos vienen dado en una tabla de contingencia). c) Chi cuadrado de independencia: para comprobar si dos muestras son independientes ( los datos vienen en una tabla de contingencia). Para resolver estos problemas utilizaremos la distribucin La aplicaremos bsicamente:
Pruebas con probabilidades de cada categora completamente especificada Bondad de ajuste a una variable discreta Bondad de ajuste a una variable continua Pruebas de Homogeneidad Pruebas de Independencia

-cuadrado.

cuadrado

Bondad de Ajuste

Tablas de contingencia

Estadstico y Estimador:
La frmula que d el estadstico de prueba (de la muestra) es el siguiente:

2 =

(observado esperado ) esperado

Que debe ser comparado con el estimador (estadstico terico aproximado de la poblacin ) dado en una tabla

2
(1-);(i 1)*(j-1)

2
K

Donde es el nivel de significacin estadstica ) K = (i 1)*(j-1) K: grados de libertad de la distribucin, es igual tambin al No. de sumandos menos 1, en el clculo del estadstico. i: nmero de filas, j: nmero de columnas

Criterio de decisin: Se acepta Ho cuando

2 < 2
(1-);(i 1)*(j-1) se acepta Ho y se rechaza la hiptesis alternativa H1

estadstico < estimador :

O caso contrario, se rechaza Ho si :

2 > 2
(1-);(i 1)*(j-1)

estadstico > estimador : se rechaza la hiptesis nula Ho y se acepta la alternativa H1

Ejercicios resueltos
(Debes tener la tabla de distribucin Chi-cuadrada)
1) Cal es la distribucin de probabilidad de chi-cuadrado de 4 grados de libertad de X<10,64?

P(

2 < 10,64 ) = 0,90


6

2
0,90; 6

= 10,64

2) Calcula la distribucin de probabilidad de

2 con 14 grados de libertad de X < 6,57 2


0,05; 14

P(

2 < 6,57 ) = 0,050


14 7

= 6,57 = 0,975?

3) Para que valor de X se cumple P (

2 < X )

X =

2
0,975; 7

= 16,01

4) Cul es el valor de X que cumple P (

2 < X )
15

= 0,995?

X =

2
0,995;15

= 32,80

5) Halla a)

P(

> 0,58 )

b) P ( 2,18 < 2 < 21.95 )


8

0,975; 7

P(

2
3

> 0,58 ) = 1 P (

< 0,58 ) = 1 0,10 = 0,90

P ( 2,18 < 2 < 21.95 ) =P ( 2 < 21.95 ) - P(2 < 2.18 ) =


8 8 8

= 0,995 0,025 = 0,97 6) Por interpolacin lineal, halla


Sustituyendo X = 1,90 en la expresin

P ( 2 < 1,90 )
6

Y = ( X X1) * ( Y2 Y1) + ( X2 X1)

Y1

Buscamos en la tabla de chi-cuadrado los valores ms prximos a X = 1,90 en la fila de grados de libertad igual a 6, y encontramos que 1,64 < 1,90 < 2,20

Tenemos asi:

P(

2
6

< 1,64 ) = 0,05 < 2,20 ) = 0,10

(1,64 ; 0,05 ) (2,20 ; 0,10 )

P(

2
6

Sustituimos en la ecuacin Y = ( X 1,64 ) * (0,10 0,05) + 0,05 ( 2,20 1,64 ) Y = ( X 1,64 ) * 0,05 0,56 Para X = 1,90 + 0,05 + 0,05 =

Y = ( 1,90 1,64 ) * 0,05 0,56

0,073

Por lo tanto

P ( 2 < 1,90 ) = 0,073


6

7) En una investigacin sociolgica se efecta una determinada pregunta a 5000 personas, respondiendo todas ellas si o no. De estas respuestas, 2449 son afirmativas y 2551 negativas. Puede afirmarse, al nivel de significacin del 5 % que la poblacin se halla igualmente repartida en orden a su opinin sobre la pregunta formulada? Anlisis Decir que la poblacin se halla igualmente repartida en cuanto a su opinin es equivalente a establecer la hiptesis de que la proporcin de respuestas afirmativas es igual a la proporcin de respuesta negativas. Ho: la poblacin se halla igualmente repartida en orden a la pregunta formulada. H1: la poblacin no se halla igualmente repartida .. La frecuencia terica establecida para la poblacin segn Ho es entonces mitad / mitad: es decir respuesta afirmativa: 2500, y respuesta negativa 2500.

Establecemos la tabla de contingencia:


TIPO DE RESPUESTA FRECUENCIAS FRECUENCIAS OBSERVADAS ESPERADAS foi fei 2449 2500 2551 2500 5000 5000

AFIRMATIVAS NEGATIVAS

foi - fei 51 51

( foi - fei ) 2601 2601 5202

La frmula que d el estadstico de prueba (de la muestra) es el siguiente:

2 =

(observado esperado ) Esperado

= 2601 + 2601 = 2,0808


2500 2500

Que debe ser comparado con el estimador (estadstico terico aproximado de la poblacin ) dado en una tabla

2
(1-);(i 1)*(j-1)

2
(1-0,05); (2-1)*( 2-1)

2
0,95: 1

= 3.841

Donde es el nivel de significacin estadstica ) K = (i 1)*(j-1) K: grados de libertad de la distribucin i: nmero de filas, j: nmero de columnas Criterio de decisin: Se acepta Ho cuando

2 < 2
(1-);(i 1)*(j-1) se acepta Ho y se rechaza la hiptesis alternativa H1

estadstico < estimador :

En nuestro caso :

2,0808

2 < 2
0,95: 1

= 3,841

La desviacin de los valores de la encuesta es debida al azar, y por ello, aceptamos la hiptesis de que la poblacin se halla igualmente repartida en orden a la pregunta formulada. 8) Al nivel de significacin del 5 %, contrastar la hiptesis de que una moneda est bien construida, sabiendo que los resultados obtenidos en 5000 lanzamientos fueron: cara 1820 veces, cruz 3180 veces. Anlisis Al decir que la moneda est bien construida, quiere expresarse que los dos sucesos, cara y cruz, son igualmente probables. Por ello, la frecuencia esperada de cara y cruz en 5000 lanzamiento seria de 2500 y 2500 respectivamente.

Ho: las monedas estn bien construidas, los dos sucesos son igualmente probables. H1: las monedas estn defectuosas o no bien construidas. Establecemos la tabla de contingencia:
RESULTADOS FRECUENCIAS FRECUENCIAS OBSERVADAS ESPERADAS No.de No.de lanzamientos lanzamientos foi fei 1820 2500 3180 2500 5000 5000

CARA CRUZ

foi - fei 680 680

( foi - fei ) 462400 462400

La frmula que d el estadstico de prueba (de la muestra) es el siguiente:

2 =

(observado esperado ) Esperado

462400 + 462400 = 2500 2500

369,92

Que debe ser comparado con el estimador (estadstico terico aproximado de la poblacin ) dado en una tabla

2
(1-);(i 1)*(j-1)

2
(1-0,05); (2-1)*( 2-1)

2
0,95: 1

= 3.841

Donde es el nivel de significacin estadstica ) K = (i 1)*(j-1) K: grados de libertad de la distribucin i: nmero de filas, j: nmero de columnas Criterio de decisin: Se acepta Ho cuando

2 < 2
(1-);(i 1)*(j-1) se acepta Ho y se rechaza la hiptesis alternativa H1

estadstico < estimador :

En nuestro caso :

369,92

2 > 2
0,95: 1

= 3,841

Al nivel de significacin del 5 %, la desviacin NO es debida slo al azar, y por ello, RECHAZAMOS la hiptesis de que la moneda estn bien construida.

9) Con objeto de estudiar la demanda de un producto durante los cuatro trimestres de un ao se dispone de la siguiente informacin: Trimestre: 1. 2. 3. 4 . No. unidades demandadas: 1000 950 1100 950 . Establecer una hiptesis sobre el carcter de la distribucin de la demanda, verificando la bondad de ajuste (para comprobar si los datos se ajustan a una distribucin concreta) al nivel de significacin del 1 %. Anlisis El anlisis de la informacin que proporciona la distribucin uniforme de la demanda, esto es que la misma (la demanda) se distribuye por igual a lo largo de los cuatro trimestres, por lo que la frecuencia de demanda esperada o terica para cada trimestre es de 4000/4 = 1000 unidades c/ trimestre. Ho: la demanda se distribuye uniformemente a lo largo de los 4 trimestres. H1: la demanda no se distribuye uniformemente. Establecemos la tabla de contingencia:
TRIMESTRE FRECUENCIAS FRECUENCIAS OBSERVADAS ESPERADAS Unidades Unidades demandadas demandadas foi fei 1000 1000 950 1000 1100 1000 950 1000 4000 4000

1 2 3 4

foi - fei 0 50 100 50

( foi - fei ) 0 2500 10000 2500

La frmula que d el estadstico de prueba (de la muestra) es el siguiente:

2 =

(observado esperado ) Esperado + 2500 1000 +

=
10000 1000 + 2500 = 1000 15000 = 1000

2 =

0 . 1000

15

Que debe ser comparado con el estimador (estadstico terico aproximado de la poblacin ) dado en una tabla

= 11,34

(1-);(i 1)*(j-1) (1-0,01); (4-1)*( 2-1) 0,99: 3 Donde es el nivel de significacin estadstica ) K = (i 1)*(j-1) K: grados de libertad de la distribucin i: nmero de filas = 4, j: nmero de columnas = 2 Criterio de decisin: Se acepta Ho cuando

2 < 2
(1-);(i 1)*(j-1)

estadstico < estimador : En nuestro caso :

se acepta Ho y se rechaza la hiptesis alternativa H1 =

15

2 > 2
0,99: 3

= 11,34

Al nivel de significacin del 1 %, la desviacin obtenida entre lo que establece la hiptesis y la informacin obtenida NO es debida slo al azar, y por ello, RECHAZAMOS la hiptesis de que la demanda se distribuya por igual a lo largo de los cuatro trimestres. 10) Para conseguir determinada calificacin profesional, 100 personas se someten a dos tipos de tests independientes entre si; el resultado de cada test puede ser favorable (F) o desfavorable (D) para cada individuo. A la vista de los resultados que figuran en la tabla, los calificadores determinan 3 grupos, resultando indiferente, a efectos de la inclusin en el segundo, el test donde se obtuvo la calificacin favorable. Contrastar, al nivel de significacin del 5 %, la hiptesis de que la proporcin terica de individuos calificados con F o con D en cada tests es la que se seala. Grupo/Calificacin: No. De individuos Proporciones tericas: 1. F.F. 30 2.F.D. 40 Anlisis Ho: la proporcin terica es de , , para cada grupo respectivamente. H1: la proporcin terica es distinta a , , respectivamente. Establecemos la tabla de contingencia:
GRUPOS FRECUENCIAS OBSERVADAS No. de individuos foi 30 40 30 100 FRECUENCIAS ESPERADAS No.de individuos segn proporcion. fei 25 (1/4 de 100) 50 (1/2 de 100) 25 (1/4 de 100) 100 foi fei 5 10 5 ( foi - fei ) 25 100 25
2

3.D.D. 30

. . .

1 2 3

La frmula que d el estadstico de prueba (de la muestra) es el siguiente:

2 =

(observado esperado ) Esperado + 100 50 +

=
25 25 =

2 =

25 . 25

4,0

Que debe ser comparado con el estimador (estadstico terico aproximado de la poblacin ) dado en una tabla

2
(1-);(i 1)*(j-1)

2
(1-0,05); (3-1)*( 2-1)

2
0,95: 2

= 5,991

Donde es el nivel de significacin estadstica ) K = (i 1)*(j-1) K: grados de libertad de la distribucin i: nmero de filas = 3, j: nmero de columnas = 2 Criterio de decisin: Se acepta Ho cuando

2 < 2
(1-);(i 1)*(j-1) se acepta Ho y se rechaza la hiptesis alternativa H1 =

estadstico < estimador : En nuestro caso :

4.0

2 < 2
0,95: 2

= 5,99

Al nivel de significacin del 5 %, la desviacin obtenida entre lo que establece la hiptesis y la informacin obtenida no es significativa. Dicha desviacin es debida slo al azar, y por ello, aceptaremos la hiptesis de que la proporcin de los tres grupos es , , , respectivamente. 11) Mndel tena arvejas con dos tipos de tegumento, rugoso y liso y, segn su hiptesis, en cruzamientos realizados entre ciertos tipos de plantas, el esperaba que aparecieran en la descendencia de dichos cruzamientos, arvejas de tegumento liso y rugoso en la proporcin 3:1. Supongamos que en un experimento en el cual se obtiene una descendencia compuesta por 400 semillas, un genetista encuentra 285 semillas de tegumento liso y 115, de tegumento rugoso. Sera razonable, con = 0.05, pensar que esa proporcin observada no est demasiado alejada de la proporcin 3:1 dictada por la ley de Mndel? Anlisis Segn hiptesis de Mndel la frecuencia esperada o terica de los dos tipos de tegumentos era 3:1, es decir, 3 semillas de tegumento liso por cada semilla de tegumento rugoso. Calculando dicha proporcin para las 400 semillas sern: *400 = 300 (teg. liso), y * 400 = 100 (teg. rug.). Se trata de comprobar si los datos se ajustan a una distribucin concreta, por lo cual utilizamos el mtodo de Test o prueba de bondad de ajuste o significancia). Hiptesis. H0: la proporcin es 3:1; H1: la proporcin no es 3:1. Nivel de significacin. = 0.05. Establecemos una tabla :
TEGUMENTOS FRECUENCIAS FRECUENCIAS ESPERADAS OBSERVADAS No. de semillas No.de semillas segn obtenidas proporcin LISO RUGOSO

foi 285 115 400

fei 300 (3/4 de 400) 100 (1/4 de 100) 400

foi - fei 15 15

( foi - fei ) 225 225

La frmula que d el estadstico de prueba (de la muestra) es el siguiente:

2 =

(observado esperado ) Esperado + 225 100

=
3.00

2 =

225 . 300

= 0,75 + 2,25 =

Que debe ser comparado con el estimador (estadstico terico ) dado en una tabla =

2
0,95: 1

= 3,84

(1-);(i 1)*(j-1)

(1-0,05); (2-1)*( 2-1)

Donde es el nivel de significacin estadstica ) K = (i 1)*(j-1) K: grados de libertad de la distribucin i: nmero de filas = 2, j: nmero de columnas = 2 (de datos en la tabla de contingencia, no de clculos) Criterio de decisin: Se acepta Ho cuando

2 < 2
(1-);(i 1)*(j-1) se acepta Ho y se rechaza la hiptesis alternativa H1 =

estadstico < estimador : En nuestro caso :

3,00

2 < 2
0,95: 1

= 3.84

Conclusin: Al nivel de significacin del 5 %, la desviacin obtenida entre lo que establece la hiptesis de Mndel y la informacin obtenida no es significativa. Dicha desviacin es debida slo al azar, y por ello, aceptaremos la hiptesis de que la proporcin entre los tegumentos lisos y rugosos es 3:1 respectivamente. 12) En un estudio del mercado, se tiene como objetivo establecer si las preferencias acerca del envase de dulce de leche son similares para hombres y mujeres. Se ha hecho una encuesta a 200 personas y se han obtenido los siguientes datos: Envase lata plastico carton vidrio Total varones 27 mujeres 12 Total 39 30 29 59 19 26 45 24 33 57 100 100 200

Establecer un contraste de hiptesis entre las preferencias de envase entre hombres y mujeres con nivel de significacin del 5%. Anlisis Como podemos observar, se trata de una prueba de homogeneidad entre la poblacin hombres y mujeres. Segn hiptesis podemos establecer que las preferencias no difieren segn el sexo por lo cual optamos que la frecuencia esperada de preferencia para cada tipo de envase es del 50 % del total para hombres y mujeres.

H0: las preferencias (%) acerca del envase de dulce de leche no difieren entre hombres y mujeres H1: las preferencias (%) acerca del envase de dulce de leche difieren entre hombres y mujeres Establecemos la tabla de contingencia:
FRECUENCIAS OBSERVADAS No de PREFERENCIAS DE ENVASES

Envase varones mujeres Total

lata 27 12 39

plastico 30 29 59

carton 19 26 45

vidrio 24 33 57

Total 100 100 200

FRECUENCIAS ESPERADAS O TERICAS No de PREFERENCIAS DE ENVASES IGUAL PROPORCIN

Envase varones mujeres Total

lata 19,5 19,5 39

plastico 29,5 29,5 59

carton 22,5 22,5 45

vidrio 28,5 28,5 57

Total 100 100 200

La frmula que d el estadstico de prueba (de la muestra) es el siguiente:

2 =
Envase varones mujeres Envase varones mujeres

(observado esperado ) Esperado

= lo calculamos paso a paso en la tabla siguiente

foi - fei

lata 7,5 -7,5 lata 56,25 56,25

plastico 0,5 -0,5 plastico 0,25 0,25


2

carton -3,5 3,5


2

vidrio -4,5 4,5 vidrio 20,25 20,25

( foi - fei )

carton 12,25 12,25

( foi - fei ) / fei

Envase varones mujeres Total

lata 2,88 2,88 5,77

plastico 0,01 0,01 0,02

carton 0,54 0,54 1,09

vidrio 0,71 0,71 1,42

Total 4,15 4,15

8,30

Finalmente, el estadstico

2 =

8,30

Que debe ser comparado con el estimador (estadstico terico ) dado en la tabla

2
(1-);(i 1)*(j-1)

2
(1-0,05); (2-1)*( 4-1)

2
0,95: 3

= 7,81

Donde es el nivel de significacin estadstica ) K = (i 1)*(j-1) K: grados de libertad de la distribucin i: nmero de filas = 2, j: nmero de columnas = 4 (de datos en la tabla de contingencia, no incluir la columna de clculos) Criterio de decisin: Se acepta Ho cuando

2 < 2
(1-);(i 1)*(j-1) se acepta Ho y se rechaza la hiptesis alternativa H1 =

estadstico < estimador : En nuestro caso :

8,30

2 > 2
0,95: 3

= 7,81

Conclusin: se rechaza Ho, las preferencias acerca del envase de dulce de leche difieren entre hombres y mujeres.

Ejercicios propuestos
(Debes tener la tabla de distribucin Chi-cuadrada)
1) Una compaa de seguros registra los accidentes de automvil, en una ciudad, durante 100 dias, obteniendo la siguiente informacin: Nmero de accidentes: 0 1 2 3 o ms Nmero de das: 40 34 16 10 Segn el clculo de distribucin de probabilidad para los sucesos mencionados, las frecuencias tericas para cada uno de ellos son: Nmero de das: 36.79 ; 36.79 ; 18.39 y 7.71 respectivamente. Establecer una hiptesis acerca de la distribucin de probabilidad que corresponda, y contrastarla al nivel de significacin del 5 %.

Resp.: (estadstico)

= 1,481

2) El nivel de ingresos anual de 100 familias consultadas de una poblacin se distribuye en la forma siguiente:
NIVEL DE INGRESOS EN EUROS ANUAL 4000 6000 6000 8000 8000 10000 10000 12000 12000 14000 NMERO DE FAMILIAS 10 25 25 20 20

ENTRE

Establecer una hiptesis sobre el modelo de distribucin uniforme de los sueldos, esto es que el nmero de familias por nivel de ingresos es la misma, y contrastarlo al nivel de significacin del 1 %.

Resp. (estadstico)

= 7,5

: Estimador: 13,28

--------------------------------------------------------

Biobliografa: Materiales del presente curso, Pagina web de consulta: www.fisicanet.com.ar, Libro Problemas de Estadstica, autor J.Lpez de la Manzanara Barbero.

Vous aimerez peut-être aussi