Vous êtes sur la page 1sur 39

INGENIERA INDUSTRIAL

Materia:
ESTADSTICA INFERENCIAL 1

MUESTREO PEQUEO

Docente: Gabriela Malibrn


Domnguez

Alumno:
Ricardo Alejandre Prez
15071129
HORA: 8:00 9:00 4 SEMESTRE
AULA: E35 GRUPO: A
Ciclo: Enero Junio 2017

1
NDICE
5.1 LA DISTRIBUCIN t DE STUDENT________________________________3

5.2 PRUEBA DE LA HIPTESIS SOBRE LA MEDIA POBLACIONAL________12

5.3 PRUEBA DE HIPTESIS PARA LA DIFERENCIA DE DOS MEDIAS, EN

MUESTREO PEQUEO___________________________________________14

5.4 DISTRIBUCIN JI CUADRADA__________________________________16

5.5 CUADROS DE CONTINGENCIA_________________________________23

5.6 FRMULAS EFICIENTES PARA EL CLCULO DE X2________________26

5.7 LIMITACIONES DE PRUEBA JI CUADRADA_______________________32

5.8 PRUEBAS DE HOMOGENEIDAD________________________________34

2
MUESTREO PEQUEO
En los captulos anteriores estudiamos los mtodos de inferencia prueba de
hiptesis para muestras grandes ( 30); sin embargo, a veces se necesita hacer
el anlisis con muestras pequeas por razones de tiempo y costo. Cuando este es
el caso, aquellos procedimientos resultan inadecuados y se requiere de otros.

En este captulo estudiaremos varios procedimientos para muestras


pequeas ( < 30), muy relacionados con los de las muestras grandes ya vistos
anteriormente. En particular, estudiaremos procedimientos de estimacin por
intervalo y prueba de hiptesis sobre la media de una poblacin, as como la
prueba de la hiptesis para diferencias de las medias.

5.1 LA DISTRIBUCION t DE STUDENT

Cuando hicimos la estimacin por intervalo por medio de la distribucin Z, o sea,


con un muestreo grande( 30), establecimientos el intervalo de confianza para
estimar la media poblacional, as: / . Ahora, cuando el tamao de la
muestra es menor que 30, o sea, para el que llamamos muestreo pequeo, la
sustitucin de por S no es apropiada; en consecuencia, se hace necesario
considerar una forma alternativa para estimar la media poblacional a partir de una
muestra pequea.

Muchos problemas cientficos han sido resueltos por la va de la experimentacin.


Supongamos que se toman todas las muestras posibles, de tamao menor que
30, de una determinada poblacin con distribucin normal, y se calcula la
estadstica de prueba para construir un polgono de frecuencias con los valores
calculados y de cada una de estas muestras y visualizar as la forma de la
distribucin, se define as:

=

(El signo en la parte superior indica que se trata de un estimador.)

Dnde:


=
1

O sea, el error estndar de la distribucin muestral de medias.

= media poblacional.

3
La distribucin queda as:


= 1

Esta distribucin fue descubierta por William Gosset, quien la publico en
1908 con el seudnimo de Student. Desde entonces se le conoce como
distribucin de Student. Por la naturaleza de este libro, omitimos la explicacin
matemtica de esta distribucin. Solo manejaremos su aplicacin para la
estimacin y prueba de hiptesis. Al igual que la distribucin , la distribucin
tiene forma acampanada y perfectamente simtrica con respecto a = 0, pero con
una dispersin mayor, la cual aumenta a medida que disminuye el tamao de la
muestra.

Antes de estudiar la distribucin debemos sealar que no solo existe una,


sino varias distribuciones . Cada una de ellas est asociada con lo que se
denomina grados de libertad(v), que se definen como el nmero de observaciones
menos uno; es decir, = 1. En otras palabras, la forma de distribucin
depender del tamao de la muestra. Por ejemplo, los valores de para muestras
de tamao 4 quedan descritos por la distribucin con tres grados de libertad (4-
1=3); la distribucin con 29 grados de libertad describe la distribucin de los
valores para muestras de tamao 30. En la figura 5.1 ilustramos dos
distribuciones con tres y 29 grados de libertad y la distribucin normal:

Figura 5.1. Comparacin de dos distribuciones con la distribucin normal

4
Podemos observar en la grfica que tanto la distribucin normal como las
distribuciones tienen forma de campana y son simtricas. Tambin puede
observarse que las distribuciones tienen mayor dispersin que la normal. Por
ejemplo, en la grfica se han marcado valores crticos de y para un coeficiente
de confianza de 0.99. As, el valor critico de para 0.99 es 2.58 y el valor critico
de para tres grados de libertad es 5.84.

Al examinar esta distribucin (tabla 5.1 y tabla A2 del apndice)


encontramos que el valor critico de para 3 grados de libertad (rengln 3 y ltima
columna, rotulada 0.005 es 5.84. Este valor indica que 0.5% (0.005 x100 = 0.5%)
del rea bajo la curva est a la derecha de +5.84 o a la izquierda de 5.84. En
consecuencia, 99% del rea bajo est incluida en el intervalo es 5.84; es decir
hay una probabilidad de 0.99 de que la variable este en el intervalo
(5.84, +5.84).

En forma anloga, el valor 2.76, ubicado en la ltima columna, rotulada


0.005 y el rengln 29 grados de libertad, e indica que 0.5% del rea bajo esta curva
est a la derecha de 2.76 o a la izquierda de 2.76. En consecuencia, 0.99 del
rea bajo la curva est incluida en el intervalo 2.76; o sea, hay una probabilidad
de 0.99 de que la variable este en el intervalo (2.76,2.76).

Es importante observar que el valor critico de ha disminuido al crecer el


nmero de grados de libertad. Si el tamao de la muestra hubiese aumentado en
forma infinita, el valor de tomara el valor de 2.58, que es igual al valor de para
la curva normal.

De la misma manera podemos interpretar los otros valores de la tabla. Por


ejemplo, para una distribucin con 15 grados de libertad y un coeficiente de
confianza de 0.95 el valor critico de se ubica en la novena columna (0.005 ) y el
rengln 15; o sea, 2.13. En esa misma distribucin, si tiende a infinito, el valor
que tomara seria 1.96, el cual se encuentra en la columna 9 y ultimo rengln,
igual al valor de para la curva normal.

Para la distribucin con 14 grados de libertad, obtenemos en la tabla que


90% del rea bajo esta curva est en el intervalo 1.76, es decir, que hay una
probabilidad de 0.90 de que la variable se encuentre en el intervalo

1.76 1.76

Como

= 1

5
la desigualdad se convierte en:

1.76 1 1.76

que tambin puede escribirse as:


1.76 + 1.76
1 1

Por tanto, afirmamos que hay una probabilidad de 0.90 de que la media de
la poblacin este en este intervalo. As, pues, podemos decir que cuando el
tamao de la muestra es 15( = 1 = 15 1 = 14), hay una confianza de 0.90
de que el parmetro este en el intervalo


1.76
1

Si el tamao de la muestra fuese 10, los grados de libertad serian 9(10


1 = 9) y para un coeficiente de confianza de 80% el intervalo de confianza para
estimar la media poblacional seria:


1.38
1

En general, para estimar la media poblacional , en cualquier intervalo de


confianza, utilizamos la relacin


t
1

6
7
Ejemplos:

1.- Se ha tomado una muestra aleatoria de 18 tabletas de cierto medicamento; el


peso medio resulta ser 50.15 ., con una desviacin tpica = 0.4 . Obtener
un intervalo de confianza de 0.99 para estimar el verdadero promedio de este tipo
de tabletas.

Solucin:

Datos: = 50.15 mg; = 0.4;

grados de libertad = 17(18 1 = 17)

El valor critico de se encuentra en la interseccin del rengln 17 y la ltima


columna, rotulada 0.005 , en la tabla 5.1; este valor es 2.90.

Se sustituye en la expresin que define la forma general del intervalo:


t
1

As obtenemos:
0.4
50.15 2.90 ; 50.15 0.2813
17

Por tanto, el intervalo de estimacin para la media es:

(49.87,50.43)

De acuerdo con este resultado, tenemos una confianza de 99% de que la media
poblacional este entre 49.87 50.43 .

Figura 5.2 Distribucion con 17 grados de libertad.

8
2.- Una muestra de 11 mediciones de dimetro de una esfera da una media de
=4.05 in y una desviacin tpica de S=0.04 in. Construir un intervalo de 90% para
estimar la media poblacional de .

Solucin:

Datos: =4.05 in; S=0.04 in;

Grados de libertad = 10(11 1 = 10) .

El valor crtico de t se encuentra en la interseccin del rengln 10 y la columna


rotulada t0.05 en la tabla este valor
es 1.81.

Se sustituye en la formula general del intervalo

Y se tiene:
0.4
4.05 1.81 ; 4.05 0.0229
10

Por lo tanto el intervalo de estimacin para es [4.027, 4.073]

9
3.-Un nuevo aditivo para gasolina ha sido desarrollado por la compaa Toyota. En
un experimento se us el aditivo en ocho autos durante una semana y se
registraron los siguientes porcentajes de ahorro en el consumo de gasolina: 15,2,
14.1, 13.7, 15.2, 18.6, 15.0, 14.5, 13.8. Usar un intervalo de confianza de 95%
para estimar el ahorro promedio de gasolina.

Solucin:

Calcularemos primero la media y la desviacin tpica de la muestra:

120.1
= = = 15.0125
8

( X )2
=

X X ( X X )2
15.2 0.1875 0.0352
14.1 -0.9125 0.8327
13.7 -1.3125 1.7226
15.2 0.1875 0.0352
18.6 3.5875 12.8702
15.0 -0.0125 0.0002
14.5 -0.5125 0.2627
13.8 -1.2125 1.4702
= 120.1 0 17.2287

Se sustituye:

( X )2 17.2287
= = = 1.47
8

Grados de libertad = 7 (8 1 = 7). El valor crtico de t se encuentra en la


interseccin del rengln 7 y la columna rotulada t0.025 en la tabla; este valor es
2.36.



1
1.47
15.0125 2.36 ; 15.0125 1.0556
7

10
Por lo tanto el intervalo de confianza para estimar es:

[13.9568, 16.0682].

11
5.2.- Prueba de la hiptesis sobre la media poblacional
Una hiptesis acerca de una media poblacional se puede probar por medio de una
muestra pequea solo si se puede suponer que la muestra ha sido seleccionada
de una poblacin distribuida con tendencia normal, con desviacin tpica
desconocida. La prueba se hace utilizando una distribucin con 1 grados de
libertad para probar la hipotesis nula H0 se calcula el valor mediante:


= 1

La hiptesis nula es rechazada solo si el valor absoluto de calculada es mayor
que el valor critico de para un determinado nivel de significacin.

Ejemplo:

1.- Una empresa fabrica, entre otros accesorios, baleros de acero, con un
dimetro =4 in. El gerente sospecha que la mquina que fabrica los baleros esta
desajustada. Para salir de dudas toma una muestra aleatoria de 10 de los
dimetros de 10 baleros. Al calcular la media y la desviacin tpica de la muestra
resulto que = 4.08 in y S = 0.05 in. Es cierta la sospecha del gerente?
Utilice un nivel de significacin del 0.01.

Solucin:

0: = 4

1: 4

(Se hace prueba bilateral ya que la maquina estar desajustada si el dimetro es


significativamente menor o mayor que = 4)

4.08 4
= 1 = 10 1 = 4.8
0.05
En la tabla 5.1 encontramos que el valor critico de t0.005 para nueve grados de
libertad es de 3.25 (rengln 9, ltima columna). Como t c es mayor que t0.005,
rechazamos la hiptesis nula H0. Podemos concluir, entonces, que la maquina
esta desajustada, ya que la diferencia de 0.08 in es significativa.

12
2. La Casa Bayer, que fabrica pastillas multivitamnicas, asegura que cada una
contiene en promedio, 2.48 mg de vitamina B-12. La direccin General de Salud
analizo una muestra aleatoria de 28 pastillas y encontr un contenido medio
= 2.45mg, con una desviacin tpica S= 0.15mg. A la luz de estos resultados,
rechazara la afirmacin de la casa Bayer? Use un nivel de significacin del 0.05.

Solucin:

0: = 2.48

1: < 2.48

2.45 2.48
= 1 = 28 1 = 1.04
0.15
En la tabla 5.1 encontramos que el valor crtico t 0.05 para 27 grados de libertad
(28 1 = 27) es 1.70. Como es menor en valor absoluto (no tenemos en
cuenta el signo) que el valor de alfa de dicha tabla, aceptamos la hiptesis nula.
Por tanto, podemos decir que es cierto lo que asegura la casa Bayer.

Observacin: se hubiese optado por hacer el contraste con niveles de significacin


de 0.01 0.10, los valores crticos de serian 2.47 1.31, respectivamente

13
5.3. Prueba de la hiptesis para diferencia de dos medias, en
muestreo pequeo.
Al hacer inferencia acerca de las medias poblacionales cuando las muestras son
pequeas (menores que 30) y se desconocen las varianzas de la poblacin, es
adecuado emplear la distribucin de Student. Para probar la hiptesis de que las
medias poblacionales son iguales (0 : 1 = 2 ) se utiliza el siguiente cociente
como prueba estadstica:
1 2
=

Donde es el error estndar estimado estimado de una diferencia entre dos


medias mustrales, tomadas en el supuesto de que las dos variables de la
poblacin son iguales; su valor est dado por:

1 12 + 2 22 1 1
= +
1 + 2 2 1 2

Finalmente la estadstica de prueba queda as:

1 2
=
2 + 2 22 1 1
1 1
1 + 2 2 1 + 2

Se utilizan 1 + 2 2 grados de libertad; por tanto, el cociente est distribuido


como 1 +2 2. El contraste se hace comparando el valor de calculada con el
valor critico de para un determinado nivel de significacin.

La diferencia entre las dos medias mustrales es considerada significativamente


con un nivel de 0.05 si el valor absoluto observado de execede el valor de
0.05 0.025 , segn que la prueba sea de uno o dos extremos, respectivamente.
Con nivel de 0.01, la diferencia entre las medias mustrales es considerada
significativamente si el valor de es mayor, en valor absoluto, que el valor critico
de 0.01 0.005 , segn que la prueba sea de uno o dos extremos.

14
Es conveniente anotar que el uso de la distribucin de Student exige que se
cumplan los siguientes requisitos:

Las dos muestras seleccionadas deben ser aleatorias he independientes.


Las poblaciones de donde se han extrado las muestras deben tener
distribuciones normales con iguales varianzas.

15
5.4 DISTRIBUCIN JI CUADRADA

Con el objeto de comparar la media de una muestra con la media hipottica de


una poblacin, en muestreo pequeo, utilizamos una distribucin t y un
estadstico t. de la distribucin de t obtuvimos una tabla de valores t con los
cuales comparamos los estadsticos t calculados. Anlogamente, para comparar la
varianza de una muestra con la varianza hipottica de una poblacin, utilizamos la
distribucin ji cuadrada, la cual se denota por la letra griega (ji), elevada al
cuadrado: x2.

Dada la naturaleza de este libro elemental, no haremos inferencia para este tipo
de problemas, que corresponde al campo de la estadstica paramtrica. JI
cuadrada se puede manejar en forma paramtrica y no paramtrica; para los fines
de este libro nos restringiremos a la ltima forma.

Como ocurre en la distribucin t. la distribucin ji cuadrada tiene una forma que


depende del nmero de grados de libertad asociados a un determinado problema.
Varias de estas curvas se ilustran en la figura 5.6. Debido a esta tendencia, el
valor crtico de X2 ser funcin de los grados de libertad. As, para obtener un
valor crtico a partir de una tabla de X2 debemos seleccionar un nivel de
significacin y determinar los grados de libertad para el problema bajo anlisis.

16
5.4.1. LA PRUEBA JI CUADRADA RELATIVA A FRECUENCIAS

La prueba de ji cuadrada es un mtodo til para probar las hiptesis relacionadas


con la diferencia entre el conjunto de frecuencias observadas en una muestra y el
conjunto correspondiente de frecuencias tericas o esperadas.

Por lo general, con una prueba de ji cuadrada, primero formulamos la hiptesis


nula, mediante la cual determinamos las frecuencias tericas o esperadas;
despus, investigamos los datos muestrales con el propsito de establecer las
frecuencias observadas; luego comparamos estos dos conjuntos de frecuencia e
identificamos sus diferencias; finalmente, con base en stas, especficamente un
criterio de decisin para juzgar si las frecuencias observadas, en promedio,
diferentes significativamente de las frecuencias esperadas. Es decir, se trata de
determinar, a partir de un criterio adecuado, si estas diferencias solo se deben a
fluctuaciones del muestreo, y en este caso aceptamos la hiptesis nula; en caso
contrario las diferencias son significativas y rechazamos H0.

En este tipo de problemas el estadstico de prueba es:

(0 )
2 =

0 = Frecuencia observada de realizacin de un acontecimiento determinado.

= Frecuencia esperada o terica.

La aplicacin de la ecuacin anterior requiere lo siguiente:

Encontrar las diferencias entre cada frecuencia observada y la


correspondiente frecuencia observada.
Elevar al cuadrado estas diferencias.
Dividir cada diferencia elevada al cuadrado entre la correspondiente
frecuencia esperada.
Sumar los cocientes resultantes.

La suma de estos cocientes sigue aproximadamente la distribucin 2 si no existe


diferencia entre las frecuencias observadas y las esperadas. As, con un nivel de
significacin elegido (error ) podemos comprobar un conjunto de datos, al
comparar con el valor crtico X2, obtenido de la tabla de la distribucin ji cuadrada.
De este forma comprobamos si los resultados si los resultados que se observan
estn acordes con los que pudiramos esperar segn nuestra hiptesis nula.

17
Consideremos un ejemplo sencillo. Deseamos comprobar si un dado homogneo;
es decir, no est cargado. Supongamos que el dado se lanza 90 veces y se
obtienen los siguientes datos:

Frecuencia Cara del dado Total


1 2 3 4 5 6
Observada (0 ) 16 10 15 18 14 17 90

Solucin:

Las hiptesis se plantean as:

H0: El dado es homogneo.

Hi: El dado no es homogneo (est cargado).

Para encontrar las frecuencias tericas o esperadas partimos de la hiptesis nula.


Si el dado es homogneo, cada una de sus caras tiene la misma probabilidad de
caer: 1/6. Como el dado se ha tirado 90 veces, la frecuencia esperada
tericamente para cada cara es 15(90/6-15). Entonces el cuadro anterior queda
as:

Frecuencia Cara del dado total


1 2 3 4 5 6
Observada (0 ) 16 10 15 18 14 17 90
Esperada ( ) 15 15 15 15 15 15 90

Calculemos ahora el valor de X2:

2
(16 15)2 (10 15)2 (15 15)2 (18 15)2 (14 15)2 (17 15)2
= + + + + +
15 15 15 15 15 15
2 = 2.67

Este valor estadstico de prueba lo debemos comparar con un valor de


significacin, a fin de decidir aceptamos o rechazamos H0.

Antes de manejar la tabla de distribucin ji cuadrada, hagamos un comentario


sobre la interpretacin del valor de X2 encontrado. Al analizar la frmula, resulta
claro que, si el valor de X2 fuera cero, existira perfecta concordancia entre las
frecuencias observadas y las esperadas. Los valores cada vez mayores de X2 los
podemos considerar como correspondientes a una concordancia experimental
cada vez menor. Entonces, cuanto mayor sea el valor de X2, mas tentados
estaremos a rechazar la hiptesis.

18
5.4.2 USO DE LA TABLA DE DISTRIBUCIN JI CUADRADA

Para hacer contraste entre el valor de X2 encontrado y el valor de X2, necesitamos


seleccionar un nivel de significacin y determinar los grados de libertad para el
problema en cuestin.

En nuestro ejemplo del dado, vamos a asumir un nivel de 0.0. para encontrar los
grados de libertad podemos razonar de la siguiente manera: puesto que sabemos
que el nmero total de tiradas del dado es de 90, una vez determinadas las
frecuencias para las primeras cinco caras del dado, la sexta car no es libre, ya que
su frecuencia es, necesariamente, la diferencia entre el total de las tiradas y la
suma de las frecuencias de las otras cinco caras. Esta suma es:

16+10+15+18+14=73

Entonces, la frecuencia en la sexta casilla tiene que ser:

90-73=17

Por tanto, decimos que de las seis casillas, cinco son libres. Luego, los grados de
libertad son cinco.

En general, para determinar los grados de libertad se utiliza la siguiente frmula:

= ( 1)( 1)

Dnde:

R= Nmero de renglones.

C= Nmero de columnas.

Para el problema que nos atae, tenemos dos renglones y seis columnas; luego:

= (2 1)(6 1) = 15 = 5

En la tabla 5.2 vemos que el valor crtico de X20.05 para cinco grados de libertad es
11.1, el cual se encuentra ubicado en la columna 11, rotulada X20.05, y el rengln 5.

Al comparar ambos valores de X2 observamos que el de X2 calculado es menor


que el de la tabla. Por tanto, las diferencias entre las frecuencias observadas y las
esperadas no son significativas y aceptamos la hiptesis nula de que el dado es
homogneo.

19
Supongamos que ahora el resultado del experimento de lanzar el dado 90 veces
es el siguiente:

Frecuencia Cara del dado total


1 2 3 4 5 6
Observada (0 ) 10 8 10 19 18 25 90
Esperada ( ) 15 15 15 15 15 15 90

20
A simple vista notamos que el dado no es homogneo (est cargado), ya que las
diferencias entre las frecuencias observadas y las esperadas son grandes. Sin
embargo, esta observacin podra ser engaosa. Por tanto, calcularemos el valor
de X2.

2
(10 15)2 (8 15)2 (10 15)2 (19 15)2 (18 15)2 (25 15)2
= + + + + +
15 15 15 15 15 15
2 = 14.93

El valor crtico de X0.052para cinco grados de libertad es 11.1como X2calculada


resulta mayor que el valor de la tabla, rechazamos la hiptesis nula H0. Con un
nivel de 0.05; y concluimos que, en efecto, el dado no es homogneo.

5.4.3 Ejemplos

El partido demcrata cristiano asegura que 85% de la poblacin est a su favor.


Los partidos de la oposicin toman una muestra aleatoria de 2500 ciudadanos;
despus de ser encuestados, 2050 manifestaron favorecer a la democracia
cristiana. A la luz de estos resultados, determine si es falso lo que aseguran los
demcratas cristianos. Use un nivel de significacin de 0.01.

Solucin:

Planteamiento de la hiptesis

H0: 85% de los ciudadanos del pas favorecen a la democracia cristiana.

HI: No es cierto lo que afirma la democracia cristiana.

Clculo de X2.

Las frecuencias observadas y esperadas aparecen en la siguiente tabla:

Frecuencia Actitud Total

favorecen No favorecen

Observada (0 ) 2050 450 2500


Esperada ( ) 2125 375 2500

21
Las frecuencias esperadas las calculamos as: la afirmacin que se hace es que
85% de los ciudadanos favorece a la democracia cristiana; 855 de 2500 es 2125.
La frecuencia esperada para la casilla No favorecen no es libre, ya que resulta
de la diferencia entre el total 2500 y 2125; o sea, 375. Esto nos indica que solo
hay un grado de libertad.

Al aplicar la frmula:

(0 )
2 =

Tenemos que

(2050 2125)2 (450 375)2


2 = + = 17.65
2125 375

El valor crtico de X20.01 para un grado es 6.63 (columna 13 y rengln 1).

Al comparar ambos valores de X2, el valor calculado es mucho mayor que el de la


tabla. Por tanto, rechazamos H0. De aqu podemos concluir que no es cierto lo que
afirma la democracia cristiana.

22
5.5 CUADROS DE CONTINGENCIA

En los cuadros de contingencia se plantean dos variables de clasificacin, con el


objeto de ver si estas variables son o no independientes. Por ejemplo, podemos
estar interesados en saber si el sexo de los estudiantes y la eleccin de carrera
universitaria son o no independientes. Es decir, si el sexo influye o no para que el
estudiante elija una carrera tcnica o una humanstica. En otro caso, nos puede
interesar la posible relacin entre los adultos que usan lentes y sus niveles
educativos; es decir, si el uso de lentes est o no relacionado con el nivel
educativo de una persona, etc.

Los cuadros de contingencia pueden ser de cualquier magnitud: cuadros de 2 x 2


(que sera el menor), 2 x 3, 3 x 4, etc. En general, se habla de cuadros R x C, en
los cuales las frecuencias observadas ocupan R renglones y C columnas. En
correspondencia con cada frecuencia observada en un cuadro R x C, hay una
frecuencia esperada que se calcula por la hiptesis nula especificada.
Generalmente se parte de una hiptesis de independencia.

Las frecuencias observadas o esperadas, que ocupan las casillas de un cuadro de


contingencia, se llaman frecuencias de casillas. Al total de frecuencias en cada
rengln o columna se le llama rengln marginal. Para evaluar las diferencias entre
las frecuencias observadas y las esperadas contenidas en un cuadro de
contingencia, usaremos de nuevo la estadstica de prueba.

2
( )2
=

Ejemplo.

Existe la creencia de que los estudiantes varones tienden a cursar carreras


tcnicas, y las mujeres, carreras humansticas. Un socilogo interesado en el
problema tom una muestra aleatoria de 200 estudiantes de ltimo ao de
bachillerato, de ambos sexos, y les pregunt qu tipo de carrera estudiaran. En el
siguiente cuadro aparecen las frecuencias observadas:

Sexo del alumno Tcnica Humanstica Total


Masculino 36 52 88
Femenino 26 86 112
Total 62 138 200
Pruebe la hiptesis de que la eleccin de carrera es independiente del sexo, con
un nivel de significacin de 0.05.

23
Solucin:

Planteamiento de las hiptesis.

= La eleccin de carrera es independiente del sexo

= La eleccin de carrera depende del sexo

Para encontrar las frecuencias esperadas partimos de una hiptesis de


independencia ( : La eleccin es independiente del sexo). La probabilidad de
que un estudiante escogido al azar sea varn es 88/200, y la probabilidad de que
prefiera carreras tcnicas es 62/200. Estos eventos son independientes y sus
probabilidades son estimaciones puntuales, por consiguiente, la probabilidad de
que ocurran ambos eventos es el producto de sus probabilidades, es decir, 88/200
x 62/200 es la probabilidad de que un estudiante escogido al azar sea varn y
prefiere las carreras tcnicas. Por tanto, el nmero esperado de alumnos varones
que prefieren este tipo de carreras, de un total de 200, es el producto:

88 62 88
200 = 62 = 27.28
200 200 200
Al seguir esta metodologa encontramos las otras frecuencias esperadas de las
restantes casillas. Sin embargo, podemos observar que las frecuencias esperadas
restantes se determinan automticamente con slo restar de los dos totales de
renglones y columnas (frecuencias marginales) la frecuencia esperada, ya
calculada; con otras palabras, en ese cuadro de contingencia slo existe un grado
de libertad.

El cuadro de contingencias con sus frecuencias observadas y esperadas queda


as:
Sexo del alumno Tcnica Humanstica Total
Masculino 36 (27.28) 52 (60.72) 88
Femenino 26 (34.72) 86 (77.28) 112
Total 62 138 200
Las frecuencias esperadas estn entre parntesis. Por ejemplo, la frecuencia
esperada 34.72 result de la diferencia entre la frecuencia marginal 62 y 27.28, la
frecuencia esperada 60.72 result de la diferencia entre la frecuencia marginal 88
y 27.28; por ltimo, la frecuencia 77.28 result de la diferencia entre la marginal
138 y 60.72.

Para calcular el valor de x2, sustituimos en:

(| | 0.50)2
2 =

24
Corregimos, porque hemos establecido que cuando slo existe un grado de
libertad y las frecuencias de casillas son pequeas, tenemos que hacer dicha
correccin.

Sustituimos en la frmula y tenemos:

(|36 27.28| 0.50)2 (|26 34.72| 0.50)2 (|52 60.72| 0.50)2


2 = + +
27.28 34.72 60.72
(|86 77.28| 0.50)2
+ = 6.41
77.28
Para evaluar este valor de x2 calculado, encontramos en la tabla el valor crtico de
x20.05 para un grado de libertad: 3.48 (columna 11, rengln 1).

Como el valor de x2 calculado es mayor que el de x20.05 de la tabla, rechazamos H-


o. Por tanto, concluimos que el sexo del estudiante se tiene relacin con la
eleccin de carrera.

Nota: cuando se tiene un solo grado de libertad podemos resolver el problema


mediante una prueba normal, y eso es lo que haremos a continuacin.

2. Resolver el problema anterior por medio de una prueba normal.

Solucin:

Datos: Proporcin de varones que prefieren carreras tcnicas:


36/88 = 0.41, por lo tanto p1 = 0.41, q1 = 0.59
Proporcin de mujeres que prefieren carreras tcnicas:
26/112 = 0.23, por lo tanto p2 = 0.23 q2 = 0.77

Planteamiento de las hiptesis:

Ho = P1 = P2

Hi = P1 > P2

Clculo de Z.

1 2 1 1 2 2
= , = +
1 2

25
1 2
=
1 1 2 2
+
1 2

0.41 0.23
= = 2.73
0.41 0.59 + 0.23 0.77
88 112

Comparemos el valor de Z calculada con el valor crtico de Z0.05 unilateral de la


tabla A1. Este valor es 1.65. Como Zc es mayor que Z0.05 rechazamos la hiptesis
nula y llegamos a la misma conclusin.

5.6 FRMULAS EFICIENTES PARA EL CLCULO DE X2

Los investigadores en estadstica han deducido frmulas observadas para calcular


el valor de ji cuadrada a partir de cuadros de contingencia 2 x 2 y 2 x 3 que
incluyen slo las frecuencias observadas.

Representamos las frecuencias de las casillas por A, B, C y D; las frecuencias


marginales por 1 , 2 , 3 4 y el nmero total de observaciones por n.

En un cuadro de contingencia 2 x 2 podemos demostrar que:

( )2
2 =
1 2 3 4

Los datos observados los dispondremos aqu:

Total
A B 3
C D 4
Total 1 2 n
Si las frecuencias de las casillas son pequeas, la frmula eficiente se corrige de
la siguiente manera:

( 2)2
2
=
1 2 3 4

Ejemplo:

Aplicar la ltima frmula al ejemplo 1 de la seccin 5.51 (probar la hiptesis de que


la eleccin de carrera es independiente del sexo).

26
Solucin:

( 2)2
2
=
1 2 3 4

200[(36 86) (52 26) 2002)2


2 =
62 138 88 112
2 = 6.4 (Valor igual al encontrado anteriormente)

Veamos ahora la frmula eficiente para una tabla 2 x 3

Tabla 5.4

Total
A B C m4
D E F m5
Total m1 m2 m3 n
Podemos demostrar que:

2 2 2 2 2 2
2 = ( + + )+ ( + + )
4 1 2 3 3 1 2 3

Ejemplo

El cuadro siguiente despliega la reaccin de una muestra aleatoria de 115


estudiantes de la UCA a la expansin del programa del ao de servicio social,
segn el nivel del curso.

Nivel del curso


Reaccin 3er. ao 4to. ao 5to. Ao Total
A favor 20 19 15 54
En contra 10 16 35 61
Total 30 35 50 115

Probar la hiptesis de que el nivel del curso y la reaccin a la expansin del


programa del ao de servicio social son variables de clasificacin independientes.
Usar un nivel de significacin de 0.05.

Solucin:

27
Planteamiento de las hiptesis.

Ho = La reaccin de los estudiantes universitarios a la expansin del programa del


ao de servicio social es independiente del nivel del curso en que se encuentran.

Hi =La reaccin de los estudiantes universitarios a la expansin del programa del


ao de servicio social depende del nivel del curso en que se encuentran.

Clculo de x2 por medio de la frmula eficiente:

2 2 2 2 2 2
2 = ( + + )+ ( + + )
4 1 2 3 3 1 2 3

115 202 192 152 115 102 162 352


2 = ( + + )+ ( + + ) 115
54 30 35 50 61 30 35 50

2 = 11.21

El valor crtico de x20.05 para dos grados de libertad es 5.99 [v = (R 1)(C 1) = (2


1)(3 1) = 1 x 2 = 2]. Rechazamos Ho por ser x2c > x20.05. Por tanto, podemos
concluir que la expansin del programa del ao social depende del nivel del curso.

Para comprobar la frmula eficiente, calculemos el valor de x2 con la frmula

( )2
2 =

Tabla 5.5 Cuadro de contingencia con las frecuencias observadas y esperadas.

Nivel del curso


Reaccin 3er. ao 4to. ao 5to. Ao Total
A favor 20 (14.09) 19 (16.43) 15 (23.48) 54
En contra 10 (15.91) 16 (18.56) 35 (26.53) 61
Total 30 35 50 115

2
(20 14.09)2 (10 15.91)2 (19 16.43)2 (16 18.56)2
= + + +
14.09 15.91 16.43 18.56
(15 23.48)2 (35 26.53)2
+ + = 11.20
23.48 26.53
Llegamos al mismo valor.

28
5.6.1 FRMULA DE JI CUADRADA PARA CUADROS DE CUALQUIER
DIMENSIN

Al desarrollar el numerador en la frmula de x2 tenemos:


2
2
( )2 2 2 +
= =

2 2
= 2 +

2
2 = 2 +

Pero

= =

luego

2
2 = 2n + n

Finalmente la frmula queda as:

2
2
=

Apliquemos esta frmula al problema anterior:

202 102 192 162 152 352


2 = + + + + + 115 = 11.20
14.09 15.91 16.43 18.56 23.48 26.53
O sea, el mismo valor.

29
Ejemplo:

Tenemos inters en conocer si la actitud de los ciudadanos de san salvador


respecto al dialogo entre el gobierno y el FDR es independiente de la ideologa
poltica del partido al cual pertenecen. Una encuesta aleatoria de 500 ciudadanos
clasificados por afiliacin a los partidos a los partidos polticos dio los siguientes
resultados; presentados en el cuadro de continencia 3*3.

Actitud hacia el Frecuencia observada segn afiliacin total


dialogo ARENA PDC Otros partidos
De acuerdo 35 80 50 165
En desacuerdo 45 60 80 185
Se abstienen 20 60 70 150
total 100 200 200 500

Probar la hiptesis de que la actitud de los ciudadanos con respecto al dialogo es


independiente de la ideologa partidista.

Solucin:

H0= La actitud de los ciudadanos con respecto al dilogo es independiente de la


ideologa partidista.

Para aplicar la ltima formula de x2 siempre tenemos que calcular las frecuencias
esperadas. El siguiente cuadro contiene las frecuencias observadas y esperadas:

Actitud hacia el Frecuencia observada segn afiliacin total


dialogo ARENA PDC Otros partidos
De acuerdo 35 (33) 80 (66) 50 (66) 165
En desacuerdo 45 (37) 60 (74) 80 (74) 185
Se abstienen 20 (30) 60 (60) 70 (60) 150
total 100 200 200 500
Para mayor facilidad en el clculo de las frecuencias esperadas, podemos seguir
el recurso que se propuso anteriormente as en la casilla donde se intercepta De
acuerdo con arena la frecuencia esperada es :

165/500 100 = 33

Para la siguiente casilla, De acuerdo con PDC, la frecuencia esperada es:

165/500 200 = 66

30
Para otros partidos,

165/500 200 = 66

La frecuencia esperada para la segunda fila, En desacuerdo, se obtiene en forma


similar:

185/500 100 = 37 ()

185/500 200 = 74 ()

185/500 200 = 74 ( )

Tambin podemos trabajar con las frecuencias marginales de las columnas, as:

100/500 X 165 =33; 100/500 X 185 =37


y as sucesivamente, y se obtienen los mismos resultados.

2
Calculo de x2, con la frmula: 2 =

2
352 452 202 802 702
= + + + + 500 = 16.83
33 37 30 66 60
Los grados de libertad para este cuadro de contingencia son cuatro:

= ( 1)( 1) = (3 1)(3 1) = 2 2 = 4
2
Luego, el valor critico de 0.01 para cuatro grados de libertad es de 13.3 al
2
comparar ambos valores de , vemos que 2 calculado es mayor que 0.01
2
; por
tanto, las diferencias son significativas y rechazamos la hiptesis de
independencia. Es decir, la ideologa del partido influyo en la actitud del ciudadano
al contestar a la pregunta hecha con respecto al dialogo.

El lector puede comprobar el resultado obtenido de 2 aplicado a la frmula:

2
2 =

31
5.7 LIMITACIONES DE LA PRUEBA JI CUADRADA
El uso de la prueba x2 tiene dos limitaciones; una ya la mencionamos:
establecimos que siempre que tuviramos un solo grado de libertad y las
frecuencias observadas fueran pequeas (menores que 50) debamos hacer
correccin por continuidad; la formula general que daba modificada de la siguiente
manera:

2 = (| 1 | 0.50)2 /

La otra limitacin es que, por la distribucin x2 solo una aproximacin a la


distribucin de x2, esta prueba nicamente debe usarse cuando las frecuencias
esperadas en todas las casillas sean cinco o ms.

EJEMPLO

La direccin general de trnsito, segn sus registros, manifiesta que en San


Salvador- las proporciones de propietarios de automviles que tienen cero, uno,
dos y tres accidentes o ms; en un mes, son 0.67, 0.19, 0.12 y 0.02,
respectivamente. Una compaa de seguros tom un muestra aleatoria de 100
entre sus asegurados, y encontr 71,17, ocho y cuatro casos en esas categoras.
Determine si estos resultados son compatibles con las proporciones tericas
manejadas por la Direccin General de Trnsito. Use un nivel de significacin de
0.01.

Solucin:

Ho: Las proporciones de propietarios de automviles que tienen cero, uno, dos,
tres o ms accidentes por mes, en la ciudad de San Salvador son: 0.67, 0.19, 0.12
y 0.02, respectivamente.

Hi: Las proporciones de propietarios de automviles que tienen accidentes no


son compatibles con los resultados obtenidos en la muestra tomada por la
compaa de seguros.

Las frecuencias tericas o esperadas resultan de multiplicar las respectivas


proporciones por 100. Las frecuencias observadas y esperadas se representan en
el siguiente cuadro:

32
Nmero de accidentes
Frecuencia 0 1 2 3 o ms Total
Oi 71 17 8 4 100
Ei 67 19 12 2 100

Podemos observar en el cuadro que en la casilla tres o ms la frecuencia


esperada es 2. Por lo tanto, caeramos en la segunda limitacin si calculamos 2 .
Sin embargo, podemos resolver el problema uniendo las dos ltimas columnas; el
cuadro queda de la siguiente manera:

Nmero de accidentes

Frecuencia Total

0 1 3 o ms

Oi 71 17 12 100

Ei 67 19 14 100

El valor de x2 es:

(71 67)2 (17 19)2 (12 14)2


2 = + + = 0.74
67 19 14

2
Al comparar este valor con el valor critico de 0.01 , con dos grados de libertad, que
es de 9.21, aceptamos Ho. Por lo tanto, podemos decir que los resultados de la
encuesta son compatibles con las proporciones tericas.

33
5.8 PRUEBAS DE HOMOGENEIDAD
Este tipo de pruebas se disean para determinar si dos o ms muestras
independientes se extraen de la misma poblacin o de poblaciones diferentes. La
prueba de homogeneidad viene a ser una extensin de la prueba de ji cuadrada
de independencia (cuadros de contingencia).

Tanto en la prueba de independencia como en la de homogeneidad nos


interesan los datos de clasificacin transversal. Las diferencias entre ambas
pruebas se pueden resumir as:

Pruebas de independencia Pruebas de homogeneidad

Se ocupan de si un atributo es Se ocupan de detectar si las


independiente de otro. diferentes muestras provienen
Incluyen una sola muestra de la misma poblacin o de
tomada de una poblacin. poblaciones diferentes.
Las frecuencias marginales son Incluya dos o ms muestras
cantidades aleatorias. independientes, una de cada una
de las posibles poblaciones en
estudio.
Las frecuencias marginales de
renglones son iguales a los
tamaos de las muestras.

Ejemplos:

1. Un investigados social, interesado en determinar el grado del uso de drogas


entre los estudiantes de educacin media que haban declarado usarlas,
seleccion de este grupo una muestra aleatoria de 150 alumnos de primer
ao; 135 del segundo, 125 del tercero y 100 del cuarto. Cada estudiante
llen un cuestionario en el cual indic el grado de uso de drogas con las
siguientes opciones: Por curiosidad, Casual y Moderado hasta intenso.
Los resultados se presentan en la siguiente tabla:

Grado del uso de drogas

Ao de Por Moderado a Total


estudio curiosidad Casual intenso
Primero 57 50 43 150
Segundo 57 58 20 135
Tercero 56 45 24 125
Cuarto 45 22 33 100
Total 215 175 120 510
34
Son compatibles estos datos con la hiptesis de que las cuatro
poblaciones de donde se han extrado las muestras son homogneas con
respecto al grado en el uso de drogas? Usar un error alfa de 0.05.

Ho: Todas las muestras provienen de la misma poblacin.


Hi: Todas las muestras provienen de distintas poblaciones.

Frecuencias esperadas: si partimos de que las poblaciones son


homogneas, lo cual es equivalente a que todas las muestras sean
extraidas de la misma poblacin; es decir, la poblacin que usa drogas,
quienes han usado las drogas solo por curiosidad es 215/510 =0.4216.
Por lo mismo, si las cuatro poblaciones son homogneas, esta probabilidad
la interpretamos como si se aplicara a cada una de las 510 es la mejor
estimacin puntual de la probabilidad de que un estudiante elegido al azar
de los usuarios a las drogas sea solo un usuario por curiosidad. Entonces,
esperaramos encontrar que 215/510 x 150=63.24 de los 150 alumnos de
primer ao las usan por curiosidad. De modo semejante, podemos
esperar que 215/510 x 135= 56.91 de segundo ao; 215/510 x 125= 52.70
de tercer ao y 215/500 x 100= 42.16 de cuarto ao las usan tambin por
curiosidad.
Una vez ms, el procedimiento simplificado de multiplicar los totales
marginales apropiados y dividir entre el gran total, proporciona las
frecuencias esperadas para las casillas. En la siguiente tabla se muestran
las frecuencias esperadas calculadas de esta manera, junto con las
frecuencias observadas.

Grado del uso de drogas

Ao de Por Moderado a Total


estudio curiosidad Casual intenso
Primero 57(63.24) 50(51.47) 43(35.29) 150
Segundo 57(56.91) 58(46.32) 20(31.76) 135
Tercero 56(52.70) 45(42.89) 24(29.41) 125
Cuarto 45(42.16) 22(34.31) 33(23.53) 100
Total 215 175 120 510

Clculo del valor 2

(57 63.24)2 (57 56.91)2 (33 23.53)2


2 = + + + = 19.4
63.24 56.91 23.53

35
2
El valor de 0.05 para seis grados de libertad [(4-1) (3-1)=6] es de 12.6.
Rechazamos la hiptesis nula, ya que el valor calculado 2 es mayor que
2
0.05 . Por tanto, concluimos que las poblaciones no son homogneas con
respecto al grado del uso de las drogas.

2. Snedecor y Cochran proponen el siguiente problema. En un estudio sobre


la relacin entre el tipo de sangre y el tipo de enfermedad, grandes
muestras de pacientes que padecen de ulcera pptica, enfermos con
cncer gstrico, y personas como control, libres de estos padecimientos,
fueron clasificados de acuerdo con su tipo de sangre (O, A, B Y AB). El
nmero de personas con tipo de sangre AB resulto ser relativamente
pequeo y fue omitido.
Las frecuencias observadas las presentamos en la siguiente tabla:

Tipo Ulcera Cncer Grupo de Total


Sanguneo Pptica gstrico control
O 983 383 2 892 4258
A 679 416 2625 3720
B 134 84 570 788
total 1796 883 6087 8766

Solucin:

Ho: Las tres muestras proceden de la misma poblacin.


Hi: Las tres frecuencias proceden de poblaciones distintas.

Las frecuencias observadas y esperadas aparecen en la siguiente tabla:

Tipo Ulcera Cncer Grupo de Total


Sanguneo Pptica gstrico control
O 983 (872.4) 383(428.9) 2 892(2956.7) 4258
A 679(762.2) 416(374.7) 2625(2583.1) 3720
B 134(161.4) 84(79.4) 570(547.2) 788
total 1796 883 6087 8766

Clculo de 2 , con la frmula:


2
2 =

36
2
9832 6792 1342 3832 5702
= + + + ++ 8766
872.4 762.2 161.4 428.9 547.2
= 40.53

2
El valor de 0.05 para cuatro grados de libertad [(3 1) (3 1)= 4] es de
9.49. Al comparar ambos valores de 2 rechazamos Ho. Por tanto, las
muestras proceden de distintas poblaciones; o sea, el tipo de sangra de las
personas tiene la relacin con dichas enfermedades.

3. Cierto da, el gerente del supermercado TODOS registro el nmero de


clientes que se escogieron cada una de las cinco cajas de pago. Los
resultados aparecen en la siguiente tabla
4.
Caja numero 1 2 3 4 5 Total
Frecuencia 94 85 115 99 107 500

De acurdo con los resultados, determinar si hay cajas preferidas por los
clientes. Usar un error alfa de 0.05.

Solucin
H0: No existe preferencia por caja alguna.
H1: Existe preferencia por algunas cajas.

Las frecuencias observadas las calculamos de acuerdo con la hiptesis


nula: si no existe preferencia por ninguna caja, entonces el nmero de
clientes que pasan a pagar por cada caja es igual; como han pasado en
total 500 clientes, tericamente esperamos que por cada una pasen 100
personas (500/5=100).

La tabla de frecuencias observadas y esperadas es la siguiente:

Frecuencia Caja numero


1 2 3 4 5 Total
Oi 94 85 115 99 107 500
Ei 100 100 100 100 100 500

37
Clculo de 2

2
(94 100)2 (85 100)2 (107 100)2
= + ++ = 5.36
100 100 100
2
El valor critico de 0.05 para cuatro grados de libertad es 9.49. Aceptamos la
2
hiptesis nula, ya que 2 calculada es menor que el valor critico 0.05 . Por
tanto, concluimos que no hay preferencia.

38
BIBLIOGRAFA

Bonilla, G., (1991), Mtodos prcticos de inferencia estadstica, Mxico,

Trillas.

Stephens, J., Estadstica 4 edicin, McGrawhill, INTERAMERICANA

EDITORES.

https://www.itchihuahua.edu.mx/academic/industrial/estadistica1/u0304.pdf

39

Vous aimerez peut-être aussi