Vous êtes sur la page 1sur 31

Prueba Chi-Cuadrado

Prueba CHI-CUADRADO

Factor 1 factor cualitativo


Cuantitativo 2 o ms factores cual.

Bondad de Ajuste Prueba de homogeneidad Prueba de Independencia


1-.Ajuste Uniforme

Bondad de ajuste 2-.Estructura Especfica


3-. Ajuste a una Poisson
4-. Ajuste a una Normal
5-. Ajuste a una Binomial

Esta prueba consiste en determinar si los datos de


cierta muestra corresponden a cierta distribucin
poblacional. En este caso es necesario que los valores
de la variable en la muestra y sobre la cual queremos
realizar la inferencia est dividida en clases de
ocurrencia, o equivalentemente, sea cual sea la
variable de estudio, deberemos categorizar los datos
asignado sus valores a diferentes clases o grupos.
Supongamos que tenemos un nmero k de clases en las cuales se han ido
registrado un total de n observaciones (n ser pues el tamao muestral).
Denotaremos las frecuencias observadas en cada clase por O1, O2, ..., O k
(Oi es el nmero de valores en la clase Ai). Se cumplir:

O1 + O2 + ... + O k = n

Lo que queremos es comparar las frecuencias observadas con las frecuencias


esperadas (tericas), a las que denotaremos por E1, E2, ..., E k . Se cumplir:

E1 + E2 + ... + E k = n

Se tratar ahora de decidir si las frecuencias observadas estn o no en


concordancia con las frecuencias esperadas (es decir, si el nmero de
resultados observados en cada clase corresponde aproximadamente al nmero
esperado). Para comprobarlo, haremos uso de un contraste de hiptesis
usando la distribucin Chi-cuadrado:
El estadstico de contraste ser:
K
(f i np i ) 2
2 i 1 np i
2 ( K 1 t )

Notas:
(1) El valor del estadstico 2 se podr aproximar por una distribucin Chi-cuadrado
cuando el tamao muestral n sea grande (n > 30), y todas las frecuencias
esperadas sean iguales o mayores a 5 (en ocasiones deberemos agrupar varias
categoras a fin de que se cumpla este requisito).
(2) Las observaciones son obtenidas mediante muestreo aleatorio a partir de una
poblacin particionada en categoras.
Un experimento multinomial es la generalizacin de un
experimento binomial:

1. Consiste en n pruebas idnticas e independientes.

2. Para cada prueba, hay un nmero k de resultados


posibles.

3. Cada uno de los k posibles resultados tiene una


probabilidad de ocurrencia pi asociada (p1 + p2 + ... + pk
= 1), la cual permanece constante durante el
desarrollo del experimento.

4. El experimento dar lugar a un conjunto de


frecuencias observadas (O1, O2, ..., Ok) para
cada resultado. Obviamente, O1 + O2 + ... + Ok = n.
En ocasiones estaremos interesados en comparar los resultados obtenidos al
realizar un experimento multinomial con los resultados esperados (tericos). Ello
nos permitir saber si nuestro modelo terico se ajusta bien o no a las
observaciones. Para ello, recurriremos a la distribucin Chi-cuadrado, la cual
nos permitir realizar un contraste sobre la bondad del ajuste.

Concretamente, usaremos el estadstico

Podemos calcular cada frecuencia esperada (terica) multiplicando el nmero


total de pruebas n por la probabilidad de ocurrencia asociada, es decir:

Ei = n * pi i = 1, ..., k
EJEMPLO

En cierta mquina expendedora de bebidas existen 4 canales que expiden el


mismo tipo de bebida.
Estamos interesados en averiguar si la eleccin de cualquiera de estos canales se
hace de forma aleatoria o por el contrario existe algn tipo de preferencia en la
seleccin de alguno de ellos por los consumidores. La siguiente tabla muestra el
nmero de bebidas vendidas en cada uno de los 4 canales durante una semana.
Contrastar la hiptesis de que los canales son seleccionados al azar.

Canal Bebidas
consumidas
1 13
2 22
3 18
4 17
tot 70
Prueba Chi-cuadrado en
Tablas de Contingencia.
Una variable categrica es aquella cuya escala de medida consiste
en un conjunto de categoras. Estas escalas categricas son muy
comunes en ciencias sociales, ciencias biolgicas y en estudios de
variables que miden comportamiento. Segn el nmero de variables
que observemos y el nmero de categoras que tenga cada variable,
los individuos de una poblacin se agrupan dando lugar a las
frecuencias observadas para cada alternativa de clasificacin. Los
datos dispuestos de esta forma se llaman tablas de contingencia.

Existen muchos tipos de variables categricas; por ejemplo, las


variables cuyas categoras no tienen un orden natural, se llaman
nominales, aquellas que tienen niveles ordenados se llaman
ordinales, las variables intervalares tienen una distancia numrica
entre dos categoras, etc.

En estos arreglos podemos distinguir anlisis slo de factores y


anlisis estadsticos que distinguen entre variable respuesta (o
dependiente) y variables causales (o independientes).
Prueba de Homogeneidad de
Poblaciones

Poblaciones D1 D2 .... Dk Total


muestra 1 n11 n12 n1

muestra 2 n21 n22 n2

.
.
muestra m nm1 nm2 nm

Total n.1 n.2 n..

Los grados de Libertad asociados a la tabla de contingencia son el


nmero de filas menos uno, por el nmero de columnas menos uno.
Ejemplo
Un psicoanalista desea estudiar las diferencias entre, las
caractersticas que tienen los universitarios que participan en
reuniones de protesta y los que no lo hacen. Se desea saber si
las proporciones de los que notan una brecha generacional
entre ellos y sus padres eran diferentes en los dos grupos.
Para ello, se seleccion una muestra aleatoria de 200
estudiantes participantes activos en protestas y otra de 250
que no se identificaban con esas acciones. Se entrevistaron a
los 450 estudiantes y se obtuvo la siguiente informacin:

OBSERVADOS Brecha generacional

Grupo presente ausente total

Participante 116 84 200


No participante 113 137 250
total 229 221 450
Las Hiptesis son:

H0: La proporcin de estudiantes que notan una brecha


generacional entre ellos y sus padres, es la misma en
los dos grupos.
H1: Las proporciones de estudiantes no son iguales.
Los valores esperados bajo H0 son:
E11: (200*229) / 450 = 101,78
E21: (250*229) / 450 = 127,22
E12: (200*221) / 450 = 98,22
E22: (250*221) / 450 = 122,78

Valores esperados Brecha generacional

Grupo presente ausente total

Participante 102 98 200


No participante 127 123 250
total 229 221 450
El estadstico de Prueba es:

(116 102) 2
(84 98) 2
(113 127) 2
(137 123) 2

c2 7,06
102 98 127 123
El valor-p asociado es:

valor p P( ( r 1)(c1) c )
2 2

v p 1 P((1) 7,06) 1 0.99 0.01


2

Como el v-p es significativo, hay evidencia en contra de H0


Luego no se puede aceptar H0. La proporcin de estudiantes
que sienten una brecha generacional entre ellos y sus padres es
distinta, entre los que participan en estos actos y los que no lo
hacen.
Prueba de Independencia de Factores

FACTOR Y

Tota
Y1 Y2 ... Yj
l
F X1 n11 n12 ... n1j n1.
A
C X2 n21 n22 ... n2j n2.
T
O ... ... ... ... ... ...
R
Xi ni1 ni2 ... nij ni.
X
Total n.1 n.2 ... n.j n..
Los grados de libertad son: el nmero de filas menos uno , por el nmero
de columnas menos uno
Recordemos que dos eventos son independientes, si la
probabilidad que ocurran juntos se puede calcular como
el producto de sus probabilidades individuales. Por
ejemplo, suponga que la probabilidad de que un alumno
pase de curso es 1/2 y que se cambie de colegio es de
1/3, por lo tanto la probabilidad de que pase de curso y
se cambie de colegio es 1/6. Se puede plantear la
hiptesis de que las variables aleatorias consideradas
en el experimento son independientes versus que no
son independientes.

En una prueba de independencia el nico nmero


que el investigador controla directamente, es el
tamao de al muestra n. Se extrae una muestra de
tamao n de la poblacin, y cada individuo se
clasifica segn las dos variables que se estudian.
EJEMPLO

Un psicoanalista desea averiguar si hay asociacin entre el peso


de un nio y el xito en sus estudios. Para ello se selecciona
una muestra aleatoria integrada por 500 estudiantes entre
primero y tercero bsico. Se clasifican los nios de acuerdo a
dos criterios, el peso y el rendimiento escolar, medido por una
herramienta confeccionada por el investigador.
Se obtiene la siguiente tabla:

OBSERVADOS Sobrepeso
xito Si No Total
Si 162 263 425
No 38 37 75
Total 200 300 500
El investigador, lo que en realidad est probando es si existe
independencia entre estas dos variables.

Las hiptesis son:


H0: El sobrepeso de un nio es independiente del xito en
sus estudios
H1: El sobrepeso de un nio esta relacionado con el xito
en sus estudios.

Lo que es equivalente a probar: H 0 : p ij p i * p j


H1 : p ij p i * p j

(O ij E ij ) 2
El Estadstico de prueba es: 2
c i, j E ij
, donde

n i. * n . j
(*) E ij , es la frecuencia esperada bajo H0 y Oij es la
n .. frecuencia observada y se encuentra en la
muestra.
Solucin

Las frecuencias observadas son las que se encuentran en la


tabla anterior, luego debemos calculas las frecuencias
esperadas, segn la formula (*), como sigue:

E11= (425*200) / 500 = 170 E12= (425*300) / 500 = 255

E21= ( 75*200) / 500 = 30 E22 = (75*300) / 500 = 45

ESPERADOS Sobrepeso

xito Si No Total
Si E11 =170 E12 = 255 425
No E21 = 30 E22 = 45 75
Total 200 300 500
Note que los totales son iguales a las frecuencias observadas.
La Estadstica de prueba es:
(162 170) 2
( 263 255) 2
(38 30) 2
(37 45) 2

c2 4,183
170 255 30 45
El valor p asociado a esta prueba es:

valor p P( ( r 1)(c1) c )
2 2 r = n de filas
c = n de columnas

valor p P((1) 4,183) 2

P((1) 4,183) 1 P((1) 4,183) 1 0.9592 0.04


2 2

Como el v-p es significativo, hay evidencia en contra de H0


Luego no se puede aceptar H0, El xito en los estudios no es
independiente del peso del nio, o bien, existe relacin entre el
sobrepeso y el xito en los estudios de un alumno.

Vous aimerez peut-être aussi