Vous êtes sur la page 1sur 10

PRUEBA CHI-CUADRADA

1. DEFINICIÓN
Es una prueba de significación estadística, conocida también como ji-
cuadrada, nos permite analizar variables medidas a nivel nominal,
orientándose a:

a) Probar la supuesta independencia de dos variables cualitativas de


una población,

b) Hacer inferencias sobre más de dos proporciones de una


población.

c) Hacer inferencias sobre la varianza de la población.

d) Realizar pruebas de bondad de ajuste para evaluar la credibilidad


de que los datos muestrales, vienen de una población cuyos
elementos se ajustan a un tipo específico de distribución de
probabilidad.

La distribución ji-cuadrada, es una distribución de probabilidad, además


tiene un sesgo positivo como se puede observar en la siguiente figura:

La distribución de ji–cuadrada, o Chi-cuadrada, como también se le


conoce, tiende a la normalidad, tal y como se muestra en la siguiente
figura a medida que aumentan los grados de libertad.
2. TIPOS DE PRUEBAS DE CHI-CUADRADA

2.1. UNA VARIABLE


2.1.1. PRUEBAS DE BONDAD DE AJUSTE
Consiste en determinar si los datos de cierta muestra
corresponden a cierta distribución poblacional. En este caso
es necesario que los valores de la variable en la muestra y
sobre la cual queremos realizar la inferencia esté dividida en
clases de ocurrencia, o equivalentemente, sea cual sea la
variable de estudio, se debe categorizar los datos asignando
sus valores a diferentes clases o grupos.
Este análisis permite probar qué tan bien una muestra de
datos categóricos se ajusta a una distribución teórica.

2.1.1.1. Procedimiento para elaborar una prueba de


bondad y ajuste.
a) Obtener la frecuencia observada (F.O), proveniente
de una encuesta, estudio o experimento.
b) Determinar la frecuencia esperada (F.E)
c) Establecer el nivel de significancia
d) Determinar los grados de libertad. De la siguiente
manera:

La regla general para el cálculo de los grados de


libertad en una prueba de bondad y ajuste, consiste
en primero “emplear la regla (K-1) y luego se resta
un grado adicional de libertad para cada parámetro
de población que tenga que ser estimado de los
datos de la muestra.

e) Plantear las hipótesis


H0: lo que se sostiene el supuesto valor del
parámetro.
H1: lo que contradice al supuesto valor del
parámetro.

f) Construir las áreas de aceptación y rechazo.


g) Calcular jí-cuadrada.
h) Tomar una decisión y emitir una conclusión, en
términos del problema.

2.1.1.2. APLICACIÓN

Un dado se lanzó 36 veces, haga una prueba con un


nivel de significancía del 5%, para comprobar si el dado
es legal o no. Los resultados obtenidos del ejercicio
fueron los siguientes:

NUMERO DE PUNTOS 1 2 3 4 5 6
FRECUENCIA OBSERVADA 3 5 8 7 6 7

 Obtener la frecuencia esperada.

#Puntos F.O. F.E. (𝐹. 𝑂. −𝐹. 𝐸. )2


𝐹. 𝐸
1 3 6 1.5
2 5 6 0.1666
3 8 6 0.6666
4 7 6 0.1666
5 6 6 0
6 7 6 0.1666
TOTAL 36 36  =2.6664

 Calcular los grados de libertad.


𝛼 = 0.05
g.l.=6-1=5
 X2=11.070

 Plantear las hipótesis


H0: La frecuencia observada en el lanzamiento
del dado es igual a la frecuencia esperada,
de dicho lanzamiento.
H1: La frecuencia observada en el lanzamiento
del dado es diferente a la frecuencia
esperada, de dicho lanzamiento.
 Establecer las áreas de aceptación y rechazo

 Conclusión
Aceptar H0: Se encontró evidencia estadística,
con un nivel de significancía del
5%, que el dado es legal.

2.2. DOS VARIABLES


2.2.1. PRUEBA DE HOMOGENEIDAD
Determinar si los datos correspondientes a dos o más
muestras aleatorias provienen de la misma población. El
conjunto de posibles valores de las observaciones se divide en
k conjuntos disjuntos: A1, A2,…, Ak; clasificando en ellos las
observaciones de cada muestra. Si nij representa el número
de observaciones de la muestra i que pertenecen al conjunto
Aj, los datos pueden tabularse en lo que denomina una tabla
de contingencia.

Muestra A1 A2 … Ak Total
1 n11 n12 n1k n1
2 n21 n22 n2k n2

m Nm1 Nm2 Nmk Nm
Total n1 n2 nk n

La hipótesis de que las m poblaciones son homogéneas, se


traduce en que cada conjunto Aj debe tener una probabilidad
teórica pj, desconocida, pero que no varía de la población i a
la población i’. Esto debe verificarse para todas las categorías,
i.e., las categorías deben ser homogéneas en las diversas
muestras.

Del mismo modo que la Prueba de Bondad de Ajuste, en este


caso debemos comparar las frecuencias observadas en cada
una de las muestras y para cada categoría con las frecuencias
bajo el supuesto de homogeneidad en las poblaciones. En
este caso las frecuencias observadas corresponden al número
de individuos de la muestra i en la clase j, i.e., nij.

El estadístico de contraste será:

𝑛 𝑘
2∗
(𝑛𝑖𝑗 − 𝑒𝑖𝑗 )2
𝑋 = ∑∑
𝑒𝑖𝑗
𝑖=𝑙 𝑗=𝑙

Donde eij es la frecuencia esperada bajo el supuesto de


homogeneidad, que puede representarse como NI PJ, es decir, el
número de individuos en la muestra i por la probabilidad de que
ocurra la característica j en la población. Para el cálculo de las
probabilidades de pertenecer un individuo a cada una de ñas
categorías podemos utilizar:
Pi = nj / n
Por lo tanto: eij = ni*nj / n

Observar que este valor será la suma de n*k números no negativos.


El numerador de cada término es la diferencia entre la frecuencia
observada y la frecuencia esperada. Por tanto, cuanto más cerca
estén entre sí ambos valores más pequeño será el numerador, y
viceversa. El denominador permite relativizar el tamaño del
numerador.

Las ideas anteriores sugieren que, cuanto menor sean el valor del
estadístico χ2, más coherentes serán las observaciones obtenidas
con los valores esperados. Por el contrario, valores grandes de este
estadístico indicarán falta de concordancia entre las observaciones
y lo esperado. En este tipo de contraste se suele rechazar la
hipótesis nula (los valores observados son coherentes con los
esperados) cuando el estadístico es mayor que un determinado
valor crítico.

Notas:
- El valor del estadístico χ2∗se podrá aproximar por una
distribución Chi-cuadrado cuando eltamaño muestral n sea
grande (n > 30), y todas las frecuencias esperadas sean
iguales omayores a 5 (en ocasiones deberemos agrupar
varias categorías a fin de que se cumplaeste requisito).
- Las observaciones son obtenidas mediante muestreo
aleatorio en cada muestra a partir deuna población
particionada en categorías.

Concretamente, se utilizara el estadístico:

∗ ( 𝑂𝑖 −𝐸𝑖 )2
𝑋 2 = ∑𝑘𝑖=1 con (n-1) (k-1) grados de libertad.
𝐸𝑖

2.2.1.1. APLICACIÓN
Estamos interesados en estudiar la fiabilidad de cierto
componente informático con relación al distribuidor que nos
lo suministra. Para realizar esto, tomamos una muestra de
100 componentes de cada uno de los 3 distribuidores que
nos sirven el producto comprobando el número de
defectuosos en cada lote. La siguiente tabla muestra el
número de defectuosos en para cada uno de los
distribuidores.

Componentes Componentes
Defectuosos Correctos
Distribuidor 1 16 94 100
Distribuidor 2 24 76 100
Distribuidor 3 9 81 100
49 251 300

Solución

Debemos realizar un contraste de homogeneidad para


concluir si entre los distribuidores existen diferencias de
fiabilidad referente al mismo componente.

Componentes Componentes
Defectuosos Correctos
Distribuidor 1 16 (16.33) 94 (83.66) 100
Distribuidor 2 24 (16.33) 76 (83.66) 100
Distribuidor 3 9 (16.33) 81 (83.66) 100
49 251 300

Las frecuencias esperadas bajo homogeneidad son las


representadas entre paréntesis.
El estadístico del contraste será:
(16 − 16.33)2 (24 − 16.33)2 (9 − 16.33)2
𝑋2 = + +
16.33 16.33 16.33
(94 − 83.66)2 (76 − 83.66)2
+ +
83.66 83.66
(81 − 83.662
+ = 8.9632
83.66
Este valor del estadístico Ji-cuadrado es mayor que el
valor para el nivel de significación del 5%, por lo tanto
debemos concluir que no existe homogeneidad y por lo
tanto que hay diferencias entre los tres distribuidores.
X20.05 (2) = 5.99

2.2.2. PRUEBA DE INDEPENDENCIA


La prueba de independencia Chi-cuadrado, nos permite determinar
si existe una relación entre dos variables categóricas. Es necesario
resaltar que esta prueba nos indica si existe o no una relación entre
las variables, pero no indica el grado o el tipo de relación; es decir,
no indica el porcentaje de influencia de una variable sobre la otra o
la variable que causa la influencia.
Tenemos que recordar cuales son los eventos independientes y los
dependientes.
- Dos eventos aleatorios, A y B, son eventos independientes, si
la probabilidad de un evento no está afectada por la ocurrencia
del otro evento; por lo tanto p(A)=p(A/B).
- Dos eventos aleatorios, A y B, son eventos dependientes si la
probabilidad de un evento está afectada por la ocurrencia del
otro; por lo tanto p(A) ≠ P(A/B).
Se diferencia de los contrastes anteriores mencionados en que en
este caso estamos interesados en ver la relación existente entre
dos variables de una misma población, no queremos contrastar la
distribución teórica de una variable (prueba de bondad de ajuste) ni
en comparar la distribución de una única variable en dos
poblaciones (prueba de homogeneidad).

Una prueba de independencia usa la pregunta de si la ocurrencia


del evento A es independiente a la ocurrencia del evento B, por lo
que el planteamiento de la hipótesis para esta prueba de
independencia es;

H0; La ocurrencia del evento A es independiente del evento B.


H1; La ocurrencia del evento A no es independiente del evento B.

En las pruebas de independencia se utiliza el formato de la tabla de


contingencia, y por esa razón a veces se le llama prueba de tabla
de contingencia, o prueba con tabla de contingencia.

Una tabla que clasifica datos o más categorías, relacionados con


cada una de las variables cualitativas, que pueden ser o no
estadísticamente independientes, se conoce como tabla de
contingencias. Dicha tabla muestra todas las posibles
combinaciones de categorías, o contingencias, que explican su
nombre.
A1 A2 … Ak Total
B1 n11 n12 n1k n1
B2 n21 n22 N2k n2

Br nr1 rr2 nrk nr
Total n1 n2 nk n

A la suma de todas las razones que se puedan construir al tomar la


diferencia entre cada frecuencia observada y esperada, en una
tabla de contingencia, elevándola al cuadrado, y luego dividiendo
esta desviación cuadra entre la frecuencia esperada, se le llama
estadístico ji cuadrada.

2.2.2.1. Procedimiento para elaborar una prueba de


independencia
- Obtener la frecuencia observada (F.O), proveniente de
una encuesta, estudio o experimento.
- Resumir los datos obtenidos, es decir, la frecuencia
observada, en un cuadro de contingencia.
- Calcular la frecuencia esperada (F.E), y se calcula con
la siguiente fórmula:
(𝑇𝑜𝑡𝑎𝑙 𝑐𝑜𝑙𝑢𝑚𝑛𝑎)(𝑇𝑜𝑡𝑎𝑙 𝑟𝑒𝑔𝑙𝑜𝑛)
𝐹. 𝐸 =
𝐺𝑟𝑎𝑛 𝑡𝑜𝑡𝑎𝑙

- Determinar el nivel de significancia (α), y los grados de


libertad, con la siguiente fórmula:
𝑔. 𝑙 = (# 𝑟𝑒𝑔𝑙𝑜𝑛𝑒𝑠)(# 𝑐𝑜𝑙𝑢𝑚𝑛𝑎𝑠)

- Plantear las hipótesis:


H0: Independencia
H1: Dependencia

- Construir las áreas de aceptación y rechazo


- Calcular Ji-Cuadrada X2
𝑛 (𝐹. 𝑂 − 𝐹. 𝐸)2
X 2𝐶 = ∑
𝑖−1 𝐹. 𝐸

- Tomar una decisión y emitir una conclusión en


términos del problema.

2.2.2.2. APLICACIÓN
Una agencia de publicidad desea saber si el género de los
consumidores es independiente de sus preferencias de
cuatro marcas de café. La respuesta determinara si se
deben diseñar diferentes anuncios dirigidos a los hombres
y otros diferentes para las mujeres. Realice la prueba con
un nivel de significancia del 5%.
Desarrollo:
- Los resultados obtenidos de la encuesta realizada a 139
personas fue:
Marca Hombres Mujeres
A 18 32
B 25 15
C 15 10
D 12 12

- Elaboración de la tabla de contingencia.


Marca
A B C D
Sexo

H 18 25 15 12 70

M 32 15 10 12 69

50 40 25 24 139

- Calcular la Frecuencia Esperada.


70 𝑥 50
𝐹. 𝐸1 = = 25.1798 ≈ 25.18
139
70 𝑥 40
𝐹. 𝐸2 = = 20.1438 ≈ 20.14
139
70 𝑥 25
𝐹. 𝐸3 = = 12.5899 ≈ 12.59
139
70 𝑥 24
𝐹. 𝐸4 = = 12.0863 ≈ 12.09
139
69 𝑥 50
𝐹. 𝐸5 = = 24.8201 ≈ 24.82
139
69 𝑥 40
𝐹. 𝐸6 = = 19.8561 ≈ 19.86
139
69 𝑥 25
𝐹. 𝐸7 = = 12.4100 ≈ 12.41
139
69 𝑥 24
𝐹. 𝐸8 = = 11.9136 ≈ 11.91
139

Marca
A B C D
Sexo
18 25 15 12
H 70
25.18 20.14 12.59 12.09
32 15 10 12
M 69
24.82 19.86 12.41 11.91
50 40 25 24 139

- Calcular los grados de libertad


α = 0.05
𝑔. 𝑙 = (4 − 1 )(2 − 1) = 3

X2 = 7.815

- Plantear las hipótesis


H0: La marca de café que se consume es
independiente del sexo de una persona.
H1: La marca de café que se consume depende del
sexo de una persona.

- Construcción de las áreas de aceptación y rechazo

- Calcular ji – cuadrada
(18 − 25.18)2 (25 − 20.14)2
𝑋2𝑐 = + + 0.46 + 0.0006 + 2.07
25.18 20.14
+ 1.19 + 0.46 + 0.0006 = 7.3912

- Tomar una decisión y concluir


Aceptar H0:
Con un nivel de confianza del 5% se encontró que la
marca de café es independiente del sex de la persona.
Por lo que se recomienda elaborar un solo tipo de
anuncio.

BIBLIOGRAFÍA
- https://support.minitab.com/es-mx/minitab/18/help-and-how to/statistics/tables/supporting-
topics/chi-square/what-is-a-chi-square-test/
- https://www.ibm.com/support/knowledgecenter/es/SSLVMB_23.0.0/spss/base/idh_ntch.html
- https://www.medwave.cl/link.cgi/Medwave/Series/MBE04/5266
- https://support.office.com/es-es/article/PRUEBA-CHI-funci%C3%B3n-PRUEBA-CHI-981ff871-
b694-4134-848e-38ec704577ac

Vous aimerez peut-être aussi