Vous êtes sur la page 1sur 9

Tabla de Contingencia | Prueba de Chi-Cuadrado

1. TABLA DE CONTINGENCIA

1.1. DEFINICIÓN

Los cuadros de contingencia son arreglos ordenados de frecuencias que se presentan en celdas
definidas por columnas y fila. Para la interpretación de los resultados se utilizan pruebas
estadísticas como chi-cuadrado y la prueba exacta de Fisher.

1.2. CARACTERÍSTICAS 1

Para explicar sus partes más importantes se utilizará un ejemplo:

 Tabla de contingencia 2 x 2

Consiste en una tabla con dos hileras y dos columnas en las cuales los sujetos se
clasifican según dos criterios, cada uno de los cuales ocurre en dos niveles.

Tabla 1. Tabla de contingencia 2 x 2

SEGUNDO CRITERIO DE
CLASIFICACIÓN (Variable
Cualitativa) TOTAL

PRIMER SI NO
CRITERIO DE
CLASIFICACIÓN SI a b a+b

(Variable
Cualitativa) NO c d b+c

TOTAL a+c b+d a+b+c+d

1.3. APLICACIONES

 Estudio de la asociación o relaciones entre dos variables cualitativas.

 Ejemplo:

Si se quiere conocer la relación entre grupos de diabéticos y esquemas de tratamiento.


Tabla de Contingencia | Prueba de Chi-Cuadrado

Ambas son variables cualitativas dicotómicas. Esos datos pueden presentarse en una
tabla de contingencia 2 x 2. Tan solo hay que notar que en cada celda se registran
frecuencias absolutas y no relativas. En la tabla 2, se presentan los datos de este tipo.

En dicha tabla se muestra que, de los 275 sujetos estudiados, 16 del grupo 1 utilizan dos
o más hipoglucemiantes, mientras que 134 del mismo grupo no los utilizan. Por otra parte,
6 sujetos del grupo 2 utilizan dos o más hipoglucemiantes y 119 no lo hacen. Por último,
los renglones y las columnas marginales presentan los totales (Celis de la Rosa, 2004, 2
pág. 118).

Tabla 2. Frecuencias observadas según el ejercicio mencionado.

Utilizan dos a más


hipoglucemiantes
Orales TOTAL

SI NO

Grupo 1 16 134 150

Grupo 2 6 119 125

TOTAL 22 253 275

Fuente: Bioestadística, Celis de la Rosa ,2004.

2. PRUEBA DE CHI-CUADRADO Karl Pearson.

Matemático británico y filósofo de la ciencia, nacido el 27 de marzo de 1857: “Su contribución más
importante el nacimiento de la Estadística Aplicada. Hasta que los fenómenos de cualquier rama
del conocimiento no hayan sido sometidos a medida y número, no se puede decir que se trate de
una ciencia”. Introdujo el método de los momentos para la obtención de estimadores, el sistema
de curvas de frecuencias para disponer de distribuciones que pudieran aplicarse a los distintos
fenómenos aleatorios, desarrollo la correlación lineal para aplicarla a la teoría de la herencia y de
la evolución” (Basulto J.,2009).
Tabla de Contingencia | Prueba de Chi-Cuadrado

En 1900 publicó su prueba de Chi-cuadrado, una medida de la bonanza de una cierta distribución
al ajustarse a un grupo determinado de datos. La prueba permite determinar, entre otras cosas, si
dos caracteres hereditarios eran transmitidos de forma dependiente o independiente.

2.1. DEFINICIÓN

La prueba de Chi-cuadrado “Es considerada como una prueba no paramétrica, que mide la
3
discrepancia entre una distribución observada y otra teórica (bondad de ajuste), indicando la
medida de las diferencias existentes entre ambas, y de haberlas, se deben al azar en el contraste
de hipótesis, también se utiliza para probar la independencia de dos variables entre sí, mediante
la presentación de los datos en tablas de contingencia” (Bra. Rosangel C. pp.71).

Esta prueba se caracteriza por tener un procedimiento sistemático que permitirá recolectar,
analizar e interpretar inteligentemente los datos relevantes en su toma de decisión, solucionar
problemas en una diversidad de contextos y agregar soporte a las decisiones, es decir, tomar
decisiones de manera objetiva y reducir el trabajo de adivinar, esto permitirá que los resultados
objetivos sean realistas con un margen de error mínimo, reduciendo así costos y el riesgo que
tendría al tomar una mala decisión.

También se utiliza para probar la independencia de dos muestras entre sí, mediante la
presentación de los datos en tablas de contingencia (Monger, 2010).

Se aplican en dos situaciones básicas:

 Cuando se quiere comprobar si una variable, cuya descripción parece adecuada, tiene una
distribución que se ajusta a la distribución teórica. La prueba correspondiente se llama chi-
cuadrado de ajuste (Gonzales y Pérez, 2012).

 Cuando se quiere averiguar si dos variables (o dos vías de clasificación) son independientes
estadísticamente. En este caso la prueba que aplicaremos ser la chi-cuadrado de
independencia o chi-cuadrado de contingencia (Gonzales y Pérez, 2012).
Tabla de Contingencia | Prueba de Chi-Cuadrado

2.2. UTILIDAD Y APLICACIONES

Ejemplos de este tipo de variables pueden ser las complicaciones tras una intervención quirúrgica,
el sexo, el nivel socio-cultural, etc. En este caso tendríamos, a lo sumo, las observaciones
agrupadas en forma de frecuencia, dependiendo de las modalidades que presente cada paciente
en cada una de las variables, por los que los métodos conocidos no serıan aplicables” (Cuqui,
pp.255). En particular en estas pruebas no paramétricas, tenemos a la distribución de Chi
Cuadrado, la cual es denotada por la letra griega X²,
son útiles al analizar más de dos poblaciones, por ejemplo, sirven para trabajar con datos de
Mercadotecnia, también permite determinar si un grupo de datos descritos de una distribución
normal, se ajustan a la realidad de ese patrón. Por esto se puede decir que: 4
“Se utiliza la prueba Ji cuadrado para contrastar la hipótesis nula: H0: no hay relación entre dos
variables categóricas cuando tengas una tabla de contingencia surgida de cualquiera de estas
situaciones:

 Muestras aleatorias simples independientes de varias poblaciones, con cada individuo clasificado
de acuerdo con una variable categórica. (La otra variable indica de qué muestra procede el
individuo.)

 Una sola muestra aleatoria simple, con cada individuo clasificado mediante dos variables
categóricas.” (David S. Moore, pp63).

Ahora, aparte de lo señalado, se pueden señalar tres situaciones principales en las que se puede
aplicar esta prueba, para las cuales se tiene sus respectivas pruebas de hipótesis:

 La Prueba de Bondad de Ajuste, estas pruebas miden el grado en que los datos muéstrales que
son observados, cumplen una distribución hipotética determinada y si el grado de cumplimiento es
razonable, se puede deducir que la distribución hipotética existe.

 La Prueba de Independencia, lo que busca es resolver aquellas situaciones en las que se está
interesado en determinar si dos variables están relacionadas, en las aplicaciones estadísticas, es
frecuente interesarse en calcular si dos variables de clasificación, ya sea cuantitativa o cualitativa,
son independientes o si están relacionadas.
 La Prueba de Homogeneidad lo que busca es, que cuando se presenten varias muestras
cualitativas, se comprueba si las mismas provienen de una misma población, donde las variables
medibles se presentan a través de categorías.

2.3. VENTAJAS Y DESVENTAJAS

La prueba de ji-Cuadrado, como una de los tipos de pruebas no paramétricas, comparte las
ventajas y desventajas de este grupo, las cuales son:

2.3.1. Ventajas:

 No requieren que hagamos la suposición de que una población está distribuida en forma
de curva normal u otra forma específica.

 Generalmente son fáciles de efectuar y comprender, es decir, la mayoría de las pruebas


no paramétricas no demandan el tipo de laboriosos cálculos menudos requeridos.
Tabla de Contingencia | Prueba de Chi-Cuadrado

 Algunas veces, ni siquiera se requiere del ordenamiento o clasificación formal, es decir,


lo único que se puede hacer es describir un resultado como “mejor” que otro o cuando
nuestras mediciones no son tan exactas, como es necesario para las pruebas
paramétricas, entonces se pueden usar las pruebas no paramétricas.

2.3.2. Desventajas:

 La inferencia no paramétrica queda restringida a situaciones relativamente simples. La


inferencia normal, a diferencia de la no paramétrica, se puede usar con procedimientos 5
aplicables a diseños experimentales complejos y a regresión múltiple. En parte, damos más
importancia a la inferencia normal porque conduce a procedimientos estadísticos más
avanzados.

 Las pruebas normales comparan medias, y permiten cálculos sencillos de intervalos para
medias y diferencias entre medias. Cuando usamos pruebas no paramétricas para comparar
medianas, podemos acompañar estas pruebas de intervalos de confianza; sin embargo, su
cálculo es laborioso. De todas formas, en situaciones en las que no queremos comparar
medianas, la utilidad de las pruebas no paramétricas es más clara. En estas situaciones, no se
determina la magnitud del efecto observado; la significación estadística de la prueba está ligada
a los rangos asignados a las observaciones, no a sus valores observados.

 La robustez de las pruebas normales para medias implica que raramente nos encontramos con
datos que exijan la utilización de procedimientos no paramétricos para obtener valores P
razonablemente exactos.

 Existen procedimientos modernos, basados en nuevos procedimientos de cálculo, que


permiten escapar del supuesto de normalidad.

 A menudo no son tan eficientes como las pruebas paramétricas.

 Ignoran una cierta capacidad de información.

Ahora, analizando únicamente la prueba de Chi cuadrado, destacamos las siguientes limitaciones
en su uso, o lo que viene a ser lo mismo, las desventajas al aplicar esta prueba:

 “Se debe tener mucho cuidado, al aplicar una prueba de Chi Cuadrado (X²) en algunos
problemas. Si se da el caso en que existe una frecuencia esperada pequeña en una
celda, el Chi Cuadrado (si se aplica) puede llevar a una conclusión errónea.

Esto se debe a que la frecuencia esperada (fe), aparece en el denominador en la fórmula


del estadístico Chi Cuadrado, y la división entre un número muy pequeño produce un
coeficiente demasiado grande.” (Bra. Rosangel C. pp.77)
Tabla de Contingencia | Prueba de Chi-Cuadrado

Respecto a esto y con la finalidad de controlar esta desventaja, se establecen dos reglas de
aceptación general, respecto a pequeñas frecuencias de celda, las cuales son:

 Si solo hay dos celdas, la frecuencia esperada en cada celda debe ser igual a 5 o mayor (fe ≥
5), es decir, para utilizar la prueba de hipótesis de Chi Cuadrado, se debe tener un tamaño de
muestra lo suficientemente grande, para garantizar la similitud entre la distribución teórica
correcta y nuestra distribución de muestreo de X², porque lo más probable es que se rechace
la hipótesis nula, cuando la misma es verdadera al tener muestras menores a 5 o muestras
muy pequeñas. 6

 Para más de dos celdas, no debe aplicarse X², si más de 20% de las celdas de fe, tienen
frecuencias esperadas menores de 5.

2.4. FÓRMULA

La fórmula que da el estadístico es la siguiente:

(𝑉𝑎𝑙𝑜𝑟 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜 − 𝑉𝑎𝑙𝑜𝑟 𝑡𝑒ó𝑟𝑖𝑐𝑜)2


𝑥2 = ∑
𝑉𝑎𝑙𝑜𝑟 𝑇𝑒ó𝑟𝑖𝑐𝑜

Los grados de libertad nos vienen dados por: gl= (r-1)(k-1). Donde “r” es el número de filas y “k”
el de columnas.

2.5. RIESGO RELATIVO

El término "riesgo" implica la presencia de una característica o factor (o de varios) que aumenta la
probabilidad de consecuencias adversas. En este sentido, el riesgo constituye una medida de
probabilidad estadística de que en un futuro se produzca un acontecimiento por lo general no
deseado. Un factor de riesgo es cualquier característica o circunstancia detectable de una persona
o grupo de personas que se sabe asociada con un aumento en la probabilidad de padecer,
desarrollar o estar especialmente expuesto a un proceso mórbido. (Pita Fernandez, 1997)
Tabla de Contingencia | Prueba de Chi-Cuadrado

SEGUNDO CRITERIO
Con la tabla de contingencia se DE CLASIFICACIÓN
comparan dos grupos en relación a la (Variable Cualitativa) TOTAL
ocurrencia de algún evento,
estimando de esta manera la PRIMER SI NO

existencia de una diferencia entre CRITERIO DE


CLASIFICACIÓN SI a b a+b
ambos grupos. Para cuantificar esta
diferencia se usa el riesgo relativo y el (Variable
Cualitativa) NO c d c+d
odds ratio. Se define de esta manera 7
al riesgo relativo como: la magnitud
TOTAL a+c b+d a+b+c+d
matemática que indica cuánto más
probable es que ocurra un suceso
determinado en el primer grupo frente al segundo.

En cada grupo, el riesgo de ocurrencia de dicho evento se obtiene dividiendo el número de casos
con el resultado de interés por el número total de casos. (Jorge Dagnino, 2014). Para obtener el
riesgo relativo se comparan los riesgos de ambos grupos en un cociente. En nuestra tabla de
contingencia de 2x2 (Tabla1) el riesgo relativo se expresa de la siguiente manera:

Tabla 1. Tabla de contingencia 2 x 2

Fuente: Bioestadística, Celis de la Rosa ,2004.

El riesgo de ocurrencia del segundo criterio de clasificación es:


𝑎
- Riesgo primer grupo: (𝑎+𝑏)
𝑐
- Riesgo segundo grupo: (𝑐+𝑑)

Por lo que nuestro riesgo relativo representado por el cociente de ambos riesgos es:

𝑎
(𝑎 + 𝑏) 𝑎(𝑐 + 𝑑)
𝑅𝑅 = 𝑐 =
(𝑎 + 𝑏)𝑐
(𝑐 + 𝑑)

Las características del riesgo relativo obtenido de esta forma son:


 No tiene dimensiones
 Rango de 0 a ∞+ .
 RR=1 si no hay asociación entre la presencia del factor y el evento.
Tabla de Contingencia | Prueba de Chi-Cuadrado

 RR >1 si la asociación es positiva, es decir si la presencia del factor se asocia a mayor


ocurrencia del evento y RR<1 si la asociación es negativa.

La interpretación del riesgo relativo es intuitiva, así, si se obtiene un RR=2, se dice que, el riesgo
de que ocurra el evento en un grupo es el doble del riesgo en el otro grupo.

2.6. EJEMPLOS

a) Por ejemplo, en una investigación de un brote de Hepatitis A entre clientes de un restaurante 8


en Pennsylvania, se realizó un estudio de casos y controles para identificar la comida
asociada a la enfermedad. Se identificó a un total de 240 pacientes-caso y 134 controles. Los
datos obtenidos a partir de los pacientes-caso y los controles mostraron que 218 pacientes
caso y 45 controles habían consumido salsa suave, como se muestra en la tabla a
continuación (Nelson, 2007).

Tabla de 2x2 que muestra exposición a salsa suave entre pacientes caso y controles

o En este ejemplo, la oportunidad relativa de 19.6 quiere decir que entre los clientes que
se enfermaron la oportunidad de haber consumido salsa suave era de 19.6 la oportunidad
de los clientes que no se enfermaron. Para expresarlo de manera sencilla, resultó ser
19.6 veces más posible que los casos comieran salsa suave que los controles la hubieran
comido.

b) Un estudio transversal para conocer la prevalencia de osteoporosis y su relación con algunos


factores de riesgo potenciales incluyó a 400 mujeres con edades entre 50 y 54 años. A cada
una se le realizó una densitometría
de columna y se completó un
cuestionario de antecedentes. Para
el ejemplo se considera solo las
variables dicotómicas osteoporosis y
Tabla de Contingencia | Prueba de Chi-Cuadrado

antecedentes de dieta pobre en calcio. De las 80 pacientes que presentaban osteoporosis 58


presentaban antecedentes de dieta pobre en calcio, en tanto que entre las 320 que no tenían
osteoporosis, el número de mujeres con este antecedente era de 62. Una vez ingresados
estos datos, la tabla se presentará de la siguiente manera:

c) Supongamos que queremos saber si la obesidad es un posible factor de riesgo para


desarrollar EPOC, definiendo obesidad como aquellas personas cuyo índice de masa corporal
(IMC) sea superior a 30. Para ello utilizamos casos incidentes, es decir los casos de EPOC
los recogemos en el momento en el que el paciente es diagnosticado mientras que los 9
controles son seleccionados al azar de la misma población de donde proceden los casos de
EPOC. Los resultados del estudio están presenten en la siguiente tabla:

Podemos ver que la proporción de la exposición (IMC>=30) en los pacientes con EPOC es
superior a los controles, en concreto un 25% frente a un 10%, siendo esta asociación
estadísticamente significativa con una p=0,004. Parece que hay una relación clara entre la
obesidad y la presencia de EPOC, sin embargo el valor de p no nos sirve para cuantificar la
fuerza de la asociación. La odds de la exposición en los casos es 25/75 =0,33 mientras que
la odds en los controles es de 10/90=0,11. El cociente entre ambas odds da como resultado
la odss ratio (OR) con un valor de 3.

Considerando que el OR puede ser un buen estimador del RR, se puede interpretar que el
riesgo de EPOC es 3 veces mayor en las personas con IMC>=30. Un valor mayor de 1 indica
una mayor frecuencia de exposición en los enfermos (casos), mientras que un valor inferior a
1, indicaría una mayor frecuencia de la exposición en los controles, y por tanto el factor
estudiado actuaría como protector. Sólo en ciertas circunstancias específicas, el valor de la
OR y el RR son similares. Si calculamos el RR partir de los datos de la tabla, nos daría como
resultado:

Vous aimerez peut-être aussi