Académique Documents
Professionnel Documents
Culture Documents
Estado Nutricional
Malo Regular Bueno TOTAL
Rendimiento
Promedio 90 450 35 575
Académico
Sobre 70 30 70 170
TOTAL 290 575 135 1000
Ya vimos cómo podemos describir los datos que provienen de este tipo de problema, mediante tablas de
contingencia o de doble entrada. En esta unidad revisaremos los test estadísticos disponibles, el test de
Ji cuadrado y el test F.
Test de Ji-cuadrado
Existen varios tests de Ji cuadrado* que sirven para contestar distintas preguntas, pero estos tienen
ciertas características comunes:
1. Los datos consisten en frecuencias observadas (O), esto es, cuantos ítems o sujetos caen en cada
categoría.
2. Se calculan las frecuencias esperadas (E) bajo H 0 , esto es, las frecuencias que esperamos ver en
cada categoría si la correspondiente hipótesis nula es correcta.
3. Comparamos las frecuencias observadas con las esperadas por medio del test estadístico que será
una medida de cuán cerca están las frecuencias observadas de las frecuencias esperadas bajo H 0 .
Entonces, si la "distancia" es grande, tenemos evidencia para rechazar H 0 . El test de Ji cuadrado
es:
2 O E2
E
Si las frecuencias observadas están cerca de las frecuencias esperadas bajo H 0 , entonces el
estadístico de 2 debe ser chico. Valores grandes del estadístico indican diferencias entre lo
observado y lo esperado. Como sólo valores grandes son evidencia a favor de la hipótesis
alternativa, los tests de Ji cuadrado son unilaterales y la dirección del extremo es hacia la derecha.
El valor-p será la probabilidad de observar un test estadístico igual o mayor al calculado,
asumiendo que la hipótesis nula es cierta.
4. La relación entre el test y la distribución funciona bien siempre cuando el número esperado es al
menos 5. En general los softwares estadísticos verifican este supuesto.
*
Esencialmente la prueba de asociación que veremos aquí y las pruebas de bondad de ajuste.
1
Propiedades de la distribución de Ji-cuadrado gl
2
gl=1
gl=4
gl=10
0 5 10 15 20 2
X de libertad
Figura: Distribuciones de Ji cuadrado con distintos grados
2
Tabla de Ji cuadrado
3
Prueba de asociación o de independencia*
La prueba de asociación, permite al investigador saber si existe asociación entre dos variables cualitativas.
Ejemplo: Para evaluar un nuevo tratamiento, cuyos resultados son desconocidos, se trata a 12
pacientes con el nuevo tratamiento y a 13 pacientes (seleccionados aleatoriamente) con un tratamiento
antiguo y se registra si mejora o no.
Tratamiento
Experimental Antiguo Total
Estado Mejora 9 2 11
No mejora 3 11 14
Total 12 13 25
a) Planteamiento de la hipótesis
Hipótesis de nulidad ( H 0 ): No hay asociación entre el estado del paciente y el tratamiento, es decir, el
porcentaje de pacientes que mejora es el mismo, sin importar a qué tratamiento fue sometido.
Hipótesis alternativa ( H 1 ): Hay asociación entre el estado del paciente y el tratamiento, es decir, el
porcentaje de pacientes que mejora es diferente entre los sometidos al tratamiento experimental y los
sometidos al tratamiento antiguo.
Estadística a utilizar:
fxc ( Oi E i ) 2
2
i 1 Ei
en que:
Oi = frecuencia observada en la celda i
E i = frecuencia esperada en la celda i
fxc = número de celdas, se obtiene multiplicando número de filas (f) por número de columnas (c).
En este problema =4
Bajo la hipótesis nula, no hay asociación entre el estado del paciente y el tratamiento; por lo tanto, el
porcentaje que mejora debería ser el mismo para los dos tratamientos. Su mejor estimación será: 11/25,
44%, vale decir, el porcentaje de mejoría observado en el total. La frecuencia esperada ( Ei ) de los que
mejoran la obtenemos aplicando este porcentaje a los totales marginales, respectivamente.
11 11
E1 12 5,28 E2 13 5,72
25 25
*
Algunos textos hacen la distinción entre una prueba de Ji cuadrado de independencia y una prueba de Ji cuadrado de
homogeneidad. El cálculo y la interpretación práctica de cada procedimiento son idénticos. Utilizamos la prueba de
asociación para incluir ambos tipos.
4
Por analogía, la frecuencia esperada ( Ei ) de los que no mejoran la obtendremos aplicando 14/25, 56% el
porcentaje de los que no mejoran a los totales marginales, respectivamente.
14 14
E3 12 6,72 E4 13 7,28
25 25
Una manera alternativa para el cálculo de las frecuencias esperadas para determinada celda utiliza los
totales de la fila y de la columna en que se encuentra el valor observado de la celda:
OBS
2
9 5,28 2
2 5,72 2
3 6,72 2
11 7,28 2 9,000
5,28 5,72 6,72 7,28
c) Grados de libertad
Este test de Ji cuadrado tiene distribución de Ji cuadrado con (número de filas - 1) x (número de
columnas - 1) grados de libertad.
Pruebas de chi-cuadrado
5
Supuestos del test de Ji cuadrado
La prueba de Ji cuadrado no asume distribución alguna para las observaciones, es decir es una prueba
no paramétrica. Un supuesto básico al utilizar esta prueba consiste en que cada observación registrada
en la tabla de contingencia es independiente de las demás. "Independencia" en este contexto significa
que no más de una observación viene de cada unidad observacional. La unidad más común es una
persona. Si hay 96 personas en estudio, el número total de observaciones en la tabla de contingencia
deberá ser 96. Si la misma persona contribuye en más de una entrada en una tabla, la prueba de Ji
cuadrada no es apropiada.
Por último, un supuesto importante es saber que el estadístico de Ji cuadrado sigue una distribución de
Ji cuadrado siempre que los valores esperados sean mayores que 5, si esto no se cumple, el test no es
válido.
Se utiliza para el análisis de tablas de contingencia cuando no se cumple el requisito del tamaño mínimo
para aplicar el método de Ji cuadrado, que exige que los valores esperados en cada celda de la tabla sean al
menos 5. El test de probabilidad exacta de Fisher requiere el cálculo de las probabilidades individuales
para las distintas maneras (combinaciones) en que pueden aparecer las frecuencias dentro de las celdas de
la tabla de contingencia, manteniendo constantes las frecuencias marginales.
No vamos a revisar los cálculos para la prueba de Fisher sino que revisaremos la solución que nos da la
salida SPSS cuando analizamos tablas de contingencia.
6
Paradoja de Simpson (opcional)
Ya hemos revisado el problema de las variables confundentes, el efecto de estas variables podría
influenciar la asociación entre dos variables categóricas.
Ejemplo: Suponga que el Ministerio de Salud nos entrega datos sobre la mortalidad de dos Hospitales
de la Región. Los datos en una tabla de 2x2 nos muestran la sobrevivencia de pacientes después de
cirugía en el hospital A y B, donde sobrevivencia significa que el paciente está vivo al menos 6
semanas después de la cirugía.
HOSPITAL
A B
Estado Vivo 2037 784
paciente Muerto 63 16
Total 2100 800
Hospital A pierde 63/2100 = 3% de los pacientes de cirugía y Hospital B pierde 16/800 = 2% de los
pacientes de cirugía. Concluimos que el Hospital B es "mejor".
Pero, no todas las cirugías son del mismo tipo. Luego, se entregan nuevos datos que incluyen la
condición de los pacientes antes de la cirugía clasificados como "buena" o "mala".
Si analizamos ahora según la condición, resulta que en el Hospital A sólo 6/600 = 1% muere y en el
Hospital B 8/600 = 1,3% muere entre los pacientes que estaban en buenas condiciones. Entre los
pacientes que están en malas condiciones en el Hospital A sólo 57/1500 = 3,8% muere y en el Hospital
B 8/200 = 4% muere. Este fenómeno es conocido como la paradoja de Simpson.