6.0 Chi2 y 2 Proporciones-2014

Métodos Cuantitativos 2014
MATERIAL DE APOYO AL CICLO DE METODOLOGÍA
(uso interno)
Test de independencia de X2
Contraste con 2 proporciones
1
Repaso de Tablas de Contingencia.
Al investigar en medicina nos encontramos frecuentemente con datos o variables de tipo

cualitativo, donde un grupo de individuos es clasificado en dos o más categorías mutuamente
excluyentes. Si lo que pretendemos es comparar dos o más grupos de sujetos con respecto
a una variable categórica, los resultados suelen presentarse a modo de tablas de doble
entrada, a las que denominamos tablas de contingencia. La más sencilla de estas tablas es
en la que se presentan dos variables cualitativas con dos posibles opciones de respuesta
(variables dicotómicas); con lo que la tabla se reduce a dos filas y dos columnas (tabla 2 x 2
o tetracórica). Podríamos también construir tablas de 3 x 2, 4 x 2, 4 x 3, etc.)
Tabla de contingencia general para la comparación de dos variables dicotómicas:
Variable A
Presencia Ausencia Total
Presencia a b a+b
Variable B Ausencia c d c+d
Total a+c b+d a+b+c+d=N
Podrá interesarnos: a) determinar la existencia de una relación (asociación) estadísticamente

significativa entre las variables estudiadas, b) cuantificar esa relación y estudiar su relevancia
clínica.
En efecto, el estudio de la asociación entre variables debe tener en cuenta si en el planteo

del investigador existe la hipótesis que una de las variables “depende” de la variabilidad de la
otra (variable dependiente y variable independiente) o si la hipótesis se basa solamente en la
existencia de una asociación sin considerar que una de ellas “determina” la variabilidad de la
otra.
En el primer caso la metodología de análisis dependerá:
• de aspectos como el número de categorías de las variables a comparar (si tenemos

dos categorías para cada una de las dos variables construimos una tabla tetracórica
2
con 2 x 2 categorías, pueden ser 3 x 2 categorías, 4 x 2 categorías, 4 x 3 categorías,

etc.),
• de si existe un ordenamiento de esas categorías o no (una de las variables está

medida en escala ordinal),
• del número de grupos independientes de sujetos que se estén considerando o de la

pregunta que se desea responder. Si el interés está en la segunda cuestión,
deberemos utilizar medidas de asociación o de efecto (riesgos).
3
4
Traducción del Abstract:
“Adherencia a las inmunizaciones en niños nacidos con menos de 1.500 gr de peso o antes
de 32 semanas de gestación, en dos centros chilenos”.
Neonatos pretérmino con menos de 1500 gr. o antes de 32 semanas de gestación presentan
una morbilidad y mortalidad aumentada debido a enfermedades infecciosas. La inmunización
en estos niños es crítica pero a menudo es incompleta y presenta retrasos. Objetivos:
Describir la adherencia a vacunas programadas y adicionales, recomendadas en
pretérminos menores de 1500 gr. y comparar el nivel de conformidad en dos centros.
Pacientes y Métodos: Se incluyeron prematuros de menos de 1500 gr. nacidos entre enero
de 2006 y diciembre de 2008 en un centro privado (HCPUC) y en un centro del sistema de
salud pública (HSR). Fueron revisados gráficos neonatales y registros de seguimiento.
Fueron registrados datos demográficos, diagnósticos, programa de vacunación, retrasos y
sus causas y prescripción de vacunas adicionales. Resultados: 92 niños provenientes del
HCPUC y 246 del HSR. Entre éstos el 60 – 70% respectivamente tenías atraso en las
inmunizaciones. Las razones para ello fueron consideradas como no justificables en cerca
del 80% de los casos, siendo la razón principal la supervisión o falta de tiempo de los padres.
El uso de vacunas adicionales sigue siendo bajo en ambos centros. Conclusión: En Chile la
vacunación de prematuros requiere mejoras importantes, educación de padres y del personal
de salud, inclusión de registros computarizados e inclusión de nuevas vacunas seguras y
eficaces en el programa regular de inmunización sin costo para el paciente.
Hemos seleccionado el resumen, la información recolectada y la definición de las principales

variables en estudio; de un trabajo publicado en la “Revista Chilena de Infectología”. Rev.
Chil. Infect 2011; 28(2): 166-173 de fácil acceso para quien lo desee.
Podemos observar en el resumen, que el interés de los investigadores reside en estudiar la

adherencia por parte de los usuarios de salud a los programas de vacunación específica
para pretérminos y realizar una comparación entre dos centros (uno de salud privada y uno
del sistema público). Para cumplir con sus objetivos, los investigadores debieron definir las
variables a estudiar y para cuáles de ellas buscar diferencias significativas entre ambos
centros.
Las variables investigadas corresponden a lo que clasificamos como variables cualitativas.

Ahora bien, ¿cómo es el procedimiento cuando lo que nos interesa es comparar esas
variables en dos poblaciones, o grupos (o centros como es el caso concreto del artículo
anterior)? Veremos en el próximo punto como es que podemos afirmar con cierta seguridad
5
si hay o no una diferencia que consideremos como estadísticamente significativa para una o
más variables entre dos poblaciones.
Prueba de X2 – prueba de independencia entre variables:
Existen múltiples tests que nos permiten analizar una asociación existente entre dos
variables. El test a utilizar depende: 1) del tipo de variable analizada; 2) de la escala en la
cual dicha variable ha sido medida; 3) de si las observaciones son independientes o se trata
de observaciones apareadas.
El más común de los test utilizados para el estudio de la asociación existente entre dos
variables cualitativas medidas en escala nominal con datos no apareados es el test de Chi
cuadrado; en el caso de dos variables cualitativas con dos categorías cada una puede
también utilizarse el test exacto de Fisher en determinados casos como ya veremos.
La distribución Chi-cuadrado (X2k) fue introducida en el análisis estadístico por Pearson en

1900; representando la distribución de la suma de los cuadrados de n variables aleatorias
normalmente distribuidas. Esta distribución es no negativa y asimétrica positiva, el valor para
la media es igual a k grados de libertad y su varianza es igual a 2k.
La distribución (X2k) se usa para distintos problemas estadísticos como ser pruebas de
independencia, pruebas de homogeneidad y pruebas de bondad de ajuste, en este curso
veremos la primera de las aplicaciones mencionadas, es decir, sólo nos concentraremos en
el test de Chi-cuadrado para pruebas de independencia entre dos variables cualitativas.
Estaremos en condiciones entonces de determinar si dos variables cualitativas están o no
asociadas.
Para la aplicación del test trabajaremos bajo los siguientes supuestos o condiciones de
aplicación del test: a) la muestra de n observaciones es aleatoria e independiente y b) las
categorías con las que se trabaja son mutuamente excluyentes.
Al igual a lo visto anteriormente en el curso, al aplicar un test estadístico, deberemos fijar las
hipótesis con las que trabajaremos.
Las hipótesis para esta prueba serán entonces,
H0 = Existe independencia entre las variables A y B.
H1 = Las variables A y B están asociadas.
6
Si bien estadísticamente no implica diferencias, por convención ponemos habitualmente las

categorías de la variable independiente que “actuaría” como factor de riesgo o grupos
expuestos en las filas, y las categorías de la variable dependiente en las columnas. También
por convención colocamos habitualmente en la primera categoría de las filas el grupo
“expuesto” al factor, y en la primera categoría de las columnas en grupo “que padece” el
efecto o la enfermedad.
Para contrastar las hipótesis planteadas debemos calcular las frecuencias esperadas para
cada celda de la tabla de r filas y k columnas bajo el supuesto de la hipótesis nula, o sea de
que existe independencia entre las variables a estudiar.
Si recordamos lo estudiado en el tema 1 del curso, sabemos que,
A y B son sucesos independientes ↔ P (A ∩ B) = P (A) * P (B); o sea, la ocurrencia

simultánea de dos o más hechos independientes es el producto de sus probabilidades por
separado.
Con los totales marginales fijos, tenemos que la frecuencia esperada en la celda de la fila i y
columna j, será la probabilidad de que un individuo pertenezca a la categoría i de la variable
A y a la categoría j de la variable B, multiplicada por n. Así calcularemos las frecuencias
esperadas para cada celda. El test de chi-cuadrado se basa en la comparación de las
frecuencias observadas, y de las frecuencias esperadas en caso de independencia, para
cada una de las celdas de la tabla.
A continuación trabajaremos con el artículo presentado previamente lo que nos facilitará la

comprensión de la prueba.
7
Supongamos que al igual que los investigadores del estudio, nos interesa conocer si existe
asociación entre la presencia de Displasia Broncopulmonar y el Centro de Procedencia.
Ambas variables son cualitativas y medidas en escala nominal.
Lo primero que haremos es construir la tabla de frecuencias observadas según los datos que
tenemos del estudio.
TABLA CON FRECUENCIAS ABSOLUTAS OBSERVADAS
Centro de Salud Total
HCPUC HSR
Displasia Broncopulmonar Presencia 18 42 60
Ausencia 74 204 278
Total 92 246 338
Planteo de hipótesis.
H0 = existe independencia entre la presencia de Displasia Broncopulmonar y el Centro de

Salud del que provienen los niños
8
H1 = existe asociación entre ambas variables.
Calcularemos las frecuencias esperadas para cada celda bajo el supuesto de que la
hipótesis nula es cierta.
Para ello, tengamos en cuenta el cuadro anterior sólo con las frecuencias marginales:
HCPUC HSR
Displasia Broncopulmonar Presencia 60 (0.178 o 17.8%)
Ausencia 278 (0.822 o 82.2%)
Total 92 246 338
Frecuencias absolutas de las n observaciones representadas en el cuadro; entre paréntesis,

frecuencias relativas y %.
Si existiese independencia entre ambas variables, el 17.8% de los 92 casos que provienen
del HCPUC y el 17.8% de los 246 casos que provienen del HSR corresponderían a
presencia de Displasia Broncopulmonar (primera fila). En consecuencia, el 82.2% de los 92
niños del HCPUC se ubicarían en la fila de ausencia para la displasia broncopulmonar, al
igual que el 82.2% de los 246 niños del HSR. El 17.8% de 92 y 246 son 16.33 y 43.67
respectivamente. El 82.2% de 92 y 246 son 75.67 y 202.33 respectivamente. De lo anterior
podemos construir la siguiente tabla:
TABLA CON FRECUENCIAS ABSOLUTAS ESPERADAS EN CASO DE INDEPENDENCIA
HCPUC HSR
Displasia Broncopulmonar Presencia 16.33 43.67 60
Ausencia 75.67 202.33 278
Total 92 246 338
9
Resulta interesante señalar que el cálculo de las frecuencias esperadas para cada una de las
celdas puede realizarse como fue descrito anteriormente, o lo que es lo mismo, multiplicando
el total de la columna correspondiente por el total de la fila correspondiente dividido por el
total de totales; en nuestro ejemplo:
Y así sucesivamente para cada una de las celdas.
El test de Chi cuadrado se basa en el contraste entre las frecuencias observadas y

esperadas para cada una de las celdas (18 y 16.33; 42 y 43.67; 74 y 75.67; 204 y 202.33)
como veremos más adelante. Cuánto más grande sean estas diferencias, concluiremos que
la distribución de las frecuencias observadas “se aleja” de la distribución de las frecuencias
esperadas en caso de independencia, y por lo tanto concluiremos que ambas variables no
son independientes sino que están asociadas.
Otro aspecto a tener en cuenta es el relativo a los valores obtenidos con las frecuencias
absolutas esperadas. Si alguna de las celdas presenta frecuencias esperadas menores a 5,
es preferible no aplicar para los cálculos el Chi cuadrado como está siendo descrito en este
material sino el Chi cuadrado corregido (corrección de Yates) o incluso el test exacto de
Fisher en el caso que las frecuencias esperadas obtenidas se aproximen al cero y que
estemos en presencia de una tabla tetracórica.
Previo a realizar cualquier cálculo estadístico deberemos haber fijado el nivel de significación
o probabilidad de error de tipo I, que nos permitirá tomar una decisión acerca de las hipótesis
planteadas, en nuestro ejemplo trabajaremos para un valor de α = 5%.
k
(Oi − Ei )
2
El estadístico de prueba es χ =∑
2
donde Oi son las frecuencias absolutas
i =1 EI
observadas y Ei son las frecuencias absolutas esperadas para cada una de las celdas,
debiéndose realizar la sumatoria desde la 1 a k celdas que conforman el cuadro de doble
entrada.
De esta forma, el estadístico calculado mide la diferencia entre el valor observado y el valor
que debiera resultar si las dos variables fuesen independientes, elevado al cuadrado y
ponderado por el valor esperado en caso de independencia.
10
Debemos además recordar que estamos frente a un test no dirigido (de planteo bilateral),
que nos indicará si existe o no asociación entre las variables pero no en que sentido se
produce tal asociación.
Para nuestro ejemplo, el estadístico tendrá la siguiente forma:
Siendo entonces el valor del estadístico de 0.28.
Bajo la hipótesis nula de independencia sabemos que los valores del estadístico se
distribuyen según una distribución conocida denominada ji-cuadrado, la cual depende de un
parámetro al que denominamos grados de libertad (gl).
Cálculo de los grados de libertad: Los grados de libertad son el número de unidades de
información “independientes” usadas para calcular un test estadístico en particular. En el
caso del Chi cuadrado, y en este ejemplo, siendo la tabla de r filas y k columnas, los gl son
igual al producto del número de filas menos 1 (r – 1) por el número de columnas menos 1 (k
– 1).
En el ejemplo planteado, de una tabla de 2 x 2, estaremos frente a 1 gl. En una tabla de 3 x 2

tendremos 2 grados de libertad, en una tabla de 4 x 3 tendremos 6 grados de libertad y así
sucesivamente.
Si tenemos en cuenta la tabla utilizada para los cálculos, y dejando fijos los totales
marginales de las líneas y las columnas, tenemos la “libertad” de fijar una sola de las celdas
de la tabla, las otras se determinan por ese único valor de una celda en una tabla de 2 x 2.
En el caso de una tabla de 3 x 2 tendremos la “libertad” de fijar el valor de hasta dos celdas,
y así sucesivamente.
Con el fin de definir la zona para los valores del estadístico que permiten rechazar la
hipótesis nula es que utilizaremos el nivel de significación prefijado y los gl calculados. Esta
zona es a la que llamamos región crítica.
Si buscamos en la tabla de la distribución de Chi cuadrado para α = 5% y 1 gl,

encontraremos que el valor crítico corresponde a 3,84.
11
En la tabla que se anexa de la Distribución de Chi-cuadrado, puede observarse que tenemos

una primer columna donde se ubican los grados de libertad con que podremos trabajar, y
luego una primera fila que encabeza con los valores p.
En nuestro ejemplo iremos a la primera fila:
Valor-p
gl 0.5 0.25 0.1 0.05 0.025 0.01 0.005 0.001
1 0.45 1.32 2.71 3.84 5.02 6.63 7.88 10.83
Este valor es el que contrastaremos con el valor calculado para el estadístico.
Como puede observarse el valor del estadístico es menor al valor de la tabla (0.28 < 3.84)
concluyendo el no rechazo de la hipótesis nula.
Con lo que estamos en condiciones de afirmar que las variables: presencia de displasia
broncopulmonar y centro de procedencia no se encuentran asociadas.
Nota: hemos desarrollado un ejemplo práctico con variables cualitativas nominales, debiendo
recordar que aquellas medidas en escala ordinal también son válidas de trabajar con este
test utilizando una modificación del mismo: el chi cuadrado de tendencias.
12
Proporciones de 2 muestras
Dada la siguiente situación:
En el estudio Maron y col (1986) con adolescentes, se encontró que 165 de 712 varones
declararon que siempre usaban cinturón de seguridad, frente a 91 de 641 adolescentes
mujeres. Interesa calcular el intervalo de confianza para la diferencia de las proporciones de
uso de cinturón entre varones y mujeres.( ejemplo tomado de Altman,1991)
165
pˆ1 = = 0.232;
712
91
pˆ 2 = = 0.142;
641
El error estándar para la diferencia entre proporciones es:
pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 )
EE ( p1 − p2 ) = +
n1 n2
Siendo que la diferencia de proporciones se aproxima a una distribución normal para

tamaños muestrales grandes el intervalo de confianza resulta:
pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 )
( pˆ1 − pˆ 2 ) ± Zα / 2 +
n1 n2
Usando los datos del ejemplo, para el calculo de un intervalo al 95% de confianza:
0.232(1 − 0.232) 0.142(1 − 0.142)

(0.232 − 0.142) ± 1.96 +
712 641
Resultando en [ 0.05 ; 0.13] , con una estimación puntual de 0.090. Tenemos una confianza
de 95% que la proporción de varones que usan cinturón está entre 0.05 y 0.13 por encima
del uso de cinturón en mujeres adolescentes.
13
Contraste de hipótesis de dos proporciones
Supongamos que se desea comparar dos proporciones estimadas p1 y p2 de muestras

x1 x
independientes de tamaño n1 y n2, siendo pˆ 1 = , pˆ 2 = 2
n1 n2
Se pretende rechazar la hipótesis nula Ho) P1=P2 a favor de algunas de las hipótesis
alternativas posibles
Ha)P1>P2 , Ha) P1<P2 , Ha) P1≠P2
Como la hipótesis nula indica que la dos proporciones son iguales, podemos obtener el
estimador común de la proporción:
n1 pˆ1 + n2 pˆ 2 x1 + x2
pˆ = =
n1 + n2 n1 + n2
El estadístico resulta:
pˆ1 − pˆ 2
z=
1 1
pˆ (1 − pˆ )  + 
 n1 n2 
Determinando los valores críticos con el estadístico Z se puede concluir rechazando o no la

hipótesis nula.
Ejemplo ( Bland 1995):
La historia de bronquitis en edad temprana puede ser un predictor de futuras tos nocturna a
los 14 años .En una muestra de 273 niños con historia de bronquitis antes de los 5años, 26
de los cuales presentan tos nocturna a los 14 años. De una muestra de 1046 niños sin
historia de bronquitis , 44 presentan tos a los 14 años. Interesa saber si la proporción de
individuos con tos es mayor en el grupo con historia de bronquitis.
14
Tos a los 14 Bronquitis a los 5
Si No
Si 26 44 70
No 247 1002 1249
273 1046 1319
Las hipótesis son:
Ho) P1=P2
Ha) P1>P2
26 44
pˆ 1 = = 0.09524, pˆ 2 = = 0.04207
273 1046
La proporción común es
26 + 44
pˆ = = 0.05307
273 + 1046
pˆ1 − pˆ 2 0.09524 − 0.04207

z= = = 3.49
1 1  1 1 
pˆ (1 − pˆ )  +  0.05307(1 − 0.05307)  + 
 n1 n2   273 1046 
El valor critico para un nivel de significación de 5% resulta : 1.65.
Como 3.49 > 1.65 se rechaza la hipótesis de igualdad y se concluye que la proporción de
individuos con tos a los 14 es mayor en aquellos con historia de bronquitis en la infancia, a
un nivel de significación de 5%.
Como podemos ver, cuando tenemos que comparar las proporciones de dos muestras
independientes podemos usar tanto el contraste de proporciones como el test de
independencia.
La diferencia con el test de independencia resulta que en la comparación de proporciones es

posible hacer un prueba unilateral, la cual no es posible usando el test de independencia ya
que resulta en un test bilateral.
La condiciones para el uso de la aproximación normal es similar al caso del test de

independencia , debe darse que n1p>5 y n2p>5. //////////////////////////////
15

6.0 Chi2 y 2 Proporciones-2014

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

6.0 Chi2 y 2 Proporciones-2014

Transféré par

Droits d'auteur :

Formats disponibles

Métodos Cuantitativos 2014

MATERIAL DE APOYO AL CICLO DE METODOLOGÍA

Contraste con 2 proporciones

Repaso de Tablas de Contingencia.

Al investigar en medicina nos encontramos frecuentemente con datos o variables de tipo

Tabla de contingencia general para la comparación de dos variables dicotómicas:

Presencia Ausencia Total

Variable B Ausencia c d c+d

Total a+c b+d a+b+c+d=N

Podrá interesarnos: a) determinar la existencia de una relación (asociación) estadísticamente

En efecto, el estudio de la asociación entre variables debe tener en cuenta si en el planteo

En el primer caso la metodología de análisis dependerá:

• de aspectos como el número de categorías de las variables a comparar (si tenemos

con 2 x 2 categorías, pueden ser 3 x 2 categorías, 4 x 2 categorías, 4 x 3 categorías,

• de si existe un ordenamiento de esas categorías o no (una de las variables está

• del número de grupos independientes de sujetos que se estén considerando o de la

Traducción del Abstract:

Hemos seleccionado el resumen, la información recolectada y la definición de las principales

Podemos observar en el resumen, que el interés de los investigadores reside en estudiar la

Las variables investigadas corresponden a lo que clasificamos como variables cualitativas.

Prueba de X2 – prueba de independencia entre variables:

La distribución Chi-cuadrado (X2k) fue introducida en el análisis estadístico por Pearson en

Las hipótesis para esta prueba serán entonces,

H0 = Existe independencia entre las variables A y B.

H1 = Las variables A y B están asociadas.

Si bien estadísticamente no implica diferencias, por convención ponemos habitualmente las

Si recordamos lo estudiado en el tema 1 del curso, sabemos que,

A y B son sucesos independientes ↔ P (A ∩ B) = P (A) * P (B); o sea, la ocurrencia

A continuación trabajaremos con el artículo presentado previamente lo que nos facilitará la

TABLA CON FRECUENCIAS ABSOLUTAS OBSERVADAS

Centro de Salud Total

Displasia Broncopulmonar Presencia 18 42 60

Ausencia 74 204 278

Total 92 246 338

H0 = existe independencia entre la presencia de Displasia Broncopulmonar y el Centro de

H1 = existe asociación entre ambas variables.

Centro de Salud Total

Displasia Broncopulmonar Presencia 60 (0.178 o 17.8%)

Ausencia 278 (0.822 o 82.2%)

Total 92 246 338

Frecuencias absolutas de las n observaciones representadas en el cuadro; entre paréntesis,

TABLA CON FRECUENCIAS ABSOLUTAS ESPERADAS EN CASO DE INDEPENDENCIA

Centro de Salud Total

Displasia Broncopulmonar Presencia 16.33 43.67 60

Ausencia 75.67 202.33 278

Total 92 246 338

Y así sucesivamente para cada una de las celdas.

El test de Chi cuadrado se basa en el contraste entre las frecuencias observadas y

Para nuestro ejemplo, el estadístico tendrá la siguiente forma:

Siendo entonces el valor del estadístico de 0.28.

En el ejemplo planteado, de una tabla de 2 x 2, estaremos frente a 1 gl. En una tabla de 3 x 2

Si buscamos en la tabla de la distribución de Chi cuadrado para α = 5% y 1 gl,

En la tabla que se anexa de la Distribución de Chi-cuadrado, puede observarse que tenemos

En nuestro ejemplo iremos a la primera fila:

gl 0.5 0.25 0.1 0.05 0.025 0.01 0.005 0.001

1 0.45 1.32 2.71 3.84 5.02 6.63 7.88 10.83

Este valor es el que contrastaremos con el valor calculado para el estadístico.

Dada la siguiente situación:

El error estándar para la diferencia entre proporciones es:

Siendo que la diferencia de proporciones se aproxima a una distribución normal para

0.232(1 − 0.232) 0.142(1 − 0.142)

Contraste de hipótesis de dos proporciones

Supongamos que se desea comparar dos proporciones estimadas p1 y p2 de muestras