Vous êtes sur la page 1sur 6

categorizadas, para llevar a cabo el análisis de la relación entre dichas variables se

ANÁLISIS DE DATOS CATEGÓRICOS obtiene una muestra de tamaño n y se construye una tabla de frecuencias conjunta
con una estructura similar a la tabla 1. Dicha tabla se denomina tabla de clasificación
cruzada, tabla bivariante, tabla bidimensional, etc. La denominación más utilizada
Hugo Saavedra Saavedra es la de tabla de contingencia, que tiene la siguiente estructura.

1. Introducción. Tabla de contingencia


Variable Variable B Total
Muchos estudios tienen objetivos como los siguientes:
A B1 B2 Bj Bc ni.
a) Determinar si el lugar de residencia de los que compran automóviles guarda
alguna relación con sus preferencias por las marcas. A1 n11 n12 … n1j … n1c n1.
b) Un sociólogo tiene como objetivo determinar si el estatus socioeconómico de A2 n21 n22 … n2j … n2c n2.
los ciudadanos influye en su actitud frente a la corrupción en el país. : : : … : … : :
c) Determinar si existe relación entre la edad de los ciudadanos y sus preferencias Ai ni1 ni2 … nij … nic ni.
por las marcas de gaseosa : : : … : … : :
d) Determinar si existe relación entre tipo de vuelo con el tipo de boleto que usan
para sus viajes. Etc.
Ar nr1 nr2 … nrj … nrc nr.
e) Determinar la relación entre la edad de las personas con su hábito de lectura. Total n.j n.1 n.2 … n.j … n.c n = n..
f) Conocer si la participación de una determinada marca de gas propano en el
mercado del gas en cuatro ciudades se da en la misma proporción. En esta tabla:
g) Una empresa encuestadora tiene como objetivo estudiar si los afiliados a los
diferente partidos políticos se da de una manera homogénea. nij es la frecuencia conjunta de la fila i y columna j de la tabla de contingencia y
h) Determinar si la proporción de amas de casa que compran detergente de la
marca A es la misma en las ciudades de Trujillo, Chiclayo y Piura.
ni. es el total de la fila (renglón) de la tabla de contingencia
Se observa claramente que en los casos a), b), c), d), e), se busca determinar la n.j es el total de la columna j en la tabla de contingencia
posible relación entre dos variables cualitativas o categóricas. Que en forma
general podemos simbolizar por las letras A y B. La técnica estadística para realizar n es la cantidad total de datos o tamaño de la muestra
el análisis de la relación entre dos variables cualitativas o categóricas es la
denominada Prueba de Independencia.
3. Prueba de Independencia
En cambio en los casos f), g) y h) el propósito es analizar la homogeneidad de la
distribución de una variable en varias poblaciones. La técnica estadística para estos
Esta tabla de contingencia permite analizar la relación entre las variables A y B.
casos es la Prueba de Homogeneidad.
Las hipótesis estadísticas que se formulan son:
Para llevar a cabo estas pruebas se construye una tabla de contingencia.

Hipótesis Nula Ho: Las variables A y B. Que es lo mismo que decir que No existe relación
2. Tabla de contingencia. entre las variables A y B
Con mucha frecuencia el análisis estadístico se orienta a la evaluación de la
Hipótesis Alternativa H1: Las variables A y B no son independientes (Existe relación entre
existencia o no de una relación entre dos variables a partir de una muestra aleatoria
las variables A y B)
de tamaño n. Cuando ambas variables son cuantitativas y se realizan mediciones de
los valores en cada uno de n elementos o individuos, usando una escala de ordinal,
de intervalo o de razón, el análisis se realiza a través de alguno de los coeficientes Estadístico de prueba (Prueba Ji-Cuadrado)
de correlación.
El estadístico que se usa para probar esta hipótesis es el conocido estadístico Ji-Cuadrado
Cuando se trata de analizar la relación entre dos variables cualitativas, medidas en que está dado por,
escala nominal u ordinal, o cuando una o ambas variables cuantitativas han sido
c r (nij  eij ) 2 2) Para evitar el inconveniente de las frecuencias esperadas menores que cinco,
 2   se recomienda combinar categorías de las variables a fin de contar con
j 1 i 1 eij frecuencias esperadas mayores a cinco. Esta combinación de las celdas re
realiza siempre que no se pierda el sentido del propósito u objetivo del análisis.
Cuando la hipótesis nula es cierta este estadístico tiene una distribución que se aproxima a
una Chi-Cuadrado con grados de libertad igual a (r-1)*(c-1).
Ejemplo
Las nij son las frecuencias observadas y las
Un administrados lleva adelante un estudio con el objetivo de descubrir la posible
relación que puede existir entre el las fallas de que presentan cinco máquinas y el
eij son las frecuencias esperadas bajo la hipótesis de independencia. Estas turno de operación de dichas máquinas. Se han obtenidos datos de 160 fallas y se
frecuencias esperadas se calculan mediante la relación
han clasificado en la siguiente tabla de contingencia.

ni . * n. j Máquina
eij  , Máquina Máquina Máquina Máquina
n Turno A B C D Total
Mañana 12 6 12 13 43
Tarde 10 12 19 22 63
Dado que la tabla de contingencia es una tabla de r filas y c columnas se suele Noche 13 10 13 18 54
llamar tabla r*c. Nótese que para calcular el valor del estadístico es necesario calculas las Total 35 28 44 53 160
r*c frecuencias esperadas.
3.1. Región crítica. Vamos a realizar la Prueba de independencia para las dos variables involucradas en
Es una prueba unilateral, de extremo derecho y la región crítica o región de rechazo este caso.
es: El objetivo del estudio es descubrir la posible relación entre las fallas de las
máquinas y el turno de trabajo.
 2  [21 , ( r 1)(c1)]
1) La hipótesis nula y alternativa son:

[21 , ( r 1)( c1)] se


Ho : Las fallas de las máquinas son independientes del turno de trabajo
El valor crítico obtiene de la tabla de la distribución H1 : Las fallas de las máquinas no son independientes del turno de trabajo
acumulativa de la distribución Chi-Cuadrado. Obsérvese que valores grandes de Chi-
2) La prueba se hará con un 5% de significancia.
Cuadrado calculado con los datos muestrales llevan a la decisión de rechazar la hipótesis
3) El estadístico de prueba es el Chi-Cuadrado,
nula, por el contrario, valores bajos de Chi-Cuadrado conducirán al no rechazo de la
hipótesis nula.
c r (nij  eij ) 2
 2  
j 1 i 1 eij
Observaciones
4) La región crítica. Α = 0.05, r = 3, c = 4, Grados de libertad es
1) Recuérdese que la distribución Chi-Cuadrado es una distribución de variable (r-1)*(c-1) = 2*3 = 6
continua y lo estamos usando para analizar frecuencias que son discretas, por
esta razón se recomienda que las frecuencias esperadas deben tener valores  2  [21 , ( r 1)(c1)] [20.95, 6]  12.59
iguales o mayores a 5 para que la aproximación sea aceptable, en la práctica se
 2  12.59
puede llevar a cabo esta prueba aun cuando algunas de las frecuencias
esperadas sean menores que 5, pero estas no deben sobrepasar al 20% de
todas las frecuencias esperadas. En ningún caso se debe usar la prueba Chi- Se calculan las frecuencias esperadas para cada celda de la tabla y se obtiene la
Cuadrado de independencia con frecuencias esperadas menores que uno. siguiente tabla

Turno Máquina A Total


Máquina Máquina Máquina Máquina
A B C D
Mañana 9.41 7.53 11.83 14.24 43
Tarde 13.78 11.03 17.33 20.87 63
Noche 11.81 9.45 14.85 17.89 54
Total 35 28 44 53 160

Se puede observar que no hay frecuencias esperadas menores que cinco, por lo que
procedemos a calcular el valor del estadístico.
c r (nij  eij ) 2
  
2
=
j 1 i 1 eij
(12  9.41) 2 (6  7.53) 2 (18  17.89) 2
2    ...   2.87
9.41 7.53 17.89 b) Para datos que ya están en una base de datos
5) Decisión. Dado que 2.87 es menor que 12.59, no se rechaza la hipótesis nula.
6) Se concluye que no hay relación entre las fallas de las máquinas y el turno de COMPLEMENTOS MegaStat Chi-Square/Crosstab Crosstabulation
trabajo de las mismas.

La manera como se ha procedido en el ejemplo implica unos cálculos que pueden


realizarse en forma manual, también se puede usar una calculadora o usar EXCEL
como una calculadora, como lo hemos hecho, Sin embargo en las aplicaciones de
hace uso de programas estadísticos. EXCEL tiene un módulo MegaStat que permite
llevar a cabo las tareas de análisis estadístico de manera más cómoda.
Los pasos son.
a) Para datos que ya están en una tabla de contingencia
COMPLEMENTOS MegaStat Chi-Square/Crosstab Contingence Table
El procedimiento para calcular el valor experimental del estadístico de prueba Chi-
cuadrado es exactamente igual al cálculo de Chi-cuadrado en la prueba de
independencia.

1. Se toman muestras aleatorias de tamaños n1, n2, …, nk, respectivamente, de las k


poblaciones.
2. Se forma una tabla de contingencia con las distribuciones de frecuencias de cada
muestra.
Muestra Muestra Muestra Muestra
Variable A
1 2 j k
A1 n11 n12 … n1j … n1c
A2 n21 n22 … n2j … n2c
: : : … : … :
Ai ni1 ni2 … nij … nic
: : : … : … :
Como ejemplo del uso de MegaStat para la Prueba de independencia, volvemos a Ar nr1 nr2 … nrj … nrc
realizar desarrollar el ejemplo anterior. Tamaño de
n1 n2 … nj … nc
En este caso los datos ya se encuentran organizados en una tabla de contingencia. muestra nj
Estamos en el caso a).
La estructura de esta tabla es similar a la tabla que se construye para la prueba de
independencia, la diferencia está en que el la prueba de Independencia se toma una
Ejemplo 2.
muestra aleatoria de n sujetos u objetos y se clasifican según dos criterios, las
frecuencias marginales (totales de filas y columnas) se conocen después de hacer la
4. PRUEBA DE HOMOGENEIDAD tabulación cruzada. En la tabla de contingencia de la prueba de homogeneidad, una
de las frecuencias marginales son conocidas con antelación (son los tamaños de
OBJETIVO. muestra), de acuerdo a la estructura de la tabla anterior, se conocen los totales de
La prueba de Homogeneidad tiene como objetivo analizar si una variable cualitativa o cada comuna, que no son otra cosa que los tamaños de muestra.
categórica e distribuye de manera uniforme en k poblaciones.
Sea A una variable cualitativa con k categorías: A1, A2, …, Ar. 3. Se calculan las frecuencias esperadas, eij, finalmente se calcula el valor del
HIPÓTESIS. estadístico Chi-cuadrado y p-valor asociado y se toma la decisión de rechazar o no
rechazar la hipótesis nula usando la regla general
Las hipótesis nula y alternativa de una prueba de homogeneidad son:
Ho: La variable A se distribuye de manera uniforme en las k poblaciones. EJEMPLO.
H1: La variable A no se distribuye de manera uniforme en las k poblaciones. Un empresario desea saber si los consumidores de cinco marcas de gaseosa:
Estadístico de prueba. Coca-cola, Pepsi, Inca cola, Kola real y Fanta se distribuyen de manera uniforme en
las ciudades de Piusa, Chiclayo, Trujillo y Lima. Con tal propósito realiza una
c r (nij  eij ) 2
  
2
, encuesta a sendas muestras de consumidores de gaseosa en las cuatro ciudades.
j 1 i 1 eij Los resultados se presentan en la tabla de contingencia siguiente.

Si la hipótesis nula es cierta, el estadístico tiene distribución Chi-cuadrad con grados


libertad = (r-1)*(c-1).
Marca de gaseosa Piura Chiclayo Trujillo Lima 0 ≤ C ≤ Cmax
Si C = 0, hay independencia entre las variables, y
Coca-cola 60 90 122 138
si C = Cmax existe asociación máxima entre las variables.
Pepsi 120 130 102 162
Inca kola 104 100 114 152 Este valor máximo, Cmax, depende de las dimensiones de la tabla de
Kola real 72 50 38 46 contingencia.
Fanta 44 130 74 102
- Si la tabla es cuadrada de dimensión kxk
Tamaño de El valor máximo de C es:
400 500 450 600
muestra (nj)

¿Es posible concluir que las proporciones de consumidores de las cinco marcas de
gaseosa no son homogéneas en las cuatro ciudades? Use un nivel de significancia
del 5%.

SOLUCIÓN. Para responder a la pregunta anterior es necesario realizar una prueba - Si la tabla no es cuadrada, sino de dimensión rxc, entonces sea
de homogeneidad. h = mín{r, c}
Realizar la prueba respectiva siguiendo los pasos de una prueba de hipótesis.

5. MEDIDAS DE ASOCIACIÓN ENTRE VARIABLES CUALITATIVAS O


CATEGÓRICAS El inconveniente que tiene este coeficiente C es que, ya que su cota
máxima depende de las dimensiones de la tabla de contingencia, no
En los estudios de tipo estadístico, además de evaluar la posible relación puede usarse para comparar tablas de dimensiones distintas.
entre variables cualitativas o categóricas, es conveniente cuantificar el
grado de o fuerza con que están asociadas las variables. La medición del Este problema se resuelve usando el coeficiente de contingencia
grado de relación se efectúa mediante los coeficientes de asociación. corregido de Pawlik, el cual varía entre cero y uno:
Existen vario de estos coeficientes, siendo los más utilizados los coeficientes
de Contingencia y de Cramér. Buscar en Internet las fórmulas de estos
coeficientes:

El coeficiente de Contingencia de Pearson. El coeficiente de Cramér

Se define a partir del valor del estadístico χ2 calculado a partir de una V=


tabla de contingencia:

Calcular e interpretar los coeficientes de Contingencia y de Cramér a los


datos de la tabla del ejemplo anterior.

ACTIVIDAD.
Buscar dos problemas del campo de la Contabilidad o la Administración
que implique realizar una prueba de independencia, realizar el análisis
correspondiente y evaluar el grado de relación mediante los coeficientes
de contingencia y de Cramér.

Buscar dos problemas del campo de la Contabilidad o la Administración


que implique realizar una prueba de homogeneidad, realizar el análisis
correspondiente y evaluar el grado de relación mediante los coeficientes
de contingencia y de Cramér

Vous aimerez peut-être aussi