Vous êtes sur la page 1sur 25

Distribucin Chi (o Ji) cuadrada (2)

PEARSON, KARL. On the Criterion that a Given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it Can Reasonably Be Supposed to have Arisen from Random Sampling El famoso artculo de Karl Pearson sobre la distribucin Chi-cuadrada apareci en la primavera de 1900, lo que se puede considerar un inicio auspicioso a un magnfico siglo para el campo de la estadstica -B. Efron, The Statistical Century

La distribucin Chi-Cuadrada (chi squared en ingls, se pronuncia Kay skuerd) es una de las distribuciones ms empleadas en todos los campos. Su uso ms comn es cuando se quiere probar si unas mediciones que se hayan efectuado siguen una distribucin esperada, por ejemplo la normal o cualquier otra. Otro de sus usos es en intervalos de confianza y pruebas de hiptesis para las varianzas o desviaciones estndar. Empezaremos ilustrando la definicin de la distribucin para proceder a ejemplos de uso prctico.

Supongamos que se efecta el siguiente experimento estadstico. Seleccionamos una muestra aleatoria de tamao n de una poblacin con distribucin normal, con desviacin estandar igual a . De la muestra encontramos que la desviacin estandar es igual a s. Con estos datos podemos calcular una estadstica, que llamamos Chi-Cuadrada, por medio de la Cuadrada siguiente ecuacin: 2 2 2

( n 1) s

Si repetimos el experimento un nmero infinito de veces, obtendramos una distribucin muestral para la estadstica chi-cuadrada. Pero la distribucin cuadrada final que tendramos se puede definir por la siguiente ecuacin:

Donde Y0 es una constante que depende del nmero de grados de libertad ( = n 1, n es el tamao de la muestra), 2 es el valor de chi-cuadrada y e es el llamado nmero natural (aproximadamente 2.71828). Y0 se define de forma que el rea bajo la curva sea igual a 1.

Y = Y0 ( 1)e 2
2

2
2

Si graficamos curvas para diferentes valores de n, encontramos que la forma de la distribucin chi cuadrada cambia dependiendo del nmero de grados de libertad.
Distribution Plot
Chi-Square 0.5
df 2 4 6 10 30

0.4

Density

0.3

0.2

0.1

0.0

10

20

30 X

40

50

60

Tambin vemos que al aumentar el nmero de grados de libertad, la curva se aproxima a la distribucin normal.

La distribucin chi cuadrada tiene las siguientes propiedades: propiedades La media es igual al nmero de grados de libertad (que es igual al tamao de las muestras menos 1): = = n 1 La varianza es igual a dos veces el nmero de grados de libertad (por lo tanto la desviacin estndar es la raz cuadrada de 2): 2 = 2 * Cuando los grados de libertad son mayores o iguales que 2, el mximo valor de Y ocurre cuando

2=2
Conforme los grados de libertad (tamao de la muestra) aumenta, la distribucin chi-cuadrada se aproxima a la distribucin normal. normal

Ejemplo de 2 cuadrada para 5 muestras

La desviacin estndar es

= 2 = 2 = 8

La media = = 4 (es igual a n-1) El valor mximo ocurre para 2 = 2 = 2

Probabilidad Acumulativa y la Distribucin Chi-cuadrada La distribucin 2, como otras distribuciones por ejemplo la t de student y la z-normal estndar, se construye de forma que el rea total bajo la ndar curva sea igual a 1. El rea bajo la curva entre 0 y un valor particular de la estadstica chi-cuadrada es la probabilidad asociada con ese valor. Por ejemplo, en la figura, el rea sombreada representa la probabilidad acumulada para una 2 igual a un valor A.

Supngase que en una determinada muestra se observan una serie de posibles sucesos E1, E2, E3, . . . , EK, que ocurren con frecuencias o1, o2, o3, . . ., oK, llamadas frecuencias observadas y que, segn las reglas de probabilidad, se espera que ocurran con frecuencias e1, e2, e3, . . . ,eK llamadas frecuencias tericas o esperadas. A menudo se desea saber si las frecuencias observadas difieren significativamente de las frecuencias esperadas. Para el caso en que solamente son posibles dos sucesos E1 y E2 como, por ejemplo, caras o cruces, defectuoso, etc., el problema queda resuelto satisfactoriamente con los mtodos de las unidades anteriores. Ahora se considera el problema general. Definicin de 2 para el caso de pruebas de bondad de ajuste. Una medida de la discrepancia existente entre las frecuencias observadas y esperadas est dada por el estadstico que sigue la distribucin 2:

donde el total de frecuencias es N

Si 2 = 0, las frecuencias observadas y esperadas concuerdan exactamente, mientras que si 2 >0, no coinciden exactamente. A valores mayores de 2, mayores son las discrepancias entre las frecuencias observadas y esperadas. El nmero de grados de libertad n est dado por:

n=k1m
en donde: k = nmero de clasificaciones en el problema. m = nmero de parmetros estimados a partir de los datos muestrales para obtener los valores esperados.

En la prctica, las frecuencias esperadas se calculan como la hiptesis Ho. Si bajo esta hiptesis el valor calculado de 2 dado es mayor que algn valor crtico, se deduce que las frecuencias observadas difieren significativamente de las esperadas y se rechaza Ho al nivel de significacin correspondiente. En caso contrario, no se rechazar Ho. Este procedimiento se llama prueba de hiptesis chi-cuadrado. Debe advertirse que aquellas circunstancias en que 2 est muy prxima a cero deben tomarse con cierto recelo, puesto que es raro que las frecuencias observadas concuerden demasiado bien con las esperadas. Para examinar tales situaciones, se puede determinar si el valor calculado de 2 es menor que las 2 crticas (prueba de cola izquierda), en cuyos casos se decide si la concordancia es suficientemente buena.

Ejemplos del uso de 2 en pruebas de bondad de ajuste. 1. En los experimentos de Mendel con chcharos, observaron 315 lisos y amarillos, 108 lisos y verdes, 101 rugosos y amarillos y 32 rugosos y verdes. De acuerdo con su teora, estos nmeros deberan presentarse en la proporcin 9:3:3:1. Hay alguna evidencia que permita dudar de su teora al nivel de significacin del 0.01? Solucin: Ho; La teora de Mendel es acertada. H1; La teora de Mendel no es correcta. El nmero total de chcharos es 315+108+101+32=556. Puesto que los nmeros esperados estn el la proporcin 9:3:3:1 (9+3+3+1=16), se esperara lo siguiente:

9 (556) = 312.75 16 3 (556) = 104.25 16 3 (556) = 104.25 16 1 (556) = 34.75 16

lisos y amarillos lisos y verdes rugosos y amarillos

rugosos y verdes

Grados de libertad = k-1-m = 4-1-0 = 3 No se tuvo que calcular ningn parmetro para obtener las frecuencias esperadas.

Regla de decisin: Si 2 11.3 no se rechaza Ho. Si 2 > 11.3 se rechaza Ho.

Justificacin y decisin: Como 0.470 es menor que 11.3 no se rechaza Ho y se concluye con un nivel de significancia de 0.01 que la teora de Mendel es correcta. Pero como el valor de 0.470 est cercano a cero, se procede a hacer una prueba unilateral izquierda:

Ho; La teora de Mendel es acertada. H1; La teora de Mendel es muy acertada.

Regla de decisin: Si 2 0.115 no se rechaza Ho. Si 2 < 0.115 se rechaza Ho. Como el valor de 0.470 no es menor a 0.115 se concluye que el experimento o la teora de Mendel es correcta.

2. Se cree que la duracin del sueo profundo de las personas se puede aproximar mediante una distribucin normal con media = 3.5 hrs y desviacin estndar = 0.7 hrs. Probar la veracidad de esta idea con los siguientes datos tomados de una muestra de pacientes. Utilizar una significancia de 0.05.

Total de datos 40. Primero visualizamos los datos en un histograma.

Aparentemente los datos siguen una distribucin normal. Prueba de hiptesis: H0; Los datos provienen de una distribucin normal. H1; Los datos no provienen de una distribucin normal.

En este ejemplo en particular se cuenta con la media y desviacin estndar de la poblacin, por lo que no se tienen que estimar. En caso de que no se tuvieran, se estimaran a partir de los datos agrupados, tomando en cuenta que para los grados de libertad el valor de m sera 2, ya que se estimaran la media y la desviacin estndar. Se proceder a calcular los valores de z para encontrar las probabilidades usando los lmites inferiores de los intervalos de clase:

z=

La razn por la cual se comienza con el lmite de 1.95 y se termina con el lmite de 4.45, es porque la suma de todas las probabilidades debe ser 1, bajo la curva normal. A continuacin se muestra la curva normal con sus respectivas probabilidades, segn los limites reales.

Con estas probabilidades se calcularn los valores esperados, multiplicando cada probabilidad por 40 (el total).

Grados de libertad: k-1-m = 4-1-0 = 3

Regla de decisin: Si 2 7.815 no se rechaza Ho. Si 2 > 7.815 se rechaza Ho.

Justificacin y decisin: Como 3.06 no es mayor de 7.815, no se rechaza H0 y se concluye con = 0.05 que el ajuste de los datos a una distribucin normal es bueno.

Ejemplo del uso de 2 en pruebas de desviacin estndar. La compaa de bateras Durams ha desarrollado una nueva batera para celulares. En promedio, la batera dura 60 minutos por carga. La desviacin estndar es de 4 minutos. Supongamos que el departamento de manufactura corre una prueba de control de calidad. Ellos seleccionan 7 bateras al azar. La desviacin estndar de las bateras seleccionadas es de 6 minutos. Qu valor de la estadstica chi-cuadrada tenemos para esta prueba?

Solucin Bueno, empezamos con lo que sabemos: La desviacin estandar de la poblacin es de 4 minutos. La desviacin estandar de la muestra es de 6 minutos. El nmero de observaciones muestreadas es 7.

Para calcular la estadstica chi-cuadrada, usamos los valores en la ecuacin para 2.

2 =

( n 1) s 2

(7 1)62 = = 13.5 2 4

donde 2 es la estadstica chi-cuadrada, n el tamao de la muestra, s la desviacin estndar de la muestra, y la desviacin estndar de la poblacin. Ahora vamos a ver cmo usar este resultado. Problema 1 Vamos a expresar el mismo ejemplo de otra manera. El departmento de manufactura corri una prueba de control de calidad usando 7 bateras seleccionadas al azar. En su prueba, la desviacin estndar fue de 6 minutos, lo que equivale a un valor de chi-cuadrada de 13.5. Supongamos que repiten la prueba con otras 7 bateras. Cul es la probabilidad de que la desviacin estndar de la nueva prueba sea mayor a 6 minutos?

Solucin Sabemos lo siguiente: Tamao de la muestra es n = 7 . Los grados de libertad son n - 1 = 7 - 1 = 6. El valor 2 para la prueba es 13.5 (del Ejemplo 1). Dados estos valores, podemos determinar la probabilidad acumulada de chicuadrada. Para ello, usamos una tabla de la estadstica 2 con los valores de grados de libertad (6) y de chi-cuadrada (13.5) o empleamos alguna herramienta como la calculadora Chi-Square Distribution Calculator. De cualquiera de los dos obtenemos el valor de: 0.96. Esto implica que la probabilidad de que la desviacin estndar de la muestra fuera menor o igual a 6 minutos es 0.96. Lo anterior significa que la probabilidad de que la desviacin estndar sea mayor a 6 minutos es de 1 - 0.96 o sea .04 (muy pequea).

Area bajo la curva hasta el valor de 2 =13.5 es 0.96

probabilidad de que la desviacin desviaci estndar de la est muestra sea MENOR O IGUAL a 6 minutos es 0.96 probabilidad de que la desviacin desviaci estndar de la est muestra sea MAYOR a 6 minutos es 0.04

2 =13.5