Vous êtes sur la page 1sur 22

MATERIA: ESTADISTICA APLICADA

NOMBRE DEL PROFESOR: LIC. GUERRA RIOS ADER

NOMBRE DEL ESTUDIANTE: GRUPO A

CARRERA: CONTABILIDAD

CICLO: III

TEMA DEL TRABAJO: CHI CUADRADO

PUCALLPA,28 DEMAYO 2017


INTRODUCCION DE PRUEBA DE CHI-CUADRADO

Una prueba de chi-cuadrado es una prueba de hiptesis que compara la


distribucin observada de los datos con una distribucin esperada de los datos.

Existen varios tipos de pruebas de chi-cuadrado:


Prueba de chi-cuadrado de bondad de ajuste
Utilice este anlisis para probar qu tan bien una muestra de datos
categricos se ajusta a una distribucin terica.

Por ejemplo, usted puede comprobar si un dado es justo, lanzando el dado


muchas veces y utilizando una prueba de chi-cuadrado de bondad de ajuste
para determinar si los resultados siguen una distribucin uniforme. En este
caso, el estadstico chi-cuadrado cuantifica qu tanto vara la distribucin
observada de conteos con respecto a la distribucin hipottica.

Pruebas de chi-cuadrado de asociacin e independencia


Los clculos para estas pruebas son iguales, pero la pregunta que se est
tratando de contestar puede ser diferente.

Prueba de asociacin: utilice una prueba de asociacin para


determinar si una variable est asociada a otra variable. Por ejemplo,
determine si las ventas de diferentes colores de automviles
dependen de la ciudad donde se venden.
Prueba de independencia: utilice una prueba de independencia para
determinar si el valor observado de una variable depende del valor
observado de otra variable. Por ejemplo, determine si el hecho de que
una persona vote por un candidato no depende del sexo del elector.

.
CHI-CUADRADO DE AJUSTE E
INDEPENDENCIA
Las pruebas chi-cuadrado son un grupo de contrastes de hiptesis que
sirven para comprobar afirmaciones acerca de las funciones de probabilidad (o
densidad) de una o dos variables aleatorias.

Estas pruebas no pertenecen propiamente a la estadstica paramtrica


pues no establecen suposiciones restrictivas en cuanto al tipo de variables que
admiten, ni en lo que refiere a su distribucin de probabilidad ni en los valores
y/o el conocimiento de sus parmetros.

Se aplican en dos situaciones bsicas:

a) Cuando queremos comprobar si una variable, cuya descripcin parece


adecuada, tiene una determinada funcin de probabilidad. La prueba
correspondiente se llama chi-cuadrado de ajuste.

b) Cuando queremos averiguar si dos variables (o dos vas de clasificacin)


son independientes estadsticamente. En este caso la prueba que
aplicaremos ser la chi-cuadrado de independencia o chi-cuadrado de
contingencia.

CHI-CUADRADO DE AJUSTE

En una prueba de ajuste la hiptesis nula establece que una variable X


tiene una cierta distribucin de probabilidad con unos determinados valores de
los parmetros. El tipo de distribucin se determina, segn los casos, en funcin
de: La propia definicin de la variable, consideraciones tericas al margen de
esta y/o evidencia aportada por datos anteriores al experimento actual.

A menudo, la propia definicin del tipo de variable lleva implcitos los


valores de sus parmetros o de parte de ellos; si esto no fuera as dichos
parmetros se estimarn a partir de la muestra de valores de la variable que
utilizaremos para realizar la prueba de ajuste.

Como en casos anteriores, empezaremos definiendo las hiptesis.

Hiptesis nula: X tiene distribucin de probabilidad f(x) con


parmetros y1,..., yp
Hiptesis alternativa: X tiene cualquier otra distribucin de
probabilidad.

Es importante destacar que el rechazo de la hiptesis nula no implica que


sean falsos todos sus aspectos sino nicamente el conjunto de ellos; por
ejemplo, podra ocurrir que el tipo de distribucin fuera correcto pero que nos
hubisemos equivocado en los valores de los parmetros.

Obviamente, necesitaremos una muestra de valores de la variable X. Si


la variable es discreta y tiene pocos valores posible estimaremos las
probabilidades de dichos valores mediante sus frecuencias muestrales; si la
variable es continua o si es una discreta con muchos o infinitos valores
estimaremos probabilidades de grupos de valores (intervalos).

Metodolgicamente, la prueba se basa en la comparacin entre la serie


de frecuencias absolutas observadas empricamente para los valores de la
variable (Oi) y las correspondientes frecuencias absolutas tericas obtenidas en
base a la funcin de probabilidad supuesta en la hiptesis nula (Ei).

As pues, una vez calculadas las frecuencias absolutas de cada valor o


intervalo de valores, obtendremos el nmero total de observaciones de la
muestra (T) sumando las frecuencias observadas

Para calcular las frecuencias esperadas repartiremos este nmero total


de observaciones (T) en partes proporcionales a la probabilidad de cada suceso
o grupo de sucesos. Para ello calcularemos dichas probabilidades utilizando la
funcin de probabilidad definida en la hiptesis nula f(x), de modo que, cada
valor Ei tendr la siguiente expresin:

Por tanto, tendremos los siguientes datos para la prueba:

Valor de la variable x1 x2 x3 ... xi ... xk

Frecuencias O1 O2 O3 ... Oi ... Ok


observadas

Frecuencias esperadas E1 E2 E3 ... Ei ... Ek

Si la hiptesis nula es cierta, las diferencias entre valores observados y


esperados (que siempre existirn por tratarse de una muestra aleatoria) son
atribuibles, exclusivamente, al efecto del azar. En estas condiciones, se puede
calcular un parmetro que depende de ambos, cuya distribucin se ajusta a una
chi-cuadrado.

Si, por el contrario, la hiptesis nula fuera falsa los Ei ya no seran,


realmente, los valores esperados de las frecuencias; por tanto, las diferencias
entre los valores "esperados" y los observados reflejaran no slo el efecto del
azar sino tambin las diferencias entre los Ei y la autntica serie de valores
esperados (desconocida) Como consecuencia, las diferencias de los
numeradores de la expresin anterior tienden a ser ms grandes y, por estar
elevadas al cuadrado, la suma de cocientes ser positiva y mayor que lo que se
esperara para los valores de una chi-cuadrado.

Por tanto, el parmetro anterior ser el estadstico de contraste de la


prueba de hiptesis y la regin crtica se encontrar siempre en la cola derecha
de la distribucin chi-cuadrado. Evidentemente, esta prueba ser siempre de
una sola cola.

Estadstico de contraste

Se acepta la hiptesis nula si , el percentil 1 de la


distribucin chi-cuadrado con grados de libertad.
Cabe sealar que en las pruebas chi-cuadrado lo corriente es que
pretendamos comprobar que una variable tiene una cierta distribucin y, por
tanto, habitualmente, nos vemos obligados a colocar nuestra propia hiptesis en
la hiptesis nula. nicamente podremos colocar nuestra hiptesis en la
alternativa en el caso excepcional de que pretendamos demostrar que cierto
tratamiento produce una distorsin de la distribucin bsica de la variable en
estudio.

El nmero de grados de libertad de la variable chi-cuadrado se calcula de


la siguiente forma:

A priori, tendr tantos grados de libertad como parejas frecuencia


observada - frecuencia esperada.

A esta cantidad se debe restar el nmero de restricciones lineales


impuestas a las frecuencias observadas, es decir, el nmero de
parmetros que es necesario calcular directamente a partir de los
valores observados para establecer los valores esperados. Este nmero
es, como mnimo, uno ya que siempre tendremos que calcular el nmero
total de observaciones de la muestra.

Una condicin bsica para que podamos llevar a cabo una prueba chi-
cuadrado es que las frecuencias de las distintas clases deben ser
suficientemente altas como para garantizar que pequeas desviaciones
aleatorias en la muestra no tengan importancia decisiva sobre el valor del
estadstico de contraste.

Las reglas que determinan cuando es posible o no realizar el contraste


varan mucho de unos autores a otros. En un extremo de mxima rigidez se
encuentran aquellos que opinan que no se puede realizar la prueba cuando
alguna de las frecuencias, observadas o esperadas, sea menor que 5. En el
otro extremo se encuentran quienes opinan que, para que la prueba sea viable
ninguna de las frecuencias esperadas debe ser menor que 1 y no ms del 25%
pueden ser menores que 5; en lo que refiere a las frecuencias observadas no
existiran lmites. La autora de este texto simpatiza ms con la segunda postura,
no slo por razones prcticas, sino porque lo razonable es que la distribucin
esperada est adecuadamente definida y, por tanto, no debe incluir valores muy
bajos; sin embargo, los valores extremos en la distribucin observada
simplemente reflejan diferencias importantes entre la distribucin supuesta por
la hiptesis nula y la real.

Sea cual sea el criterio que elijamos, si resultara que la prueba no es


viable podramos recurrir a englobar los valores o clases de valores con sus
vecinos ms prximos y pasar as a engrosar sus frecuencias. Este
procedimiento no puede llevarse hasta el absurdo pero proporciona una salida
digna a situaciones complejas. En casos excepcionales se pueden englobar
valores que no sean vecinos porque exista algn nexo lgico de conexin entre
ellos.

Cuando sea necesario agrupar valores, los grados de libertad no se


deben calcular hasta que tengamos establecidas definitivamente las parejas de
frecuencias observadas y esperadas con las que calcularemos el estadstico de
contraste.

HI-CUADRADO DE CONTINGENCIA O INDEPENDENCIA

La prueba chi-cuadrado de contingencia sirve para comprobar la


independencia de frecuencias entre dos variables aleatorias, X e Y.

Las hiptesis contrastadas en la prueba son:

Hiptesis nula: X e Y son independientes.

Hiptesis alternativa: X e Y no son independientes (No importa cual


sea la relacin que mantengan ni el grado de esta.

La condicin de independencia, tal como fue definida en la pgina


anterior era: X e Y son independientes si y slo si para cualquier pareja de
valores x e y la probabilidad de que X tome el valor x e Y el valor y,
simultneamente, es igual al producto de las probabilidades de que cada una
tome el valor correspondiente.

Por tanto, todo lo que necesitamos sern unas estimas de las funciones
de probabilidad de ambas variables por separado (f(x) y f(y)) y de la funcin de
probabilidad conjunta (f(x,y))

Empezaremos la prueba tomando una muestra de parejas de valores


sobre la que contaremos la frecuencia absoluta con la que aparece cada
combinacin de valores (xi,yj) o de grupos de valores (i,j) (Oij) La tabla siguiente,
en la que se recogen estos datos, es en realidad nuestra estimacin de la
funcin de probabilidad conjunta multiplicada por el nmero total de datos (T).
Para obtener las estimas de las funciones de probabilidad marginales
debemos sumar por filas y por columnas los valores de las frecuencias
conjuntas. Las sumas de filas (Fi) son, en cada caso, el nmero de veces que
hemos obtenido un valor de X (xi) en cualquier combinacin con distintos
valores de Y, es decir, son nuestra estima de la funcin de probabilidad de X
multiplicada por el nmero total de observaciones; anlogamente, las sumas de
columnas (Cj) son nuestra estima de la funcin de probabilidad de Y
multiplicada por el nmero total de observaciones.

El nmero total de observaciones lo podemos obtener como la suma de


todas las frecuencias observadas o, tambin, como la suma de las sumas de
filas o de las sumas de columnas:

As pues, si las variables fueran independientes debera cumplirse que

Naturalmente, nadie espera que esta condicin se cumpla exactamente


debido al efecto de los errores de muestreo aleatorio. Por tanto, nuestro
problema consiste en distinguir entre las diferencias producidas por efecto del
muestreo y diferencias que revelen falta de independencia.

Podemos convertir la ecuacin anterior a frecuencias absolutas


multiplicando por T:
Si X e Y son independientes, Oij debe ser igual a y,
por tanto,

bajo la hiptesis de independencia, es el valor


esperado de Oij (Eij)

Tal como pasaba en la prueba anterior, si las variables son


independientes, es decir, si las frecuencias Eij son realmente los valores
esperados de las frecuencias Oij, se puede calcular un parmetro que depende
de ambas que tiene distribucin chi-cuadrado,

Por otra parte, si las variables no son independientes, las diferencias


entre las series de frecuencias observadas y esperadas sern mayores que las
atribuibles al efecto del azar y, al estar elevadas al cuadrado en el numerador
de la expresin anterior, sta tender a ser mayor que lo que suele ser el valor
de una variable chi-cuadrado.

Por tanto, el parmetro anterior ser el estadstico de la prueba de


hiptesis y la regin crtica se encontrar siempre en la cola derecha de la
distribucin chi-cuadrado. Nuevamente, esta prueba ser siempre de una sola
cola.

Estadstico de contraste

Se acepta la hiptesis nula si , el percentil 1 de la


distribucin chi-cuadrado con grados de libertad.
Tal como ocurra en la prueba anterior lo corriente es que queramos
demostrar que dos variables son independientes, es decir, que, habitualmente,
nos veremos obligados a colocar nuestra hiptesis en la hiptesis nula.

El nmero de grados de libertad de la chi-cuadrado que sirve de


contraste se calcula de la siguiente forma:

A priori tendremos tantos grados de libertad como combinaciones de


valores xi, yj tengamos (I J)

A este nmero tendremos que restarle I debido a que, para calcular las
frecuencias esperadas, necesitamos calcular las I sumas de filas en la
tabla anterior. Conocidas las sumas de filas obtenemos el nmero total
de observaciones sin perder ningn grado de libertad.

A continuacin, necesitaremos calcular, a partir de las frecuencias


observadas J - 1 de las sumas de columnas; la restante podemos
obtenerla restando la suma de las anteriores del total de observaciones
(T).

En resumen, el nmero de grados de libertad de la prueba es el producto


del nmero de filas menos uno por el nmero de columnas menos uno.

En cuanto a la magnitud mnima necesaria de las frecuencias


observadas y esperadas, rigen las mismas normas que en el caso de la prueba
de ajuste. En este caso, si nos viramos obligados a juntar valores para sumar
frecuencias, debemos unir columnas o filas completas (y contiguas).
Obviamente, los grados de libertad no deben calcularse hasta que no se hayan
realizado todas las agrupaciones necesarias y quede claro cual es el nmero de
filas y columnas de la tabla definitiva.

Como hemos visto, esta prueba no hace ninguna suposicin acerca del
tipo de distribucin de ninguna de las variables implicadas y utiliza nicamente
informacin de la muestra, es decir, informacin contingente. Esta es la razn
por la que, habitualmente, se le llama chi-cuadrado de contingencia.
EJEMPLOS
LA SIGUIENTE TABLA MUESTRA LAS FRECUENCIAS
OBSERVADAS AL LANZAR UN DADO 120 VECES. ENSAYAR LA
HIPTESIS DE QUE EL DADO EST BIEN HECHO AL NIVEL DE
SIGNIFICACIN DEL 0.05.

Cara 1 2 3 4 5 6

Frecuencia Observada 25 17 15 23 24 16

Solucin:

Ensayo de Hiptesis:

Ho; Las frecuencias observadas y esperadas son


significativamente iguales

(dado bien hecho)

H1; Las frecuencias observadas y esperadas son diferentes


(dado cargado).

Primero se procede a calcular los valores esperados. Como es bien sabido por todos la
probabilidad de que caiga cualquier nmero en un dado no cargado es de 1/6. Como la
suma de los valores observados es de 120, se multiplica este valor por 1/6 dando un
resultado de 20 para cada clasificacin.

Cara 1 2 3 4 5 6 Total

Frecuencia Observada 25 17 15 23 24 16 120

Frecuencia esperada 20 20 20 20 20 20

Grados de libertad = k-1-m = 6-1-0 = 5

No se tuvo que calcular ningn parmetro para obtener las


frecuencias esperadas.
Regla de decisin:

Si X2R 11.1 no se rechaza Ho.

Si X2R >11.1 se rechaza Ho.

Clculos:

Justificacin y decisin:

Como 5 es menor a 11.1 no se rechaza Ho y se concluye con una


significacin de 0.05 que el dado est bien hecho.

EN LOS EXPERIMENTOS DE MENDEL CON GUISANTES,


OBSERV 315 LISOS Y AMARILLOS, 108 LISOS Y VERDES, 101
RUGOSOS Y AMARILLOS Y 32 RUGOSOS Y VERDES. DE
ACUERDO CON SU TEORA, ESTOS NMEROS DEBERAN
PRESENTARSE EN LA PROPORCIN 9:3:3:1. HAY ALGUNA
EVIDENCIA QUE PERMITA DUDAR DE SU TEORA AL NIVEL DE
SIGNIFICACIN DEL 0.01?

Solucin:

Ensayo de Hiptesis:

Ho; La teora de Mendel es acertada.

H1; La teora de Mendel no es correcta.


El nmero total de guisantes es 315+108+101+32=556. Puesto
que los nmeros esperados estn el la proporcin 9:3:3:1
(9+3+3+1=16), se esperara:

lisos y amarillos

lisos y verdes

rugosos y amarillos

rugosos y verdes

Grados de libertad = k-1-m = 4-1-0 = 3

No se tuvo que calcular ningn parmetro para obtener las


frecuencias esperadas.

Regla de decisin:

Si X2R 11.3 no se rechaza Ho.

Si X2R >11.3 se rechaza Ho.

Clculos:
Justificacin y decisin:

Como 0.470 es menor que 11.3 no se rechaza Ho y se concluye


con un nivel de significacin de 0.01 que la teora de Mendel es
correcta.

Como el valor de 0.470 est cercano a cero, se procede a hacer


un ensayo unilateral izquierdo:

Ensayo de Hiptesis:

Ho; La teora de Mendel es acertada.

H1; La teora de Mendel es muy acertada.

Regla de decisin:

Si X2R 0.115 no se rechaza Ho.

Si X2R < 0.115 se rechaza Ho.

Como el valor de 0.470 no es menor a 0.115 se concluye que el


experimento o la teora de Mendel solo es buena.
UNA ENCUESTA SOBRE 320 FAMILIAS CON 5 NIOS DIO LA
DISTRIBUCIN QUE APARECE EN LA SIGUIENTE TABLA. ES EL
RESULTADO CONSISTENTE CON LA HIPTESIS DE QUE EL
NACIMIENTO DE VARN Y HEMBRA SON IGUALMENTE
POSIBLES? USE = 0.05.

Nmero de nios 5 4 3 2 1 0

Nmero de nias 0 1 2 3 4 5

Nmero de familias 18 56 110 88 40 8

Solucin:

Ensayo de hiptesis:

H0; El nacimiento de nios y nias es igualmente probable.

H1; El nacimiento de nios y nias no es igualmente probable.

Este experimento tiene un comportamiento binomial, puesto que


se tienen dos posibles resultados y la probabilidad de xito se
mantiene constante en todo el experimento.

Se le llamar xito al nacimiento de un varn o nio. Por lo que


la variable aleatoria "x" tomar valores desde 0 hasta 5.

Como se quiere ver si es igualmente probable el nacimiento de


nios y nias, la probabilidad de xito ser de 0.5.

Utilizando la frmula de la distribucin binomial se calcularn las


probabilidades, que multiplicadas por el nmero total de familias
nos darn los valores esperados en cada clasificacin.

Recordando la frmula de la distribucin binomial:

en donde n = 5 y "x" es el nmero de nios .

Probabilidad de 5 nios y 0 nias =


Probabilidad de 4 nios y 1 nia =

Probabilidad de 3 nios y 2 nias =

Probabilidad de 2 nios y 3 nias =

Probabilidad de 1 nio y 4 nias =

Probabilidad de 0 nios y 5 nias =

Si cada una de estas probabilidades se multiplican por 320 se obtienen los valores
esperados:

Nmero de nios 5 4 3 2 1 0
Total
Nmero de nias 0 1 2 3 4 5

Nmero de familias 18 56 110 88 40 8 320

Frecuencias esperadas 10 50 100 100 50 10

Grados de libertad: k-1-m = 6-1-0 = 5

Regla de decisin:

Si X2R 11.1 no se rechaza Ho.

Si X2R >11.1 se rechaza Ho.

Clculos:
Justificacin y decisin:

Como el 12 es mayor a 11.1, se rechaza H0 y se concluye con


un = 0.05 que el nacimiento de hombres y mujeres no es
igualmente probable.
UNA URNA CONTIENE 6 BOLAS ROJAS Y 3 BLANCAS. SE EXTRAEN AL AZAR DOS BOLAS DE LA
URNA, SE ANOTA SU COLOR Y SE VUELVEN A LA URNA. ESTE PROCESO SE REPITE UN TOTAL DE
120 VECES Y LOS RESULTADOS OBTENIDOS SE MUESTRAN EN LA SIGUIENTE TABLA.
DETERMINAR AL NIVEL DE SIGNIFICACIN DEL 0.05 SI LOS RESULTADOS OBTENIDOS SON
CONSISTENTES CON LOS ESPERADOS.

0 1 2

Bolas blancas 2 1 0

Nmero de extracciones 6 53 61

Solucin:

Este experimento tiene las caractersticas de una distribucin


hipergeomtrica, por lo cual se calcularn los valores esperados con el
razonamiento de esta distribucin.

Se llamara "x" a la variable aleatoria de inters que en este caso sern


las bolas rojas. Por lo tanto "x" puede tomar valores desde 0 hasta 2.

La frmula de la distribucin hipergeomtrica es:

Se tiene:

Probabilidad de extraer 0 rojas y 2 blancas:

Probabilidad de extraer 1 roja y 1 blanca:


Probabilidad de extraer 2 rojas y 0 blancas:

Con las probabilidades anteriores se obtendrn los valores esperados multiplicando por 120.

0 1 2

Bolas blancas 2 1 0

Nmero de extracciones 6 53 61

Frecuencias esperadas 10 60 50

Grados de libertad: k-1-m = 3-1-0 = 2

Regla de decisin:

Si X2R 5.991 no se rechaza Ho.

Si X2R >5.991 se rechaza Ho.

Clculos:
Justificacin y decisin:

Como el 4.83 no es mayor a 5.991, no se rechaza H0 y se concluye


con un
= 0.05 que los resultados son los mismos que los esperados.

Vous aimerez peut-être aussi