Vous êtes sur la page 1sur 25

Prueba

Cuadrado

Miguel A. Villa Z.

Estn relacionados los hbitos de lectura con el sexo del lector? Estn relacionadas las calificaciones obtenidas con el nmero de faltas? Es independiente la opinin sobre la poltica exterior de la poltica partidista? Es independiente el sexo de una persona de su preferencia en colores? Est relacionado el sexo con tener una educacin universitaria?

Son independientes el tamao de una familia y el nivel de educacin de los padres? Est relacionado el desempleo incremento de la criminalidad? con el

El precio est asociado con la calidad de un producto electrodomstico?

El estado nutricional esta asociado con el desempeo acadmico?


Estn relacionadas las enfermedades del corazn con el tabaquismo?

Objetivo
El objetivo general de este tpico es que se comprenda las dos tcnicas estadsticas empleadas para analizar datos categricos, con lo cual podr:

Analizar datos usando la prueba de Ji cuadrado de independencia Comprender la prueba ji cuadrado de bondad de ajuste y cmo usarla
Usar la prueba homogeneidad Ji cuadrado para

PRUEBA CHI CUADRADO

UNA VARIABLE

DOS VARIABLES

PRUEBA DE BONDAD DE AJUSTE

PRUEBA DE INDEPENDENCIA

PRUEBA DE HOMOGENEIDAD

Prueba de Independencia, Se usa para analizar la frecuencia de dos variables con categoras mltiples para determinar si las dos variables son independientes o no.

Por ejemplo: El tipo de refresco preferido por un consumidor es independiente de su grupo etreo?
El estado nutricional esta asociado con el desempeo acadmico?

determinar si la regin geogrfica es independiente del tipo de inversin financiera?


La prueba Chi cuadrado de independencia es particularmente til para analizar datos de variables cualitativas nominales.

Los datos de variables cualitativa o categricas representan atributos o categoras y se organizan en tablas llamadas tablas de contingencia o tablas de clasificacin cruzada.

Tabla de contingencia
Una Tabla de contingencia con r filas y c columnas tiene la siguiente forma:

Donde:
Oi j : es el nmero de sujetos que tienen las caractersticas Ai y Bj a la vez. Ri : (i = 1,,r) es la suma de la i-sima fila de la tabla. Es decir, es el total de sujetos que poseen la caracterstica Ai. Cj :(j = 1,,c) es la suma de la j-sima columna de la tabla. Es decir, es el total de sujetos que poseen la caracterstica Bj. n : representa el total de observaciones tomadas.

La pregunta es:
Existir o no relacin entre las variables A y B?, es decir, si A y B son o no independientes.

Formulacin de hiptesis:
Hiptesis nula (H0) : Las variables X e Y son independientes, ( X e Y no estn relacionadas) Hiptesis alternativa (H1) : Las variables X e Y no son independientes, (X e Y estn relacionadas)

Pruebas de Independencia
La estadistica Ji-Cuadrado esta dado por:
2
i 1 j1 r c

(Oij E ij ) 2 E ij

donde Oij : es la frecuencia observada de la celda que est en la fila i, columna j,


Eij Ri * C j n

es la frecuencia esperada de la

celda (i, j).

La frecuencia esperada es aquella que debe ocurrir para que la hiptesis nula sea aceptada.
La prueba estadstica se distribuye como una Ji-Cuadrado con (r-1)*(c-1) grados de libertad.
2 2 La hiptesis Nula se rechaza si , c alc 1

o equivalentemente si el p-value es menor que (prefijado)

Ejemplo:
Se toma una muestra aleatoria de 2200 familias y se les clasifica en una tabla de doble entrada segn su nivel de ingresos (alto, medio o bajo) y el tipo de colegio a la que envan sus hijos. La siguiente tabla muestra los resultados obtenidos:
TIPO DE COLEGIO
INGRESOS

TOTAL 1000 600 600 2200

PRIVADO 506 438 215 1159

PBLICO 494 162 385 1041

Alto Medio Bajo


TOTAL

A un nivel de significancia del 1% hay razn para creer que el ingreso y el tipo de colegio no son variables independientes?

Ejemplo
El uso de bebida ordenado con alimentos en un restaurante es independiente de la edad del consumidor? Se toma una muestra aleatoria de 309 clientes del restaurante de donde resulta el siguiente cuadro de valores observados. Utilice alfa = 0.01 para determinar si las dos variedades son independientes.
Edad 21-34 35-35 >55 Caf/t 26 41 24 Refresco 95 40 13 Leche 18 20 32

Solucin
1.- Planteamiento de hiptesis

Ho
H1

: El tipo de bebida independiente de la edad

preferida

es

: El tipo de bebida preferida esta relacionada con la edad


2

2 ( f f ) o e

2.- Estadstico de Prueba

fe

3.- Nivel de significacin:

= 0.01

Decisin
Las dos variables, bebida preferida y edad, no son independientes. El tipo de bebida que un cliente ordena con alimentos est relacionada con la edad y depende de est.

HOMOGENEIDAD Se extraen Muestras Independientes de varias poblaciones y se prueban para ver si son homogneas con respecto a algn criterio de clasificacin. Un conjunto de Totales Marginales Son Fijos mientras que los otros marginales son Aleatorios.

Ejemplo
Con el fin de probar la efectividad de una vacuna contra cierta enfermedad, se realizo un experimento observando a 200 personas, 110 de ellas vacunadas y las otras 90 sin vacunar. Presentan los datos evidencia suficiente como para indicar que la proporcin de personas vacunadas que contrajeron la enfermedad no es la misma que la proporcin de personas que no se vacunaron y que contrajeron la enfermedad Los resultados obtenidos se muestran en el siguiente cuadro.
Contrajeron Enf. 9 4 No contrajeron la enf. 101 86

Datos

Vacunados No vacunados

1.- Planteamiento de hiptesis Ho: P1 = P2 H1 : P1 diferente de P2 donde: P1 = Proporcin de vacunados que contraen la enfermedad P2 = Proporcin de no vacunados que contraen la enfermedad
Resultados:

Decisin
Como p-valor =0.286 es mayor que 0.05 (alfa) podemos indicar que no existe suficiente evidencia para aceptar que hay diferencias entre las proporciones P1 y P2

Prueba de Bondad de Ajuste


Los procedimientos de prueba de hiptesis que se han presentado en captulos anteriores estn diseados para problemas en los que se conoce la poblacin o o distribucin de probabilidad, y la hiptesis involucra los parmetros de la distribucin. A menudo se encuentra otra clase de hiptesis: no se sabe cul es la distribucin de la poblacin, y se desea probar la hiptesis de que una distribucin en particular ser un modelo satisfactorio de la poblacin. Por ejemplo: Probar la hiptesis de que la poblacin tiene comportamiento normal, Poisson,.exponencial etc.

El procedimiento general para realizar la prueba es: 1.- Formulacin de la hiptesis Ho: Los datos de la muestra se ajustan a la distribucin terica escogida H1: Los datos de la muestra no se ajustan a la distribucin terica escogida 2.- Fijar el nivel de significacin
2 k 3.- La estadstica de prueba ( Oi Ei ) donde: 2 Ei = npi Ei i 1 Oi = observado p = nmero de parmetros estimados a partir de la muestra K = nmero de categoras o clases pi = probabilidad

4.- Determinar la regin crtica: rechazar Ho si: caso contrario no se rechaza

2 2 calc 1 , k p 1

5.- Decisin y conclusin Nota: si alguna frecuencia esperada es menor que 5, se debe eliminar esa clase, Y sumar la frecuencia observada a una clase contigua.

BONDAD DE AJUSTE

Se utiliza para la comparacin de la distribucin de una muestra con alguna distribucin terica que se supone describe a la poblacin de la cual se extrajo. Ho : La variable tiene comportamiento normal

H1 : La variable no tiene comportamiento normal

Ejemplo:
Los siguientes porcentajes provienen de una encuesta nacional sobre las edades de compradores de msica pregrabada. Una encuesta local produjo los valores y la evidencia de los datos observados, indica que debemos rechazar la distribucin de la encuesta nacional para compradores locales de msica pregrabada? Utilice alfa=0.01

Solucin:
Ho H1 : : La variable edad tiene comportamiento normal La variable edad no tiene comportamiento normal
e dad N observado 15-19 20-24 25-29 30-34 >=35 Total 23 9 14 10 22 78 N esperado 15.6 15.6 15.6 15.6 15.6 Residual 7.4 -6.6 -1.6 -5.6 6.4
Chi-c uadrado gl Sig. as intt.
a

Es tadsticos de contr as te edad 11.103 4 .025 a. 0 casillas (.0%) tienen f rec uencias es peradas menores que 5. La f recuencia de c as illa es perada mnima es 15.6.

Resultados Como p-valor es 0.025 es menor que 0.05, rechazamos la hiptesis nula. Es decir, la variable edad no tiene comportamiento normal.