Vous êtes sur la page 1sur 8

PRUEBA BONDAD AJUSTE

bas de bondad de ajuste


Prueba de bondad de ajuste Chi Cuadrado (X2)

La metodología de la prueba X2 es la siguiente:


1. Se colocan los n datos históricos en una tabla de distribución de frecuencias de m = raíz de n
intervalos, se obtiene la frecuencia observada en cada intervalo (FO). Se calcula la media y la
varianza de datos (de ser necesario).
2. Se propone una distribución de probabilidad de acuerdo con la forma de la tabla de frecuencias
obtenida en el paso anterior (proponer: discreta o continua).
3. Con la distribución propuesta se calcula la frecuencia esperada (FE) para cada intervalo
mediante la integración de la distribución propuesta y su posterior multiplicación por el número
total de datos.
4. Se calcula el estimador C, como la sumatoria desde i=1 hasta el número de intervalos (m), de
las diferencias cuadradas entre las frecuencias esperadas y las observadas, sobre cada frecuencia
esperada.
5. Sí (C<= X2m-k-1,1-α). Si el estimador C es menor o igual al valor correspondiente X 2(Chi
cuadrado), con m menos k menos 1 grados de libertad y a un nivel de confiabilidad (1 menos
alfa) 1-α, entonces no se puede rechazar la hipótesis de que la información histórica sigue la
distribución propuesta. Por tratarse de pruebas no paramétricas, k será siempre 0.

Prueba de bondad de ajuste de Kolmogorov-Smirnov


Esta prueba comparándola con la de chi cuadrado es más eficiente en varios aspectos, ya que trabaja
con la distribución de probabilidad acumulada. La metodología es la siguiente:
1. Se colocan los n datos históricos en una tabla de frecuencias con m = raíz de n intervalos, para
cada intervalo se tendrá la frecuencia observada. Se calcula la media y la varianza de los datos.
2. Se calcula la probabilidad observada dividiendo la frecuencia observada por el total de datos
(POi).
3. Se calcula la probabilidad acumulada observada de cada intervalo (PAOi).
4. Se propone una distribución de probabilidad de acuerdo con la forma de la tabla de distribución
de frecuencia.
5. Se calcula la probabilidad acumulada esperada para cada intervalo (PAEi).
6. Se calcula el valor absoluto entre y PAE para cada intervalo y se selecciona la máxima
diferencia llamándola DM. El estimador se compara con el valor límite correspondiente a la
tabla y a un nivel de confiabilidad de 1-α. Si el estimador DM es <= al valor límite de la tabla,
entonces no se puede rechazar que la información histórica sigue la distribución propuesta
Análisis de varianza

El análisis de la varianza (ANOVA – del inglés Analysis of Variance) es una potente herramienta
estadística de gran aplicación en la industria y la investigación. Las dos aplicaciones que veremos en
este curso serán la comparación de medias de más de dos poblaciones y la validación de modelos de
regresión lineal, limitándonos a una sola magnitud o característica que se mida en la población o
poblaciones que son objeto de análisis, en otras palabras trataremos el análisis de varianza unifactorial.

Comparación de las medias de más de dos poblaciones.


En algunas situaciones, se desea comparar la media de varias muestras, para saber si coinciden con un
nivel de significación dado.
La siguiente tabla ayudará a comprender lo que se plantea y las ecuaciones que se utilizarán:

Muestra 1 Muestra 2 …. Muestra j …. Muestra k

x11 x12 …. x1j …. x1k

x21 x22 …. x2j …. x2k

…. …. …. …. …. ….

…. …. …. xij …. ….

…. …. …. …. …. ….

xn11 …. …. …. xnkk

xn22 …. xnjj ….

…. ….

La tabla nos indica que estamos analizando k muestras, cada una de las cuales presenta un número
determinado de observaciones de la magnitud o variable que estamos analizando. No es necesario que
las muestras tengan un número igual de observaciones, por lo que la muestra k tendrá nk observaciones.
Evidentemente podremos calcular para cada muestra su media y su varianza muestral por las fórmulas
que ya conocemos:
En el caso que nos ocupa la hipótesis nula será:
H0: µ1 = µ2 = µ3 = ......= µk = µ
Intuitivamente, podríamos pensar en realizar pruebas de hipótesis con la t de Student entre las medias,
dos a dos:
H0: µ 1 = µ 2; H0: µ 1 = µ 3; H0: µ 2 = µ 3, etc.
Sin embargo esta solución no es válida, porque afecta el nivel de significación de las pruebas
aumentando la probabilidad de cometer un error de tipo I.
La solución está en el ANOVA se basa en la identidad:

O sea, que la variabilidad total tiene dos componentes, la variabilidad dentro de las muestras y la
variabilidad entre las muestras. Si la variabilidad entre las muestras es significativamente mayor que la
variabilidad dentro de las muestras, podremos pensar que las muestras no corresponden a ua misma
población y rechazaremos la hipótesis H0. Por el contrario, si las varianzas entre las muestras son del
mismo orden (estadísticamente hablando) que las varianzas dentro de las muestras, podremos aceptar
H0. Esto gráficamente se ilustra en la siguiente figura:
A continuación veremos cómo el ANOVA nos permite evaluar esto.
Elevando al cuadrado la expresión de la variabilidad y haciendo una doble sumatoria (para las muestras
y para las observaciones dentro de cada muestra tendremos:

O sea, la Suma de cuadrados totales (SCT) = suma de cuadrados dentro de las muestras (SCD) + suma
de cuadrados entre las muestras (SCE).
Si dividimos SCD y SCE por n – k y k – 1 respectivamente, obtenemos los estadísticos siguientes:

Para poder llevar a cabo el ANOVA, se debe cumplir que:


1. Las k muestras deben ser aleatorias e independientes entre sí. No debe haber ni autocorrelación
entre los valores , ni grupos pareados.
2. Las poblaciones deben ser normales.
3. Las varianzas de las k poblaciones no deben diferir significativamente (esto se denomina
homocedasticidad).

Con estas condiciones y cuando se cumple que µ1 = µ2 = ... = µk = µ, o sea, si las medias
poblacionales son todas iguales, las sumas de cuadrados SCD y SCE se distribuyen según
distribuciones χ2 con (n–k) y (k–1) grados de libertad, respectivamente.
La condición de independencia tiene una consecuencia muy importante y es que el cociente entre MCE
y MCD se distribuye según una distribución F con (k–1) grados de libertad en el numerador y (n–k)
grados de libertad en el denominador.

La tabla de ANOVA.
Lo descrito anteriormente se resume en la tabla de ANOVA:

Fuente de Suma de cuadrados Grados de Media de cuadrados Fcalculado


variación (SC) libertad (gl) (MC)

Entre grupos SCE k-1 SCE/ k-1 MCE/MC


D

Dentro de SCD n-k SCD/ n-k


grupos

Total SCT n-1

Como se observa se calculan MCE y MCD como una medida de las variabilidades ya comentadas y se
comparan mediante una prueba de hipótesis F. Si no existe diferencia estadísticamente significativa
entre ellas, la presencia de errores aleatorios en las observaciones será la causa predominante de las
diferencias entre los valores medios. Si, por el contrario, el origen de la muestras no es el mismo, lo
que se refleja en la diferencia entre las medias, MCE será, estadísticamente hablando, mayor que MCD
y el valor calculado de F será mayor que el valor tabulado Ftab para el nivel de significación α escogido
y los grados de libertad ya mencionados.
Para los cálculos manuales se utilizan las siguientes fórmulas:

Veamos un ejemplo que ilustrará la realización de los cálculos.


Se toman 4 muestras de harina en un almacén y se analiza el contenido de humedad de cada uno de los
elementos que las componen, obteniéndose los siguientes resultados:

Muestra 1 Muestra 2 Muestra 3 Muestra 4 ∑

3 2 5 3

5 4 6 5

8 7 7 5

10 8 12 6

9 6

∑xij 26 30 30 33 119

∑nj 4 5 4 6 19

∑xij2/nj 169 180 225 181.5 755.5

∑xij2 198 214 254 195 861

¿Podemos asumir que sus medias son iguales entre sí con un nivel de significación α = 0.05?
Utilizando las fórmulas tenemos:

Con estos datos construimos la tabla ANOVA

FV SC gl MC Fcalc
Entre 10.18 3 3.3947 0.4827

Dentro 125.83 15 7.0333

TOTAL 115.68 18

De la tabla de la distribución F se obtiene


Ftabla (3, 15) = 3.29 (una cola) y por lo tanto Fcalc < Ftabla, por lo que no se rechaza H0 y concluimos
que las muestras pertenecen a una misma población.
Para ilustrar lo que significa el análisis ANOVA, consideremos el siguiente conjunto de datos, que es el
mismo que el anterior, pero considerando una dispersión menor en la muestra 1:

Muestra 1 Muestra 2 Muestra 3 Muestra 4

11 2 5 3

12 4 6 5

11 7 7 5

10 8 12 6

9 6

Repitiendo el procedimiento (se sugiere que lo haga Usted), obtenemos Fcalc = 5.26, que es mayor que
la Ftabla ya vista y que nos indica que no se puede aceptar que todas las muestras pertenezcan a la
misma población.
Gráficamente:
El análisis de ANOVA está implementado en muchos paquetes estadísticos. El paquete sencillo que se
encuentra en los materiales auxiliares también permite hacerlo y le sugerimos que lo utilice, realmente
los cálculos manuales o utilizando Excel son más engorrosos.
Nótese que el ANOVA no indica cuántas muestras difieren de la hipótesis H0 ni cuáles son. Como
ilustramos, la inspección visual puede ayudar. Para determinar esto con fundamento estadístico se
necesita aplicar otras pruebas.
El ANOVA utilizado para determinar comparar la media de más de dos poblaciones es un método más
general que la comparación de dos medias usando la t de Student. Este último es un caso particular del
ANOVA.

Vous aimerez peut-être aussi