Académique Documents
Professionnel Documents
Culture Documents
ESTADÍSTICA II
MARÍA TERESA SALOMÓN, SANDRA PINTO, GÉNESIS BRICEÑO,
ELOY ELIGÓN, JONATTAN RAMOS Y CARLOS FIGUEROA
TEMA NRO. 4
ALGUNAS PRUEBAS DE ESTADÍSTICA NO PARAMÉTRICA
II 2016
CONTRASTE PARA LA BONDAD DEL AJUSTE (GOODNESS OF FIT)
Propuesta por Karl Pearson en el año 1900, esta prueba consiste en verificar si la distribución
de frecuencias de una variable aleatoria satisface los supuestos de un modelo probabilístico
determinado.
KARL PEARSON
1857 – 1936
Matemático Británico
Contribuyó en el desarrollo de lo que se
conoce como Estadística Matemática, así como
en el Análisis de Regresión, e introdujo
definiciones como Correlación, Desviación
Típica y Coeficiente de Variación, las cuales son
ampliamente utilizadas en la actualidad.
Pearson planteó evaluar el ajuste de una distribución teórica a una muestra aleatoria
(variables aleatorias independientes e idénticamente distribuidas o v.a.i.i.d), a través de un
estadístico que permita medir los desvíos de las frecuencias observadas frente a las
frecuencias teóricas. Dicho planteamiento constituyó la primera evaluación formal de la
calidad del ajuste a una distribución. Previo a ese desarrollo riguroso, se habían intentado
algunas comparaciones pero de carácter subjetivas.
El contraste de hipótesis para la Bondad del Ajuste, que forma parte de la familia de Métodos
no Paramétricos, permite establecer si es apropiado (bondad) explicar el comportamiento de
una variable aleatoria a través de un determinado modelo teórico (ajuste).
Sea X una variable aleatoria con un espacio muestral S. Sean además C1, C2, …, Ck una
partición del espacio muestral, tal que:
k Clases exhaustivas y
C 1 C 2 ... C k C i S C i C j , i j mutuamente excluyentes
i 1
Suponga además que se toma una muestra de n observaciones x1, x2, …, xn con la cual se
puede construir la siguiente tabla:
Clases oj pj ej
C1 o1 p1 e1 Donde:
o oi es la frecuencia observada en la i-ésima clase.
C2 o2 p2 e2 o pi es la probabilidad de la i-ésima clase, es decir:
P x C i
o ei es la frecuencia esperada de la i-ésima clase.
Ck ok pk ek
Total n 1 n
Cabe destacar, que oi es una variable aleatoria que mide el “número de observaciones que
pertenecen a la clase Ci de las n que integran la muestra”. Por tanto, oi se comporta como una
variable aleatoria Binomial:
oi ~ bn, pi Eoi ei npi
A partir de este resultado, se puede probar que la suma de las frecuencias esperadas es igual
a n:
k k k
Eoi npi n pi n1 n
i 1 i 1 i 1
1. HIPÓTESIS
H0: la variable aleatoria X se distribuye según el modelo probabilístico 𝑓𝑋
H1: la variable aleatoria X no se distribuye según el modelo probabilístico 𝑓𝑋
2. NIVEL DE SIGNIFICACIÓN
3. ESTADÍSTICO DE CONTRASTE
k oi ei 2
*
2
i 1 ei
𝛿 = 𝑘 − 𝑝 − 1, donde 𝑘 es el número de clases y 𝑝 es el número de parámetros que se
deben estimar para obtener las frecuencias esperadas 𝑒𝑖 en cada clase 𝐶𝑖 .
Este estadístico mide las distancias entre las frecuencias observadas y esperadas a través
de la suma de los desvíos al cuadrado de las frecuencias observadas con respecto a las
esperadas (oi - ei)2 relativos a las frecuencias esperadas.
Se dice que este estadístico se aproxima a una distribución Chi-cuadrado con 𝛿 grados
de libertad si el tamaño de la muestra es grande. Para este caso, n será grande si se
cumple que npi ≥ 5 ∀𝑖. Ahora bien, en caso de que no se cumpla esa condición, se deben
rehacer las clases hasta cumplir con el requerimiento de que npi ≥ 5 ∀𝑖.
Una expresión simplificada, que genera menor error a la hora de realizar los cálculos es:
k oi2
* n
2
DEMOSTRAR
i 1 ei
4. REGIÓN CRÍTICA
Si el estadístico χ2∗
𝛿 toma valores pequeños, indica que existe cercanía entre las
frecuencias observadas y esperadas, y por tanto, el ajuste al modelo probabilístico
seleccionado es bueno. Por el contrario, valores grandes del estadístico de contraste
conducirán a rechazar la hipótesis nula, ya que el modelo seleccionado pareciera no ser
el apropiado. En consecuencia, se procede como si se tratara de un contraste unilateral
derecho.
RC 2 ; 1 ,
5. REGLA DE DECISIÓN
Rechazar H0 si y solo si * ; 1
2 2
Xi 0 1 2 3 4 5 6 7 Total
fi 21 62 50 40 22 0 5 0 200
Xi fi Xi fi pi 20 ei e 1 n p1
Px 0 e 2
e1 200 0 ,1353
0 21 0 0,1353 0! 27,0671
1 62 62 0,2707 54,1341
Para asegurar
2 50 100 0,2707 54,1341
la distribución
3 40 120 0,1804 36,0894 probabilística
del estadístico
4 22 88 0,0902 18,0447 de contraste
5 0 0 0,0361 7,2179
6 5 30 0,0120 2,4060 ei 5 , i
Calcular por
7 0 0 0,0045 complemento 0,9068
Xi fi Xi fi pi ei fi2/ei
*
8 f i ei 2 8 f i2
n
2
4
0 21 0 0,1353 27,0671 16,2929 i 1 ei i 1 ei
0 0
0 0
5. REGLA DE DECISIÓN
Rechazar H0 si y solo si * ; 1 4 * 9 ,4877
2 2 2
6. DECISIÓN ESTADÍSTICA
Como el estadístico de contraste no pertenece a la región crítica o de rechazo, no existen
elementos suficientes para rechazar la hipótesis nula, por lo tanto se puede asumir que
el número de partes defectuosas por caja se ciñe a una distribución Poisson, con un
nivel de significación del 5%.
EJERCICIO
Haciendo uso del software R o RStudio, replique el ejemplo
anterior construyendo el respectivo script haciendo uso de las
librerías, funciones y/o herramientas correspondientes.
68 70 93 92 85 88 79 80 71 72
71 75 90 91 75 91 93 83 98 82
Xi 73 69 77 87 86 74 89 94 95 97
78 79 82 81 80 80 83 81 77 79
84 86 79 81 84 83 78 77 77 90
0. VARIABLE ALEATORIA
X: Ventas diarias de tarjetas de un Agente Autorizado de Telefonía Celular (A.A.T.C.)
1. HIPÓTESIS
H0: Las ventas diarias de tarjetas de un A.A.T.C. se ciñe al modelo Normal
H1: Las ventas diarias de tarjetas de un A.A.T.C. no se ciñe al modelo Normal
5. REGLA DE DECISIÓN
Rechazar H0 si y solo si 1 * ; 1 1 * 4 ,4452
2 2 2
6. DECISIÓN ESTADÍSTICA
Como el estadístico de contraste no pertenece a la región crítica o de rechazo, no existen
elemento suficiente para rechazar la hipótesis nula, por lo tanto se puede asumir que las
ventas diarias de tarjetas de un Agente Autorizado de Telefonía Celular se ciñe al
modelo Normal, con un nivel de significación del 3,5%.
EJERCICIO
Haciendo uso del software R o RStudio, replique el ejemplo
anterior construyendo el respectivo script haciendo uso de las
librerías, funciones y/o herramientas correspondientes.
• Glez, F. (2007). Prácticas de Estadística con R, Parte II. Santander: Escuela Técnica Superior
Ing. Industrial y Química - Universidad de Cantabria.
• Tomé, C. (2015). Las matemáticas como herramienta (y VI): el siglo XX. [Documento en línea].
Disponible: https://culturacientifica.com/2015/11/17/las-matematicas-como-herramienta-
y-vi-el-siglo-xx/ [Consulta: 2017, Mayo 12]