Académique Documents
Professionnel Documents
Culture Documents
INGENIERIA INDUSTRIAL
30/10/2018
Contenido
Introducción ........................................................................................................................................ 4
Justificación del uso de las pruebas no paramétricas ......................................................................... 5
Ventajas de las pruebas no paramétricas. ...................................................................................... 6
Desventajas de las pruebas no paramétricas.................................................................................. 6
Prueba de bondad de ajuste ji cuadrada ............................................................................................ 6
TABLAS DE CONTINGENCIA ............................................................................................................... 11
Pruebas de independencia ................................................................................................................ 17
PRUEBA DE RANGO CON SIGNO DE WILCOXON ............................................................................... 20
PRUEBA DE SUMA DE RANGOS DE WILCOXON................................................................................. 21
PRUEBA DE SIGNOS ........................................................................................................................... 22
PRUEBA DE MCNEMAR ..................................................................................................................... 23
Dos Muestras con Observaciones Pareadas ..................................................................................... 25
CONTRASTES DE NORMALIDAD ........................................................................................................ 30
PRUEBA DE KOLMOGOROV-SMIRNOV.............................................................................................. 30
El estadístico Anderson-Darling ........................................................................................................ 31
Prueba de normalidad de Ryan-Joiner .............................................................................................. 32
PRUEBA DE SHAPIRO-WILK ............................................................................................................... 33
Introducción
Este documento tiene como objetivo dar a conocer los
temas de la unidad 4 la cual lleva el título de Pruebas de
bondad de ajuste y pruebas no paramétricas de la materia
Estadística inferencial impartida por el maestro Ramón
Bocos en la carrera de ingeniería industrial del grupo mi3.
4
Justificación del uso de las pruebas no paramétricas
Las pruebas estadísticas paramétricas y no paramétricas se diferencian por el tipo
de datos que se usan para analizar. Las pruebas paramétricas hacen muchas
suposiciones, la más significativa de las cuales es que los datos se distribuyen
normalmente. Las pruebas no paramétricas hacen menos suposiciones y hacen
frente a los datos que no se distribuyen normalmente. Las pruebas paramétricas
generalmente tienen una mayor potencia estadística.
Las pruebas paramétricas simplemente son procedimientos estadísticos que
poseen ciertas propiedades bajo supuestos valores generales y sin importar la
población de la cual los datos han sido obtenidos. Estos son aplicables cuando la
teoría de normalidad no puede ser utilizada, por ejemplo cuando no se trabaja con
magnitudes de observaciones sino con sus rangos.
Las pruebas no paramétricas pueden utilizarse como abreviaciones para pruebas
más complicadas. Son especialmente valiosas para datos no numéricos, como
cuando los consumidores ordenan cereales u otros productores de acuerdo con su
preferencia.
Las pruebas no paramétrica es una rama de la estadística que estudia las pruebas
y modelos estadísticos, son las que, a pesar de basarse en determinadas
suposiciones, no parten de la base de que los datos analizados adoptan una
distribución normal. Las pruebas no paramétricas no requieren asumir normalidad
de la población y en su mayoría se basan en el ordenamiento de los datos, la
población tiene que ser continua. Son técnicas estadísticas que no presuponen
ningún modelo probabilístico teórico. Son menos potentes que las técnicas
paramétricas, aunque tienen la ventaja que se pueden aplicar más fácilmente.
Las pruebas no paramétricas son, sin duda, las técnicas estadísticas más
frecuentemente utilizadas por analistas e investigadores en todo tipo áreas
científicas, pero su utilidad se ve reducida, fundamentalmente, por dos razones:
por un lado, exigen el cumplimiento de algunos supuestos que en ocasiones
pueden resultar demasiado exigentes; por otro, obligan a trabajar con unos niveles
de medida que, especialmente en las ciencias sociales y de la salud, no siempre
resulta fácil alcanzar.
Los métodos no paramétricos se aplican a una gran variedad de situaciones, ya
que no se requiere que cumplan ciertas condiciones como lo es el de la
distribución normal de los datos como es el caso de los métodos paramétricos. Se
aplican principalmente cuando empleamos datos nominales, como es el caso en
muchas de las respuestas que se emplean en las encuestas y en muchas pruebas
de psicología y pedagogía. Sus cálculos son más sencillos y nos permiten una
interpretación más fácil de entender y aplicar, aunque la potencia de las pruebas
es menor a las pruebas paramétricas.
Existen numerosos métodos de pruebas no paramétricas para escoger y
5
seleccionar la que mejor nos convenga dependiendo de la situación que
deseemos plantear, todas ellas con una característica en común, arrojan
resultados que nos permite tomar las decisiones.
Rachas de pruebas
Prueba de Wilcoxon
6
H0: F(x)=F0(x)
Para deducir una prueba estadística para H0, considérese el caso de k = 2. Este
es el caso de la distribución binomial con x = n1, p = p1, n-x =n2 y 1-p =p2. Sea la
variable aleatoria estandarizada:
para n grande, esta variable aleatoria se distribuye según una N(0;1). Además
sabemos que el cuadrado de una variable aleatoria N(0,1) se distribuye según una
chi-cuadrado con un grado de libertad. Entonces el estadístico
7
Si se sigue este razonamiento, puede demostrarse que para k≥2 categorías
distintas
8
¿Qué tan grande debe ser el tamaño de la muestra? Se ha encontrado que
con n igual a 5 veces el número de clases, los resultados son aceptables. Una
regla conservadora es que ninguna clase tenga una frecuencia inferior a 5; si esto
sucediera, se agruparían clases vecinas.
Ejemplo 1
49 35 32 39 45
9
Con a=0,05, ¿existe alguna razón para creer que el número de empleados que
asisten al consultorio médico, no se encuentra distribuido de forma equitativa
durante los días de la semana?
Solución
Una distribución uniforme lleva consigo que la probabilidad sería la misma para
cada día de la semana. Por tanto pi=0,2 para i = 1, 2, 3, 4, 5.
Lunes 49 40 2,025
Martes 35 40 0,625
Miércoles 32 40 1,6
Jueves 39 40 0,025
Viernes 45 40 0,625
Suma 4,9
El estadístico sigue una chi-cuadrada con k-1 grado de libertad, con k=5. Luego
10
TABLAS DE CONTINGENCIA
Columnas
1 2 ... c
Renglones . . . . .
. . . . .
. . . . .
11
Por lo tanto, la frecuencia esperada de la celda es:
Ejemplos:
Rango
Profesor Profesor
Instructor Profesor
Satisfacción asistente asociado
en el
Mucha 40 60 52 63
trabajo
Regular 78 87 82 88
Poca 57 63 66 64
12
Solución:
Regla de decisión:
Se calcularán los valores esperados E11, E12, E13, E21, E22 y E23.
Rango
Profesor Profesor
Instructor Profesor Total
asistente asociado
Satisfacción
en el Mucha 40 60 52 63 215
Regular 78 87 82 88 335
trabajo
Poca 57 63 66 64 250
13
Total 175 210 200 215 800
Rango
Profesor Profesor
Satisfacción Instructor Profesor Total
asistente asociado
40 60 52 63
Mucha 215
(47.03) (56.44) (53.75) (57.78)
78 87 82 88
Regular 335
(73.28) (87.94) (83.75) (90.03)
57 63 66 64
Poca 250
(54.69) (65.62) (62.50) (67.19)
Decisión y justificación:
Como el valor de 2.75 es menor que el de tabla 12.592, por lo tanto
no se rechaza Ho y se concluye con un =0.05 que la
satisfacción en el trabajo y el rango son independientes.
14
2. En un estudio de un taller, se reúne un conjunto de datos para
determinar si la proporción de defectuosos producida por los
trabajadores es la misma para el turno matutino, vespertino o
nocturno. Se reunieron los siguientes datos:
T
u
r
n
o
Defectuosos 45 55 70
Solución:
15
Regla de decisión:
Defectuosos 45 55 70 170
45 55 70 170
Defectuosos
(57.0) (56.7) (56.3)
16
Decisión:
Pruebas de independencia
El objetivo es verificar si existe una dependencia entre las variables cualitativas
que definen filas y columnas, es decir, si para todo i = 1, ..., k y j = 1, .., m se
verifica que la probabilidad del resultado correspondiente a la
combinación Ai ∩ Bj es el producto de las probabilidades marginales
correspondientes. P(Ai) es la probabilidad del resultado i para la variable fila
y P(Bj) la del resultado j para la variable columna.
P(Ai) = pi·
P(Bj) = p·j
Los valores de pi· y p·j se estimarán, a partir de los valores observados en la tabla
de contingencia, por ni·/N y n·j/N respectivamente.
Los valores observados son nij. Los valores esperados bajo la hipótesis nula de
independencia se calculan de la manera siguiente:
17
eij = N · pij = N · pi· · p·j = N · (ni·/N ) · (n·j/N ) = (ni· · n·j )/N
grados de libertad = k · m − (k − 1) − (m − 1) − 1 = (k − 1) · (m − 1)
donde el último término es el valor crítico asociado con una distribución χ2,
con (k − 1) · (m − 1) grados de libertad, tal que deja a su derecha una probabilidad
igual a α.
La condición de validez es que las frecuencias esperadas eij sean mayores que 5.
18
paramétrico, se presupone que la distribución de la que proviene la muestra no
está especificada y, con frecuencia, se desea hacer inferencias sobre el centro de
la distribución. Por ejemplo, muchas pruebas de la estadística paramétrica, como
la prueba t de 1 muestra, se realizan bajo el supuesto de que los datos provienen
de una población normal con una media desconocida. En un estudio no
paramétrico, se elimina el supuesto de normalidad.
Por ejemplo, los datos sobre salarios son fuertemente asimétricos hacia la
derecha, porque muchas personas devengan salarios modestos y pocas personas
ganan salarios más altos. Usted puede utilizar pruebas no paramétricas con estos
datos para responder a preguntas como las siguientes:
19
del centro de la población son pruebas sobre la mediana y no sobre la
media. La prueba no responde a la misma pregunta que el procedimiento
paramétrico correspondiente si la población no es simétrica.
La hipótesis nula del contraste postula que las muestras proceden de poblaciones
con la misma distribución de probabilidad; la hipótesis alternativa establece que
hay diferencias respecto a la tendencia central de las poblaciones y puede ser
direccional o no.
21
n, el número de diferencias no nulas. A continuación se asignan rangos desde 1
hasta n atendiendo únicamente al valor absoluto de las di y se suman los rangos
correspondientes a las diferencias positivas y a las diferencias negativas por
separado. Si la hipótesis nula es cierta, X e Y tienen el mismo valor central y es de
esperar que los rangos se distribuyan aleatoriamente entre las diferencias
positivas y negativas y, por tanto, que ambas sumas de rangos sean
aproximadamente iguales. El estadístico de prueba, T, es la menor de las dos
sumas de rangos. Cuando n > 15 la distribución muestral de T bajo el supuesto de
que H0 es cierta se aproxima a una normal de parámetros:
PRUEBA DE SIGNOS
La prueba de los signos permite contrastar la hipótesis de que las respuestas a
dos ''tratamientos'' pertenecen a poblaciones idénticas. Para la utilización de esta
prueba se requiere únicamente que las poblaciones subyacentes sean contínuas y
que las respuestas de cada par asociado estén medidas por lo menos en una
escala ordinal.
22
aproximadamente la mitad de las diferencias sean positivas y la otra mitad
negativas.
PRUEBA DE MCNEMAR
La prueba de McNemar se utiliza para decidir si puede o no aceptarse que
determinado ''tratamiento'' induce un cambio en la respuesta dicotómica o
dicotomizada de los elementos sometidos al mismo, y es aplicable a los diseños
del tipo ''antes-después'' en los que cada elemento actúa como su propio control.
Antes/Después - +
- a B
+ c D
23
y + después de éste; c es el número de elementos que han cambiado de + a -;
y d es el número de elementos que mantienen la respuesta +.
Por tanto, b+c es el número total de elementos cuyas respuestas han cambiado, y
son los únicos que intervienen en el contraste. La hipótesis nula es que el
''tratamiento'' no induce cambios significativos en las respuestas, es decir, los
cambios observados en la muestra se deben al azar, de forma que es igualmente
probable un cambio de + a - que un cambio de - a +. Así pues, si H0 es cierta, de
los b+c elementos cuya respuesta ha cambiado es de esperar que (b+c)/2 hayan
pasado de + a -, y (b+c)/2 hayan pasado de - a +. En otras palabras, si H0 es
cierta, la frecuencia esperada en las correspondientes celdas es (a+b)/2.
k = número de celdas
Para contrastar la significación de los cambios interesan sólo las celdas que
recogen cambios, por tanto el estadístico puede expresarse como
Ejemplos:
25
1. Los siguientes datos representan el número de horas que un compensador
opera antes de requerir una recarga: 1.5, 2.2, 0.9, 1.3, 2.0, 1.6, 1.8, 1.5, 2.0,
1.2 y 1.7. Utilice la prueba de rango con signo para probar la hipótesis en el
nivel de significancia de 0.05 que este compensador particular opera con
una media de 1.8 horas antes de requerir una recarga.
Solución:
H0; = 1.8
H1; 1.8
Se procederá a efectuar las diferencias y a poner rango con signo a los datos.
2.2 0.4 7
0.9 -0.9 10
1.3 -0.5 8
2.0 0.2 3
1.6 -0.2 3
1.8 0 Se anula
2.0 0.2 3
1.2 -0.6 9
1.7 -0.1 1
26
Regla de decisión:
Para una n = 10, después de descartar la medición que es igual a 1.8, la tabla
A.16 muestra que la región crítica es w 8.
Cálculos:
w+ = 7 + 3 + 3 = 13
w- = 5.5 + 10 + 8 + 3 + 5.5 + 9 + 1 = 42
Decisión y Conclusión:
Con Sin
problemas problemas
Par
de de
muestra muestra
1 531 509
2 621 540
3 663 688
27
4 579 502
5 451 424
6 660 683
7 591 568
8 719 748
9 543 530
10 575 524
Solución:
La prueba de rango con signo también se puede utilizar para probar la hipótesis
nula 1- 2 = d0. En este caso las poblaciones no necesitan ser simétricas. Como
con la prueba de signo, se resta d0 de cada diferencia, se clasifican las diferencias
ajustadas sin importar el signo y se aplica el mismo procedimiento.
En este caso d0 = 50, por lo que se procede a calcular las diferencias entre las
muestras y luego restarles el valor de 50. Se representara con 1 y 2 la
calificación media de todos los estudiantes que resuelven el examen en cuestión
con y sin problemas de muestra, respectivamente.
H0; 1 - 2 = 50
H1; 1 - 2 < 50
Regla de decisión:
Cálculos:
28
Con Sin
problemas problemas di –
Par di Rangos
de de d0
muestra muestra
2 621 540 81 31 6
-
3 663 688 -75 9
25
-
6 660 683 -73 8
23
-
8 719 748 -79 10
29
10 575 524 51 1 1
w+ = 6 + 3.5 + 1 = 10.5
Decisión y Conclusión:
29
CONTRASTES DE NORMALIDAD
Un caso específico de ajuste a una distribución teórica es la correspondiente a la
distribución normal. Este contraste se realiza para comprobar si se verifica la
hipótesis de normalidad necesaria para que el resultado de algunos análisis sea
fiable, como por ejemplo para el ANOVA.
PRUEBA DE KOLMOGOROV-SMIRNOV
Cuando la prueba Kolmogorov-Smirnov kolmogorov se aplica para contrastar la
hipótesis de normalidad de la población, el estadístico de prueba es la máxima
diferencia:
EJEMPLO
30
A la vista de los resultados se concluye que no se puede rechazar la hipótesis de
que la valoración asignada por este grupo de alumnos al plan de estudios es
uniforme para cualquier nivel de significación inferior al 7,1%.
El estadístico Anderson-Darling
Mide qué tan bien siguen los datos una distribución específica. Para un conjunto
de datos y distribución en particular, mientras mejor se ajuste la distribución a los
datos, menor será este estadístico. Por ejemplo, usted puede utlizar el estadístico
de Anderson-Darling para determinar si los datos cumplen el supuesto de
normalidad para una prueba t.
Utilice el valor p correspondiente (si está disponible) para probar si los datos
provienen de la distribución elegida. Si el valor p es menor que un nivel de
significancia elegido (por lo general 0.05 o 0.10), entonces rechace la hipótesis
nula de que los datos provienen de esa distribución. Minitab no siempre muestra
un valor p para la prueba de Anderson-Darling, porque este no existe
matemáticamente para ciertos casos.
31
cercanos entre sí, se deben usar criterios adicionales, como las gráficas de
probabilidad, para elegir entre ellos.
Exponencial
Normal
Weibull de 3 parámetros
32
apropiado, usted rechazará la hipótesis nula de normalidad de la población. Esta
prueba es similar a la prueba de normalidad de Shapiro-Wilk.
PRUEBA DE SHAPIRO-WILK
Cuando la muestra es como máximo de tamaño 50 se puede contrastar la
normalidad con la prueba de shapiro Shapiro-Wilk. Para efectuarla se calcula la
media y la varianza muestral, S2, y se ordenan las observaciones de menor a
mayor. A continuación se calculan las diferencias entre: el primero y el último; el
segundo y el penúltimo; el tercero y el antepenúltimo, etc. y se corrigen con unos
coeficientes tabulados por Shapiro y Wilk. El estadístico de prueba es:
33
Bibliografía
Pruebas no paramétricas
http://binomiald.blogspot.com/
http://binomiald.blogspot.com/
http://www.juntadeandalucia.es/averroes/centros-
tic/14002996/helvia/aula/archivos/repositorio/250/295/html/estadistica/bondad.htm
Prueba de chi-cuadrado para el análisis de tablas de contingencia con dos criterios de clasificación
http://www.juntadeandalucia.es/averroes/centros-
tic/14002996/helvia/aula/archivos/repositorio/250/295/html/estadistica/bondad.htm
http://www.ub.edu/stat/GrupsInnovacio/Statmedia/demo/Temas/Capitulo12/B0C12m1t6.htm
http://www.ub.edu/aplica_infor/spss/cap6-3.htm
https://www.ugr.es/~rruizb/cognosfera/sala_de_estudio/estadistica/tests%20noparametricos.PD
F
http://www.itchihuahua.edu.mx/academic/industrial/estadistica1/toc.html
http://www.itchihuahua.edu.mx/academic/industrial/estadistica1/toc.html
Pruebas de Kolmogorov-smirnov
http://www.ub.edu/aplica_infor/spss/cap5-6.htm
Pruebas de Anderson-Darling
34
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-
statistics/supporting-topics/normality/the-anderson-darling-statistic/
Prueba de Ryan-Joiner
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-
statistics/supporting-topics/normality/test-for-normality/
Prueba de shapiro-wilk
http://www.ub.edu/aplica_infor/spss/cap5-6.htm
https://www.youtube.com/watch?v=U8ZpUT1c8A4
Distribución chi-cuadrado
https://www.youtube.com/watch?v=gHkMGcn2MsE&t=40s
35