Vous êtes sur la page 1sur 17

Introduccin

Los procedimientos inferenciales que hasta este momento se han estudiado, necesitan de la especificacin de una distribucin para la poblacin de inters. Por ejemplo, el procedimiento del anlisis de varianza se hace posible al asumir que las observaciones provienen de distribuciones normales. De esta forma, la mayor parte de los procesos inferenciales que se han presentado representan estimaciones con respecto a los parmetros de la poblacin de inters. Por esta razn, este tipo de inferencias reciben el nombre de mtodos paramtricos. Muchos de los mtodos inferenciales que se han examinado son razonablemente robustos con respecto a las distribuciones supuestas. No obstante, en general los mtodos paramtricos son ms sensibles a las suposiciones para muestras de tamao pequeo y, para muchos de ellos, su aplicacin se encuentra limitada a aquellas observaciones que tienen un carcter cuantitativo, es decir, se supone que lo que se observa es una cantidad numrica continua como el volumen de ventas semanal, la cantidad de cierta sustancia que se vaca en un recipiente, la resistencia de una muestra de metal y otros ms. Las observaciones de tipo cuantitativo se definen, en forma general, sobre un intervalo o sobre una escala de proporciones. Las escalas de intervalo y de proporcin son verdaderamente cuantitativas. Para la mayor parte de los mtodos paramtricos que se han estudiado, como son la construccin de intervalos de confianza, la prueba de hiptesis estadsticas y el ajuste de ecuaciones son aplicables a todas aquellas observaciones que se encuentran definidas, por 1o menos, sobre una escala de intervalo. Sin embargo, en muchas situaciones 1o que se observa tiene un carcter cualitativo (no cuantitativo) y, por 1o tanto, no puede definirse sobre una escala de intervalo o de proporciones. Tales situaciones se encuentran con frecuencia en las ciencias sociales y en las encuestas de mercado. Se han desarrollado procedimientos inferenciales que no se encuentran sujetos a la forma de la distribucin de la poblacin de inters y no requieren, en forma necesaria, que las observaciones se definan por 1o menos en una escala de intervalo. Estos procedimientos inferenciales se conocen como mtodos no paramtricos. Dado que estos mtodos no

necesitan que se especifique la forma de la distribucin de la poblacin de inters, tambin se conocen como mtodos independientes de la distribucin. El propsito de este trabajo radica slo en introducir los conceptos bsicos y presentar, algunos mtodos que son, en forma especial, tiles. Estos procedimientos no paramtricos son comparables con los mtodos paramtricos para la prueba de hiptesis con respecto a las medias de dos distribuciones normales independientes, la prueba de hiptesis con respecto a las medias para observaciones igualadas, etc.

En qu consiste la estadstica no paramtrica:

No es probable que al evaluar las preferencias de los consumidores con respecto a una bebida, se adhieran a una escala numrica significativa, incluso si se le pidiese al consumidor su opinin con respecto a la bebida en una escala de cinco puntos, donde 1 y 5 pueden representar reacciones muy negativas o muy positivas, respectivamente, la escala es arbitraria. En otras palabras, los nmeros no tienen ningn significado fsico mas all que el de representar con un nmero mas grande la respuesta ms favorable para la bebida. Las observaciones de este tipo pueden definirse sobre una escala ordinal, dado que la distancia entre dos puntos no es de consecuencia y solo es importante el orden o rango de los nmeros. En algunas ocasiones, las observaciones solo pueden definirse sobre una escala nominal debido a que se emplea, ya sea un nombre (smbolo) o un nmero para clasificar una caracterstica de inters, pero el principio de orden no es de consecuencia. Por ejemplo, las personas pueden clasificarse de acuerdo con su sexo. Pueden emplearse los smbolos M y H o utilizar nmeros como 122 y 48 para denotar mujer u hombre. Las observaciones que se definen sobre escalas nominales son mediciones con pocas propiedades. Se han desarrollado procedimientos inferenciales que no se encuentran sujetos a la forma de la distribucin de la poblacin de inters y no requieren, en forma necesaria, que las observaciones se definan por 1o menos en una escala de intervalo. Estos procedimientos inferenciales se conocen como mtodos no paramtricos. Dado que estos mtodos no necesitan que se especifique la forma de la distribucin de la poblacin de inters, tambin se conocen como mtodos independientes de la distribucin. En un sentido relativo, los mtodos no paramtricos requieren de pocas suposiciones y, la mayor parte de las veces, son ms fciles de aplicar que los procedimientos paramtricos que se han estudiado, adems, los mtodos no paramtricos pueden aplicarse en aquellas situaciones para las que las observaciones se definen, por 1o menos, en una escala de intervalo y, en ocasiones, sobre escalas nominales. Pero si las observaciones se definen por 1o menos en una escala de intervalo y la distribucin de la poblacin de inters es normal, los mtodos no paramtricos son menos eficientes comparados con los procedimientos paramtricos que se basan en la suposicin de normalidad.

Fundamentos: No utilizan parmetros poblacionales Los datos se pueden obtener en cualquier escala: Fraccin o intervalo Ordinal Ejemplo: Bueno, Malo Nominal Ejemplo: Hombre, Mujer

Ventajas Se pueden usar con muestras de n pequea. Se pueden usar con datos cualitativos. No es necesario realizar una gran cantidad de asunciones No es necesario utilizar parmetros poblacionales Los resultados deben ser tan exactos como en el caso de los procedimientos paramtricos.

Desventajas En ocasiones puede desperdiciarse informacin Si los datos se pueden analizar mediante procedimientos paramtricos Durante la conversin de datos numricos a una escala ordinal Alto requerimiento computacional No existe disponibilidad de tablas de ajuste

La estadstica no paramtrica es til cuando: No se cumplen las suposiciones requeridas por otras tcnicas usadas, por lo general llamadas pruebas paramtricas.

Es necesario usar un tamao de muestra pequeo y no es posible verificar que se cumplan ciertas suposiciones clave. Se necesita convertir datos cualitativos a informacin til para la toma de decisiones.

Las principales pruebas no paramtricas son las siguientes:


Prueba de Pearson Prueba binomial Prueba de Anderson-Darling Prueba de Cochran Prueba de Cohen kappa Prueba de Fisher Prueba de Friedman Prueba de Kendall Prueba de Kolmogrov-Smirnov Prueba de Kruskal-Wallis Prueba de Kuiper Prueba de Mann-Whitney o prueba de Wilcoxon Prueba de McNemar Prueba de la mediana Prueba de Siegel-Tukey Coeficiente de correlacin de Spearman Tablas de contingencia Prueba de Wald-Wolfowitz Prueba de los signos de Wilcoxon

Prueba del signo

La prueba del signo se basa en los signos de las diferencias entre las observaciones por pares de dos variables aleatorias X y Y. Sean (X1, Y1), (X2 , Y2 ), , (Xn , Yn ) pares de n observaciones muestrales de las distribuciones de X y Y, donde se supone que stas son continuas. En muchas ocasiones existe una relacin natural entre X y Y. por 1o que X y Y no necesitan ser independientes. Por ejemplo, X y Y pueden representar las respuestas de parejas de matrimonios. Para cada par en el que X es mayor que Y se registra un signo (+) de otra forma se registra un signo (). Dado que se supone que las distribuciones de X y Y son continuas, en forma terica, no pueden ocurrir empates. Sea p la probabilidad de que X sea mayor que Y. Entonces si la hiptesis nula es que X y Y tienen la misma distribucin, el valor de p debe ser igual a 0.5. Sin embargo, debe notarse que p puede ser igual a 0.5, aun cuando las distribuciones de X y Y no sean idnticas. Por 1o tanto, y en esencia, la hiptesis nula para la prueba del signa es:

La cual puede probarse contra hiptesis alternativas, ya sean uni o bilaterales, 1o cual depende de 1o que el investigador desee. Ntese que si Ho es cierta, debe esperarse que, en forma aproximada, la mitad de los n pares tengan signos +. La estadstica para la prueba del signo, denotada por S, es el numero de signos + entre los n pares. Dado que bajo Ho cada par constituye un ensayo independiente con una probabilidad para el signo + de 0.5, la estadstica S tiene una distribucin binomial con p = 0.5. De acuerdo con 1o anterior, para n dado y p = 0.5, se emplea la distribucin binomial para obtener las regiones crticas de tamao para el error de tipo I. Para valores grandes de n puede utilizarse la aproximacin normal de la distribucin binomial. Cuando ocurren empates al aplicar la prueba del signo, el procedimiento que se recomienda seguir es el de ignorarlos y emplear la prueba solo para aquellos pares en los que no ocurren empates. Este procedimiento puede representar un problema si se tienen numerosos empates y el nmero original de pares es relativamente pequeo.

Ejemplo1: Se seleccionaron al azar 10 parejas de recin casados, y se les pregunto por separado, tanto al marido como a la esposa, cuntos hijos deseaban tener. Se obtuvo la siguiente informacin:

Pareja Esposa X Esposo Y

1 3 2

2 2 3

3 1 2

4 0 2

5 0 0

6 1 2

7 2 1

8 2 3

9 2 1

10 0 2

Mediante el empleo de la prueba del signo, existe alguna razn para creer que las esposas desean menos hijos que sus esposos? Supngase un tamao mximo del error del tipo I de 0,05. Prueba de la hiptesis: { Regla de decisin: Se rechazar Ho si el nmero de signos + es muy pequeo. Al restar las respuestas de cada esposo de la de su esposa. Pareja XY Signo 1 1 + 2 1 3 1 4 2 5 0 0 6 1 7 1 + 8 1 9 1 + 10 2

Notando que las respuestas de la pareja cinco son las mismas, se obtiene el siguiente arreglo de signos + y :

Pareja Signo

1 +

7 +

9 +

10

Existen tres signos + de manera tal, que el valor de la estadstica S es 3. Dado que bajo Ho, S es binomial con n = 10 y p = 0.5, el valor p, o la probabilidad de observar tres o menos signos +. se obtiene:

Dado que 0,171875 es mayor que = 0,05 la hiptesis nula no puede rechazarse. Ntese que para este ejemplo el valor crtico de S debe ser igual a uno si el tamao mximo del error de tipo I es de 0.05.

Prueba de rangos de signos de Wilcoxon

La prueba del signo considera solo las diferencias en el signo entre cada par de observaciones e ignora sus magnitudes. Si las observaciones se definen sobre una escala ordinal. Las magnitudes de las diferencias tienen poco valor. Pero si las observaciones son magnitudes fsicas, la prueba del signo puede ignorar Mucha informacin debido a que no se toman en cuenta las magnitudes de las diferencias. La prueba de rangos y de signos de Wilcoxon toma en cuenta tanto el signo como la magnitud de las diferencias entre cada par de observaciones. Por 1o tanto, para tener un buen balance, este es el mejor mtodo no paramtrico por utilizar para observaciones en parejas. Para implementar la prueba de Wilcoxon, se obtienen las diferencias para los n pares de observaciones. Entonces, se ordenan sin importar el signo y de acuerdo con este orden se les asigna un rango, es decir, la diferencia mas pequea recibe un rango uno y a la diferencia absoluta ms grande se le asigna un rango igual a n. Entonces, el signo de cada diferencia se une al rango de esta. Cuando ocurre un empate entre las diferencias, se sugiere asignar el promedio de las diferencias a las observaciones para las cuales ocurre el empate, pero si una diferencia es igual a cero, el procedimiento que se sugiere es omitir el par y ajustar n. La estadstica de la prueba de Wilcoxon es la suma de los rangos positivos y se denota por T+. Ntese que T+ contiene no solo informacin proporcionada por la estadstica de la prueba del signo sino tambin informacin con respecto a la magnitud relativa de las diferencias. Si la hiptesis nula de que las observaciones en cada par provienen de distribuciones idnticas es cierta, la ocurrencia de cualquier secuencia, en particular de los

rangos y signos, es equiprobable de entre las 2n secuencias posibles de signos, + y . Bajo la hiptesis nula, se espera que T+ tenga el mismo valor; aproximadamente, que la suma de las magnitudes de los rangos negativos. Por 1o tanto, dependiendo de la naturaleza de la hiptesis alternativa, se rechaza Ho cuando se observa un valor de T grande o pequeo. Se ha determinado y tabulado la distribucin exacta de T +. Sin embargo, al igual que para algunas otras estadsticas, la distribucin de muestre de T+ se encuentra aproximada, en forma adecuada, por una distribucin normal para n > 10, donde
+

suficientemente

En otras palabras, la variable aleatoria es aproximadamente N(0, 1) para valores grandes de n.

Ejemplo 2: De la zona industrial 2 se seleccionan al azar 11 empresas y se observan sus consumos energticos en dos meses sucesivos. Para los consumos dados en la tabla, utilcese la prueba de rangos y de signos de Wilcoxon para determinar si el consumo del primer mes fue mayor que el del segundo. sese = 0,1.

Empresa Consuno del segundo mes Consuno del primer mes 94 85 1 78 65 2 89 92 3 62 56 4 49 52 5 78 74 6 80 79 7 82 84 8 62 48 9 83 71 10

11

79

82

En la siguiente tabla se encuentran las diferencias (mes 1 - mes 2), rangos, y rangos con signos para los 11 estudiantes. Dado que se desea determinar si el segundo examen fue mas difcil que el primero, la hiptesis alternativa es unilateral, y la regin critica se encuentra en el extrema superior de la distribucin de muestreo de T+ es decir, si el valor observado de la suma de los rangos positivos es grande, 1o anterior implicara tener consumos bajos, en forma suficiente, para el mes1, y debe rechazarse la hiptesis nula de no diferencia.

Empresa

Consuno del segundo mes

Consuno del primer mes

Diferencia

Diferencia sin signo

Rango

Rango con signo

1 2 3 4 5 6 7 8 9 10 11

94 78 89 62 49 78 80 82 62 83 79

85 65 92 56 52 74 79 84 48 71 82

9 13 3 6 3 4 1 2 4 12 3

9 13 3 6 3 4 1 2 4 12 3

8 10 4 7 4 6 1 2 11 9 4

8 10 4 7 4 6 1 2 11 9 4

La suma de los rangos positivos es: 8 + 10 + 7 + 6 + 1 + 11 +9 = 52. Para n= 11, los valores de la media y la varianza de T+ son E(T+) = 33 y Var(T+) = 126.5. Entonces, mediante el empleo de la aproximacin normal,

Para = 0,1, ZO,9 = 1,28, y por 1o tanto se rechaza la hiptesis nula.

Prueba de suma de rangos de Wilcoxon: Dadas muestras aleatorias independientes de dos poblaciones, considrese la prueba de la hiptesis nula de que las poblaciones tienen la misma distribucin. La hiptesis puede establecerse como:

donde

son las correspondientes funciones de densidad de probabilidad. La hiptesis alternativa puede ser un o bilateral. La hiptesis alternativa bilateral

establece en forma sencilla que las distribuciones no son las mismas. Pero la hiptesis alternativa solo implica un desplazamiento en la tendencia central de una distribucin con respecto a la otra y no sugiere una diferencia en la forma o en la dispersin. En otras palabras, al igual que para el procedimiento t de Student, se supone que las distribuciones tienen la misma forma y dispersin. Un procedimiento popular no paramtrico para probar la hiptesis nula dada por [1] es la suma de rangos de Wilcoxon (prueba U de Mann- Whitney). Esta prueba es el equivalente no paramtrico de la prueba t de student para dos muestras. La prueba de suma de rangos de Wilcoxon, se basa en una combinacin de las formar un solo conjunto de observaciones para

observaciones arregladas en orden creciente de

magnitud. Entonces se asigna un rango a cada observacin en la secuencia ordenada que comienza con un rango 1 y termina con un rango . Si las muestras aleatorias

provienen de poblaciones que tienen la misma distribucin, se espera que los rangos se encuentren 1o suficientemente dispersos cuando se observa en que, muestra se encuentran las observaciones. De otra forma, debe esperarse que los rangos de las observaciones en cada muestra se encuentren muy agrupados en los extremos. En esencia, la estadstica de suma de rangos de Wilcoxon determina cuando un agregado de rangos observados es suficientes para concluir que las dos muestras aleatorias provienen de poblaciones cuyas distribuciones difieren en la tendencia central, Para implementar el procedimiento se obtiene la suma de los rangos asociados con las observaciones de una de las dos muestras, por ejemplo la muestra 1, la cual se escoge en forma arbitraria. Dentese esta suma por Entonces la estadstica U de la suma de rangos de Wilcoxon est dada por:

La estadstica U es una funcin de la variable aleatoria R1 y de los tamaos de las muestras n1 y n2. Si Ho es cierta, la ocurrencia de cualquier orden particular para las observaciones en el conjunto combinado es equiprobable. Por 1o tanto, bajo Ho, R1 es la suma de n1 enteros positivos seleccionados en forma aleatoria de entre los primeros nl + n2. De acuerdo con 1o anterior, puede determinarse que

De [2] sigue que:

Se ha determinado y tabulado la distribucin exacta de U. Para una hiptesis alternativa bilateral, es probable que se rechace Ho si se obtiene un valor muy grande o muy pequeo de U. Lo anterior ocurrir cuando el valor de R1 es muy grande o muy pequeo, respectivamente. Sin embargo, cuando tanto n1 y n2 son mayores de 10, la distribucin de U se encuentra, en forma adecuada, aproximada por una distribucin normal con media y varianza dadas por [3] y [4], respectivamente, es decir, bajo Ho la variable aleatoria es aproximadamente N (0,1) para valores grandes de n1 y n2. Debe notarse que a pesar de que no pueden ocurrir empates en la prctica desde un punto de vista terico, esto ocurre en muchas ocasiones. Cuando ocurre un empate en la secuencia ordenada, se sugiere asignar el promedio de los rangos a las observaciones para las cuales ocurre el empate.

Ejemplo 3. Se sospecha Que una compaa lleva a cabo una poltica de discriminacin, con respecto al sexo, en los salarios de sus empleados. Se seleccionaron 12 empleados masculinos y 12 femeninos de entre los que tienen responsabilidades y experiencia similares en el trabajo; sus salarios mensuales en miles de Bolvares Fuertes son los siguientes:

Mujeres Hombres

2,25 1,98 2,06 2,47 2,32 1,92 1,87 2,09 2,16 2,35 2,07 2,16 2,19 2,16 2,24 2,4 2,41 2,34 2,12 2,39 2,05 2,45 2,23 2,36

Existe alguna razn para creer que estas muestras aleatorias provienen de poblaciones con diferentes distribuciones? sese = 0,05.

Se combinan los salarios de las dos muestras para formar un solo conjunto de 24 salarios mensuales. Entonces se ordenan los salarios y se les asigna un rango de la siguiente manera: Sexo M Salario 1,87 Rango 1 Sexo H Salario 2,23 Rango 13 M 1,92 2 H 2,24 14 M 1,98 3 M 2,25 15 H 2,05 4 M 2,32 16 M 2,06 5 H 2,34 17 M 2,07 6 M 2,35 18 M 2,09 7 H 2,36 19 H 2,12 8 H 2,39 20 H 2,16 9 H 2,40 21 M M H 2,16 2,16 2,19 10 11 12 H H M 2,41 2,45 2,47 22 23 24

Para obtener la suma de los rangos se seleccionara la muestra de mujeres. De esta forma la suma de los rangos es: 1 + 2 + 3 + 5 + 6 + 7 + 10 + 10 + 15 + 16 + 18 + 24 = 117, y el valor de la estadstica U de la suma de rangos de Wilcoxon es:

Dado que:

Mediante el empleo de la aproximacin normal:

es un valor de una variable aleatoria normal estndar. Para = 0,05, los valores crticos son 1.96. Por 1o tanto, no puede rechazarse la hiptesis nula de que las muestras aleatorias provienen de poblaciones con distribuciones idnticas.

Conclusin

Para los mtodos no paramtricos presentados en este trabajo, tienen tres ventajas: 1. Las suposiciones para su empleo son menos estrictas que las de los correspondientes mtodos paramtricos. 2. Los mtodos no paramtricos pueden aplicarse en forma muy fcil a todas aquellas observaciones que se definen sobre una escala ordinal. 3. Los clculos por efectuar son ms fciles cuando se comparan con los de los correspondientes mtodos paramtricos. En particular, las pruebas del signo, rangos de signos de Wilcoxon y suma de rangos de Wilcoxon se comparan, en potencia, a las de los correspondientes mtodos paramtricos, 1o que incluye a la distribucin t de Student o a la estadstica F en el anlisis de varianza, cuando se tienen muestras de gran tamao y las observaciones contenidas en estas se definen por 1o menos sobre una escala ordinal, puede perderse informacin muy importante al convertir las observaciones en rangos y signos y utilizar mtodos no paramtricos. Para tales casos, la eficiencia en potencia de los mtodos no paramtricos es menor que la de los procedimientos paramtricos. Por 1o tanto, la ventaja ms clara que tienen los mtodos no paramtricos sobre los de tipo paramtrico es que pueden aplicarse en forma muy fcil a todas aquellas observaciones que se definen sobre una escala ordinal, ya que La aplicaci6n de los mtodos paramtricos a observaciones que se encuentran definidas slo sobre una escala ordinal es muy difcil, ya que la interpretacin de un intervalo en este caso tiene poco significado.

Bibliografa

Estadstica no paramtrica, Wikipedia http:// math.uprm edu ~edgar uprm/edu/, Parte de las notas tomadas de: Prof. Edgar Acua, UNIVERSIDAD DE PUERTO RICO, RECINTO UNIVERSITARIO DE MAYAGUEZ.

Anlisis no paramtrico mediante SnPM, Gracin Garca Mart, Barcelona,Espaa, 26 de Febrero de 2009, I Curso Nacional de SPM.

PROBABILIDAD Y ESTADISTICA Aplicaciones y mtodos, George c. Canavos, VIRGINIA COMMONWEALTH UNIVERSITY, 1988.

Vous aimerez peut-être aussi