Vous êtes sur la page 1sur 7

Valores Atpicos

Uno de los problemas arduos en el anlisis de datos es manejar los valores atpicos en un grupo
de datos. Un valor atpico es una observacin con un valor que no parece corresponderse con el
resto de los valores en el grupo de datos. Los valores atpicos tambin suelen llamarse valores
aberrantes o inconsistentes.

La detencin de datos atpicos es importante ya que si no se calculan nos pueden conducir a


decisiones errneas, ocasionandoprdidas de tiempo, dinero y credibilidad

Permite detectar inconsistencias entre las preguntas, y dependiendo de la cantidad de datos


atpicos podra identificarse errores en la encuesta.

Resulta importante destacar que lo primero es considerar los datos grficamente para identificar
la posible existencia de ms de un valor atpico, ya sea en la misma direccin o en la direccin
opuesta, antes de utilizar la tcnica de Dixon o la tcnica de Grubbs. Estas tcnicas estn
diseadas para detectar un nico valor atpico en un grupo de datos, y por lo tanto no son
adecuadas para la deteccin de mltiples valores atpicos. Una tcnica rigurosa y amplia para
identificar eficazmente mltiples valores atpicos es el procedimiento para muchos valores
atpicos con generalizacin extrema de la desviacin de Student.

Tcnicas para la detencin de valores atpicos

1. Grubbs:

La prueba de Grubbs se utiliza para detectar valores atpicos en unconjunto de datosunivariante


y se basa en el supuesto de normalidad. Esdecir, primero debe verificarse que sus datos pueden
aproximarserazonablemente a una distribucin normal antes de aplicar la prueba.
Esespecialmentefcil de seguir y sirve para detectar un valor atpico a la vez.

El procedimiento de la prueba de Grubbs es el siguiente:

Paso 1: Ordenar los datos ascendentemente 1 < 2 < 3 <

Paso 2: Decidir si 1 es un valor sospechoso.

Paso 3: Calcular el promedio y la desviacin estndar S del conjunto de datos.

Paso 4: Se calcula T si se considera sospechoso el primer valor o el ltimo valor.

1
Si 1 es sospechoso =


Si es sospechoso =

Paso 5: Escoger el nivel de confianza para la prueba y calcular a T y compararlo con el valor
correspondiente de acuerdo con una tabla de valores crticos.

2. Dixon
La prueba de Dixon permite determinar si un valor sospechoso de un conjunto de datos es un
outlier. El mtodo define la relacin entre la diferencia del mnimo/mximo valor y su vecino
ms cercano y la diferencia entre el mximo y el mnimo valor aplicado

Los datos deben provenir de una distribucin normal. Si se sospecha que una poblacin
lognormal subyace en la muestra, la prueba puede ser aplicada al logaritmo de los datos. Antes
de realizar el procedimiento es importante definir las hiptesis (si el valor sospechoso se
encuentra al inicio o al final del conjunto de datos) y determinar la distribucin de la que
provienen los datos (normal o lognormal)
Se debe seguir los siguientes pasos:
Paso 1: Ordenar los valores de la muestra ascendentemente 1 < 2 < 3 <

Paso 2: Calcular el valor de Dixon dependiendo del tamao de la muestra


Segn la tabla 23

Donde las relaciones son las indicadas en la tabla 24.

Tabla 23. Prueba de Dixon de acuerdo con el tamao del Conjunto De datos

Nmero de datos Relacin a calcular

n=3a7 r10
n = 8 a 10 r11
n =11 a 13 r21
n = 14 a 24 r22

Tabla 24. Relaciones Prueba de Dixon


R Si es sospechoso Si 1 es sospechoso
r10 ( 1 ) (2 1 )
( 1 ) ( 1 )
r11 ( 1 ) (2 1 )
( 2 ) (1 1 )
r21 ( 2 ) (3 1 )
( 2 ) (1 1 )
r22 ( 2 ) (3 1 )
( 3 ) (2 1 )

Buscar el valor crtico de r de acuerdo con el nivel de significancia en la tabla para valores
crticos para la prueba de Dixon.
Si el valor de r calculado es mayor que el valor crtico de la tabla se concluye que es un valor
atpico.
La prueba de Dixon es usualmente utilizada para un grupo pequeo de datos
(Entre 3 y 30 datos) y dispone de un valor crtico con tres puntos decimales, locual limita
seriamente la aplicacin de la prueba en muchos campos de las
Ciencias e ingenieras.

3. Prueba Tukey:

El diagrama conocido como diagrama de cajas y bigotes (Box and WhiskersPlot osimplemente
BoxPlot) es un grfico representativo de las distribucionesde un conjunto de datos creado por
Tukey en 1977, en cuya construccin seusan cinco medidas descriptivas de los mismos:
mediana, primer cuartil (Q1), tercer cuartil (Q3), valor mximo y valor mnimo. Estcompuesto
por un rectngulo o caja la cual se construye con ayuda del primery tercer cuartil y representa el
50% de los datos que particularmente estnubicados en la zona central de la distribucin, la
mediana es la lnea queatraviesa la caja, y dos brazos o bigotes son las lneas que se extienden
desdela caja hasta los valores ms altos y ms bajos. En algunos casos, dentro de lacaja suele
trazarse una cruz para representar el promedio de los datos

Diagrama de caja de bigotes.

Hacerse deteccin automtica de los valores atpicos presentesen un conjunto de datos. El


mtodo es el siguiente:

Paso1: se encuentra la medianade todos los datos, luego se halla tanto la mediana de los valores
iguales oinferiores a la mediana como de los superiores.
Paso 2: Este ser un valor de datos oser la mitad de entre dos valores de datos dependiendo de
si la cantidad delos datos es par o imparCon un conjunto de datos impar, seincluye la mediana
en cada una de las dos mitades del conjunto de datos yluego se encuentra el medio de cada
mitad. Esto da como resultado el primery tercer cuartil.
Paso 3: Si el conjunto de datos tiene un nmero par de valores, losdatos se dividen en dos
mitades, y se encuentra el medio de cada mitad.

Diagrama de caja con valores atpicos leves y graves

4. Anlisis de Valores Atpicos de Mahalanobis


Es un mtodo basado en una distancia, llamada distancia deMahalanobis (DM). Esta distancia
es calculada con base en la varianza de cada punto. sta describe la distancia entre cada punto
de datos y el centro de masa. Cuando un punto se encuentra en el centro de masa, la distancia de
Mahalanobis es cero y cuando un punto de datos se encuentra distante del centro de masa, la
distancia es mayor a cero. Por lo tanto, los puntos de datos que se encuentran lejos del centro de
masa se consideran valores atpicos

La DM es un enfoque multivariante y es calculado para cada observacin en el conjunto de


datos. Entonces a cada observacin se le da un peso como inverso de la distancia de
Mahalanobis. Las observaciones con valores extremos obtienen menores pesos. Finalmente, una
regresin ponderada se ejecuta para minimizar el efecto de los valores extremos

La DM se calcula de la siguiente forma

= ( )1 ( ) para i = 1 hasta n

Donde Cx es la matriz de covarianza. La distancia Mahalanobis sigue unadistribucin chi-


cuadrado con grados de libertad igual al nmero de variablesincluidas en el clculo

5. Deteccin de Valores Atpicos mediante Regresin Simple

El anlisis de regresin es una importante herramienta estadstica que seaplica en la mayora de


las ciencias. De muchas posibles tcnicas de regresin, el mtodo de mnimos cuadrados (LS)
ha sido generalmente la ms adoptadapor tradicin y facilidad de clculo. Este mtodo a travs
de unos clculos, aproxima un conjunto de datos a un modelo, el cual puede ser lineal,
cuadrado, exponencial, entre otros. Es decir, es una tcnica de optimizacin, que intenta
encontrar una funcin que se aproxime lo mejor posible a losdatos. La diferencia entre el valor
observado y el valor obtenido del modelo deregresin se denominan residuos o suma de
cuadrados y el objetivo es tratarde minimizar este valor y as obtener el mejor ajuste. La figura
ilustra elmtodo de mnimos cuadrados
Regresin por Mnimos cuadrados:

En la regresin lineal o simple se parte de un modelo lineal, donde existe una relacin de la
variable x tambin llamada variable independiente hacia lavariable y denominada variable
dependiente.

La ecuacin que relaciona estasdos variables es:


= + + para i = 1,2,3 n

Donde a es el valor de la ordenada donde la lnea de regresin se intersecacon el eje y,


b es el coeficiente de la pendiente de la lnea recta y e es elerror que se comete alajustar los
datos donde se supone que tiene valoresperado cero y desviacin estndar comn. Es deseable
que los valores de Y ajustados al modelo, sean lo ms parecidos posible a los valores
observados.
Una medida de lo parecido que son, es el coeficiente de correlacin R2 la cualse define como el
cuadrado del coeficiente de correlacin entre los valores de y observados y los valores de y
ajustados. El rango de R2 es entre 0 y 1, el valor entre ms se acerque a 1 quiere decir que tiene
un mejor ajuste.
Los valores de a y b se determinan mediante las frmulas:

( )( )
=
( )2

Un modelo de regresin permite detectar valores atpicos al considerar a losdatos alejados del
modelo como tales. Esto es, los casos que no siguen elmodelo como el resto de los datos pueden
representar datos errneos, opueden indicar un pobre ajuste de la lnea de regresin. La figura
ilustraesta situacin.
Deteccin de atpicos mediante regresin

Antes de tratar de ajustar un modelo lineal a los datos observados, primero se debe determinar si
existe una relacin o no entre las variables de inters. Esto no implica necesariamente que una
variable sea causa de la otra, pero existe cierta asociacin significativa entre las dos variables.
Una grfica de dispersin puede ser una herramienta til para determinar la fuerza de la relacin
entre las dos variables. Si no parece haber ninguna asociacin entre la variable predictora o
independiente y la variable de respuesta o dependiente (es decir, la dispersin no indican ningn
tendencia de aumento o disminucin), ajustar un modelo de regresin lineal a los datos
probablemente no va a proporcionar un modelo til Una vez que un modelo de regresin ha sido
ajustado a un grupo de datos, el examen de los residuos (la desviacin de la lnea ajustada a los
valores observados) permite al modelador investigar la validez de que existe una relacin lineal.
El trazado de los residuos en el eje y en contra de la variable independiente en el eje x revela
cualquier posible relacin no lineal entre las variables, o puede alertar al modelador para
investigar las variables que acechan. En este caso los residuos determinan la presencia de
valores atpicos
Los procedimientos de regresin lineal por mnimos cuadrados (LS), son sensibles a ciertos
tipos de valores atpicos, inclusive si se trata de uno solo de estos valores. Segn Rousseeuw y
Leroy, se pueden presentar valores atpicos tanto en el eje y como en el eje x. En el eje x hay
ms posibilidades de que algo salga mal, su efecto en el estimador de mnimos cuadrados es
muy significativo debido a su gran impacto en la pendiente
Para solucionar este problema, se han desarrollado nuevas tcnicas estadsticas que no se ven
fcilmente afectadas por los valores atpicos. Estos son los mtodos robustos, que siguen siendo
una tcnica de confianza, incluso en una gran cantidad de datos
La regresin lineal robusta en vez de utilizar LS, utiliza el mtodo least median of squares
(LMS) definido por Rousseeuw Se remplaza la suma de mnimos cuadrados por la mediana, que
es un estimador robusto tanto para valores extremos en el eje x como en el eje y, y es resistente a
situaciones multivariantes. El objetivo principal es ajustar la mayora de los datos y luego los
valores atpicos pueden ser identificados como los puntos que permanecen lejos de la regresin
tanto para el caso de residuos positivos como negativos.

La tcnica escogida para observar los datos atpicos de nuestra base de datos fue Diagramas de
bigotes (turkey).

Vous aimerez peut-être aussi