Vous êtes sur la page 1sur 15

STATGRAPHICS Rev.

4/25/2007

Identificacin de Valores Atpicos


Resumen
El procedimiento Identificacin de Valores Atpicos est diseado para ayudar a determinar si
una muestra de n observaciones numricas contiene o no valores atpicos. Por valor atpico
(outlier), queremos decir una observacin que no proviene de la misma distribucin que el resto
de la muestra. Se incluyen ambos mtodos: grficos y pruebas estadsticas formales. El
procedimiento tambin salva una columna en la hoja de datos identificando el valor atpico en
una forma que pueda ser usado en campo Seleccin en otra caja de dilogo de ingreso de datos.

StatFolio de Ejemplo: outlier.sgp


Datos de Ejemplo:
El archivo bodytemp.sf3 contiene los datos que describen la temperatura corporal de una muestra
de n = 130 personas. Se obtuvo del Journal of Statistical Education Data Archive
(www.amstat.org/publications/jse/jse_data_archive.html) y originalmente apareci en el Journal
of the American Medical Association. A continuacin se muestran las primeras 20 filas del
archivo.
Temperature
(temperatura)
98.4
98.4
98.2
97.8
98
97.9
99
98.5
98.8
98
97.4
98.8
99.5
98
100.8
97.1
98
98.7
98.9
99

Gender
(gnero)
Male
Male
Female
Female
Male
Male
Female
Male
Female
Male
Male
Male
Male
Female
Female
Male
Male
Female
Male
Male

2006 por StatPoint, Inc.

Heart Rate
(ritmo cardiaco)
84
82
65
71
78
72
79
68
64
67
78
78
75
73
77
75
71
72
80
75

Identificacin de Valores Atpicos - 1

STATGRAPHICS Rev. 4/25/2007

Ingreso de Datos
Los datos a analizar consisten de una sola columna numrica con n = 2 o ms observaciones.

Datos: columna numrica que contiene los datos a resumir.

Seleccin: seleccin de un subgrupo de datos.

Grfica de Aberrantes
Un buen lugar para comenzar cuando se considera la posibilidad de que una muestra de n
observaciones contiene uno o ms valores atpicos es el Grfico de Aberrantes.
Grfica de Aberrantes con Lmites Sigma
Media de la muestra = 98.2492, desviacin estd. = 0.733183
103
4
3
2
1
0
-1
-2
-3
-4

Temperature

101

99

97

95
0

30

60

90

120

150

Nmero de fila

Este grfico muestra cada valor de los datos junto con lneas horizontales en la media muestral
ms y menos 1, 2, 3, y 4 desviaciones estndar. Puntos ms all de 3 sigma, de los cuales hay
uno en el grfico anterior, se considera que son valores atpicos potenciales y dignos de
investigacin adicional.
2006 por StatPoint, Inc.

Identificacin de Valores Atpicos - 2

STATGRAPHICS Rev. 4/25/2007

Resumen del Anlisis


El Resumen del Anlisis presenta un nmero de estadsticas diseadas para ser resistentes a
valores atpicos, as como el resultado de varias pruebas formales para valores atpicos. A
continuacin se muestra la seccin de arriba de la salida:
Identificacin de Valores Atpicos - Temperature
Datos/Variable: Temperature (degrees)
130 valores con rango desde 96.3 a 100.8
Nmero de valores actualmente excluidos: 0
Estimados de Localizacin
Media muestral
98.2492
Mediana muestral
98.3
Media recortada
98.2714
Media Winsorizada
98.25
Recorte: 15.0%
Estimados de Escala
Desviacin estd. muestral
DAM/0.6745
Sbi
Sigma winsorizada

0.733183
0.74129
0.714878
0.708916

Intervalos de confianza del 95.0% para la media


Lmite Inferior
Lmite Superior
Estndar
98.122
98.3765
Winsorizada
98.1032
98.3968

Estimados de Localizacin
Se proporcionan cuatro estadsticas que estiman el centro o localizacin de la poblacin de la
cual fueron muestreados los datos, incluyendo:
1. Media muestral la media aritmtica de la muestra.
2. Mediana muestral el centro o valor medio de la muestra.
3. Media recortada el valor promedio despus de eliminar un porcentaje especfico de las
observaciones menores y mayores.
4. Media Winsorizada el valor promedio despus de sustituir un porcentaje especfico de
las observaciones menores y mayores con los valores ms extremos no incluidos dentro
de ese porcentaje.
Si los datos provienen de una distribucin normal, cada una de las cuatro estadsticas estima la
media poblacional . Sin embargo, las 3 ltimas estadsticas son menos sensibles a la posible
presencia de valores atpicos que la media muestral ordinaria. En el presente ejemplo, hay muy
poca diferencia entre las estimaciones. Aunque no siempre es se el caso.
Estimados de Escala
Tambin hay cuatro estimados de la dispersin de los datos, cada uno de los cuales estima la
desviacin estndar siempre que los datos provengan de una distribucin:
1. Desviacin estndar muestral la desviacin estndar usual.
2006 por StatPoint, Inc.

Identificacin de Valores Atpicos - 3

STATGRAPHICS Rev. 4/25/2007


2. DAM/0.6745 una estimacin basada en la desviacin absoluta mediana (la mediana de
la diferencia absoluta entre cada valor de los datos y la mediana muestral).
3. Sbi una estimacin basada en una suma ponderada de cuadrados alrededor de la
mediana muestral, donde los pesos disminuyen con la distancia a partir de la mediana.
4. Sigma Winsorizada una estimacin basada en las desviaciones al cuadrado alrededor de
la media Winsorizada.
Los ltimos 3 estimadores estn diseados para ser resistentes a valores atpicos. Para los
presentes datos, las estimaciones son muy similares.

Intervalos de Confianza
Se presentan intervalos de confianza para la media basados en las usuales media y desviacin
estndar muestrales y tambin usando las estadsticas Winsorizadas. El hecho de que los
intervalos sean tan prximos implica que los valores atpicos no son un gran problema en estos
datos.
Valores Extremos
La seccin media de la tabla muestra las 5 observaciones mayores y las 5 menores en los datos:
Valores Ordenados
Valores Estudentizados
Fila
Valor
Sin Supresin
95
96.3
-2.65859
55
96.4
-2.52219
23
96.7
-2.11302
30
96.7
-2.11302
73
96.8
-1.97663
...
99
99.4
1.56955
13
99.5
1.70594
97
99.9
2.25151
120
100.0
2.3879
15
100.8
3.47903

Valores Estudentizados
Con Supresin
-2.74567
-2.59723
-2.15912
-2.15912
-2.01521

Modificados
Valor-Z MAD
-2.698
-2.5631
-2.1584
-2.1584
-2.0235

1.59096
1.7323
2.30628
2.45231
3.67021

1.4839
1.6188
2.1584
2.2933
3.3725

Las tres columnas de la derecha muestran valores estandarizados o Puntajes Z que pueden
ayudar a identificar valores atpicos. Cada estadstica mide a cuntas desviaciones estndar estn
los valores de los datos del centro de los datos.
Valores Estudentizados Sin Supresin usando la media y la desviacin estndar
muestrales, cada valor de los datos es estandarizado por
ti =

xi x
s

(1)

Estos valores miden el nmero de desviaciones estndar a las que cada valor se encuentra
de la media muestral y corresponde a la escala del eje de la derecha del grfico de valores
atpicos. La prueba de Grubbs, descrita ms adelante, est basada en el valor
Estudentizado ms extremo, que en este caso es igual a 3.479.

2006 por StatPoint, Inc.

Identificacin de Valores Atpicos - 4

STATGRAPHICS Rev. 4/25/2007


Valores Estudentizados Con Supresin cada valor de los datos es removido de la
muestra un a la vez y la media x[i ] y la desviacin estndar s[i ] se calculan usando los n 1 valores de los datos restantes. Cada valor de los datos se estandariza entonces con

ti =

xi x[ i ]

(2)

s[ i ]

Estos valores miden el nmero de desviaciones estndar a las que cada valor se encuentra
de la media muestral cuando ese valor de los datos no se incluye en la muestra. Esto es
similar al clculo de los residuos Estudentizados con supresin empleados en los
procedimientos de regresin. La importancia de eliminar cada observacin antes de
estandarizarla es que un fuerte valor atpico, particularmente en una muestra pequea,
puede tener un impacto tan grande en la media y desviacin estndar muestrales que no
parezca ser inusual (atpico).
Valor Z MAD Modificado - cada valor de los datos es estandarizado por
Mi =

x)
0.6745( xi ~
MAD

(3)

Estos valores usan la estimacin de sigma basada en la desviacin absoluta mediana


(MAD). Iglewicz and Hoaglin (1993) sugieren que cualquier valor de los datos para el
cual |Mi | sea mayor que 3.5 se etiquete como un valor atpico, que es el criterio empleado
por StatAdvisor al interpretar los resultados.
Prueba de Grubbs
La seccin final de la salida muestra los resultados de una o ms pruebas formales para valores
atpicos:
Prueba de Grubbs' (asume normalidad)
Estadstico de prueba = 3.47903
Valor-P = 0.0484379

La primera prueba se debe a Grubbs y se calcula si n 3. Tambin llamada Prueba de la


Desviacin Estudentizada Extrema (ESD), se basa en el mayor valor Estudentizado (sin
eliminacin) tmax. El estadstico de prueba T se calcula de acuerdo con

T=

2
n(n 2)t max
2
(n 1) 2 nt max

(4)

Se obtiene un valor aproximado de P de dos colas calculando la probabilidad de exceder |T|


basada en una distribucin t de Student con n - 2 grados de libertad y multiplicando el resultado
por 2n. Un pequeo valor de P lleva a la conclusin de que ese punto ms extremo es de hecho
un valor atpico. Para pequeas muestras, uno puede en cambio remitirse a Iglewicz y Hoaglin
(1993) quienes dan valores al 5% y 1% para tmax en el Apndice A de su monografa, as como
para una prueba generalizada que involucre r > 1 valores atpicos potenciales.

2006 por StatPoint, Inc.

Identificacin de Valores Atpicos - 5

STATGRAPHICS Rev. 4/25/2007


En los mismos datos, la fila 15 es el punto ms extremo, con un valor Estudentizado igual a casi
3.5. Ya que el valor de P es menor que 0.05, ese punto puede ser declarado como valor atpico
estadsticamente significativo a un nivel de confianza del 5%. Esta conclusin se hace sujeta al
supuesto de la prueba de Grubbs de que todas los dems valores de los datos provienen de una
distribucin normal.
Prueba de Dixon
Para muestras pequeas con 4 n 30, tambin se realiza la prueba de Dixon. Esta prueba
comienza ordenando los valores de los datos de menor a mayor. Sea x(j) el j-simo valor ms
pequeo de los datos, las estadsticas se calculan entonces para probar 5 situaciones potenciales:

Situacin 1: 1 valor atpico a la derecha. Calcule:

r=

x( n ) x( n 1)

(5)

x( n ) x( 2)

Situacin 2: 1 valor aberrante a la izquierda. Calcule:

r=

x( 2 ) x(1)

(6)

x ( n 1) x(1)

Situacin 3: 2 valores aberrantes a la derecha. Calcule:

r=

x( n ) x( n 2)

(7)

x( n ) x( 2)

Situacin 4: 2 valores aberrantes a la izquierda. Calcule:

r=

x (3) x(1)

(8)

x ( n 1) x(1)

Situacin 5: 1 valor aberrante en cualquiera de los dos lados. Calcule:

x( n ) x( n 1) x( 2 ) x(1)
r = max
,

x( n ) x(1) x( n ) x(1)

(9)

El estadstico calculado r se compara entonces con valores crticos en tablas tales como el
Apndice A.3 de Iglewicz y Hoaglin (1993). Para cada prueba, STATGRAPHICS indica si el
resultado es o no estadsticamente significativo a los niveles de 5% y 1%. Un resultado
significativo indica la presencia de la situacin hipottica.
Por ejemplo, eligiendo arbitrariamente las primeras 30 filas del archivo de datos, se muestra la
siguiente tabla:

2006 por StatPoint, Inc.

Identificacin de Valores Atpicos - 6

STATGRAPHICS Rev. 4/25/2007


Prueba de Dixon (asume normalidad)
Estadstico
1 aberrante por derecha
0.317073
1 aberrante por izquierda
0.0
2 aberrantes por derecha
0.439024
2 aberrantes por izquierda
0.142857
1 aberrante en cada lado
0.317073

Prueba al 5%
Significativo
No sig.
Significativo
No sig.
Significativo

Prueba al 1%
No sig.
No sig.
Significativo
No sig.
No sig.

Se obtienen resultados significativos al nivel de significancia del 5% para la hiptesis de que


existe 1 valor aberrante grande a la derecha, que existen 2 valores aberrantes grandes a la
derecha, y que existe 1 valor aberrante grande en cualquiera de los lados. Cuando se use esta
prueba, debe seleccionar la hiptesis de inters antes de buscar en los resultados.

Opciones del Anlisis

Nivel de Confianza: nivel empleado para calcular los intervalos de confianza.

Recortado: el porcentaje de datos recortados de cada lado cuando se calcula la media


recortada y las estadsticas Winsorizadas.

Mostrar en Cada Lado: el nmero de valores pequeos y grandes ms extremos a incluir en


la tabla.

Exclusin de Aberrantes
Los valores de los datos que se determina que son aberrantes pueden ser excluidos grficamente
haciendo clic, con el ratn, sobre los puntos en el Grfico de Aberrantes y luego clic en el botn
Excluir/Inclir en la barra de herramientas del anlisis.

2006 por StatPoint, Inc.

Identificacin de Valores Atpicos - 7

STATGRAPHICS Rev. 4/25/2007


Grfica de Aberrantes con Lmites Sigma
Media de la muestra = 98.2295, desviacin estd. = 0.70038
103

4
3
2
1
0
-1
-2
-3
-4

Temperature

101

99

97

95
0

30

60
90
Nmero de fila

120

150

Los puntos excluidos se marcarn con una X y todas las estadsticas a todo lo largo del
procedimiento se recalcularn sin esos datos. Por ejemplo, la Prueba de Grubbs muestra ahora
un Valor de P muy insignificante para los valores ms extremos en los datos restantes:
Prueba de Grubbs' (asume normalidad)
Estadstico de prueba = 2.75487
Valor-P = 0.676064

Resumen Estadstico
La ventana del Resumen Estadstico calcula un nmero de diferentes estadsticas que
comnmente se usan para resumir una muestra de n observaciones:
Resumen Estadstico para Temperature
Recuento
130
Promedio
98.2492
Desviacin estndar
0.733183
Coef. de variacin
0.746248%
Mnimo
96.3
Mximo
100.8
Rango
4.5
Rango inercuartlico
0.9
Curtosis estandarizada
1.81642

Las estadsticas incluidas por omisin en la tabla se controlan por las definiciones de
configuracin en la ventana Estadsticas de la caja de dilogo Preferencias. Dentro del
procedimiento, se puede cambiar la seleccin usando la Ventana de Opciones. De particular
inters aqu son el sesgo y la curtosis estandarizados. Ambas estadsticas deben estar entre 2 y
+2 si los datos provienen de una distribucin normal. Ya que este es un supuesto de la prueba
para valores atpicos, debera revisar estos valores despus de excluir los valores atpicos.

2006 por StatPoint, Inc.

Identificacin de Valores Atpicos - 8

STATGRAPHICS Rev. 4/25/2007


Opciones de Ventana

Seleccione las estadsticas a presentar. El significado de cada estadstica se describe en la


documentacin para el procedimiento Anlisis de Una Variable.

Grfico de Caja y Bigotes


Esta ventana presenta le grfico de caja y bigotes.

Grfica de Caja y Bigotes

96

97

98

99

100

101

Temperature

Este grfico se construye de la siguiente forma:

Se dibuja una caja que se extienda desde el cuartil inferior de la muestra hasta el
cuartil superior. Este es el intervalo cubierto por el 50% central de los valores de los
datos cuando se ordenan de menor a mayor.

Se dibuja una lnea vertical en la mediana (el valor de en medio).

Si se solicita, un signo de ms se coloca en el lugar de la media muestral.

Los bigotes se dibujan desde los extremos de la caja hasta los valores mnimo y
mximo de los datos, a menos que haya valores inusualmente muy alejados de la caja
(a los cuales Tukey llama puntos extremos). Los puntos extremos, que son puntos a

2006 por StatPoint, Inc.

Identificacin de Valores Atpicos - 9

STATGRAPHICS Rev. 4/25/2007


ms de 1.5 veces el rango intercuartlico (ancho de la caja) por arriba o por debajo de
la caja, se indican por smbolos de sealamiento. Cualesquiera puntos a ms de 3
veces el rango intercuartlico por arriba o por debajo de la caja se les llama puntos
extremos lejanos, y se indican por smbolos de sealamiento con signos de ms
superpuestos por arriba de ellos. Si hay presentes puntos aberrantes (extremos o
extremos lejanos), los bigotes se dibujan a los valores mximo y mnimo que no sean
puntos aberrantes.
El grfico anterior para los datos de temperatura corporal es muy simtrico. El signo de ms para
la media se encuentra muy cerca de la lnea para la mediana, mientras que los bigotes son
aproximadamente de igual longitud. Hay 3 puntos extremos. Cuando se muestrean 130
observaciones de una distribucin normal, se puede esperar que se presenten puntos extremos tan
solo por azar como la mitad de las veces, pero generalmente slo uno o dos. Puntos extremos
lejanos, de los cuales no hay, se presentan de manera extremadamente rara.
Ventana de Opciones

Direccin: la orientacin del grfico, correspondiente a la direccin de los bigotes.

Muesca de Mediana: si se selecciona, se agregar una muesca al grfico que muestra un


intervalo de confianza de aproximadamente 100(1-)% para la mediana al nivel de confianza
por omisin del sistema (establecido en la pestaa General de la caja de dilogo de las
Preferencias en el men Editar).

Smbolos de Datos Aberrantes: si se selecciona, indica la localizacin de los puntos


extremos o atpicos.

Marcador de Media: si se selecciona, muestra la localizacin de la media muestral as como


la mediana.

2006 por StatPoint, Inc.

Identificacin de Valores Atpicos - 10

STATGRAPHICS Rev. 4/25/2007

Pruebas de Normalidad
En la ventana Pruebas de Normalidad se realizan varias pruebas formales para normalidad y se
presentan los resultados.
Pruebas de Normalidad
Prueba
Chi-Cuadrado
Estadstico W de Shapiro-Wilk
Puntuacin Z para asimetra
Puntuacin Z para curtosis

Estadstico
54.0154
0.986473
0.0151112
1.64492

Valor-P
0.000424234
0.821435
0.987938
0.0999861

Cada una de las pruebas se basa en el siguiente par de hiptesis:


H0: los datos provienen de una distribucin normal
HA: los datos no provienen de una distribucin normal

Pequeos valores de P (por debajo de 0.05 si se trabaja al nivel de significancia del 5%)
conducen al rechazo de la hiptesis de normalidad.
Las cuatro pruebas, cuyos detalles de dan en la documentacin de Ajuste de Distribuciones
(Datos No Censurados), son las siguientes:

Prueba Chi-Cuadrada - divide los datos en clases no traslapadas y calcula un


estadstico basado en la diferencia entre las frecuencias observadas en cada clase y las
frecuencias esperadas si los datos provinieran de una distribucin normal. Esta prueba
no debe usarse si los datos estn severamente redondeados, como en el presente
ejemplo, ya que la naturaleza discreta de los datos puede fcilmente distorsionar los
resultados.

W de Shapiro-Wilks disponible cuando 2 n 2000, esta prueba compara el


ajuste de mnimos cuadrados de la lnea de regresin con los datos en el grfico de
probabilidad normal.

Valor Z para el Sesgo realiza una prueba basada en el sesgo estimado en los datos.

Valor Z para la Curtosis realiza una prueba basada en la curtosis estimada en los
datos.

Excepto por la prueba de chi-cuadrada, cuyo comportamiento puede ser explicado por el hecho
de que los datos se redondearon a la dcima de grado ms cercana, no hay evidencia para
rechazar la hiptesis de que las temperaturas corporales siguen una distribucin normal.
Opciones de Ventana

2006 por StatPoint, Inc.

Identificacin de Valores Atpicos - 11

STATGRAPHICS Rev. 4/25/2007

Incluir: selecciona una o ms pruebas para que se lleven a cabo.

Grfica de Probabilidad Normal


La Grfica de Probabilidad Normal muestra los datos de menor a mayor de manera que es
posible juzgar si los datos provienen o no de una distribucin normal.

Grfica de Probabilidad Normal para Temperature


99.9
99

porcentaje

95
80
50
20
5
1
0.1
96

97

98
99
Temperature

100

101

El eje vertical se escala de tal manera que, si los datos provienen de una distribucin normal, los
puntos debern caer aproximadamente a lo largo de una lnea recta. Para construir el grfico, los
puntos se grafican en las coordenadas

j 0.375
x( j ) , 1

n + 0.25

(10)

donde 1 (u ) representa la distribucin normal estndar inversa evaluada en u. Las etiquetas a


lo largo del eje vertical son iguales a 100u%, para valores de u que van de 0.001 a 0.999.
Para ayudar a determinar que tan cercanamente los puntos corresponden a una lnea recta, se
puede superponer una lnea de referencia en el grfico que corresponda a una distribucin normal
con media y desviacin estndar . Hay dos opciones para ajustar la lnea:
1. Usando la mediana y los cuartiles muestrales:
2006 por StatPoint, Inc.

Identificacin de Valores Atpicos - 12

= median muestral
= rango intercuartlico / 1.35

STATGRAPHICS Rev. 4/25/2007


(11)
(12)

2. Ajustando una regresin por mnimos cuadrados de los cuantiles normales de los
valores de los datos ordenados.

= - intercepto / pendiente

(13)

= 1 / pendiente

(14)

El primer mtodo es ms robusto a desviaciones de la normalidad en las colas de la distribucin,


ya que esencialmente se apoya solo en la mitad central. Valores atpicos o colas largas tendrn
una mayor influencia al usar el mtodo de mnimos cuadrados.
Nota: establezca el mtodo por omisin para ajustar lneas en el grfico de probabilidad normal
usando la ventana AED en la caja de dilogo de las Preferencias, del men Editar.
Opciones de Ventana

Direccin: la orientacin del grfico. Si es Vertical, el Porcentaje se presenta en el eje


vertical. Si es Horizontal, el Porcentaje se presenta en el eje horizontal.

Lnea Ajustada: el mtodo usado para ajustar la lnea de referencia a los datos. Si es Usando
Cuartiles, la lnea pasa por la mediana cuando el Porcentaje es de 50 con una pendiente
determinada a partir del rango intercuartlico. Si es Usando Mnimos Cuadrados, la lnea se
ajusta con la regresin por mnimos cuadrados de los cuantiles normales de las estadsticas de
orden. El primer mtodo basado en los cuartiles da ms peso a la forma de los datos cerca del
centro y frecuentemente permite mostrar desviaciones de la normalidad en las colas que no
seran evidentes usando el mtodo de mnimos cuadrados.

2006 por StatPoint, Inc.

Identificacin de Valores Atpicos - 13

STATGRAPHICS Rev. 4/25/2007

Salvar Resultados
El botn Salvar Resultados en la barra de herramientas permite que se puedan salvar los
siguientes resultados en la hoja de datos:
1. Datos Winsorizados los datos despus de la winsorizacin. El porcentaje
especificado de los valores menores y mayores habr sido reemplazado con los valores
ms extremos no recortados.
2. Banderitas de seleccin una columna que contiene un 0 para los valores que haya
excluido del anlisis manualmente usando la caracterstica Excluir en el Grfica de
Aberrantes, y un 1 para todos los dems valores. En otros procedimientos, ingrese el
nombre de esta columna en el campo Seleccin para excluir del anlisis automticamente
los mismos valores.
3. Valores Estudentizados (sin supresin) los valores estandarizados de los datos
basados en estadsticas muestrales para todos las observaciones.
4. Valores Estudentizados (con supresin) los datos estandarizados basados en la media
y la desviacin estndar calculadas despus de eliminar la observacin.

5. Puntajes Z Modificados los datos estandarizados basados en la mediana muestral y la


estimacin MAD de sigma.

2006 por StatPoint, Inc.

Identificacin de Valores Atpicos - 14

STATGRAPHICS Rev. 4/25/2007


Clculos
Desviacin Absoluta Mediana
DAM = medianai { xi ~
x }|

(15)

Media Recortada en 100%

T ( ) =
donde

r = n

n r 1
1

(
)
k
x
x
x(i )
+
+

( r +1)
( nr )

n(1 2 )
i =r +2

(16)

k = 1 ( n r ) .

Media Winsorizada en 100%

1 nr

x (i ) + r x( r +1) + x( n r )
n i = r +1

TW =

(17)

Sbi
2

S bi =

ui =

i =1

(18)

(1 u )(1 5u )
n

i =1

donde

n ( xi ~
x ) 1 u i2
2
i

2
i

xi ~
x
9 DAM

(19)

Sigma Winsorizada

SW =

nr
2
2
2
n (x (i ) TW ) + r (x( r +1) TW ) + (x( n r ) TW )

i = r +1
(n 2r )(n 2r 1)

(20)

Intervalo de confianza Winsorizado

TW t n 2 r 1, / 2

SW
n

2006 por StatPoint, Inc.

(21)

Identificacin de Valores Atpicos - 15

Vous aimerez peut-être aussi