Vous êtes sur la page 1sur 11

MEDIADAS DE DISPERSION

La localizacin o tendencia central no necesariamente proporciona informacin suficiente


para describir datos de manera adecuada. Adems de las medidas de localizacin, con
frecuencia es conveniente contar con medidas de dispersin o de la variabilidad de los
valores de los datos.

As, una vez localizado el centro de la distribucin de un conjunto de datos, el siguiente
paso es buscar una medida de la variabilidad o dispersin de los datos. Observemos las
dos distribuciones que se exhiben en las figuras 2.5 y 2.6. Ambas distribuciones estn
centradas en x=4, pero existe una gran diferencia en la variabilidad de las observaciones
alrededor de la media para estas distribuciones. Las observaciones en la figura 2.5 van de 3
a 5; en la figura 2.6 van de 0 a 8.



Figura 2.5 Las observaciones van de 3 a 5 (variabilidad o dispersin de los datos)






Figura 2.6 Las observaciones van de 0 a 8 (variabilidad o dispersin de los datos


La variabilidad es una caracterstica muy importante de un conjunto de datos. Por ejemplo
si se est fabricando tornillos, la variacin excesiva en el dimetro de los tornillos implica
un alto porcentaje de productos defectuosos.

Adems de la importancia prctica de la variacin en los datos, es obvio que se necesita una
medida de esta caracterstica para lograr una imagen mental de la distribucin de
frecuencias. Algunas de las medidas que se usan con ms frecuencia para la dispersin, o
variabilidad, en los datos son el rango y la varianza.

RANGO

Es la medida ms sencilla de la dispersin en un conjunto de datos; se encuentra
localizando el valor mximo y restndolo con valor mnimo del conjunto de los datos, es
decir:
rango=valor mximo-valor mnimo

EJEMPLO 2.10

Tomemos los datos del ejemplo 2.4 sobre los salarios mensuales iniciales de los egresados,
el salario inicial mximo es de 2825, y el mnimo de 2210.

Por lo tanto el rango=2825 2210 = 615.

Aunque el rango es la medida de dispersin ms fcil de calcular, casi nunca se usa como la
nica medida de dispersin. La razn es que se basa slo en dos de los elementos y por
consiguiente, est muy influido por los valores extremos de los datos.




2.4 LA VARIANZA

La varianza es una medida de dispersin que emplea todos los valores de los datos. Se basa
en la diferencia entre cada valor y la media. Es decir, la varianza mide la variabilidad o
dispersin del conjunto de datos alrededor de la media. Es posible ver la variabilidad en
trminos de las distancias entre cada punto (observacin) y la media x . Si las distancias
son grandes podemos decir que hay ms variabilidad que si las distancias son pequeas.
Ms explcitamente, se define la desviacin de una observacin de su media por la medida
) ( x x
i
. As las observaciones a la derecha de la media producen desviaciones positivas y
observaciones a la izquierda producen desviaciones negativas.

Ejemplo 2.11

Calcular (

=

n
i
i
x x
1
2
) Si las observaciones son 5, 7, 1, 2, 4

Solucin
La media de stos datos es igual a 8 . 3
5
19
1
= = =

=
n
x
x
n
i
i


Una manera prctica de calcular la sumatoria es hacer clculos como se muestra en la tabla
2.5.


i
x ) ( x x
i

2
) ( x x
i

5 1.2 1.44
7 3.2 10.24
1 -2.8 7.84
2 -1.8 3.24
4 .2 .04
19 22.80
Tabla 2.5 clculo de ( )

=

n
i
i
x x
1
2



Por lo tanto ( ) 80 . 22
1
2
=

=
n
i
i
x x





DEFINICION

La varianza de una poblacin de N observaciones de define como el
promedio del cuadrado de las desviaciones con respecto a su media
N
x x x x , , , ,
3 2 1
K
. La varianza de la
poblacin se denota por (
2
es la letra griega sigma) y est dada por la frmula

( )
N
x
N
i
i
=

=
1
2
2

(2.5)

Se ha usado la letra mayscula N para denotar el nmero de elementos en la poblacin y se
usar la letra minscula n para el nmero de elementos en la muestra. Comnmente no se
cuenta con el total de observaciones de la poblacin entera y slo se dispone de una
muestra de observaciones tomadas de la poblacin.

As que la varianza de una muestra de n observaciones se define como
la suma de los cuadrados de las desviaciones de las observaciones respecto de su media
n
x x x x , , , ,
3 2 1
K
x ,
dividida esta suma entre (n-1). La varianza de la muestra se denota por y est dada por
la frmula
2
s


( )
1
1
2
2

=

=
n
x x
s
n
i
i
(2.6)

Por ejemplo, se puede calcular la varianza del conjunto de la muestra de n=5 observaciones
que se presentan en la tabla 2.5. El cuadrado de la desviacin de cada observacin aparece
en la tercera columna de la tabla 2.5. La suma de los cuadrados de las desviaciones es.

( ) 80 . 22
1
2
=

=
n
i
i
x x
y la varianza muestral es


( )
70 . 5
4
80 . 22
1
1
2
2
= =

=

=
n
x x
s
n
i
i









UN METODO QUE FACILITA EL CALCULO DE LA VARIANZA

Independiente del procedimiento que se use, el clculo de la varianza resulta un tanto
tedioso. Particularmente si se emplea para su clculo la regla que sugiere la definicin, es
decir, calculando cada una de las desviaciones respecto a la media como se ilustra en la
tabla 2.5, tomando los datos de sta tabla se puede ilustrar un procedimiento de clculo ms
corto, una formula equivalente a (

=

n
i
i
x x
1
2
) es
n
y
y
n
i
i
n
i
i
2
1
1
2

=
=
que es una forma
abreviada para calcular la suma de cuadrados de las desviaciones es
( )
n
y
y x x
n
i
i
n
i
i
n
i
i
2
1
1
2
1
2

=


=
= =


Tomando las observaciones del ejemplo 1.9, los clculos necesarios para calcular
(

=

n
i
i
x x
1
2
) en un procedimiento ms corto se muestra en la tabla 2.6. La primera columna
en esta tabla contiene las observaciones y la segunda columna las observaciones elevadas
al cuadrado

i
x
2
i
x
5 25
7 49
1 1
2 4
4 16
19 95
Tabla 2.6 Para el calculo simplificado de ( )
=

n
i
i
x x
1
2


Sustituyendo en la frmula se tiene que

( )
( )
8 . 22
5
361
95
5
19
95
2
2
1
1
2
1
2
= = =

=


=
= =
n
y
y x x
n
i
i
n
i
i
n
i
i


Comparando ste resultado con el que se encontr en el ejemplo 1.9 resulta que es
exactamente igual.



Por lo tanto una frmula equivalente para calcular la varianza de una muestra es

1
2
1
1
2
2

=
=
n
n
x
x
s
n
i
n
i
(2.7)

EJEMPLO 2.12

Encontrar la varianza de los datos de la tabla 2.4, utilizando las frmulas 2.6 y 2.7

Para utilizar la frmula 2.6 primero encontremos la media de la muestra, es decir 2440 = x

Por lo que desarrollando la frmula 1.6 se tiene que

( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) (
( )
)
11
) 2440 2380 ( 2440 2420 ) 2440 2825 (
2440 2440 2440 2630 2440 2390
2440 2210 2440 2255 2440 2380
2440 2550 2440 2450 2440 2350
1
2 2 2
2 2 2
2 2 2
2 2 2
1
2
2
+ +
+ + + +
+ + + +
+ + +
=

=

=
n
x x
s
n
i
i


11
3600 400 148225
0 36100 2500 52900 34225 3600 12100 100 8100
+ + +
+ + + + + + + + +
=

90909 . 27440
11
301850
= =

Para utilizar la frmula 2.7, se podre hacer de la siguiente forma, primero elevar cada dato
al cuadrado y se acomoda como lo muestra la tabla 6.7.













Salario datos originales datos al cuadrado

i
x
2
i
x
1 2350 5522500
2 2450 6002500
3 2550 6502500
4 2380 5664400
5 2255 5085025
6 2210 4884100
7 2390 5712100
8 2630 6916900
9 2440 5953600
10 2825 7980625
11 2420 5856400
12 2380 5664400
Totales 29280 71745050
Tabla 2.7 Para el calculo simplificado de
1
2
1
1
2
2

=
=
n
n
x
x
s
n
i
n
i


Sustituyendo los valores en la frmula 2.7, se tiene que


( )
90909 . 27440
11
301850
11
71443200 71745050
11
12
857318400
71745050
11
12
29280
71745050
1
2
2
1
1
2
2
= =

=
=

=
=
n
n
x
x
s
n
i
n
i



Por lo tanto la varianza muestral es:

90909 . 27440
2
= s







2.5 LA DESVIACION ESTANDAR

La desviacin estndar se define como la raz cuadrada positiva de la varianza. Usaremos s
para representar la desviacin estndar de la muestra y para la desviacin estndar de la
poblacin, es decir:

Desviacin estndar de una muestra =
2
s s =
Desviacin estndar de una poblacin =
2
=

As la desviacin estndar del ejemplo 1.10 es 6523 . 165 90909 . 27440 = = s

La desviacin estndar se mide con las mismas unidades que las de los datos originales. Por
esta razn la desviacin estndar se compara con ms facilidad con el promedio y otros
conceptos estadsticos que tienen las mismas unidades que los datos originales.

Para identificar el significado prctico de la desviacin estndar, mencionaremos un
interesante y til teorema desarrollado por el matemtico ruso Tchebysheff, el cual dice:
Dado un numero k mayor o igual que uno, y un conjunto de observaciones
, al menos (
n
x x x x , , , ,
3 2 1
K
2
1
1
k
) de las observaciones caen dentro de k desviaciones
estndar de la media.

Este teorema se refiere a cualquier conjunto de observaciones; por lo tanto se puede aplicar
tanto a una muestra como a la poblacin. Con fines de ilustracin se usar la notacin
correspondiente a la poblacin pero tengamos presente que lo discutido en este caso se
aplica de manera idntica a la muestra. La idea contenida en el teorema se ilustra en la
figura 2.7, en sta figura se construye un intervalo mediante una distancia de k a ambos
lados de la media. El resultado del teorema es cierto para cualquier nmero k siempre y
cuando ste sea mayor o igual a uno. Entonces dentro de este intervalo se tendr una
fraccin del (
2
1
1
k
) del nmero total de observaciones n.










Para entender mejor el resultado del teorema, se calculan algunos valores de la fraccin
(
2
1
1
k
). Para k=1 el teorema afirma que cuando menos 0
) 1 (
1
1
2
= de las observaciones
caen en el intervalo de ) ( a ) ( + , resultado que no proporciona informacin en
absoluto. Pero para k=2,
4
3
) 2 (
1
1
2
= de las observaciones caen en el intervalo de
) 2 ( a ) 2 ( + . Pero para k=3,
9
8
) 3 (
1
1
2
= de las observaciones caen en el
intervalo de ) 3 ( a ) 3 ( + es decir, cuando menos
9
8
de las observaciones caen
dentro de 3 desviaciones estndar de la media. Aunque k=2 y k=3 se usan comnmente al
aplicar este teorema, el nmero k no tiene que ser entero.



Figura 2.7 Ilustracin del teorema de Tchebysheff

Ejemplo 2.13

La media y la varianza de una muestra de n=25 son 75 y 100 respectivamente. Usar el
teorema de Tchebysheff para describir la distribucin de las observaciones.

Solucin

Se tiene que 75 = x y . La desviacin estndar es 100
2
= s 10 100 = = s . La
distribucin de las observaciones est centrada en 75 = x y el teorema de Tchebysheff
establece que:
1. Al menos
4
3
de las 25 observaciones caen en el intervalo
) 2 ( s x = [752(10)], esto es, de 55 a 95.
2. Al menos
9
8
de las 25 observaciones caen en el intervalo
) 3 ( s x = [753(10)], esto es, de 45 a 105.
El nfasis hecho en el trmino al menos se debe a que el resultado del teorema es un tanto
conservador ya que se aplica a cualquier conjunto de observaciones. En la mayora de los
casos la proporcin de observaciones que caen en el intervalo correspondiente excede a
2
1
1
k
.

2.6 REGLA EMPIRICA

Se presenta ahora una regla que describe adecuadamente la variabilidad de una distribucin
acampanada y razonablemente bien la variabilidad de otras distribuciones que se acercan a
esta forma. Una buena cantidad de mediciones de caractersticas de seres vivos y otras
variables que se observan en la naturaleza siguen una distribucin en forma de campana u
otra forma similar a sta. De aqu la importancia prctica de la presente regla.

El examen de muchos conjuntos de datos sugiere una regla emprica que sirve en la
interpretacin de una desviacin estndar. Describe exactamente la variabilidad de una
distribucin particular con forma de campana o acampanada conocida como distribucin
normal. Tambin proporciona una descripcin excelente de la variacin de muchos otros
tipos de datos que poseen distribuciones de frecuencias relativas con forma de pico de
montaa. Por tal razn se llama REGLA EMPIRICA (de la distribucin normal)

DEFINICION

Dada una distribucin de mediciones que tiene aproximadamente el perfil o forma
acampanada como la figura 2.8, entonces,

1) El intervalo s x contendr aproximadamente el 68% de las mediciones
2) El intervalo s x 2 contendr aproximadamente el 95% de las mediciones
3) El intervalo s x 3 contendr casi la totalidad de las mediciones aproximadamente el
99% de las mediciones

La distribucin acampanada de la figura 2.8 se conoce como la distribucin normal. La
importancia de la regla emprica consiste en su utilidad para describir adecuadamente la
variacin de un gran nmero de tipos de datos.

EJEMPLO 2.14

Se realiz un estudio de tiempo para determinar el tiempo necesario para efectuar una
operacin especfica en una fbrica o planta manufacturera. El tiempo (en minutos)
necesario para efectuar la operacin completa se midi para cada uno de n=40 trabajadores
la media y la desviacin estndar fueron iguales a 12.8 y 1.7 minutos respectivamente.

Solucin

Para describir los datos calculamos los intervalos apoyndonos en la regla emprica:

7 . 1 8 . 12 = s x o bien 11.1 a 14.5
4 . 3 8 . 12 ) 7 . 1 ( 2 8 . 12 2 = = s x o bien 9.4 a 16.2
1 . 5 8 . 12 ) 7 . 1 ( 3 8 . 12 3 = = s x o bien 7.7 a 17.9

De acuerdo con la regla emprica se espera que aproximadamente el 68% de las
observaciones estarn en el intervalo de 11.1 a 14.5, 95% de las observaciones estarn en el
intervalo de 9.4 a 16.2, y casi todas ellas en el intervalo de 7.7 a 17.9.



Figura 2.8 La distribucin normal


2.7 COEFICIENTE DE VARIACION

En algunos casos nos puede interesar una medida estadstica descriptiva que indique lo
grande que es la desviacin estndar en comparacin con la media. A s cuando se desea
expresar la variacin como una fraccin de la media se utiliza una medida de variacin
relativa, denominada como coeficiente de variacin muestral y se representa como:

(100
media
estndar desviacin
cv = ) (2.8)

Utilizando la desviacin estndar del ejemplo 2.12, tenemos que el coeficiente de variacin
es:
( ) ( ) 789 . 6 100
2440
6523 . 165
100 = = =
media
estndar desviacin
cv



Para los datos de salario el coeficiente de variacin es de 6.8 (redondeando), es decir, la
desviacin estndar de esta muestra slo es del 6.8% del valor de la media de la muestra.
En general, el coeficiente de variacin es un estadstico til para comparar la dispersin de
conjuntos de datos que tienen distintas desviaciones estndar y distintos promedio.

Por ejemplo para una muestra donde su promedio muestral es de 44, y una desviacin
estndar muestral de 8. El coeficiente de variacin es de:

( ) ( ) 1818 . 18 100
44
8
100 = = =
media
estndar desviacin
cv

Redondeando resulta entonces que el coeficiente de variacin de de 18.2. Interpretando
estos datos, el coeficiente de variacin nos dice que la desviacin estndar de la muestra es
el 18.2% del valor de la media de la muestra.

Vous aimerez peut-être aussi