Académique Documents
Professionnel Documents
Culture Documents
Definición
La varianza de un conjunto de valores es una medida de variación igual al
cuadrado de la desviación estándar.
Varianza muestral: s2 el cuadrado de la desviación estándar s.
Varianza poblacional: s2 el cuadrado de la desviación estándar poblacional s.
Notación
s = desviación estándar muestral
s2 = varianza muestral
s = desviación estándar poblacional
s2 = varianza poblacional
Nota: Los artículos de las revistas y los reportes científicos suelen usar DE (o
bien, SD, por standard deviation en inglés) para la desviación estándar y VAR
para la varianza.
98 Capítulo 3 Estadísticos para describir, explorar y comparar datos
Cuando calcule una desviación estándar por medio de las fórmulas 3-4 o 3-5,
la regla práctica del intervalo resulta útil para verificar el resultado, pero debe estar
3-3 Medidas de variación 99
2.4 34 34
2.4
0. 1 0.1
13.5 13.5
—x — 3s —
x — 2s —x — s x x—+ s —
x + 2s —
x + 3s
Frase Significado
Dentro de 1 desviación estándar de la media Entre sx 2 sd y sx 1 sd
Teorema de Chebyshev
La proporción (o fracción) de cualquier conjunto de datos que está dentro de
K desviaciones estándar a partir de la media siempre es al menos 1 — 1>K2,
donde K es cualquier número positivo mayor que 1. Para K = 2 y K = 3 te-
nemos las siguientes aseveraciones:
Al menos 3>4 (o el 75%) de todos los valores están dentro de 2 desviacio-
nes estándar de la media.
Al menos 8>9 (o el 89%) de todos los valores están dentro de 3 desvia-
ciones estándar de la media.
nuestra cuenta. La fórmula 3-5 también elimina los errores de redondeo interme-
dios que se introducen en la fórmula 3-4, cuando no se utiliza el valor exacto de la
media. La fórmula 3-5 se aplica en calculadoras y programas, ya que requiere sólo
de tres lugares de memoria (para n, Sx y Sx 2d en vez de un lugar de memoria para
cada valor del conjunto de datos.
¿Para qué definir una medida de variación en la forma descrita por la fórmula
3-4? Al medir la variación en un conjunto de datos muestrales, parece lógico ini-
ciar con las cantidades individuales con las que los valores se desvían de la media.
Para un valor particular x, la cantidad de desviación es x 2 x, que es la diferencia
entre el valor individual x y la media. Para los tiempos de espera de 1, 3 y 14, la
media es 6.0, de manera que las desviaciones de la media son —5, —3 y 8. Sería
bueno combinar de alguna forma esas desviaciones en un solo valor colectivo. La
simple suma de las desviaciones no funciona, ya que la suma siempre será cero.
Para obtener un estadístico que mida la variación (en vez de que siempre sea ce-
ro), necesitamos evitar la cancelación de números positivos y negativos. Un méto-
do consiste en sumar valores absolutos, como en S u x 2 x u . Si calculamos la me-
dia de esta suma, obtendremos la desviación media absoluta (DMA), que es la
distancia media de los datos con respecto a la media.
Sux2 xu
desviación media absoluta 5
n
Puesto que los tiempos de espera de 1, 3 y 14 tienen desviaciones de —5, —3
y 8, la desviación media absoluta es (5 + 3 + 8)>3 = 16>3 = 5.3.
una función para la desviación estándar, pero casi nunca para la desviación me-
dia absoluta.
¿Por qué dividir entre n —1? Después de obtener todos los valores individua-
les de sx 2 xd2, los combinamos calculando su suma y luego obtenemos un pro-
medio dividiéndola entre n — 1. Dividimos entre n — 1 porque existen solamente
n — 1 valores independientes. Es decir, con una media dada, sólo a n — 1 valores
se les puede asignar un número con libertad, antes que se determine el último va-
lor. Vea el ejercicio 38, que ofrece números concretos, los cuales ilustran cómo la
división entre n — 1 es mejor que la división entre n. Este ejercicio demuestra que
si s2 se definiera con la división entre n, de forma sistemática subestimaría el valor
de s2, por lo que lo compensamos al incrementar su valor general haciendo que su
denominador sea más pequeño (usando n — 1 en vez de n). El ejercicio 38 de-
muestra cómo la división entre n — 1 provoca que la varianza muestral s2 iguale el
valor de la varianza poblacional s2, mientras que la división entre n causa que la
varianza muestral s2 subestime el valor de la varianza poblacional s2.
El paso 6 del procedimiento para calcular la desviación estándar implica sacar
una raíz cuadrada. Esto se hace para compensar la elevación al cuadrado que se
realizó en el paso 3. Una consecuencia importante de la obtención de la raíz cua-
drada es que la desviación estándar tiene las mismas unidades de medición que
los valores originales. Por ejemplo, si el tiempo de espera de los clientes está da-
do en minutos, la desviación estándar de tales tiempos también estará dada en mi-
nutos. Si nos detuviéramos en el paso 5, el resultado estaría dado en unidades de
“minutos cuadrados”, que es un concepto abstracto sin relación directa con la rea-
lidad.
Definición
El coeficiente de variación (CV) de un conjunto de datos muestrales o po-
blacionales, expresado como porcentaje, describe la desviación estándar en
relación con la media. El coeficiente de variación está dado de la siguiente
forma:
Muestra Población
s s
CV 5 ? 100% CV 5 ? 100%
x m
Después de estudiar esta sección, debería quedar claro que la desviación están-
dar es una medida de variación entre valores. A partir de datos muestrales, usted
debería ser capaz de calcular el valor de la desviación estándar, así como de inter-
pretar los valores de las desviaciones estándar que calcule. También debería saber
que para conjuntos de datos comunes, es inusual que un valor difiera de la media
por más de dos o tres desviaciones estándar.
2. Comparación de la variación. ¿Cuáles datos cree usted que tengan mayor varia-
ción: las puntuaciones de CI de 30 estudiantes de un curso de estadística o las puntua-
ciones de CI de 30 individuos que ven una película? ¿Por qué?