Vous êtes sur la page 1sur 23

Publicado en: Morales Vallejo, Pedro (2008) Estadstica aplicada a las Ciencias Sociales.

Madrid: Universidad Pontificia Comillas (edit@pub.upcomillas.es)

Medidas descriptivas bsicas de tendencia central y de dispersin


Universidad Pontificia Comillas Madrid Facultad de Ciencias Humanas y Sociales Pedro Morales Vallejo (ltima revisin, 26 de Octubre de 2007)

ndice
1. Medidas de tendencia central ..................................................................................................... 1.1. La media aritmtica .............................................................................................................. 1.2. La mediana............................................................................................................................ 1.3. La moda ................................................................................................................................ 1.4. Comparacin de las medidas de tendencia central................................................................ 2. Medidas de dispersin: su utilidad.............................................................................................. 2.1. La desviacin media ............................................................................................................ 2.2. La desviacin tpica y la varianza........................................................................................ 2.2.1. La desviacin tpica.................................................................................................... 2.2.2. La varianza ................................................................................................................. 2.2.3. Ventajas de la desviacin tpica y de la varianza como medidas de dispersin ......... 2.2.4. Propiedades de la desviacin tpica y de la varianza.................................................. 2.2.5. Usos e interpretaciones de la desviacin tpica .......................................................... 2.2.6. Media y desviacin tpica de los datos dicotmicos .................................................. 2.2.7. Combinacin de medias y desviaciones tpicas.......................................................... 1 Para combinar dos o ms medias.......................................................................... 2 Para combinar dos o ms desviaciones tpicas o varianzas ................................. a) Muestras de tamao desigual........................................................................... b) Muestras de idntico tamao ........................................................................... 2.3. El coeficiente de variacin (V) ............................................................................................ 2.4. La desviacin semi-intercuartlica ....................................................................................... 2.5. La amplitud o recorrido ....................................................................................................... 2.6. Relacin entre la amplitud y la desviacin tpica ................................................................. 3. Medidas descriptivas bsicas: resumen....................................................................................... 3 3 3 3 4 5 6 8 8 9 10 10 11 13 16 16 17 17 17 19 20 21 21 23

Medidas descriptivas bsicas

1. Medidas de tendencia central 1.1. La media aritmtica


Todos estamos familiarizados con la media aritmtica como valor representativo de un conjunto de puntuaciones; con frecuencia describimos un grupo de manera sinttica diciendo cul es su media; si estamos hablando de una clase no es lo mismo decir esta clase tiene una media de 7, que decir en esta clase la media es 5 La frmula de la media no necesita demostracin porque expresa el mismo concepto de media: cunto correspondera a cada sujeto (u objeto) si todos tuvieran el mismo valor: sumamos todos los valores y dividimos esta suma por el nmero de sujetos. Media aritmtica: X =
X

[1]

El smbolo habitual de la media es el mismo utilizado en las puntuaciones directas (generalmente una X mayscula) con una raya horizontal encima (pero tambin se utilizan otros smbolos como la letra M). De la media podemos enunciar dos propiedades que tambin nos podran servir para definirla. a) Si a cada sujeto le calculamos su diferencia con respecto a la media (X- X ), la suma de estas diferencias es igual a cero: la suma de las diferencias positivas es igual a la suma de las diferencias negativas. b) Si estas diferencias con respecto a la media las elevamos al cuadrado (y todas sern positivas) y las sumamos, esta suma ser menor que la suma de las diferencias, tambin elevadas al cuadrado, con respecto a cualquier otro valor distinto de la media. Esta propiedad de la media nos permite definirla como el valor central que hace que la suma de los cuadrados de las desviaciones con respecto a este valor sea el mnimo posible. El mtodo de localizar la media buscando el valor mnimo de la suma de cuadrados (de las diferencias con respecto a la media elevadas al cuadrado) recibe el nombre de mtodo de los cuadrados mnimos; no tiene especial importancia ahora, pero s lo tiene en otras aplicaciones de la estadstica (como en la recta de regresin) y es til estar ya familiarizados con este trmino.

1.2. La mediana
La mediana es el valor que divide las frecuencias en dos mitades iguales: por encima de la mediana y por debajo de la mediana encontramos el mismo nmero de sujetos. La mediana es otro valor de tendencia central muy til. La mediana podemos buscarla, al menos de manera aproximada, por simple inspeccin de los datos en una distribucin de frecuencias; el clculo preciso lo veremos en el contexto de los percentiles (la mediana corresponde al percentil 50: el valor que deja por debajo a la mitad de la muestra). 1.3. La moda La moda es simplemente la puntuacin que tiene una mayor frecuencia (donde encontramos un mayor nmero de casos). Como medida de tendencia central es muy poco rigurosa. Adems podemos encontrarnos con que puede haber ms de una puntuacin con idntico nmero de casos, o al menos dos o ms puntuaciones

Medidas descriptivas bsicas

con una frecuencia que superan notablemente al resto de los valores de la distribucin (y por eso hablamos de distribuciones bimodales, o plurimodales; si dibujamos la curva o un polgono de frecuencias, nos encontraremos con dos o ms picos pronunciados). 1.4. Comparacin de las medidas de tendencia central Los conceptos de media, mediana y moda son sencillos; lo que ms nos interesa ahora es apreciar sus diferencias y caractersticas; sobre todo nos interesa comparar la media y la mediana. 1. Cuando la distribucin no es normal (no es simtrica) y hay ms sujetos por encima o por debajo de la media, la mediana es arrastrada hacia la zona de la distribucin donde hay un mayor nmero de sujetos (ejemplos en la tabla 1).
moda = 2 (puntuacin con mayor nmero de casos) mediana = 2.5 (idntico nmero de sujetos por encima y por debajo) moda = 7

* * 1

* * * * 2

media = 3.42

* * 3 4

* * * 6

* 7

* * * * 1

mediana = 5.5 media = 4.5

* 4

* 5

* 6

* * * * * 7

Cuando hay ms sujetos por debajo de la media que por encima (como en este ejemplo, 8 por debajo y 4 por encima) la mediana es menor que la media

Cuando hay menos sujetos por debajo de la media que por encima (como en este ejemplo;5 por debajo y 7 por encima) la mediana es mayor que la media

Tabla 1 Cuando la mediana es distinta de la media (la distribucin no es simtrica, est sesgada hacia un lado de la distribucin), el valor de la mediana nos indica el sesgo de la distribucin: si la mediana es mayor, hay ms sujetos en la parta alta de la distribucin, y si la mediana es menor que la media, hay ms sujetos en la parte baja de la distribucin. Precisamente en esta diferencia entre la media y la mediana se basan algunas medidas de asimetra de la distribucin. 2. La mediana no se ve afectada por las puntuaciones extremas de la distribucin. Esta caracterstica de la mediana es la que hay que tener en cuenta para valorar cundo nos puede interesar ms la mediana que la media (o adems de la media) como medida de tendencia central. Lo vemos fcilmente en estos dos ejemplos ficticios (tabla 2):
Caso 1 Caso 2

6 |||||||||| (10) 5 ||||| (5) 4 ||||| (5) 3 2 1

La mediana es 5.5; es la puntuacin que divide a la muestra en dos mitades iguales (10 sujetos por encima y 10 sujetos por debajo); la media es 5.25

6 |||||||||| 5 ||||| 4 3 2 1 |||||

(10) (5)

La mediana sigue siendo 5.5 (10 sujetos por encima y 10 sujetos por debajo), aunque la media baja a 4.5

(5)

Tabla 2 Nos interesar utilizar la mediana cuando creamos que los sujetos con puntuaciones extremas desvirtan la media en cuanto medida representativa de dnde est un grupo; las puntuaciones muy extremas (y que pueden ser atpicas) influyen en la media (en el clculo de la media entran todas las puntuaciones), pero no en la mediana. ste puede ser el caso de los tems de evaluacin del profesorado; un pequeo nmero de alumnos poco representativos puede sesgar la media en una direccin (positiva o

Medidas descriptivas bsicas

negativa) que no refleja el sentir o la opinin claramente mayoritaria de un grupo. En cualquier caso siempre es posible aportar ambos datos, la media y la mediana. La moda (en los dos casos de la tabla 2 corresponde a la puntuacin 6) tampoco se ve afectada por puntuaciones muy extremas, pero la alternativa de inters a la media suele ser la mediana, no la moda. En general nos interesar la mediana en vez de la media cuando los datos sean claramente ordinales y siempre que interese no tener en cuenta puntuaciones muy extremas. La mediana es el valor utilizado en algunos anlisis especficos1. 3. La media se presta a muchos ms anlisis estadsticos de inters. Esta es una ventaja clara, y frecuentemente decisiva, de la media sobre las otras medidas de tendencia central, y es la que utilizaremos rutinariamente; adems en el clculo de la media se utiliza toda la informacin disponible. Esta razn tiene ms peso en estadstica inferencial, cuando pretendemos inferir la media de una poblacin (al menos ver entre qu limites probables se encuentra) a partir de los datos de una muestra; con este planteamiento (y en otros semejantes) solemos utilizar la media; con un propsito meramente descriptivo utilizaremos la medida que ms nos convenga (o ms de una). 4. En la distribucin normal coinciden los valores de la media, la mediana y la moda. En los ejemplos puestos hasta ahora, la media, la mediana y la moda tienen valores distintos; cuando la distribucin es normal (simtrica, acampanada) los tres valores de tendencia central son idnticos: la media es tambin el valor con un mayor nmero de sujetos y divide a la muestra en dos mitades iguales, como podemos ver en la distribucin de frecuencias de la tabla 3

9 8 7 6 5 4 3 2 1

| ||| |||| |||||||| media |||||||||||| 5 = mediana |||||||| moda |||| ||| |

Tabla 3
Como veremos a continuacin, cada medida de tendencia central se utiliza junto con otra medida de dispersin o de variabilidad, que completa el tipo de informacin o resumen aportado por estas medidas de tendencia central.

2. Medidas de dispersin: su utilidad


Todos estamos familiarizados con las medidas de tendencia central, como lo es la media aritmtica. Es muy normal describir grupos o resultados calculando la media. Hemos visto otras medidas de tendencia central, como son la mediana (la puntuacin que divide al grupo en dos mitades iguales) y la
1 La mediana se utiliza en el anlisis de tems en las escalas de Thurstone y para determinar las puntuaciones de corte (apto/no apto) cuando varios jueces examinan los tems de una prueba objetiva (mtodos de Angoff y Nedelsky); son temas que no tratamos aqu, pero que ejemplifican la utilidad de la mediana.

Medidas descriptivas bsicas

moda o puntuacin ms frecuente. Sin embargo la medida ms utilizada como dato descriptivo que resume dnde est un grupo es la media aritmtica. La limitacin de la media aritmtica (y de otras medidas semejantes) como dato que describe adecuadamente los resultados obtenidos en un grupo, podemos verlo con un sencillo ejemplo. Imaginemos que a dos clases (de cuatro alumnos cada una, para simplificar el ejemplo) les ponemos un examen de 20 preguntas objetivas. Cada pregunta puede estar bien (y vale 1) o mal (y vale 0). Obtenemos los resultados puestos en la tabla 4 y vemos que los dos grupos tienen idntica media.
Grupo A 20 20 0 0 media = 10 Grupo B 10 10 10 10 media = 10

Tabla 4 Podemos decir que se trata de dos grupos muy parecidos porque tienen la misma media? No, son grupos muy distintos. El grupo A es muy heterogneo, en este grupo A se puede decir que hay dos subgrupos muy diferenciados; el grupo B en cambio es muy homogneo, todos tienen idntica puntuacin. Las medidas de dispersin complementan la informacin que nos da tanto la media (aqu vamos a poner el nfasis por ser la medida ms til y utilizada) como la mediana o la moda; estas medidas de dispersin expresan en qu grado los grupos son ms bien homogneos, con los sujetos muy parecidos unos a otros (como en el grupo B), o ms bien se trata de grupos heterogneos, con mayores diferencias entre los sujetos (como en el grupo A). La medida de dispersin ms til y utilizada es la desviacin tpica, que se utiliza siempre que se calcula la media como la medida de tendencia central. Las medidas de dispersin que vamos a ver son las siguientes: a) En relacin con la media: 1. La desviacin media, que se utiliza poco pero es sencilla y nos sirve de introduccin para la desviacin tpica. 2. La desviacin tpica y la varianza (que es la desviacin tpica elevada al cuadrado), que son las ms importantes; 3. El coeficiente de variacin, que se calcula a partir de la media y de la desviacin tpica, y que tiene su utilidad especfica en determinadas situaciones. La desviacin semi-intercuartlica, que expresa la dispersin o heterogeneidad en el 50% central del grupo (y en la que, lo mismo que la mediana, se prescinde de las puntuaciones extremas). La amplitud o recorrido, de menor importancia que las otras medidas de dispersin.

b) En relacin con la mediana c) En relacin con la moda:

2.1. La desviacin media


La medida de dispersin ms sencilla y fcil de comprender es la desviacin media; aunque apenas se utiliza es til comprender el significado de la desviacin media como punto de partida sobre todo para entender la desviacin tpica, que es la medida de dispersin ms utilizada. La desviacin media la entenderemos fcilmente comparando las dos representaciones puestas la figura 1.

Medidas descriptivas bsicas

Grupo A

media = 5
d=-2 d = -2

Grupo B
d = -3

media = 5
d=+3

d =- 1 d = -1

d =- 2

d=+2

Diferencia media con respecto a la media grupal = 1.5 Diferencia media con respecto a la media grupal = 2.5

Figura 1 1. Tenemos dos grupos, A y B, cada uno con cuatro sujetos. Las puntuaciones del grupo A son 3, 4, 6 y 7. Las puntuaciones del grupo B son 2, 3, 7 y 8. 2. Ambos grupos tienen idntica media, X = 5 3. Cada sujeto tiene una desviacin (d) con respecto a la media ( X ) de su grupo: unos porque no llegan a la media y otros porque se pasan y tienen una puntuacin superior a la media. Si un sujeto tuviera una puntuacin idntica a la media, su desviacin valdra d = 0, pero sigue siendo vlido el concepto de desviacin con respecto a la media (cero en este caso).

4. Si dentro de cada grupo sumamos las desviaciones individuales (en valores absolutos, prescindiendo del signo) y dividimos esta suma por el nmero de sujetos, tendremos la desviacin media del grupo (d ) :
d=

d N

[2] 2 +1 + 1 + 2 = 1.5 4 3+ 2 + 2 + 3 = 2.5 4

Desviacin media del grupo A = Desviacin media del grupo B =

5. Aunque ambos grupos tienen idntica media, son grupos muy distintos. A simple vista se observa que el grupo A es ms homogneo que el grupo B; en el grupo B los sujetos se apartan ms de la media. Aunque los dos grupos tienen idntica media, la dispersin del grupo B es mayor que la dispersin del grupo A (o, lo que es lo mismo, el grupo A es ms homogneo que el grupo B). Consecuentemente el grupo A tiene una desviacin media ms pequea. La desviacin media nos indica por lo tanto el grado de dispersin, de homogeneidad, de parecido de unos sujetos a otros. Una misma media de 5 puede proceder de un grupo en el que todos tienen un 5 (dispersin = 0, grupo muy homogneo, todos los sujetos son iguales), y una media de 5 tambin puede proceder de un grupo en el que la mitad de los sujetos tuvieran un 0 y la otra mitad un 10: una misma media puede corresponder a grupos muy distintos y dar por lo tanto una informacin descriptiva incompleta que se presta a conclusiones falsas o equvocas (por ejemplo, una renta media per capita muy elevada es compatible con importantes bolsas de pobreza en la poblacin).

Medidas descriptivas bsicas

2.2. La desviacin tpica y la varianza 2.2.1. La desviacin tpica


1. En la prctica, y como medida de dispersin, no se usa la desviacin media (aunque inicialmente se entiende con mayor facilidad) sino preferentemente la desviacin tpica, que es otra medida que indica igualmente el grado de dispersin o de heterogeneidad de las puntuaciones individuales. 2. Para calcular la desviacin tpica las desviaciones individuales se elevan al cuadrado antes de sumarlas (y con esta operacin desaparecen los signos negativos), y despus de dividir esta suma por el nmero de sujetos, se extrae la raz cuadrada. El smbolo habitual de la desviacin tpica es la letra ese griega minscula (sigma: ; tambin es comn denominar la desviacin tpica por el nombre del smbolo, sigma, o desviacin estndar, del ingls standard deviation).2
Frmulas

1 Cuando se trata de la desviacin tpica que describe la dispersin de una muestra (que es lo que hacemos normalmente):
(X - X )
2

[3]

= desviacin tpica de la muestra = sumatorio, suma de (letra ese griega mayscula) X = cada una de las puntuaciones individuales (X mayscula), X = media aritmtica N = nmero de sujetos

La frmula de la desviacin tpica tambin suele expresarse as:


= d2

(d = desviaciones con respecto a la media)

o tambin

x2

La letra x (equis minscula) es un smbolo habitual de la puntuacin diferencial de cada sujeto, que es simplemente la desviacin o diferencia de cada sujeto con respecto a la media, d = x = X- X 2 Cuando se trata de la estimacin de la desviacin tpica de la poblacin representada por una muestra se utiliza la frmula [4].
=

(X - X) 2 N -1

[4]

La frmula es casi idntica; dividimos por N -1 (en vez de por N) con lo que el valor de la desviacin tpica ser algo mayor.

En este caso se trata de la estimacin de la desviacin tpica de una poblacin calculada a partir de los datos de una muestra. Al dividir por N-1 (y disminuir el denominador) aumenta el cociente: la desviacin tpica de una poblacin suele ser mayor que la desviacin tpica de una muestra, porque al aumentar el nmero de sujetos es ms probable que haya sujetos con puntuaciones muy extremas (o muy altas o muy bajas) y consecuentemente aumentar la desviacin tpica. Con nmeros grandes apenas hay diferencia (a efectos prcticos da lo mismo dividir por 500 que dividir por 499), pero con nmeros pequeos la diferencia puede ser importante.

2 Sobre el smbolo de la desviacin tpica hacemos una observacin para evitar confusiones. Aqu utilizamos siempre la letra ese
griega minscula () como smbolo de la desviacin tpica de la muestra, que es la que vamos a utilizar habitualmente, incluso es frecuente designar a la desviacin tpica por el nombre del smbolo (sigma). Aunque no hay una prctica uniforme, s conviene advertir que tambin es frecuente utilizar este smbolo () para expresar la desviacin tpica estimada de la poblacin (N-1en el denominador), y reservar la letra s, ese latina, para expresar la desviacin tpica de la muestra (N en el denominador).

Medidas descriptivas bsicas

De la frmula [3] (dividiendo por N) a la [4] (dividiendo por N-1) y viceversa se pasa con facilidad. La desviacin tpica [3] la simbolizamos ahora como n y la desviacin tpica de la frmula [4] la simbolizamos como n-1 para evitar confusiones. El paso de [3] a [4] se capta con facilidad. Si despejamos (X - X) 2 en la frmula [3] tenemos que (X - X) 2 = N
2 n y substituyendo (X - X) 2 por N 2 en la frmula [4] tendremos que: n y de manera anloga tenemos que n = n-1 N 1 N

n-1 =

2 N n N -1

[5]

[6]

Podemos ver estas transformaciones en un sencillo ejemplo: Tenemos estas tres puntuaciones 8, 12 y 14 (N = 3) cuyas desviaciones son:
3 1 = (3.055)(.816496) = 2.494 3

n = 2.494 n-1 = 3.055

n a partir de n-1: n-1 a partir de n

n = 3.055 n-1 =

(3)(2.4944) 2 = 3 -1

18.666 = 3.055 2

De estas frmulas es de especial la [6] porque algunos programas de ordenador dan rutinariamente la desviacin tpica de la poblacin (n-1) cuando la que con frecuencia interesa es la desviacin tpica de la muestra (n).

2.2.2. La varianza
1. La varianza es simplemente la desviacin tpica elevada al cuadrado: 2 =
(X X) 2

[7]

Ya hemos visto que el numerador de la varianza (la suma de las desviaciones individuales elevadas previamente al cuadrado) puede expresarse as:
(X- X ) = N2
2

De esta manera se simplifican bastante algunas operaciones del anlisis de varianza que no vemos en este momento. Este numerador de la varianza se denomina tambin suma de cuadrados. 2. La varianza se interpreta de la misma manera que la desviacin tpica: cuantifica la dispersin de una serie de puntuaciones. La interpretacin de la desviacin tpica y de la varianza es la misma, aunque obviamente las magnitudes sern distintas. La varianza es mayor que la desviacin tpica cuando la desviacin tpica es > 1, La varianza es menor que la desviacin tpica cuando la desviacin tpica es < 1 Como dato descriptivo es ms frecuente el uso de la desviacin tpica que el de la varianza (aunque se utilizan los dos).

Medidas descriptivas bsicas

10

2.2.3. Ventajas de la desviacin tpica y de la varianza como medidas de dispersin


La razn de utilizar la desviacin tpica (o la varianza) en vez de la desviacin media (u otras medidas de dispersin como son la amplitud o la desviacin semi-intercuartlica) son varias: 1. El clculo de la desviacin tpica se basa en todas las puntuaciones. Otras medidas de dispersin, como la amplitud y la desviacin semi-intercuartlica, utilizan menos datos y dicen menos, aportan una informacin ms limitada. La amplitud (o recorrido) se basa solamente en las dos puntuaciones extremas y la desviacin semi-intercuartlica (Q) expresa la dispersin en el 50% central del grupo. Estas medidas de dispersin tambin tienen su utilidad, pero la medida que en principio es preferible utilizar la desviacin tpica. La desviacin tpica y la varianza tienen mucha estabilidad, al menos en trminos comparativos, cuando la utilizamos para estimar la variabilidad de una poblacin; cuando se calcula en varias muestras aleatorias vara relativamente poco. 2. De la relacin existente entre la desviacin tpica y la distribucin normal se derivan numerosas aplicaciones muy tiles: si conocemos en cuntas desviaciones tpicas se aparta un sujeto de la media, conocemos las probabilidades de que se d por azar esa puntuacin; as podemos detectar qu resultados, por ser muy altos o muy bajos, son muy improbables por azar. Este clculo de probabilidades es especialmente til en estadstica inferencial, ya ms en planteamientos de investigacin. Estos puntos se tratan en extensin en el lugar apropiado, al tratar ms adelante de la distribucin normal. 3. La desviacin tpica y la varianza se calculan con facilidad con sencillas calculadoras con programacin estadstica. Existen adems varios mtodos simplificados para calcular la desviacin tpica, pero estos mtodos slo dan aproximaciones y dada la facilidad con que pueden utilizarse las calculadoras, estos mtodos son ya menos tiles y justificables.

2.2.4. Propiedades de la desviacin tpica y de la varianza


La desviacin tpica y la varianza tienen adems propiedades matemticas que las hacen ms tiles. 1. Si a las puntuaciones directas les sumamos una constante, la desviacin tpica y la varianza no varan. Esto es obvio porque no varan las distancias inter-individuales. Lo podemos ver con un ejemplo (dos muestras de tres sujetos, tabla 5.).

Caso A
1 5 9 5 3.266

Caso B (= A +2)
3 7 11 11 3.266

media desviacin tpica

Tabla 5 En el caso B hemos sumado dos puntos a cada sujeto del caso A; las medias son distintas (sube en dos puntos en el caso B), pero la desviacin tpica es la misma porque las diferencias interindividuales son las mismas.

Medidas descriptivas bsicas

11

2. Si multiplicamos las puntuaciones directas por una constante, la desviacin tpica queda multiplicada por esa misma constante y la varianza queda multiplicada por el cuadrado de esa constante. Lo vemos tambin con un ejemplo: las puntuaciones del caso A las multiplicamos por 2 (tabla 6).
Caso A
1 5 9 5 3.266 10.67

Caso B (= A x 2)
2 10 18 10 6.53 (= 3.266x2) 42.67 (= 10.67x22)

media desviacin tpica varianza

Tabla 6
3. La varianza en particular tiene una propiedad que la hace sumamente til en algunos anlisis: la varianza se puede descomponer segn diversos orgenes de la variacin. Estas aplicaciones se ven en las tcnicas de anlisis de varianza.

2.2.5. Usos e interpretaciones de la desviacin tpica


1. En principio, y como ya hemos visto, la desviacin tpica describe el grado de homogeneidad de los datos: ser ms baja en la medida en que los datos estn ms prximos a la media, aumentar si hay puntuaciones extremas muy alejadas de la media, etc. Como dato puramente descriptivo suele utilizarse la desviacin tpica con preferencia a la varianza (que tambin puede utilizarse). La media y la desviacin tpica aportan datos descriptivos complementarios. Si se trata de datos escolares (y lo mismo con otros tipos de datos) permiten hacer diagnsticos rpidos de un grupo. Media baja y desviacin tpica pequea: examen difcil para todos, o el profesor califica muy bajo a todos, etc.; media baja y desviacin tpica grande puede indicar que hay un subgrupo demasiado bajo, etc.; se trata al menos de pistas razonables, pues para hacerse una idea ms cabal de la situacin habr que inspeccionar los datos (la distribucin de frecuencias). 2. Al valorar e interpretar la desviacin tpica hay que tener en cuanta de dnde vienen los datos: no es lo mismo el nmero respuestas correctas en un examen que calificaciones puestas por un profesor. Ms en concreto es interesante pensar por qu podemos encontrar desviaciones pequeas donde cabra esperar que fueran mayores. As una desviacin tpica muy pequea puede indicar: a) El grupo (el conjunto de datos) es muy homogneo, todos los sujetos (u objetos) se parecen mucho entre s. En un test de inteligencia puesto a una muestra de sujetos muy inteligentes tendremos una desviacin tpica ms pequea que la que podemos encontrar en una muestra normal, donde hay de todo. sta es la interpretacin en principio ms obvia porque es lo que expresa directamente la desviacin tpica, pero, sobre todo cuando tenemos una desviacin mucho menor de lo esperado o de lo que es usual encontrar en otras situaciones, cabe siempre el buscar alguna explicacin, como indicamos en los apartados siguientes. b) Los sujetos pueden ser potencialmente muy distintos, pero pueden tambin estar igualados por la facilidad o dificultad de la prueba (examen, test, etc.). El test o instrumento, del tipo que sea,

Medidas descriptivas bsicas

12

puede ser poco discriminante y consecuentemente no detecta diferencias que de hecho hay. El grupo puede ser muy homogneo pero slo tal como lo mide un instrumento determinado. Por ejemplo, no es lo mismo poner como respuestas de un cuestionario s o no (a lo mejor todos responden s) que poner s, ms bien s, ms bien no y no: puede suceder que los que responden s (si slo pueden escoger entre s y no) se dividan entre el s y el ms bien s. De manera semejante una desviacin tpica muy pequea en un test de conocimientos puede indicar no que el grupo es realmente muy homogneo (sujetos muy iguales) sino que el examen es muy fcil (todos o casi todos saben todo) o muy difcil (casi nadie sabe nada): puede haber diferencias en esos conocimientos que no se detectan con ese test; el grupo es ms heterogneo de lo que manifiesta esa desviacin tpica pequea. c) Si se trata de calificaciones, una desviacin tpica pequea puede indicar que el profesor matiza poco, pone notas muy iguales. En general una desviacin tpica pequea puede indicar que el procedimiento o instrumento utilizado para recoger los datos no recoge suficientemente diferencias que de hecho existen. El no detectar diferencias repercute por otra parte en otros anlisis estadsticos (por ejemplo en el clculo de coeficientes de correlacin: no se detectan relaciones si no hay diferencias claras entre los sujetos). 3. No hay un valor ideal de la desviacin tpica que pueda servir de referencia; cundo es grande o pequea se aprecia comparando unas con otras. Dos desviaciones tpicas pueden compararse entre s directamente (lo mismo que dos varianzas) si provienen de datos comparables (unidades comparables, la misma escala mtrica). En ocasiones puede ser de utilidad conocer cul es el valor mximo posible de la desviacin tpica; este valor mximo posible es igual a:
puntuacin mxima posible puntuacin ms baja posible 2 [8]

Por ejemplo hacemos un pregunta con cinco respuestas (5 = totalmente de acuerdo, 4 = de acuerdo, 3 = indiferente, 2 = en desacuerdo y 1 = en total desacuerdo), la puntuacin mxima posible es 5 y la puntuacin ms baja posible es 1; en este caso la desviacin tpica mayor posible es (5 - 1)/2 = 2. Esta referencia suele ser poco til porque este valor mximo es difcilmente alcanzable en la mayora de las situaciones. Cuando los valores son 1 y 0 (s o no, bien o mal, etc.), la desviacin tpica mayor posible es (1 - 0)/2 = .50. Esta referencia con este tipo de datos es especialmente til, porque en estos casos (respuesta 1 0) s es ms frecuente que la desviacin tpica obtenida sea la mayor posible o se aproxime mucho a la mayor posible (ampliamos estos comentarios al tratar despus de las puntuaciones dicotmicas). 4. La desviacin tpica indica qu puntuacin parcial pesa ms en una media final; a mayor desviacin tpica, mayor peso en la media final. En determinadas situaciones esta informacin puede ser muy til. El que la puntuacin parcial con una mayor desviacin tpica pese ms en una media final es por otra parte lgico: si todos reciben la misma o casi la misma puntuacin (lo que supone una desviacin tpica muy pequea), no se establecen diferencias; si por el contrario se asignan puntuaciones muy distintas a los sujetos (desviacin tpica grande) en una puntuacin parcial, las diferencias en la media final dependern ms de esas ocasiones en las que se asignaron puntuaciones (o notas) muy distintas. Lo podemos ver intuitivamente con un ejemplo ficticio (tabla 7). Supongamos que tres examinadores (A, B y C) califican a tres sujetos en lo mismo (entre parntesis el nmero de orden de cada sujeto con cada examinador y en la media final):

Medidas descriptivas bsicas

13

sujetos
sujeto 1 sujeto 2 sujeto 3 10 5 0

A
(1) (2) (3) 4.08

Examinadores B
4 5 6 (3) (2) (1) 0.82 5 6 7

C
(3) (2) (1) 0.82

media final

6.3 5.3 4.3

(1) (2) (3)

Desv. tp.

Tabla 7 Podemos observar que el orden (entre parntesis) de los alumnos en la media final coincide con el orden del examinador A, que es el que tiene una mayor desviacin tpica. El sujeto n 1, el de media final ms alta, es el mismo que el del examinador A, a pesar de que este examinador A est en minora ya que para los examinadores B y C el sujeto n 1 es el que tiene una calificacin ms baja. Pero como el examinador A ha diferenciado ms sus calificaciones, est influyendo ms en quin queda en el primer o en el ltimo lugar. El que la puntuacin parcial con una mayor desviacin tpica tenga tambin un peso mayor en la media final puede ser de especial importancia en algunas ocasiones, como cuando del nmero de orden de los examinados se siguen consecuencias importantes (concesin de becas, procesos de admisin o cualquier otro tipo de ventaja). Los que califican de manera muy uniforme, sin diferenciar mucho, influyen menos: sumar a todos una misma cantidad no establece diferencias. Lo mismo sucede si no se trata de examinadores distintos, sino del mismo examinador pero que ha calificado de manera muy distinta en distintas ocasiones o con distintos tipos de pruebas. Este peso distinto de las puntuaciones directas, segn sea mayor o menor la desviacin tpica, se puede obviar de varias maneras; sobre todo utilizando puntuaciones tpicas como veremos ms adelante. 5. La desviacin tpica entra en otros muchos clculos que iremos viendo (fiabilidad, error tpico, error tpico de la media, contraste de medias, etc.). 6. La desviacin tpica permite el clculo de las puntuaciones tpicas individuales de las que tratamos ms adelante. Adems la relacin entre la desviacin tpica, y las puntuaciones tpicas, y la distribucin normal nos abrir la puerta a la estadstica inferencial.

2.2.6. Media y desviacin tpica de los datos dicotmicos


Datos dicotmicos, o puntuaciones dicotmicas, son aquellos en los que solamente hay dos categoras de respuesta o de clasificacin mutuamente excluyentes. Cuando hay ms de dos posibilidades se trata de datos o puntuaciones continuas. En la figura 2 tenemos varios ejemplos frecuentes de puntuaciones (o datos, o variables) dicotmicas. Adems de los datos propiamente dicotmicos (dos respuestas que se excluyen mutuamente) tambin podemos dicotomizar los datos continuos dividindolos en dos categoras, por ejemplo por encima de la media y por debajo de la media (o mediana), o apto (= 1) y no apto (= 0), etc., aunque en principio es preferible utilizar todas las respuestas sin reducirlas a dos categoras.

Medidas descriptivas bsicas

14

Las respuestas a las preguntas objetivas (tipo test) de rendimiento escolar Bien [1] Mal [0]

Las respuestas a tests de personalidad y de otros tipos de tests, con slo dos respuestas Verdadero [1] S [1] Falso No [0] [0]

Las respuestas a cualquier tipo de pregunta con dos respuestas que se excluyen mutuamente Varn [1] Mujer [0] Con carnet de conducir: S [1] No [0]

De acuerdo [1] En desacuerdo [0] En estos casos los nmeros utilizados implican un juicio de valor (1= bien, 0 = mal). Cabe tambin utilizar la clave inversa: verdadero = 0 y falso = 1, etc.

En estos casos la codificacin con un 1 o un 0 es arbitraria; (no implica juicio de valor) y tambin se pueden codificar con 1 y 2, etc.

Figura 2: ejemplos de datos dicotmicos La media ( X ) de los datos dicotmicos es igual a la proporcin de respuestas correctas o de unos, y el smbolo que suele utilizarse es p. El concepto de media es el mismo que cuando se trata de otros tipos de puntuaciones: calculamos la media sumando todas las puntuaciones individuales (que en este caso sern 1 0) y dividimos esta suma por el nmero de sujetos. Por lo tanto la media es: p = proporcin de unos =

nmero de unos N

[9]

La proporcin de ceros (de respuestas incorrectas, de noes, etc.) se simboliza como q, y es igual al nmero de ceros dividido por el nmero de sujetos, o ms sencillamente, q = 1-p, ya que p + q = 1 ( ses + noes o unos + ceros = el 100% de las respuestas). q = proporcin de ceros =
nmero de ceros N [10]

Naturalmente p + q = 1 (o el 100% de las respuestas); y q = 1 - p Si, por ejemplo, de 50 sujetos 30 responden s (o bien en la pregunta de un examen) y 20 responden no (o mal a una pregunta): La media ser: El valor de q ser: p= q= 30 50 20 50 = .60 = .40

Si multiplicamos por cien la proporcin de respuestas correctas (p), tenemos un tanto por ciento o un porcentaje: el 60% ha respondido correctamente (o ha respondido s). Si los 50 sujetos responden s (o correctamente), la proporcin de unos (la media) ser 50/50 = 1 ( el 100% de los sujetos ha respondido correctamente o ha respondido s). La desviacin tpica y la varianza de los datos dicotmicos (unos o ceros) se puede calcular a partir de los valores de p y q: Desviacin tpica:
= pq

[11]

Varianza:

2 = pq

[12]

Es habitual utilizar pq como smbolo de la varianza de los datos dicotmicos.

Medidas descriptivas bsicas

15

En el mismo ejemplo anterior, la desviacin tpica ser igual a .60 x .40 = .489, y la varianza ser igual a .4892 = .239 ( .24 redondeando los decimales). La varianza mayor posible se dar cuando el 50% responde correctamente (o responde s) y el otro 50% responde incorrectamente (o responde no), es decir, cuando el 50% de las respuestas se codifica con un uno y el otro 50% con un cero. Es entonces cuando se da el mayor nmero de diferencias interindividuales. En este caso tenemos que p = q = .50; la media es p =.50, la desviacin tpica ser igual a pq = .50 x .50 = .50 2 la varianza ser igual a .50 = .25,

En los tems dicotmicos el valor mximo que puede alcanzar la desviacin tpica es .50 y el valor mximo de la varianza es .502 =.25. Como ya se indic antes, el valor mximo que puede alcanzar la desviacin tpica (con cualquier tipo de puntuacin) es igual a la diferencia entre la puntuacin mxima posible y la puntuacin ms baja posible dividida por dos; en este caso (1-0)/2 = .50. El que la mxima varianza con estos datos (1 0) es .25 podemos verlo de manera intuitiva en los datos simulados de la tabla 8, donde tenemos todos los posibles resultados que podemos obtener si cuatro sujetos (N = 4) responden a una pregunta (respuestas: s = 1, no = 0).
N=4 Resultado 1 Resultado 2 Resultado 3 Resultado 4 Resultado 5 Responden Valor de p Responden Valor de S (= 1) No (= 0) q 4 3 2 1 0 4/4= 1 3/4= .75 2/4 = .50 1/4 = .25 0/4 = 0 0 1 2 3 4 0/4 = 0 1/4 = .25 2/4 = .50 3/4= .75 4/4= 1
Nmero de diferencias interindividuales

Varianza pq (1)(0) (.75)(.25) (.50)(.50) (.25)(.75) (0)(1) =0 = .1875 = .25 = .1875 =0

(4)(0) = 0 (3)(1) = 3 (2)(2) = 4 (1)(3) = 3 (0)(4) = 0

Tabla 8 Si todos responden s (1) o todos responden no (0), nadie se diferencia de nadie y la varianza es cero. Si la mitad (el 50%) responde s y la otra mitad responde no es cuando tenemos el mximo nmero de diferencias y la mxima varianza. Si multiplicamos el nmero de los que responden s por el nmero de los que responden no tenemos el nmero de diferencias entre los sujetos, y si multiplicamos las proporciones tenemos la varianza. La unanimidad (todos responden s o todos responden no) coincide con la varianza cero, y la mxima diversidad coincide con la varianza mxima, que es (.50)(.50) = .25. El entender que la varianza mxima (lo ms lejano a la unanimidad en las respuestas) es .25 tiene su importancia, no slo como referencia til, sino porque se trata de un valor que entra en la frmula para calcular el tamao necesario de la muestra para extrapolar los resultados a la poblacin (por ejemplo en las encuestas pre-electorales); en estos casos suponemos que la varianza de la poblacin es la mxima posible e igual a .25. La razn est en que a mayor varianza har falta una muestra mayor y para mayor seguridad nos ponemos en la situacin de que la varianza es la mayor posible (si la varianza fuera = 0, nos bastara preguntar a un solo sujeto, porque todos van a responder lo mismo)3. La media y la desviacin tpica de los datos dicotmicos pueden calcularse con las calculadoras que tienen programacin estadstica, de la misma manera que se calculan cuando las puntuaciones son
3 En la ficha tcnica de las encuestas, que suele aparecer publicada en peridicos y revistas, se suele especificar que el tamao de la muestra se ha calculado suponiendo que p = q = .50 (tambin se empelan letras maysculas, P y Q).

Medidas descriptivas bsicas

16

continuas (las frmulas bsicas son las mismas; si las puntuaciones son dicotmicas, nos limitaremos a introducir en la calculadora unos y ceros). Tambin se utilizan los smbolos convencionales ( X , ); sin pq (desviacin tpica) son los utilizados embargo los smbolos p (media), pq (varianza) y habitualmente con este tipo de datos; realmente tanto pq como pq son las frmulas que tambin se utilizan como smbolos.

2.2.7. Combinacin de medias y desviaciones tpicas


Con frecuencia acumulamos datos y clculos de diversos grupos. Las frmulas que combinan medias de diversos grupos en una media comn y diversas desviaciones tpicas en una desviacin tpica comn son muy tiles.
1 Para combinar dos o ms medias:

Xtotal =

XN N

[13]

Xtotal XN
N

= media total, o comn a varios grupos; = en cada grupo multiplicamos la media por su N y sumamos estos productos (esta suma es igual a la suma de todas las puntuaciones); = suma de todos los N

La frmula [13] es obvia (se trata de una media ponderada por el nmero de sujetos): Si la media es X = X N tenemos que X = X N; que es el numerador de esta frmula [13] (suma de todas las puntuaciones); el denominador (N) es la suma de todos los sujetos de todos los grupos.

Cuando el nmero de sujetos es el mismo en todas las muestras, la media total es simplemente la media de las medias. Lo vemos en dos ejemplos (tabla 9), que utilizaremos tambin para ver cmo se combinan desviaciones tpicas.
muestras de tamao desigual 3 6 2 5 8 6 8 3 6 7 4 5 4 5 3 5.75 5.20 4.67 1.92 1.72 1.88 muestras de idntico tamao 4 3 3 6 1 6 8 7 5 6 4 4 4 6.0 1.414 4 3.75 2.165 4 4.5 1.118

N= X = =

Tabla 9 Cuando las muestras son de tamao desigual:

Xtotal =

(4 x 5.75) + (5 x 5.2) + (3 x 4.67) 63.01 = = 5.25 (4 + 5 + 3) 12

Cuando las muestras son de idntico tamao calculamos la media de las medias:
Xtotal = 6 + 3.75 + 4.5 14.25 = = 4.75 3 3

Medidas descriptivas bsicas

17

2 Para combinar dos o ms desviaciones tpicas o varianzas:

Lo que no se puede hacer es calcular la media de las desviaciones tpicas; para combinar las desviaciones tpicas de varios grupos como si se tratara de un solo grupo aplicamos las frmulas [14] (muestras desiguales) y [15] (muestras iguales).
a) Muestras de tamao desigual

total =

N(X 2 + 2 ) 2 X total [14] N

total = desviacin tpica total, de todos los grupos unidos en uno solo; X total = media del total, de todos los grupos unidos en uno solo.

Calculamos N( X 2 + 2) en todos los grupos: multiplicamos cada N por la suma de la media y de la desviacin tpica elevadas al cuadrado, y sumamos estos productos; Dividimos esta suma por el nmero total de sujetos (N) y restamos la media total elevada al cuadrado (y que se supone calculada previamente). Si no extraemos la raz cuadrada, lo que tenemos es la varianza comn a todos los grupos.
b) Muestras de idntico tamao

Si las muestras son de idntico tamao, en la frmula [14] tendramos que el denominador ser Nk, donde N es el nmero de sujetos que hay en cada grupo y k es el nmero de grupos, por lo que la frmula [14] queda simplificada como se indica en [16]. total = ( X 2 + 2 ) 2 X total k [15] En el numerador nos limitamos a sumar todas las medias y todas las desviaciones previamente elevadas al cuadrado

Con los datos mismos datos de la tabla 9 calculamos las desviaciones tpicas uniendo todas las muestras.
Muestras de tamao desigual [14]:

total =

[4(5.75 2 + 1.92 2 )] + [5(5.2 2 + 1.72 2 )] + [3(4.67 2 +1.88 2 )] 5.25 2 = 1.876 4+5+3

Muestras de idntico tamao [15]4:

total =

(6 2 + 3.75 2 + 4.5 2 ) + (1.414 2 + 2.165 2 + 1.118 2 ) 4.75 2 = 1.876 3

De dnde vienen estas frmulas para combinar desviaciones tpicas a partir de los valores de las desviaciones, medias y nmero de sujetos de diversos grupos?

La frmula [14] la tomamos de McNemar5, pero es fcilmente demostrable, y no sobra conocer esta demostracin porque nos introduce en otras frmulas frecuentes de la desviacin tpica.

4 El numerador se calcula fcilmente con una calculadora con programacin estadstica, introduciendo todas las medias y todas las desviaciones tpicas, en la funcin x2 5McNemar, Quinn, (1962), Psychological Statistics, 3rd edit., New York, John Wiley and Sons (pg. 24)

Medidas descriptivas bsicas

18

La frmula ms directa de la desviacin tpica es =

(X X) 2 N

[16]

Esta frmula no se demuestra en sentido propio (lo mismo que la de la media aritmtica), simplemente expresa el concepto. Hay otras frmulas, que se derivan de [16], para calcular la desviacin tpica sin necesidad de calcular las puntuaciones diferenciales (X- X ). Lo que sucede es que estas frmulas que simplifican operaciones son menos tiles, ya que disponemos de calculadoras programadas. Una de estas frmulas para calcular la desviacin tpica a partir de las puntuaciones directas y de la media, es la que nos interesa para poder demostrar la frmula que nos permite combinar desviaciones tpicas de varios grupos; es la frmula [17] que viene en muchos textos; a partir de esta frmula [17] llegamos con facilidad a la frmula [14] para combinar desviaciones tpicas o varianzas. = X 2 X2 N [17]

Vamos a ver cmo de la frmula [17] llegamos a la frmula [14], que es la propuesta para combinar desviaciones tpicas; despus veremos de dnde sale esta frmula [17]. Esta frmula [17] es ms cmoda que la frmula [16] para calcular la desviacin tpica cuando no se dispone al menos de una calculadora con programacin estadstica. Para simplificar esta demostracin utilizamos la varianza en vez de la desviacin tpica, as si elevamos al cuadrado la desviacin tpica expresada en [17] tendremos que la varianza ser 2 = Si en [18] despejamos X tendremos
2

X 2 X2 N X =N( + X )
2 2 2

[18] [19]

La expresin que tenemos en [19] podemos verla ya la frmula [14]. Si de dos muestras conocemos los valores de N, X y , podemos utilizar la frmula [17] para calcular la desviacin tpica de las dos muestras combinadas en una nica muestra. En esta frmula [17] utilizada para combinar dos (o ms) desviaciones tpicas tenemos ahora que: N = N1 + N2; La media ser la media total de las dos (o ms) muestras 2 X ser la expresin [19] calculada en las dos (o ms) muestras y sumadas. Es decir, substituyendo [19] en [18] tenemos la frmula [14] para combinar desviaciones tpicas. Podemos preguntarnos ahora de dnde viene la frmula [17], que es la que estamos utilizando para llegar a la frmula [14] y calcular la desviacin tpica de dos (o ms) muestras combinadas en una sola. En la frmula de la desviacin tpica, la habitual, tenemos en el numerador un binomio elevado al cuadrado. No hay ms que aplicar el procedimiento usual: (a - b)2 = a2 - 2ab + b2, y as llegamos a [18] y [17]: Utilizando la varianza para simplificar, tenemos que:

2 =

(X - X) 2 (X 2 2 XX + X 2 ) X 2 X X 2 = = 2X + N N N N X =X

[20]

Como en [17] tenemos que

y que

X 2 NX 2 = = X2 N N

Medidas descriptivas bsicas

19

Tendremos que 2 =

X 2 X 2 2X 2 + X 2 = X 2 y as llegamos a [18] N N

2.3. El coeficiente de variacin (V)


Otra medida de dispersin, menos utilizada, es el coeficiente de variacin. En principio se utiliza para comparar dispersin cuando los instrumentos o unidades de medida son distintas, o cuando las medias de dos grupos son muy desiguales. La desviacin tpica viene expresada en las mismas unidades empleadas en la medicin, por lo tanto dos desviaciones calculadas con instrumentos y unidades distintas no son comparables entre s directamente. Lo mismo sucede cuando las medias son muy distintas (por ejemplo cuando las medias de dos exmenes son muy distintas porque el nmero de preguntas es distinto). En estos casos se utiliza el coeficiente de variacin o de variabilidad relativa: consiste sencillamente en dividir la desviacin tpica por la media (es decir, se trata de la desviacin relativa a la media); es habitual multiplicar por 100 este cociente.

Coeficiente de variacin: V =

(100) X

[21]

Por ejemplo, en dos grupos, de chicos y chicas, tenemos estos datos (peso en Kg.)

media chicos chicas


66.87 51.06

desviacin
6.99 5.10

Aparentemente los chicos difieren ms entre s que las chicas entre s (su desviacin tpica es mayor; los chicos tienen de manera natural ms mbito de variacin), pero tambin es verdad que las medias son muy distintas.

Si calculamos el coeficiente de variacin (haciendo las desviaciones relativas a la media) tenemos estos resultados: V (chicos) = V (chicas) = 6.69 66.87 5.51 51.06 (100) (100) = 10.45 = 10.79 Teniendo en cuenta la diferencia entre las medias, entre las chicas encontramos ms variabilidad en peso (aunque no mucha ms).

El uso de este coeficiente de variacin en medidas educacionales o psicolgicas es muy cuestionable, porque su valor depende de la media, que a su vez depende de la facilidad o dificultad de las preguntas, test, etc. Su interpretacin se presta a ambigedades. Si por ejemplo a un test de 10 preguntas le aadimos otras 10 muy fciles, subir la media y bajar el valor de V. Este coeficiente puede utilizarse y es especialmente til cuando se dan estas circunstancias: 1 Cuando las unidades lo son en sentido propio (como peso, altura, con una unidad clara); menos aconsejable es utilizarlo en las medidas educacionales y psicolgicas habituales; 2 Cuando las medias son muy desiguales (como en el ejemplo anterior, peso en chicos y chicas). 3 Cuando las medidas son distintas (por ejemplo; dnde hay ms variabilidad, en peso o en altura?).

Medidas descriptivas bsicas

20

En el campo de los tests en general, puede ser til para comparar la variabilidad de un grupo en el mismo test aplicado en circunstancias distintas.
2.4. La desviacin semi-intercuartlica

Nos hemos centrado fundamentalmente en la desviacin tpica y en la varianza porque se trata de dos conceptos fundamentales para el resto de los anlisis estadsticos. Son medidas de dispersin que se utilizan cuando se utiliza la media aritmtica como medida de tendencia central. Se utilizan tambin otros pares de medidas, tanto de tendencia central (que ya hemos visto, como la mediana y la moda) como de dispersin, que son ya de utilidad ms limitada, aunque tienen su lugar como descriptores de un conjunto de puntuaciones. La desviacin semi-intercuartlica es la medida de dispersin apropiada cuando la medida de tendencia central es la mediana, y expresa la dispersin del 50% central del grupo, por lo que, lo mismo que la mediana, se prescinde tambin de las puntuaciones extremas. El concepto es claro y podemos verlo en la distribucin de frecuencias de la tabla 10 Hemos dividido la muestra en cuatro partes con idntico nmero de sujetos (el 25% en cada una); los lmites de estas cuartas partes se denominan cuartiles: Lmite superior del cuartil 3 (queda por debajo el 75 % del total) (Q3) = Lmite superior del cuartil 1 (queda por debajo el 25 % del total) (Q1) =
X 15 14 13 Q3 12 11 Mediana 10 9 8 7 Q1 6 5 4 f 2 2 1 3 1 1 1 2 2 3 1 1

12.5 6.5

|| || | ||| | | | || || ||| | |

25 % 25 % 25 % 25 %

50 % central

Tabla 10 Es decir, y dicho de manera ms sencilla, entre 6.5 y 12.5 est el 50% central de los sujetos; la desviacin semi-intercuartlica (Q) ser:
Q = Q3 Q 1 2

[22]

en este ejemplo tendramos Q =

12.5 - 6.5 =3 2

Este ejemplo est puesto para explicar el concepto; lo normal es que los lmites del 50% central no estn tan claros a simple vista; el clculo exacto lo veremos al tratar de los percentiles, pues se trata simplemente de calcular por interpolacin los percentiles 25 y 75, como se explica en su lugar.

Medidas descriptivas bsicas

21

2.5. La amplitud o recorrido

La amplitud o recorrido (ambos trminos son usuales)6 es la medida de dispersin que se utiliza cuando la moda es la medida de tendencia central. Su clculo es muy simple:

Amplitud = (puntuacin ms alta menos la puntuacin ms baja) + 1


En el ejemplo de la tabla 10: amplitud = (15-4) + 1 =12

[23]

Observaciones sobre la amplitud:


1. Sumamos una unidad a la diferencia entre las puntuaciones extremas (se trata de una convencin aceptada) porque nos situamos en los lmites extremos de ambas puntuaciones: el lmite superior de 15 sera 15.5 y el lmite inferior de 4 sera 3.5; la amplitud ser pues 15.5 - 3.5 = 12 ( 15 - 4 + 1). 2. Como indicador de dispersin es una medida dbil, pues se basa en slo dos puntuaciones, que adems pueden ser atpicas, poco representativas, y grupos semejantes pueden parecer muy distintos en dispersin, simplemente porque en algn grupo hay uno o dos sujetos con puntuaciones inusualmente altas o bajas.
2.6. Relacin entre la amplitud y la desviacin tpica

En muestras relativamente grandes la amplitud o recorrido suele comprender unas seis desviaciones tpicas (entre -3 y +3), por lo que un clculo aproximado de la desviacin tpica consiste en dividir la amplitud entre seis. Segn va bajando N (nmero de sujetos, tamao de la muestra) la amplitud comprende menos desviaciones tpicas y si sube N la amplitud suele comprender ms de seis desviaciones. En la tabla 11 tenemos cuntas desviaciones tpicas podemos esperar que comprenda la amplitud: dividiendo la amplitud por esa cantidad (x) tendramos una aproximacin del valor de la desviacin tpica7.
x N 5 10 15 20
N (aprox. = ) x 2.3 3.1 3.5 3.7

x N 40 50 100 200
N (aprox. = ) x 4.3 4.5 5.0 5.5

x N 400 500 700 1000 (aprox. = 5.9 6.1 6.3 6.5


N ) x

Tabla 11 Esta tabla nos dice que, por ejemplo, con 10 sujetos podemos esperar que la amplitud equivalga aproximadamente a 3.1 desviaciones, y con 1000 sujetos a 6.5 desviaciones. En los datos de la tabla 1.1 tenemos 40 sujetos, y la desviacin tpica exacta es 9.71; calculada a partir del valor x de la tabla (para N = 40, x = 4.3), tendramos que = 40/4.3 = 9.3, que no se aparta mucho del valor real.

6 A veces, y de manera errnea, se denomina rango a la amplitud, por confusin con el ingls (amplitud o recorrido en ingls es range). El trmino rango significa propiamente nmero de orden (rank en ingls). 7 La tabla est tomada de Guilford.J.P. and Fruchter, B. (1973). Fundamental Statistics in Psychology and Education. 5th edition. New York: McGraw-Hill.

Medidas descriptivas bsicas

22

Esta tabla no es til para calcular la desviacin tpica; en primer lugar porque es muy sencillo calcular el valor exacto de la desviacin (utilizando un programa de ordenador o una calculadora con programacin estadstica) y porque, como ya hemos indicado, la amplitud es una medida muy pobre que depende solamente de dos puntuaciones que adems pueden ser atpicamente altas o bajas. Sin embargo el calcular la desviacin a partir de esta tabla puede ser ocasionalmente til: a) Para hacernos una idea de por dnde puede ir el valor de la desviacin tpica si en un momento dado no disponemos de medios para calcularla directamente, b) Para ponernos sobre la pista de algn error de bulto en el clculo, c) Para apreciar si la desviacin tpica exacta y bien calculada es mucho mayor o menor de lo que cabra esperar en un grupo de un determinado tamao. Si la desviacin tpica calculada es apreciablemente mayor de la esperada, podemos comprobar si se debe a unos pocos sujetos con puntuaciones extremas muy atpicas.

Medidas descriptivas bsicas

23

3. Medidas descriptivas bsicas: resumen de tendencia central


Media : X = X

de dispersin
Desviacin tpica : = (X - X ) N
2

La desviacin tpica ser mayor en la medida en que las puntuaciones individuales se aparten ms de la media (X- X ). La desviacin tpica elevada al cuadrado (2) se denomina varianza, tambin se utiliza como medida de dispersin y tiene propiedades especficas que la hacen muy til. En el clculo de la media y de la desviacin tpica intervienen todas las puntuaciones individuales; son las dos medidas ms estables: si calculamos estas medidas en una serie de muestras de la misma poblacin, fluctan menos que las dems medidas. Permiten adems otras muchas operaciones de gran inters y son en principio las medidas descriptivas preferibles. La media es el centro de gravedad de la distribucin: la suma de todas las diferencias individuales con respecto a la media es igual a cero.
Mediana = P50
2 La desviacin semi-intercuartlica (Q) se calcula solamente con el 50% central de la distribucin: es la media de dos puntuaciones: la que corresponde al percentil 75 (deja por arriba el 25% de los sujetos) y la que corresponde al percentil 25 (deja por debajo el 25% de los sujetos). Desviacin semi - intercuartlica : Q = P75 P 25

La mediana es igual al Percentil 50; es la puntuacin que divide la distribucin en dos partes iguales: la mitad de los sujetos tiene una puntuacin superior a la mediana y la otra mitad una puntuacin inferior. En distribuciones asimtricas o con puntuaciones extremas muy atpicas (muy extremas) puede dar una idea mejor que la media ya que la media puede verse afectada por puntuaciones muy extremas y no representativas. La mediana en cambio no se ve alterada por las puntuaciones extremas. Ambas medidas, mediana y Q son las apropiadas:

Como quedan excluidos en el clculo el 25% superior y el 25% inferior, tampoco se ve afectada por las puntuaciones extremas.

1 en principio cuando se trata de puntuaciones puramente ordinales; 2 siempre que se prefiera prescindir de los sujetos extremos porque distorsionan la informacin.

Ejemplos de uso de la mediana y Q: en el proceso de construccin de escalas de Thurstone; los tems son evaluados por jueces y para evitar que pesen demasiado juicios extremos, se calculan la mediana y Q (en vez de la X y ) en cada tem. Tambin se utilizan a veces en los cuestionarios de evaluacin del profesorado, cuando interesa la opinin del centro de la clase y prescindir de los extremos. La mediana y los percentiles 25 y 75 (Q1 y Q3, o primer y tercer cuartil) permiten adems hacer determinadas representaciones grficas. Los percentiles se calculan en estos casos por interpolacin.
Moda : puntuacin con una frecuencia mayor Amplitud = [valor ms alto - valor ms bajo]+ 1

La moda es simplemente la puntuacin con la mayor frecuencia, la obtenida por el mayor nmero de sujetos. Puede haber varias puntuaciones con esta caracterstica (distribuciones bimodales, plurimodales). Como medida de tendencia central es poco rigurosa, sobre todo en distribuciones asimtricas. Se basa en las puntuaciones de dos sujetos que si son muy extremas y atpicas desvirtan la informacin. La moda y la amplitud son las medidas menos rigurosas aunque pueden tener su inters descriptivo.

La amplitud (o recorrido, y mal llamada a veces rango) es igual a la diferencia entre la puntuacin ms alta y la puntuacin ms baja. Habitualmente se suma una unidad a esta diferencia porque se calcula a partir de los lmites de los valores extremos (si las puntuaciones extremas son, por ejemplo, 20 y 5, la amplitud no es igual a 20 - 5 sino igual a 20.5 - 4.5 = [(20 - 5) + 1]. Es una medida muy inestable porque depende solamente de los dos valores extremos. En muestras semejantes la amplitud puede ser muy diferente; basta que haya sujetos muy atpicos en los extremos.

En la distribucin normal (simtrica, acampanada) media, mediana y moda coinciden en un idntico valor.

Medidas descriptivas bsicas

Vous aimerez peut-être aussi