Vous êtes sur la page 1sur 13

1

INTRODUCCIN

Tema 0. Estadstica Descriptiva univariada ndice


1. Introduccin 1.1. Razones para la aplicacin de la Estadstica 1.2. Cmo interviene la Estadstica? . . . . . 1.3. Algunos conceptos bsicos . . . . . . . . . 1 1 1 2

1.
1.1.

Introduccin
Razones para la aplicacin de la Estadstica

2. Propiedades de las distribuciones de frecuencias 4 2.1. Tendencia central . . . . . . . . . . . . . . 2.1.1. La media aritmtica . . . . . . . . 2.1.2. La mediana . . . . . . . . . . . . . 2.1.3. La moda . . . . . . . . . . . . . . . 2.1.4. Otros ndices de tendencia central 2.1.5. Comparacin entre media, mediana y moda . . . . . . . . . . . . . . 2.2. Dispersin . . . . . . . . . . . . . . . . . . 2.2.1. La varianza . . . . . . . . . . . . . 2.2.2. La desviacin tpica . . . . . . . . 4 4 6 6 7 7 7 8 9

Es difcil encontrar un campo de las ciencias sociales en que, tarde o temprano, no se usen datos. A cualquier profesional que trabaje en una ciencia emprica le llegar el momento en que tenga que tomar una decisin o llegar a una conclusin respecto a las observaciones que haya realizado. La informacin numrica es componente esencial de los conocimientos e hiptesis de nuestras disciplinas y, en consecuencia, contribuye a mejorar al hombre y sus instituciones sociales. Normalmente la informacin se transmite a travs del lenguaje de la estadstica, ciencia que nos permite encontrar una mejor solucin a los problemas de ndole social. Por tanto, podemos decir que la estadstica es fundamental en nuestro trabajo por varias razones: 1. Debido a la investigacin en ciencias sociales, que requiere que el profesional que investiga tenga conocimientos estadsticos. 2. El conocimiento cientco es todo aquel conocimiento demostrado inductiva o deductivamente. 3. Comprensin de libros y artculos que incluyen procedimientos estadsticos.

2.2.3. El coeciente de variacin . . . . . 10 2.2.4. Otros ndices de dispersin . . . . 10 2.3. Posicin . . . . . . . . . . . . . . . . . . . 11 2.3.1. Los percentiles . . . . . . . . . . . 11 2.3.2. Deciles y cuartiles . . . . . . . . . 12

1.2.

Cmo interviene la Estadstica?

En trminos generales, se entiende por estadstica el conjunto y anlisis de datos, los cuales deben ser numricos. Despus, los resultados de este anlisis se utilizan para resolver problemas sobre la situacin de donde provienen los datos. El objetivo de cualquier investigador cientco es llegar a conocer con toda profundidad el fenmeno que se observa, en vistas a averiguar cules son sus causas y poder anticipar sus efectos. En este sentido, la Estadstica: 1. Selecciona las observaciones a travs de la teora de muestras. 2. Clasica, representa y analiza las observaciones.

INTRODUCCIN

3. Utiliza la estimacin de parmetros a travs de la teora de la estimacin o prediccin. 4. Interviene en la formulacin y comprobacin de hiptesis, utilizando los mtodos de contraste de hiptesis. De los pasos 1 y 2 se ocupa la estadstica descriptiva. De los pasos 3 y 4 se ocupa la estadstica inferencial. La probabilidad es el puente que nos permite pasar vlidamente de los pasos 1 y 2 a los pasos 3 y 4.
La estadstica descriptiva , por tanto, se utiliza cuando el propsito de la investigacin consiste en describir los datos que han sido recogidos. Supngase que los profesores de 60 nios de segundo curso de primaria estn interesados en determinar el porcentaje de nios con ojos azules que hay en sus grupos. En vista de que el inters de este problema est centrado en sus propios grupos, pueden reunir la informacin pertinente con respecto a este problema de todos los individuos de los cuales se quiere obtener una conclusin. En este caso, los datos que deben reunirse consisten en la averiguacin del color de ojos de cada nio. La operacin estadstica necesaria consiste en calcular una proporcin dividiendo el nmero de estudiantes que tienen ojos azules entre 60, que es el nmero total de estudiantes en los grupos. Los profesores utilizan operaciones estadsticas simplemente para describir los datos que recopilaron, de modo que este es un ejemplo de estadstica descriptiva. Por otro lado, supngase que los profesores se interesaran en determinar la proporcin de nios con ojos azules de todos los grupos de segundo curso en la ciudad en donde ensean. Resulta sumamente improbable que puedan o siquiera deseen recopilar los datos importantes de todos los individuos sobre los cuales pretenden obtener una conclusin. Es probable que tengan que limitar la recopilacin de datos a algn grupo ms pequeo seleccionado aleatoriamente y utilizar la estadstica inferencial para generalizar las conclusiones obtenidas a partir del grupo ms pequeo de modo que se puedan aplicar al grupo ms grande. La estadstica inferencial se emplea cuando el propsito de la investigacin no consiste en describir los datos que se han reunido, sino en generalizar o hacer inferencias basadas en los mismos.

personas, animales u objetos, o simplemente nmeros. Cuando un investigador comienza un estudio debe denir claramente la poblacin sobre la cual se interesa, ya que es el marco de referencia sobre el cual van a recaer las conclusiones e interpretaciones. Ya que las poblaciones son, por lo general, muy numerosas, es a menudo inaccesible la descripcin de sus propiedades. De ah que se trabaje fundamentalmente con muestras. muestra = Es un subconjunto de la poblacin sobre el cual se hace el estudio. La muestra nos ofrece una serie de datos que podemos ordenar, simplicar y describir. El objetivo fundamental de la muestra es poder describir la poblacin de partida mediante lo que podemos encontrar en la muestra. Esto se consigue mediante el muestreo. parmetro = Es una propiedad descriptiva de una poblacin, una medida de inters sobre la poblacin a estudio. Como las poblaciones son generalmente numerosas y no trabajamos directamente con ellas, los parmetros no se conocen con exactitud. Por esto los estimamos a partir de las propiedades de la muestra. estadstico = Es una propiedad descriptiva de una muestra, es decir, una medida obtenida a partir de los datos de una muestra. estimador = Es un estadstico que pretende aproximar el valor de un parmetro. De forma simblica, los parmetros se representan con letras griegas, y los estadsticos (estimadores) con letras latinas. medicin = Los mtodos estadsticos se basan especialmente en nmeros. El investigador atribuye nmeros a las caractersticas de los individuos, es decir, las cuantica con el n de manipular dichos nmeros y, a partir de dicha manipulacin, poder extraer consecuencias o hacer interpretaciones. A este proceso de atribuir nmeros a las caractersticas se le denomina medicin. Pero las caractersticas no se miden siempre del mismo modo, porque entre sus modalidades no siempre se da el mismo tipo de relaciones. Es por esto que existen distintos niveles de medicin, segn sean las relaciones entre modalidades.

1.3.

Algunos conceptos bsicos

poblacin = Conjunto de elementos, animados e inanimados, realmente existentes o posibles, que tienen unas caractersticas comunes observables sobre las que trata el estudio. Estos elementos se denominan entidades estadsticas o individuos. Pueden ser

INTRODUCCIN

Estos niveles o ESCALAS DE MEDIDA son los siguientes (Stevens, 1946): escala nominal Se construye estableciendo un conjunto de categoras mutuamente excluyentes y exhaustivas. A continuacin se asigna un nmero a cada una de esas modalidades, y se hace un recuento del nmero de sujetos que corresponden a cada categora o modalidad. Como la escala nominal es muy dbil, la representacin que realiza del campo de estudio tambin lo es, y la signicacin de los resultados obtenidos es bastante pobre. Su nica nalidad es clasicar datos cualitativos. Es decir, empricamente slo se pueden comprobar las relaciones de igualdad-desigualdad entre las categoras o modalidades. Los nmeros atribuidos a las modalidades se utilizan slo como rtulos para establecer clases. Por tanto, no son vlidas entre los nmeros que se atribuyen a las modalidades las operaciones aritmticas. escala ordinal Se construye ordenando los objetos empricos en orden creciente o decreciente conforme al grado en que poseen determinada propiedad. Los nmeros atribuidos a las modalidades son tambin etiquetas. Empricamente slo pueden comprobarse entre las modalidades las relaciones de igualdad-desigualdad y orden. Los objetos empricos de esta escala se clasican en categoras mutuamente excluyentes y exhaustivas. Se desconoce la cuanta o cantidad de la distancia que separa dos posiciones cualquiera de la escala. escala de intervalo Las escalas de intervalo se construyen eligiendo el punto de donde va a partir la escala y despus se elige una unidad de medida para elaborarlo. Esto quiere decir que estas escalas tienen una unidad de medida arbitraria y un cero u origen tambin arbitrario. Se trabaja con variables cuantitativas discretas y continuas. Empricamente podemos comprobar entre las modalidades las relaciones de igualdaddesigualdad y orden.

Los objetos empricos de esta escala se clasican en categoras mutuamente excluyentes y exhaustivas. En esta escala es siempre idntica la distancia que separa dos posiciones contiguas de la escala, ya que contamos con una unidad de medida constante, aunque sea arbitraria. escala de razn En esta escala el cero se situara donde existe ausencia absoluta de la caracterstica o propiedad a medir. La unidad de medida es arbitraria, pero el cero es real o absoluto. Se trabaja con variables cuantitativas discretas y continuas. Empricamente podemos comprobar entre las modalidades las relaciones de igualdaddesigualdad y orden. Los objetos empricos de esta escala se clasican en categoras mutuamente excluyentes y exhaustivas. Se puede conocer con exactitud la distancia que media entre los valores. Es idntica la distancia existente entre dos posiciones contiguas de la escala. La unidad de medida es constante, aunque arbitraria. Variables y constantes = Una constante es una caracterstica que slo puede manifestarse bajo una nica modalidad. Una variable es una caracterstica que puede manifestarse segn dos o ms modalidades, es decir, puede tomar diferentes valores o ser expresada en diferentes categoras. Tipos de variables Variables cualitativas: son aquellas caractersticas que no tienen una unidad de medida y, por tanto, pueden ser consideradas a nivel nominal. Los individuos pueden ser calicados como poseedores o no de la cualidad que interesa, y deben clasicarse en una serie de categoras o modalidades. Estas tienen unos requisitos: a) tienen que estar bien denidas; b) deben ser mutuamente excluyentes, es decir, un individuo slo puede estar contenido en una modalidad; c) deben ser exhaustivas, es decir, todas las unidades elementales (sujetos) deben caber en la clasicacin.

PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS

Variables cuantitativas: son aquellas caractersticas que pueden ser consideradas, al menos, a nivel de intervalo. Las variable cuantitativas continuas son aqullas que admiten siempre una modalidad intermedia entre dos cualquiera de sus modalidades. Por otro lado, las variables cuantitativas discretas son las que no admiten una modalidad intermedia entre dos cualquiera de sus modalidades1 .

medidas descriptivas que se denominan medidas de tendencia central o, simplemente, promedios. Entre ellas destacan la MEDIA ARITMTICA, la MEDIANA y la MODA. 2.1.1. La media aritmtica

2.

Propiedades de las distribuciones de frecuencias

La media aritmtica es el ndice de tendencia central ms conocido y utilizado, aunque no todo el mundo lo conozca como tal ndice, sino por su valor como promedio. Podemos denirla como la suma de todos los valores de una variable dividida por el nmero total de observaciones de la muestra. Expresada en forma algebraica quedara: X=
Xi N

Una vez ordenados y representados los valores de una variable medida en una muestra, y obtenida su distribucin de frecuencias, conviene conocer algunas de sus caractersticas para poder compararla con otras distribuciones. Para ello, es necesario que contemos con unos ndices que describan las propiedades de esa distribucin. Algunas de estas propiedades son las siguientes: 1. Tendencia central. 2. Dispersin. 3. Posicin.

El smbolo X es el que se utiliza habitualmente para representar la media aritmtica de la variable X. Si la variable es Y, su media aritmtica se simbolizar por Y . Como todos los ndices, si en vez de representar a una muestra hacen referencia a una poblacin, vienen expresados por una letra griega. La media de una poblacin se simboliza por . El CLCULO de este ndice slo se puede aplicar a escalas con unidades de medida iguales, es decir, a escalas de intervalo y razn. Por esto, tenemos que tener en cuenta la siguiente distincin: Cuando los datos no se encuentran agrupados en intervalos, el clculo de la media se reduce a la aplicacin de la frmula anterior que la dene. Si tenemos los valores agrupados en una distribucin de frecuencias, todas las puntuaciones del intervalo estn representadas por un solo valor, el punto medio del intervalo (Xi ). Por tanto, si en un intervalo existen varias puntuaciones (fi ), la suma de esas puntuaciones ser fi veces el punto medio del intervalo. La frmula a utilizar ser: X=
Xi fi N

2.1.

Tendencia central

Un procedimiento para describir una distribucin de frecuencias consiste en tratar de concentrar o centralizar la informacin de los datos en un slo nmero que los represente lo mejor posible. Para ello se calculan unas
1 Esta distincin entre variables cuantitativas discretas y continuas es

puramente terica, ya que el resultado de todo proceso de medida, debido especialmente a la poca nura de los instrumentos de medida, suele tener carcter discreto. Una variable ser discreta o continua en funcin de que la caracterstica que represente sea de un tipo u otro, e independientemente del resultado del proceso de cuanticacin que se le aplique. Por ejemplo, la temperatura es una variable continua esto es, consideramos que entre dos valores consecutivos siempre van a existir innitos valores intermedios pero a la hora de cuanticarla se convierte en una variable discreta, debido al instrumento de medida utilizado (termmetro), que nicamente detecta diferencias de magnitud decimal. Tambin la distincin entre los cuatro tipos de variables es independiente del tipo de escala que se utilice. Es decir, tanto las variables continuas como algunas discretas se pueden medir con escalas ordinales, de intervalo o de razn. Por ejemplo, el nmero de hijos es una variable discreta, pero la escala en que se mide es una escala de razn, puesto que existe un cero absoluto e igualdad de intervalos entre unidades de la escala.

Si calculamos una media con datos agrupados en intervalos, el valor resultante ser slo un valor aproximado o estimado de la media aritmtica real; esto

PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS

hace que nuestras puntuaciones originales queden distorsionadas y que haya una prdida de informacin que puede quedar reejada en los resultados nales. Vamos a ver esto con un ejemplo.
Supongamos que tenemos las siguientes medidas de agudeza visual: 7; 9; 8; 5; 4; 3; 8; 9; 5; 6; 4; 2; 10; 8; 5. Podemos calcular su media aritmtica directamente: X=
7+9+8+5+4+3+8+9+5+6+4+2+10+8+5 15

= 6, 20

Ahora vamos a agrupar los datos en intervalos: I 9-11 6-8 3-5 0-2 Xi 10 7 4 1 fi 3 5 6 1 15 Xi fi 30 35 24 1 90

5. Es el centro de gravedad de la distribucin de frecuencias. Consideremos un tablero sin peso, largo y estrecho. Representemos cada observacin por un cubo de peso unidad. Todas las observaciones con la misma puntuacin son colocadas una encima de otra sobre el punto del tablero que coincide con esa puntuacin. Apoyamos el tablero, cargado con las puntuaciones, sobre el vrtice superior de una base triangular. Pues bien, solamente se mantendr en equilibrio el tablero si la media es el punto de apoyo del mismo sobre la base. Si se apoya en un punto ms a la izquierda o ms a la derecha, el tablero se caer. Figura 1: La media aritmtica como centro de gravedad

Calculamos de nuevo la media con los datos de la tabla: X=


90 15

=6

Aunque en este caso la diferencia no es excesiva, puede suceder que sea importante; por eso, siempre que sea posible deber calcularse con los datos originales, sin agrupar.

La media es la medida de tendencia central ms utilizada en cualquier anlisis de datos, y esto es debido a sus propiedades matemticas. Algunas de las CARACTERSTICAS esenciales de la media son: 1. Es sensible a la variacin de cada una de las puntuaciones. Basta con que vare una sola puntuacin, para que vare la media.
Ejemplo: Muestra 1: 2; 5; 8; 11; 15 X = 8, 2 Muestra 2: 2; 5; 8; 11; 47 X = 14, 6 Muestra 3: 2; 5; 8; 11; 99 X = 25

6. No es recomendable calcular la media cuando la distribucin es muy asimtrica, es decir, cuando presenta una o muy pocas puntuaciones en uno de los dos extremos (o muy altas o muy bajas, respecto a las restantes que constituyen la mayora). Como ejemplo, volver ms arriba a las muestras 2 y 3 del punto 1. 7. Si a los datos de una muestra se les suma una constante a, la media aritmtica queda sumada en esa constante. Es decir, si Xi tiene de media X , Xi + a tiene de media X + a.
Ejemplo: En un examen se han obtenido las notas siguientes: X: 5; 4,5; 7; 1,5; 6,5. El profesor decide sumar 0,5 puntos a cada alumno. Las nuevas notas son X: 5,5; 5; 7,5; 2; 7. X=
5+4,5+7+1,5+6,5 5 5,5+5+7,5+2+7 5

= 4, 9 = 5, 4

2. Es funcin de los intervalos elegidos (de su amplitud, de su nmero y de los lmites de los mismos). 3. Es fundamento de muchas tcnicas estadsticas. 4. No puede ser calculada si el intervalo mximo no tiene lmite superior y/o el intervalo mnimo no tiene lmite inferior, ya que en estos casos no puede ser calculado el punto medio del intervalo.

X =

X + 5 = 4, 9 + 5 = 5 , 4

8. Si se multiplican los datos de una muestra por una constante a, la media aritmtica quedar multiplicada por esa constante. Es decir, si Xi tiene de media X , entonces a Xi tendr de media a X .

PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS

9. Si disponemos de los datos de una variable X en k muestras, la media aritmtica de la variable se halla mediante la media ponderada de las k medias, es decir: X=
n1 X1 +n2 X2 +...+nk Xk n1 +n2 +...+nk

el mismo nmero de observaciones, es poco sensible a los valores que tengan las mismas. Esta caracterstica la hace muy til en la descripcin de distribuciones asimtricas (ya lo veremos ms adelante). Respecto a la estabilidad de este ndice en diferentes muestras de la misma poblacin, podemos decir que es ms able que la moda. Su aplicacin est limitada al mbito de la descripcin de muestras y su uso en la inferencia estadstica se basa ms en este carcter descriptivo que en sus propiedades matemticas. 2.1.3. La moda

Ejemplo: Una asignatura tiene 6 crditos, de los cuales 4,5 son crditos tericos y 1,5 son crditos prcticos. La nota nal de cada alumno se calcular ponderando la nota de teora y la nota de prctica. Si un alumno ha obtenido un 6,5 en teora y un 8 en prcticas, su nota nal de la asignatura ser: X=
(4,56,5)+(1,58) 6

= 6, 875

2.1.2.

La mediana

La mediana, representada por Md, es el punto medio de un conjunto de puntuaciones que se han colocado en orden, es decir, el valor de la escala que deja el 50 por 100 de las puntuaciones de la distribucin por debajo de s y el otro 50 por 100 por encima. A nivel de representacin grca es el punto del eje de abscisas que divide al histograma en dos partes cuyas reas son del mismo tamao. Para su clculo es necesario ordenar las puntuaciones; por tanto, slo se puede aplicar a partir de escalas ordinales, escalas de intervalo o escalas de razn. Su clculo es relativamente sencillo, pero vara en funcin de si los datos estn agrupados o no lo estn. Dado que la mediana coincide con el percentil 50, cuyo clculo veremos en el apartado siguiente, no nos detendremos aqu en este aspecto. Algunas consideraciones en torno a la mediana El clculo de la mediana implica que las variables sobre las que se aplica sean de carcter continuo, puesto que con variables discretas sera imposible, en muchos casos, localizar el punto exacto de la escala que cumpla la condicin de la mediana; en este caso, slo podra hablarse de la clase en donde se encuentra la mediana. Sin embargo, en la prctica, no se tiene en cuenta el carcter discreto de la variable a la hora de calcular la mediana. Al fundamentarse bsicamente en la divisin de la distribucin en dos partes que contengan cada una

Cuando trabajamos con variables nominales y las representamos en una distribucin de frecuencias hay que tener en cuenta dos aspectos: Resulta muy difcil hablar del centro de la distribucin, ya que las categoras no se reparten de una manera continua, sino que la distribucin es discreta. Tampoco importa mucho el orden en que se coloque cada clase o categora. Por ejemplo, cul puede ser el centro de una distribucin entre blanco, negro y amarillo? Lo que s podemos hacer es determinar la frecuencia ms elevada de todas, es decir, la clase o categora en la que se incluyen ms observaciones. A esta clase la llamamos CLASE MODAL, y se representa por Mo. Por tanto, la clase modal o moda nos ofrece una caracterstica importante sobre los datos de nuestra muestra. Pero el concepto de moda tambin se puede aplicar a escalas ordinales y escalas de intervalo. Cuando la apliquemos a escalas de intervalo podemos denirla ms correctamente como la puntuacin que ocurre ms frecuentemente. En este caso, en vez de clase modal, hablaremos de MODA, y la deniremos como el punto medio de la clase modal en una distribucin de medidas de intervalo. Tipos de distribucin en relacin a la moda Cuando todas las puntuaciones de una distribucin tienen la misma frecuencia, se dice que esa distribucin no tiene moda, es decir, que es AMODAL.

PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS

Ejemplo: las puntuaciones 2; 2; 3; 3; 6; 6; 9; 9 no tienen moda.

Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa frecuencia es la mxima, la distribucin es BIMODAL o MULTIMODAL, respectivamente.
Ejemplo: las puntuaciones 1; 1; 1; 4; 4; 5; 5; 5; 7; 8; 9; 9; 9 tienen varias modas, que seran 1, 5 y 9.

media o valor promedio de la distribucin, la mediana, o puntuacin de la escala que separa la mitad superior de la escala de la inferior y la moda, o valor que ms se repite en una distribucin. Que utilicemos uno u otro ndice depende de dos cuestiones: 1. El inters concreto del investigador en cada situacin experimental. 2. Las limitaciones operativas de cada uno de los ndices, ya que no todos pueden ser calculados con cualquier tipo de datos. En este sentido, para cada tipo de escala de medida utilizaremos un ndice diferente: Si la escala es nominal el nico ndice aplicable es la moda. Si la escala es ordinal, aplicaremos la moda y la mediana. Si la escala es de intervalo o razn podemos utilizar la moda, la mediana y la media aritmtica. Como hemos visto, la media es el ndice que presenta ms restricciones a la hora de su aplicacin, ya que exige variables continuas medidas en escala de intervalo o razn. Sin embargo, la media es fundamento de otros ndices descriptivos (variabilidad, correlacin...) y de las pruebas de inferencia paramtrica. A pesar de estas ventajas, la media no es recomendable en el caso de distribuciones muy asimtricas, ya que tiene en cuenta todas y cada una de las puntuaciones de la distribucin. En este caso, es ms aconsejable el uso de la mediana.
Ejemplo: 2, 5, 8, 11, 15 2, 5, 8, 11, 47 2, 5, 8, 11, 99 Md = 8 Md = 8 Md = 8 X = 8, 2 X = 14, 6 X = 25

Cuando en una distribucin existen, adems de la moda, otras puntuaciones que destaquen del conjunto total por su alta frecuencia, podemos hablar de una MODA MAYOR y una o varias MODAS MENORES.
Ejemplo: las puntuaciones 0; 2; 2; 2; 2; 2; 2; 4; 4; 4; 4; 6; 7; 7; 7; 7; 8; 8; 9; 9; 9; 9 tienen una moda mayor, que sera 2 y tres modas menores, que seran 4, 7 y 9.

Algunas caractersticas de la moda Tiene una abilidad baja, esto es, el valor de la moda vara con mucha facilidad en diferentes muestras sacadas de la misma poblacin. Aunque es un ndice cuya utilidad descriptiva se reduce a las escalas nominales (ya que no existe ningn otro tipo de ndice de tendencia central aplicable a este tipo de escalas), su clculo nos sirve para el estudio de la simetra o asimetra de las distribuciones. 2.1.4. Otros ndices de tendencia central

Media geomtrica Muy til para el tratamiento de problemas psicofsicos. Media armnica Se utiliza para promediar datos que son inversamente proporcionales a una magnitud dada (el caso de la velocidad y el tiempo).

2.2.
2.1.5. Comparacin entre media, mediana y moda

Dispersin

En resumen, existen tres ndices diferentes que se utilizan normalmente para la descripcin de la tendencia central de una distribucin de frecuencias, que son: la

Ya hemos visto los ndices de tendencia central, que identican el punto hacia el que tienden a agruparse todas las puntuaciones. La segunda caracterstica de las distribuciones de frecuencias es que las puntuaciones se dispersan alrededor de ese punto central. Por tanto, no slo

PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS

es necesario conocer la tendencia central, sino tambin identicar los ndices que cuantican el grado de variabilidad o dispersin de las puntuaciones.
Ejemplo: Supongamos que tenemos dos grupos de sujetos a los que se les ha aplicado una prueba de tiempo de reaccin ante estmulos olfativos. Los resultados para ambos grupos son los siguientes: GRUPO A X1 =180 X2 =170 X3 =150 X4 =140 X5 =130 X6 =120 X7 =90 GRUPO B X1 =150 X2 =144 X3 =142 X4 =139 X5 =138 X6 =137 X7 =130

muestra, los ndices que la midan expresarn el grado en que las puntuaciones se dispersan de un punto central. Por tanto, todos los ndices de dispersin deben hacer referencia a un ndice de tendencia central. Por lo que hemos visto, en aquellos casos en que slo se puede aplicar la moda (escalas nominales), sta no seala necesariamente el centro de la distribucin; la mediana, por otro lado, no posee ninguna propiedad matemtica que sirva a nuestros nes; por tanto, el ndice ms apropiado para utilizar como punto de referencia en el clculo de medidas de dispersin es la media. 2.2.1. La varianza

Ambos grupos tienen el mismo valor de ndice central (X A = X B = 140). Pero, podemos decir que ambas distribuciones son iguales? Para verlo, representamos las puntuaciones mediante un grco de cajas y bigotes (Figura 7) y vemos que cada grupo tiene una forma muy distinta de distribuirse alrededor del valor central.

Una posibilidad para estudiar la variabilidad de todas las puntuaciones es restarle a cada una de ellas (Xi ) la media de la distribucin (X ), obteniendo as cunto se desva cada una de ellas de la tendencia central. Esta puntuacin transformada se simboliza por xi y se denomina puntuacin de dispersin o puntuacin diferencial . Por tanto, podemos decir que: xi = Xi X

Figura 2: Grco de cajas y bigotes Como lo que nos interesa es obtener un ndice de la dispersin de toda la muestra, una vez calculadas todas las puntuaciones de desviacin de una muestra podra ser interesante calcular la media de las mismas y considerar esta media como un ndice de la dispersin de la distribucin; la expresin algebraica sera la siguiente: (Xi X )
N

El grco nos indica que el grupo B es un grupo ms homogneo, es decir, que todos sus miembros reaccionan con similar rapidez a los estmulos olfativos; esto es, con una rapidez muy cercana a la media. Mientras, en el grupo A los sujetos presentan grandes diferencias al respecto, tanto entre s como en relacin a la media; es decir, es un grupo muy heterogneo.

Pero existe una caracterstica de la media que dice que la suma de todas las puntuaciones de desviacin es cero y, por tanto, este ndice no nos indica en absoluto la variabilidad de la muestra. Xi X = 0
Ejemplo: Tenemos las siguientes puntuaciones: 1; 2; 3; 4; 5; 6; 7; 8; 9; 10. Su media es 5,5. Si calculramos la suma de las desviaciones de cada puntuacin con respecto a su media tendramos:
(15,5)+(25,5)+(35,5)+(45,5)+(55,5) 10

Por tanto, para describir de forma correcta una muestra es necesaria la utilizacin de ambos tipos de ndices, que cuantican las dos caractersticas ms importantes de la muestra: tendencia central y dispersin. De acuerdo con la denicin de variabilidad de la

PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS


(65,5)+(75,5)+(85,5)+(95,5)+(105,5) 10

+ =

= =0

(4,5)+(3,5)+(2,5)+(1,5)+(0,5)+0,5+1,5+2,5+3,5+4,5 10

inuida por las puntuaciones extremas de la distribucin.


Ejemplo:

El mtodo que se utiliza para evitar este inconveniente y obtener un ndice de dispersin ecaz es elevar al cuadrado las puntuaciones de desviacin (toda puntuacin elevada al cuadrado tiene signo positivo). Y esto es lo que se hace exactamente en el clculo de la varianza. Por tanto, podemos denir la varianza como la media de las puntuaciones de desviacin al cuadrado ; esto es, si sumamos los cuadrados de las puntuaciones de desviacin, y esta suma la dividimos por el nmero de observaciones, habremos calculado la varianza de la distribucin. La varianza se simboliza por S 2 , y su frmula es la siguiente: S2 = (Xi X )
N 2
2

Muestra 1: 2; 5; 8; 11; 15 Muestra 2: 2; 5; 8; 11; 47 Muestra 3: 2; 5; 8; 11; 99

X = 8, 2 X = 14, 6 X = 25

S 2 = 20, 56 S 2 = 271, 44 S 2 = 1,378

5. Cuando tenemos varias muestras sacadas de una misma poblacin, es decir, con la misma media, y conocemos sus respectivas varianzas, es posible calcular la varianza del grupo total hallando la media de sus varianzas. Aplicacin de la varianza La aplicacin de la varianza como ndice descriptivo de la dispersin es muy limitada, por dos razones: 1. Se trata de un concepto muy abstracto de la variabilidad, imposible de representar grcamente. 2. A nivel de ndice cuantitativo presenta dicultades para su interpretacin por venir expresado en unidades de la escala al cuadrado. Esto es importante, ya que si la media viene expresada en unas unidades de escala, conviene encontrar un ndice que venga expresado en esas mismas unidades. Este ndice es la desviacin tpica, que ahora veremos. Inters de la varianza 1. Por un lado, tiene inters como fundamento del clculo de la desviacin tpica. 2. Por otro, es un concepto fundamental tanto para el estudio de la correlacin y regresin, como en un gran nmero de pruebas de inferencia estadstica, como el Anlisis de Varianza. 2.2.2. La desviacin tpica

La varianza de la poblacin se simboliza por . Si tenemos las observaciones agrupadas en una distribucin de frecuencias en intervalos, la frmula sera: S2 = (Xi X )
N
2

fi

Caractersticas de la varianza 1. Siempre ser un valor positivo, ya que, al estar calculado a partir de puntuaciones al cuadrado, el numerador ser siempre positivo. 2. Puede ser igual a cero. Esto suceder cuando todas las puntuaciones de una distribucin sean iguales entre s e iguales a la media, es decir, cuando no existe variabilidad. 3. Es un ndice muy sensible a las variaciones de cualquier puntuacin de la distribucin, puesto que todas y cada una de ellas intervienen en el proceso de clculo. 4. Cuanto ms alejada est una puntuacin de la media, mayor ser su contribucin al valor nal de la varianza, puesto que su desviacin aumentar considerablemente al elevarla al cuadrado. Esto implica que la varianza, al igual que la media, est muy

Hasta ahora, no hemos encontrado ningn ndice de dispersin que satisfaga las necesidades interpretativas de nuestras medidas, ya que la varianza distorsiona excesivamente la dispersin al elevarla al cuadrado. La nica forma de calcular un ndice de dispersin, conservando

PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS

10

al mismo tiempo la informacin propia de la escala de medida, se da en la desviacin tpica. Podemos denir la desviacin tpica como la raz cuadrada de la varianza, o, lo que es lo mismo, la raz cuadrada de la media de los cuadrados de las puntuaciones de desviacin. Si lo expresamos de forma algebraica quedara as: (Xi X )
N
2

Ahora vemos que la diferencia que antes habamos notado a nivel intuitivo entre las dos muestras queda expresada cuantitativamente por los valores de las desviaciones tpicas. La muestra ms dispersa sera la A y la ms homognea la B.

2.2.3.

El coeciente de variacin

S=

S2 =

Caractersticas de la desviacin tpica 1. La desviacin tpica es la medida de dispersin ms utilizada y de mayor aplicacin en estadstica. 2. Todas las caractersticas expuestas para la varianza son aplicables a la desviacin tpica, excepto que sta s que viene expresada en las mismas unidades en que lo hace la escala, paliando la distorsin que se daba en la varianza. 3. La desviacin tpica, lo mismo que la varianza y la media, es muy sensible a las puntuaciones extremas, por lo que no debe calcularse cuando la media no sea el ndice de tendencia central ms adecuado para una distribucin. 4. As como la media es el ndice de tendencia central ms able, la desviacin tpica (al igual que la varianza) es el ndice de dispersin ms able. Signicado de la desviacin tpica El signicado que tiene la desviacin tpica a nivel descriptivo viene dado en su propia denicin: al tratarse de un promedio de las distancias existentes entre todas las puntuaciones y la media, la desviacin tpica ser tambin una distancia. Y, como tal distancia, se puede representar grcamente en una escala de medida a ambos lados de la media. Esta propiedad demuestra su importancia en la curva normal.
Ejemplo: Volviendo al ejemplo de antes, calculamos las desviaciones tpicas de cada grupo para poder compararlos: GRUPO A X = 140 S 2 = 800 S = 28, 28 GRUPO B X = 140 S 2 = 33, 43 S = 5, 78

En el ejemplo hemos visto que las desviaciones tpicas de las dos muestras eran bastante diferentes, expresando as la distribucin de las puntuaciones. Para esto, slo las hemos comparado entre s, puesto que tenan el mismo tamao y la misma media. Pero, cuando esto no es posible, es decir, cuando dos muestras no se reeren a una misma variable, no tienen el mismo tamao o no tienen igual media esta comparacin no es posible. Un mtodo para realizar esta comparacin es calcular los coecientes de variacin de ambas muestras y compararlos entre ellos. El coeciente de variacin es la relacin entre la desviacin tpica de una muestra y su media, expresado en porcentajes. Su frmula es: CV =
S X

100

Este ndice expresa un valor muy abstracto, ya que es el resultado de poner en relacin un ndice que representa una distancia (S) y un ndice que representa un punto de la escala (X ). Por tanto, su nico inters es la ayuda que aporta en la comparacin entre diferentes dispersiones.
Ejemplo: En el ejemplo anterior, tendramos: GRUPO A: CV = GRUPO B: CV =
28,28 140 5,78 140

100 = 20, 2 %

100 = 4, 13 %

Esto quiere decir que en el grupo A la dispersin representa un 20,2 % de la media, mientras que en el grupo B slo representa un 4,13 % de la misma.

2.2.4.

Otros ndices de dispersin

Adems de los ya vistos, existen otros ndices que representan la variabilidad de una distribucin. Por citar alguno, tenemos: La AMPLITUD o RANGO para las escalas ordinales.

PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS

11

La REDUNDANCIA para las escalas nominales. La AMPLITUD SEMIINTERCUARTIL, adecuada cuando la distribucin sea muy asimtrica y, por lo tanto, calculemos como ndice de tendencia central la mediana, en vez de la media.

1. Si los datos no estn agrupados: el primer paso consiste en averiguar el nmero de puntuaciones que estn por debajo del percentil buscado.
Ejemplo: Si en la serie siguiente: 2; 3; 4; 5; 6; 6; 6; 7; 7; 7; 8; 8; 9; 9; 10 queremos conocer cuntas puntuaciones hay por debajo del P20 , tendremos que calcular cunto es el 20 por 100 del total de 15 observaciones. En este caso seran tres los valores que quedaran por debajo de P20 . Por tanto, P20 ser el punto medio entre la tercera y la cuarta observaciones: P20 =
4+5 2

2.3.

Posicin

Hasta ahora hemos hablado de los datos como un todo y hemos hablado de su variabilidad y dispersin como caractersticas fundamentales de cualquier distribucin. Pero, as como nos interesa conocer las caractersticas del conjunto, tambin nos interesa conocer la signicacin de un dato concreto. Para ello, vamos a hablar de las medidas o ndices de posicin.

= 4, 5

La puntuacin 4,5 deja, efectivamente, por debajo de s 3 observaciones (20 %) y 12 observaciones (80 %) por encima de s.

2.3.1.

Los percentiles

Una forma de caracterizar una puntuacin dentro de una muestra consiste en decir el orden que ocupa dentro del total de puntuaciones. Para hacer esto, transformamos la escala de puntuaciones directas en una escala de percentiles. DEFINICION: denimos el percentil como el valor de la escala bajo el cual se encuentra un porcentaje determinado de observaciones (por ejemplo, si hablamos del percentil 15, simbolizado por P15 , nos referimos al valor de la escala por debajo del cual se encuentra el 15 por 100 del total de las observaciones ordenadas de menor a mayor, y que deja por encima de s el 85 por 100 de las observaciones). Esta denicin nos recuerda a un ndice de tendencia central ya visto, la mediana, que es el punto de la escala que deja por debajo de s al 50 por 100 de los datos y el otro 50 por 100 por debajo. Por tanto, la mediana ocupara el percentil 50. Como las puntuaciones deben ser ordenadas de menor a mayor, es necesario que los datos estn medidos, al menos, en escala ordinal.

2. Si los datos estn agrupados en intervalos: en primer lugar, construiremos la distribucin de frecuencias calculando los lmites reales, las frecuencias absolutas y las frecuencias acumuladas. Una vez hecho esto, aplicamos la siguiente frmula: Pk = limi1 + donde, limi1 es el lmite inferior del intervalo donde se sita el percentil. faci1 es la frecuencia acumulada del intervalo anterior. fi es la frecuencia absoluta del intervalo donde se sita el percentil. ai es la amplitud del intervalo donde se sita el percentil. k es el percentil que queremos calcular. El percentil Pk ser la puntuacin que ocupe la posicin (Nk)/100.
kn/100faci1 fi

ai

Escala de percentiles El clculo de percentiles se extiende desde el P1 hasta el P100 , por tanto, la escala de percentiles tiene una amplitud de 1 a 100, siendo su punto medio P50 , que corresponde exactamente a la mediana.

Clculo de los percentiles

PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS

12

La escala de percentiles es una escala ordinal, es decir, la escala determina la posicin que ocupa cada puntuacin individual, en porcentajes, pero no nos dice nada sobre la diferencia entre puntuaciones. Por ejemplo, la diferencia de cantidad de caracterstica medida entre el P70 y el P80 no tiene porqu ser la misma que la existente entre el P60 y el P70 . La representacin grca de una escala de percentiles tiene una distribucin uniforme o rectangular, es decir, entre dos valores consecutivos de la escala siempre existe el mismo nmero de frecuencias, lo que desvirta mucho la forma de la distribucin de los datos originales. Sin embargo, la gran ventaja de las escalas de percentiles es que permiten la comparacin directa de las puntuaciones entre s, tanto dentro de una misma caracterstica como entre caractersticas distintas, siempre que se trate del mismo grupo de sujetos. Para ello, slo es necesario calcular qu percentil corresponde a una puntuacin determinada. La restriccin ms importante de esta escala es que siempre debe tenerse en cuenta el grupo de referencia, es decir, que el rango que ocupa la puntuacin individual de un sujeto se reere exclusivamente a ese grupo. Por tanto, para poder armar que la puntuacin de un sujeto ocupa un rango determinado, debemos tener la seguridad de que el sujeto pertenece a ese grupo. A pesar de esto, la escala de percentiles resulta muy til al proporcionar una informacin fcilmente comprensible sobre una puntuacin, ya que el concepto de porcentaje es ampliamente conocido, y cualquier persona es capaz de comprender el signicado de un rango expresado en porcentajes. Como inconveniente de la escala nos encontramos con que, a nivel estadstico, y dada su caracterstica de escala ordinal, su utilidad es muy limitada. En este sentido, existen otros tipos de transformaciones de las puntuaciones directas que dan lugar a escalas de intervalo, ms interesantes para el tratamiento estadstico. 2.3.2. Deciles y cuartiles

rango de una puntuacin dentro de una distribucin. De hecho, podemos decir que los otros ndices de posicin no son ms que algunos percentiles que tienen unas caractersticas especiales. Este es el caso de la mediana, que es el percentil 50, pero tiene un inters adicional por dividir a la distribucin en dos partes exactamente iguales. Del mismo modo, podemos hablar de otros percentiles que dividen a la distribucin en un nmero determinado de partes iguales. Los ms caractersticos son los llamados deciles y cuartiles. 1. Los DECILES son los valores de la escala que dividen a la distribucin en 10 partes iguales, es decir, entre dos deciles consecutivos cualesquiera se encuentra el 10 por 100 de las observaciones de la muestra. Por tanto, existirn 9 deciles, desde D1 hasta D9 , que se corresponden con los percentiles 10, 20, ..., 90. Esta escala, que posee las mismas caractersticas que la escala de percentiles, tiene un uso an ms restringido, ya que proporciona menos informacin al localizar slo 9 puntos de la escala total. 2. Los CUARTILES son los valores de la escala que dividen a la distribucin en 4 partes iguales. En cada una de ellas, por tanto, estarn el 25 por 100 de las observaciones de la muestra. Los tres cuartiles se simbolizan por Q1 , Q2 y Q3 , y corresponden a los percentiles 25, 50 y 75, respectivamente.
Ejemplo: En una prueba de acceso a puestos de trabajo en la funcin pblica se anotaron el nmero de respuestas acertadas por los aspirantes, resultando lo siguiente: I 19-26 26-33 33-40 40-47 47-54 54-61 fi 3 5 12 9 7 4 40 Xi 22,5 29,5 36,5 43,5 50,5 57,5 faci 3 8 20 29 36 40

Todos los ndices de posicin estn planteados al mismo nivel que los percentiles, esto es, indican la posicin, el

1.

Si hay tan slo 7 plazas, qu calicacin se ha de obtener como mnimo para conseguir una de ellas?

PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS

13

Como hay 7 plazas, slo 7 sujetos de los 40 podrn optar a una. El primer paso ser saber qu porcentaje del total representan 7 sujetos: 7/40 100 = 17, 5 Por tanto, slo el 17,5 % de los sujetos tendrn plaza. Como es lgico suponer que sean los que mejor nota tengan (ms nmero de respuestas acertadas), stos sujetos sern el 17,5 % superior de la distribucin. Sin embargo, como los percentiles nos informan del porcentaje de sujetos que quedan por debajo de una puntuacin, debemos buscar el percentil que deje por debajo al 100-17,5=82,5 % de los sujetos, esto es, el percentil 83. Clculo: kn/100faci1 Pk = limi1 + ai fi Calculamos en primer lugar el nmero de sujetos que representan el 83 %: kn/100 = 83 40/100 = 33, 2 33 Buscamos en la columna de las frecuencias acumuladas el intervalo que contiene a 33 sujetos. Resulta ser el intervalo 5o [47, 54]. Una vez localizado el intervalo donde se va a situar la puntuacin que corresponde al P83 buscamos el resto de datos necesarios para aplicar la frmula de clculo. El lmite inferior del intervalo (limi1 ), que es 47. La frecuencia acumulada del intervalo anterior (faci1 ), que es 29. La frecuencia absoluta de nuestro intervalo (fi ), que es 7. La amplitud del intervalo (ai ), que es 7. Aplicamos la frmula: 29 7 = 51 P83 = 47 + 33 7 El percentil 83 corresponde a la puntuacin 51. Por tanto, la calicacin mnima que deben obtener los sujetos para conseguir plaza es 51 respuestas correctas. 2. Si no se admiten a todos aqullos que obtienen una calicacin inferior a 49 puntos, cuntos de los aspirantes sern admitidos? En este caso tenemos la puntuacin (49) y debemos averiguar a qu percentil corresponde. Sabemos, por tanto, que Pk = 49. Lo haremos mediante misma frmula, slo que la incgnita es este caso es el valor del percentil, es decir, k. Como 49 es una puntuacin, iremos a la tabla a ver en qu intervalo est incluida. Resulta estar en el intervalo 5o . Una vez localizado el intervalo donde se sita la puntuacin, buscamos el resto de datos necesarios para aplicar la frmula de clculo. El lmite inferior del intervalo (limi1 ), que es 47.

La frecuencia acumulada del intervalo anterior (faci1 ), que es 29. La frecuencia absoluta de nuestro intervalo (fi ), que es 7. La amplitud del intervalo (ai ), que es 7. Aplicamos la frmula: 29 49 = 47 + (k40/100) 7 7 Como en este caso la incgnita es k debemos despejarla para obtener su valor. k= = 77, 5 40 La puntuacin 49 deja por debajo de s al 77,5 % de los datos. Es decir, el 77,5 % de los sujetos no sern admitidos, lo que corresponde a (40 77, 5)/100 = 31 sujetos. Como el enunciado nos pide cuntos sern admitidos, debemos restarlo del total (40-31=9). Por tanto, el nmero de sujetos que sern admitidos es 9. 3. Cuntos aspirantes superan la media de las puntuaciones? Para saber cuntos sujetos superan la media, debemos antes calcular sta. X=
Xi fi N 22,53+29,55+36,512+43,59+50,57+57,54 40
(4947)7 7

+29 100

= 40, 7 X= Ahora que conocemos el valor de la media, seguimos los mismos pasos que en el apartado anterior para calcular el valor del percentil. 20 40, 7 = 40 + k40/100 7 9 = 52, 25 k= 40 El 52,25 por ciento de los sujetos de la muestra se sita por debajo de la media de la distribucin. Por tanto, el 47,75 % restante se sita por encima. A este porcentaje le corresponden 19, 1 19 sujetos.
(40,740)9 7

+20 100

Vous aimerez peut-être aussi