Vous êtes sur la page 1sur 11

Tema 9

Estadstica descriptiva

Establecer los objetivos del trabajo


Los objetivos de un trabajo estadstico pueden ser de dos clases:

- Descriptivos: Describir las caractersticas de un determinado conjunto de elementos.


Por ejemplo, se puede tratar de describir las costumbres de un determinado grupo de jvenes
durante su perodo de ocio.

- Confirmacin/Rechazo de una hiptesis formulada previamente. De esta manera, se


plantean determinadas hiptesis previas (el tiempo dedicado al ocio durante el fin de semana es
mayor, los chicos consumen ms bebidas alcohlicas que las chicas, etc.) de manera que el
estudio estadstico permita confirmarlas o rechazarlas.

Esto implica la eleccin de variables en el estudio estadstico a realizar, que pueden ser, a
su vez, de dos clases:

- Cualitativas, atributos cuyos valores no conocen valores intermedios. Por ejemplo,


fumas/no fumas, tienes ordenador en casa/no lo tienes, te gusta para el verano la playa/la
montaa, tienes el pelo rubio/moreno/castao/blanco.

- Cuantitativas son aquellas variables cuyos valores pueden asociarse a una escala
numrica como, por ejemplo, edad, estatura, nmero de vasos de cerveza bebidos, etc. En
trminos matemticos, son variables susceptibles de ser medidas, hecho que no sucede en las
variables cualitativas. Las variables cuantitativas, a su vez, se diferencian en continuas (entre dos
valores siempre puede existir uno intermedio, como en el caso de la estatura) y discretas (si no
puede tomar valores intermedios, como al considerar el nmero de hermanos).

Elegir la poblacin
La poblacin investigada puede ser de tamao tan reducido que resulte fcilmente
asequible, por ejemplo, eligiendo como poblacin o conjunto de elementos investigados, los
jvenes presentes en una fiesta. Sin embargo, un tamao demasiado pequeo conlleva una
escasa generalizacin de los resultados obtenidos a una poblacin ms amplia. As, analizar la
presencia de bebidas alcohlicas en la juventud preguntando a los integrantes de una botellona
resultar completamente sesgado y no permitir generalizar las respuestas a todo tipo de jvenes.
Sin embargo, una poblacin ms grande implica la eleccin de muestras representativas y
para que lo sean tendran que tomarse diversos estratos (jvenes de distintas edades, de distinto
poder adquisitivo, de pueblos y de ciudad, etc.) y con un nmero en relacin a la poblacin total
estudiada.
Confeccin de un cuestionario

Elegidas los variables a estudiar (cualitativas/cuantitativas) hay que formular las


preguntas oportunas para conseguir los objetivos planteados. Las preguntas pueden ser abiertas
(cmo pasas el fin de semana cuando sales de casa?) pero lo ms aconsejable a la hora de
facilitar la codificacin de las respuestas es elegir preguntas de respuesta mltiple.

Por ejemplo, qu medios de comunicacin tienes en tu casa?:

Televisin ()
Radio ()
Telfono ()
Internet ()
Mvil ()
Otros () Especifquese ..........................................

En estos casos siempre conviene dejar un apartado para casos no previstos (radios de
onda corta, por ejemplo, o cualquier otra tecnologa).

Naturalmente, las respuestas mltiples se pueden prever en el caso de los atributos


cualitativos. En la eleccin de estos factores hay que tener en cuenta algunos aspectos que
pueden causar serios problemas de codificacin despus.
Las preguntas deben estar bien formuladas y permitir respuestas inequvocas. As, por
ejemplo:

Utilizas mucho el ordenador? S ( ) No ( )

es una pregunta mal formulada por cuanto el entrevistado dar un significado a la palabra
mucho que puede ser muy distinta de otras personas que respondan. Para unos mucho sern 2
horas al da, que puede resultar lo normal para otros.

Te gusta pasar el verano en : La playa ( ) La montaa ( ) Con tus amigos ( )

Esta pregunta tambin est mal formulada por dos motivos. En primer lugar, las
respuestas mltiples deben corresponder, en la medida de lo posible, a una misma variable. No
se puede mezclar en las respuestas sugeridas el entorno (playa/montaa) con la compaa. En
segundo lugar, las respuestas deben ser excluyentes entre s. En este caso, tal como se ha
formulado la pregunta puede que haya encuestados a los que guste tanto la playa como la
montaa y ello no est previsto. La pregunta podra formularse mejor as:

Dnde te gusta ms pasar el verano?: La playa ( ) La montaa ( ) Otros ( )

El anlisis que es posible efectuar de los atributos cualitativos es ms pobre en cuanto a


resultados que el efectuado en las variables cuantitativas. Por ello conviene elegir, siempre que
se pueda, a estas segundas de manera preferente.

As, la pregunta: Fumas? S ( ) No ( )

puede sustituirse por: Cuntos cigarrillos fumas al da? .................

de manera que quien responda 0 podemos determinar que es no fumador y, al tiempo, la variable
es cualitativa y se puede examinar el grado en que se fuma dentro de la poblacin estudiada.
Esto conduce a otra observacin de importancia dentro de la formulacin de preguntas
propias de las variables cualitativas/cuantitativas. Es fcil transformar una variable cualitativa en
cuantitativa imponiendo un criterio propio. As, podemos distinguir

No fumadores ....................... 0 cigarrillos al da.


Pequeos fumadores ............. 0 - 5 cigarrillos al da.
Medianos fumadores ............ 5 - 10 cigarrillos al da.
Grandes fumadores ............... Ms de 10 cigarrillos al da.

Sin embargo, una variable cualitativa es difcil de transformar en cuantitativa sin una
prdida considerable de exactitud en el anlisis de los datos cuando no contradicciones y anlisis
inadecuados. Por ejemplo:

De qu color tienes el pelo?


Rubio ( ) Moreno ( ) Castao ( ) Blanco ( ) Otros ( )

no tiene sentido codificarlo como variable cualitativa posteriormente,

Rubio (1) Moreno (2) Castao (3) Blanco (4) Otros (5)

puesto que las respuestas no tienen una naturaleza numrica que pueda ser ordenada.

Construccin de tablas de frecuencia


Cuando se empieza a examinar las respuestas habidas, la primera actuacin consiste en
construir una tabla para cada variable donde aparezcan sus valores con la frecuencia absoluta,
es decir, el nmero de respuestas que corresponden a dicho valor.

As, ante la pregunta Fumas? (Variable cualitativa) se presentan dos valores posibles, S
y No. Si se ha pasado el cuestionario a 50 personas en total, la frecuencia absoluta puede ser:

Frecuencia absoluta S ........... 20


No .......... 30

Que dara paso a una frecuencia relativa o cociente entre la frecuencia absoluta y el nmero
total de respuestas:
Frecuencia relativa S ......... 20/50 = 0,4 ......... 40 %
No ........ 30/50 = 0,6 ......... 60 %

expresable, como se ve, por medio de porcentajes sobre el total de respuestas. La frecuencia
relativa sera, en este sentido, el tanto por uno.

Cuando nos encontramos con una variable cuantitativa x que presenta una serie de
valores xi, cada uno con una frecuencia absoluta ni, se puede disponer el mismo tipo de tabla,
teniendo en cuenta que la frecuencia relativa se definir como Fr = ni / N siendo N = ni el
nmero total de observaciones. As, en el caso de la edad de los estudiantes en una clase:
xi ni fr % fa
18 6 0,12 12 % 0,12
19 12 0,24 24 % 0,36
20 14 0,28 28 % 0,64
21 10 0,20 20 % 0,84
22 8 0,16 16 % 1
N = 50 1 100 %

La ltima columna corresponde a la frecuencia relativa acumulada, que se obtiene


haciendo corresponder a cada valor xi la suma de las frecuencias relativas de dicho valor y todos
sus anteriores. El significado que tiene se refiere fundamentalmente a las variables cuantitativas
y consiste en indicar la frecuencia de la presencia de valores menores o iguales que el indicado.
As, el hecho de que al valor xi = 20 le corresponda una frecuencia acumulada de 0,64 indica
que el 64 % de las observaciones se refiere a estudiantes de hasta 20 aos.
Cuando en la variable se consideran intervalos ms que valores concretos,
fundamentalmente si la variable cualitativa es continua, el valor de xi se suele tomar como el
valor medio del intervalo. De esta forma, al registrar estaturas, se pueden obtener los intervalos

(1,50 - 1,60], (1,60 - 1,70], (1,70 - 1,80], (1,80 - 1,90]

sustituyndose de cara a obtener los estadsticos oportunos por:

1,55 - 1,65 - 1,75 - 1,85.

Representaciones grficas
Existen diversas representaciones grficas ms o menos aconsejables segn el tipo de
variables utilizada. El ms importante suele ser el diagrama de barras o histograma,
particularmente adecuado cuando la variable es cualitativa y continua (el ancho de barra
representara el intervalo) pero presente tambin en las variables de tipo cualitativo.
En otras ocasiones o cuando los intervalos son sustituidos por las marcas de clase o
valores intermedios, se tiene un diagrama de puntos que, para mejor comprensin, se unen
entre s mediante una lnea.

Uno de los ms populares tambin es el diagrama de sectores, particularmente de


aplicacin en las variables cualitativas. En l, el ngulo central de cada sector es
proporcional a la frecuencia (absoluta o relativa).

En caso de disponer, como en la tabla, de 50 observaciones y querer representar un valor


de frecuencia 12 se procedera a establecer a siguiente proporcionalidad:

360 / 50 = x / 12
de modo que
x = 12 x 360 / 50 = 86,4

y la representacin de esta frecuencia correspondera a un ngulo central de 86, fcilmente


determinado con el transportador de ngulos.
Existen otras representaciones grficas derivadas del diagrama de barras y que muestran
la frecuencia de los valores de la variable segn criterios de tamao pero no referidos a barras,
sino a figuras alusivas a la variable de que se trata. Son los pictogramas.
Medidas de centralizacin
Las medidas de centralizacin pretenden sustituir todo el conjunto de datos por uno que
los represente de manera resumida. Existen bsicamente tres, que se examinan a continuacin.

Media aritmtica
U U

Si se ha obtenido en un examen parcial un 4 y en el siguiente un 6, estas dos


observaciones se resumen en una sumando ambas y dividiendo por el nmero de observaciones:
x = (4 + 6) = 5
Si se desea hallar un valor que represente las notas obtenidas en determinado examen, se
vuelven a sumar todas ellas dividiendo por el nmero de notas registradas:

x = 1/12 (1 + 1 + 4 + 5 + 5 + 5 + 6 + 6 + 6 + 7 + 7 + 8) = 5,08

As que, si las observaciones son xi y el nmero total de datos es N, la media aritmtica se


B B

definir como
x = 1/N (x1 + x2 + x3 + ... + xN) = xi / N
B B B B B B B B B B

Ahora bien, en vez de sumar tres veces cinco o dos veces siete, se pueden sustituir los
valores repetidos por el producto del valor xi por la frecuencia absoluta que presentan ni , que
B B B B

para el caso planteado en la tabla 1, dara lugar a

x = 1/50 (18 x 6 + 19 x 12 + 20 x 14 + 21 x 10 + 22 x 8) = 20,04

x = xi n i / N B B B B

Mediana
U U

La mediana se define como el valor que ocupa el punto central cuando la serie
numrica est ordenada creciente o decrecientemente. Para su clculo resulta de gran utilidad
la frecuencia acumulada por cuanto la mediana ser el valor numrico que deje la mitad de las
observaciones por debajo y la mitad por encima de dicho valor.
Si el nmero de observaciones es impar el clculo de la mediana es inmediato porque,
una vez ordenadas las observaciones, se elige a la central. Tal es el caso de las siguientes
calificaciones:
1 1 3 4 4 5 6 6 7 8 8 U U

Se tienen once valores ordenados, de manera que la mediana ser la que tenga la posicin sexta
(el 5) por cuanto hay cinco notas inferiores y cinco notas superiores.
Cuando el nmero de observaciones es par, como en el caso recogido antes de las notas
de un examen:
1 1 4 5 5 5 6 6 6 7 7 8 U U

resultar que habr una pareja de valores que deja a un lado y otro el mismo nmero de
observaciones. En ese caso, la mediana se considera la semisuma de estos dos valores centrales
que, para el ejemplo considerado, ser de 5,5.
Cuando el nmero de valores es muy grande, se considera tambin admisible tomar como
mediana el valor de la variable correspondiente a la frecuencia absoluta acumulada
inmediatamente superior a N/2 o bien, en la frecuencia relativa acumulada, la inmediatamente
superior a 0,50 (50 %) que, en el caso de la tabla 1, sera 20.
Este clculo puede representarse fcilmente en un diagrama de barras o de puntos. Dado
que en ordenadas se suele reflejar el nmero N de observaciones, se tiende una lnea paralela al
eje de abcisas por N/2 de manera que el valor coincidente con este lnea o el inmediatamente
superior resulta ser la mediana.

Moda
U U

La moda, de aplicacin tanto a variables cualitativas como cuantitativas, es el valor de


la variable de mayor frecuencia. Su determinacin, obviamente, se produce al observar el
valor xi al que corresponde el mayor ni en la tabla de frecuencias.
B B B B

Medidas de dispersin
Un alumno A tiene las siguientes calificaciones en una asignatura: 4, 7, 9, 2, 8. Otro
alumno B tiene en cambio las siguientes: 5, 6, 6, 6, 7. Las medias respectivas son:
xA = 6 ; x B = 6
B B B

Sin embargo, se puede apreciar que el simple dato de la media aritmtica no describe el
comportamiento de ambos alumnos, el segundo mucho ms regular que el primero. Esta
regularidad se basa en que sus calificaciones estn ms cerca de la media aritmtica mientras
que las del alumno A aparecen ms dispersas respecto a este estadstico.

La primera medida estadstica para determinar el grado de dispersin de los datos es el


recorrido, es decir, la diferencia entre el valor mayor y el valor menor de la variable. En el
caso de los dos alumnos sera:
RA = 8 - 2 = 6 ; RB = 7 - 5 = 2
B B B

Sin embargo, la medida de la dispersin ser ms exacta si consideramos las diferencias


de cada dato respecto de la media aritmtica:

Alumno A
U U Alumno B
U U

4-6=-2 5 - 6 = -1
7-6=1 6-6=0
9-6=3 6-6=0
2-6= -4 6-6=0
8-6=2 7-6=1

Se puede observar que la suma de las desviaciones es igual a 0 en ambos casos porque
unas desviaciones por debajo son compensadas por otras desviaciones por encima de la media,
lo que es lgico esperar dadas las caractersticas de la propia media como valor centralizado de
los datos presentes. Sin embargo, la idea de sumar estas desviaciones es adecuada pero siempre
que consideremos, o bien el valor absoluto de estas desviaciones (- 4 y + 4 supondran una
misma desviacin) o bien, como se hace habitualmente, el cuadrado de las desviaciones
parciales.

Alumno A
U U Desv 2
U Alumno B Desv 2
UPU U
P U U U UPU U
P

4-6=-2 4 5 - 6 = -1 1
7-6=1 1 6-6=0 0
9-6=3 9 6-6=0 0
2-6= -4 16 6-6=0 0
8-6=2 4 7-6=1U U 1 U U

Suma 34 Suma 2
Cuando se comparan sumas de desviaciones al cuadrado habr que tener en cuenta el
nmero de observaciones para poder comparar de manera uniforme casos en que el nmero de
observaciones es diferente (por ejemplo, comparar la dispersin de notas en una asignatura en la
que hay cinco notas parciales con otra de la que se llega a disponer de ocho notas parciales). De
este modo se divide esta suma por el nmero de observaciones en lo que puede entenderse como
una media aritmtica de los cuadrados de las desviaciones.
A este trmino se le llama varianza, es decir, el cociente entre la suma de los
cuadrados de la desviacin a la media aritmtica y el nmero de datos:

V = ni (xi - x)2 / N
B B B B P
P

Pero esta varianza no puede compararse adecuadamente con la media ya que las
desviaciones estn elevadas al cuadrado. Por eso, se define la desviacin tpica como la raz
cuadrada de la varianza y se suele representar por la letra . De este modo, si la varianza de los
dos casos anteriores era:
VA = 34 / 5 = 6,8
B B

VB = 2 / 5 = 0,4 B

su desviacin tpica ser:


A = 6,8 = 2,6
B B

B = 0,4 = 0,6
B

de manera que los datos referidos al alumno A quedan mejor descritos con los dos estadsticos,
la medida de su centralizacin y de su dispersin, (6, 2,6) mientras que el alumno B queda
descrito de la misma forma (6, 0,6).

Variables bidimensionales
Cuando, dentro de una misma poblacin estudiada, se disponen datos de la presencia
simultnea de valores de dos variables, esto permite estudiar la posible relacin entre ambas. En
este sentido, nuevamente hay que distinguir entre el estudio de la relacin de dos variables
cuantitativas (lo que da lugar a la idea de correlacin y un anlisis a partir de la covarianza) y
cuando al menos una de las variables es de tipo cualitativo (y entonces el estudio se realiza por
medio de las tablas de doble entrada).

Dos variables cuantitativas


U U

Supongamos que, dentro de una clase formada por diez alumnos, se tienen las notas de
dos asignaturas, matemticas y fsica.
Variable X Variable Y
Matemticas Fsica

7 6
6 4
8 7
3 4
6 5
9 6
4 2
10 9
2 1
5 6
Media: x = 6 Media: 5

Podemos representar estas calificaciones (cada uno de los valores de estas variables) de
manera conjunta en un eje de abcisas (notas de Matemticas) y otro de ordenadas (notas de
Fsica) de manera que nos encontremos ante un diagrama de puntos. Cuando los puntos
representados distan poco de una recta como la trazada podemos afirmar que existe una
correlacin positiva entre ambas asignaturas. En otras palabras, que cuando los valores de una
asignatura aumentan (notas mejores) tambin aumentan los de la otra as como que si las notas
de una asignatura disminuyen (peores notas) tambin lo hacen los de la otra.
Cabe tambin la existencia de una correlacin negativa, es decir, que al aumento de los
valores de una variable le corresponda una disminucin similar de los valores de la otra. Ello
puede suceder, por ejemplo, cuando confrontamos las distancias a las que un jugador tira a
canasta en baloncesto con el nivel de aciertos. Es posible una correlacin negativa que indicara
que a mayor distancia menor nmero de aciertos y viceversa.
Continuando con el ejemplo de la tabla 2, existe un parmetro estadstico que nos indica
el carcter y grado de la correlacin entre ambas variables. Se trata de la covarianza, entendida
como la media de los productos de las distancias de un valor a su media. La idea es una
extensin de la de varianza para una variable. En efecto, cada variable tiene una media de
manera que la conjuncin de ambas da lugar a un punto dentro de la representacin grfica que,
tal como se seala en la figura, es el (6,5).
Pues bien, la covarianza considera la desviacin respecto de la media correspondiente de
los valores de cada variable y los multiplica por parejas. Naturalmente, ello tiene que corregirse,
dado que se suman todos estos productos, con la divisin por el nmero de observaciones. Por
otro lado, se demuestra en Estadstica, que este valor se puede expresar como la media de los
productos menos el producto de las medias, dando lugar a otra forma de clculo ms sencilla:

CXY = 1/N (xi - x) (yi - y) = 1/N (xi yi) - x y


B B B B B B B B B B

de forma que en el caso de las dos asignaturas, esta covarianza sera se:

C XY = 1/10 (348 - 30) = 31,8


B B
que da un valor positivo alto, indicando un grado de relacin elevado entre ambas variables.

Una variable cualitativa al menos U

Cuando interviene una variable cualitativa en el anlisis de la relacin entre variables la


complejidad estadstica del estudio que es posible realizar aumenta notablemente. Es por ello
que, al nivel de este curso, solamente citaremos como elemento de anlisis la realizacin de una
tabla de doble entrada en la que los valores de cada variable aparezcan en abcisas u ordenadas de
manera que cada casilla registre el nmero de casos conjuntos de un valor determinado de cada
variable.
As, si relacionamos las notas de una asignatura distribuidas en cuatro categoras
(suspenso S, aprobado A, notable N y sobresaliente SO) con el sexo de los estudiantes (hombre
H y mujer M) se puede establecer una tabla con los casos en que suceden simultneamente los
distintos valores de las variables.
En una columna de la derecha se dispone la frecuencia absoluta y relativa (en forma de
porcentaje) de los valores de la variable sexo. Se puede observar que, al haber 12 observaciones
en cada caso, hay un 50 % de hombres y un 50 % de mujeres.
De igual modo, en la fila inferior se seala los mismos tipos de frecuencias de los valores
de la variable calificaciones: Para toda la poblacin (24 casos), hay un 21 % de suspensos, 37 %
de aprobados, 25 % de notables y 17 % de sobresalientes. Todos estos porcentajes son los
esperables si la otra variable no tiene efecto sobre la que presenta estas frecuencias.

S A N SO
3 5 3 1
H 25 % 42 % 25 % 8% 12
60 % 55 % 50 % 25 % 50 %
12,5 % 21 % 12,5 % 4%

2 4 3 3
M 17 % 33 % 25 % 25 % 12
40 % 45 % 50 % 75 % 50 %
8% 17 % 12,5 % 12,5 %

5 9 6 4 24
21 % 37 % 25 % 17 %

Es por ello que se incluye, tras la frecuencia absoluta de cada casilla (primera lnea en
cada una), tres porcentajes sucesivos. Veamos qu anlisis permiten.
El primer porcentaje corresponde a la frecuencia relativa al valor de la variable Sexo.
As, hay 5 suspensos en esta poblacin, que representan el 21 % de total de observaciones. Pues
bien, considerando slo los hombres, los suspensos son 3, es decir, 3/12 = 0,25 de frecuencia
relativa sobre el total de hombres (el 25 %). De este modo, podemos comparar el porcentaje de
suspensos de toda la poblacin (21 %) con el porcentaje de suspensos de los hombres (25 %) y
de las mujeres (17 %), de donde se puede concluir que parece existir una influencia de la
variable Sexo sobre el nmero de suspensos. Si comparamos del mismo modo el porcentaje de
sobresalientes global (17 %) podemos observar que es ms elevado en las mujeres (25 %) que en
los hombres (8 %) revelando una tendencia a que las mujeres saquen mejores notas y, en
consecuencia, la variable Sexo tenga influencia sobre a variable Calificacin.
El segundo porcentaje realiza una labor similar pero refiriendo los valores de cada casilla
a la frecuencia absoluta de cada calificacin. As, sobre 5 suspensos, 3 son de hombres (60 % del
total de suspensos) y 2 de mujeres (40 %). Teniendo en cuenta que la frecuencia esperable, si
hubiera una distribucin equitativa, sera del 50 % en cada caso, parece haber una tendencia
nuevamente confirmada, a un nmero mayor de suspensos entre los hombres. Del
total de sobresalientes (4), por otra parte, el 75 % son de mujeres y slo el 25 % de
hombres, mostrando
la misma tendencia.
El ltimo porcentaje se refiere a la frecuencia relativa de cada casilla, no respecto
a la fila o columna correspondiente, sino respecto del total.