Vous êtes sur la page 1sur 77

1

Tema 1: Mtodos Descriptivos



En el tema de introduccin se defini la Estadstica Descriptiva como el conjunto de
procedimientos necesarios para recoger, clasificar, representar y resumir un conjunto
de observaciones obtenidas en una experiencia. Cualquier actividad de las anteriores
vara en su tcnica segn sea el tipo de datos a los que nos enfrentemos.
Comencemos pues por las definiciones ms importantes.

1.1. Definiciones bsicas

Llamaremos Poblacin al conjunto de todos los elementos que cumplen ciertas
propiedades especficas al iniciar una investigacin o estudio. Pueden ser objetos,
seres vivos, etc. Por ejemplo, si deseamos investigar la eficacia de una determinado
frmaco muscular, la poblacin estar formada por todos aquellos deportistas
interesados en la utilizacin del frmaco. El tamao de la poblacin se define como el
nmero de individuos que la componen y atendiendo al tamao clasificaremos las
poblaciones en finitas o infinitamente grandes, cuyo tamao puede considerarse si
no infinito, lo suficientemente grandes como para poder suponerlo.

La poblacin puede ser observada de dos formas posibles: mediante un censo, que
consiste en observar a todos los individuos de la poblacin. Esta forma de observacin
es imposible en la mayora de los casos.

La segunda forma de estudio de la poblacin es la muestra. Llamamos muestra a un
subconjunto de la poblacin que se extrae de ella para obtener informacin.

Variable es el trmino genrico relativo a una caracterstica en estudio; por ejemplo
sexo, medida, peso, edad, etc. Cuando hablemos de variables, haremos referencia a
una letra mayscula (X, Y, A, B,) que puede tomar cualquier valor, categora o
modalidad de un conjunto determinado que llamaremos dominio de la variable o
rango.

Las variables que provienen de la informacin que podemos obtener de una muestra
se pueden clasificar en dos grandes grupos:

Variables cualitativas: Son aquellas que se refieren a una cualidad y cuyas
categoras o modalidades posibles son de tipo nominal. Por ejemplo color, sexo,
especie, etc.. Se suelen dividir en dos tipos:

Ordinales: Aquellas en las que las categoras pueden ser ordenadas, Por
ejemplo, si estudiamos la llegada a la meta de un corredor en una competicin
de 20 participantes, su clasificacin puede ser

{ } 1 , 2 , 3 ,..., 20

Otro ejemplo de variable ordinal es el nivel de tratamiento que se da a un
deportista frente a una lesin:

{ } "Inexistente","poco intenso","moderado","fuerte"

Nominales: Son aquellas variables en las que no se puede establecer un
orden entre sus modalidades. Por ejemplo, sexo, color de ojos, etc.

2
Variables cuantitativas: Son aquellas que se expresan mediante cantidades
numricas con las que podemos realizar operaciones aritmticas. Distinguimos dos
tipos:

Discretas: Son aquellas que slo pueden tomar valores numricos aislados; es
decir, que no admiten valores cualesquiera entre otros dos. Por ejemplo el
nmero de caras obtenidas en el lanzamiento repetido de una moneda.

Continuas: Son variables que pueden tomar cualquier valor dentro de uno o
ms intervalos. Por ejemplo, el peso de un deportista, la velocidad del viento,
etc.

Para cada elemento de la muestra, la variable toma un categora o modalidad si nos
referimos a una variable cualitativa y un valor si nos referimos a una cuantitativa.
Adems, como veremos posteriormente, a veces los diferentes valores que toma una
variable cuantitativa son numerosos y convendr reducir su nmero, agrupndolos en
una cantidad inferior de clases.

En este tema estudiaremos cada tipo de variable de forma separada, introduciendo la
forma de presentar los datos de cada una de ellas, las representaciones grficas
correspondientes a cada una y las medidas que resumen los valores de las diferentes
variables.

1.2. Variables cualitativas

Tabla de frecuencias de una variable cualitativa

Llamaremos distribucin de frecuencias de una variable cualitativa a la clasificacin
y tabulacin de dicha variable. Las modalidades o categoras de la variable deben
generar una particin de la poblacin, es decir, cada individuo de la poblacin debe
tomar una y slo una de las posibles modalidades o categoras de la variable.

Consideremos una poblacin estadstica de n individuos, descrita segn una variable
X, cuyas modalidades se denotan mediante x
1
, x
2
,,x
k
. Para cada una de las clases
introducimos las siguientes definiciones:

Frecuencia absoluta de la categora x
i
, es el nmero de veces que aparece x
i
en la
muestra elegida, o dicho de otro modo, el nmero de individuos de la muestra que
presentan la categora x
i
. La frecuencia absoluta se representa mediante n
i
.

Frecuencia relativa de la categora x
i
, es la proporcin de veces que aparece x
i
en la
muestra elegida, o dicho de otro modo, la proporcin de individuos de la muestra que
presentan la categora x
i
. La frecuencia relativa se representa mediante f
i
y se calcula
como:

i
i
n
f
n
=

En muchas ocasiones la frecuencia relativa se expresa en % y representa el
porcentaje de individuos que presentan la categora x
i
en la muestra. Su clculo se
reduce a multiplicar f
i
por 100.

Lgicamente se deben cumplir las siguientes condiciones:

3
1 2
1
1 2
1
...
0 1
... 1
k
i k
i
i
k
i k
i
n n n n n
f
f f f f
=
=
= + + + =
s s
= + + + =



debido a que las categoras o modalidades son mutuamente excluyentes.

La informacin de la variable cualitativa se representa en lo que se denomina la tabla
de frecuencias, que tiene la siguiente forma:


Modalidad, x
i
Frec. Absoluta, n
i
Frec. Relativa, f
i
Frec. Relativa en %
x
1
n
1
f
1
100f
1

.
x
i
n
i
f
i
100f
i


x
k
n
k
f
k
100f
k

Total n 1 100


Ejemplo 1.1

La siguiente tabla de frecuencias corresponde a la variable Grupo sanguneo de 500
atletas

Grupo Sang, x
i
Frec. Absoluta, n
i
Frec. Relativa, f
i
Frec. Relativa en %
A 150 0.30 30%
B 75 0.15 15%
AB 25 0.05 5%
O 250 0.50 50%
Total 500 1 100%


Representacin grfica de una variable cualitativa
La informacin proporcionada por las tablas es bastante completa, pero tiene la
dificultad de que su lectura requiere cierto tiempo y capacidad de comparacin para
relativizar la informacin de unas clases con respecto a otras. La representacin
grfica constituye uno de los principales mtodos y el ms sencillo de exponer la
informacin. Se utiliza para resumir la informacin muestral y visualizar la importancia
relativa de cada categora. Segn el tipo de variable realizaremos distintos tipos de
grficos. Veamos en primer lugar los grficos para variables categricas.
Diagrama de barras
El diagrama de barras es una de las representaciones grficas ms sencillas para
resumir la informacin que proviene de una variable de tipo cualitativo. Se colocan en
el eje de abscisas (x) las distintas categoras o modalidades de la variable y sobre
cada una de ellas se levanta una lnea perpendicular cuya altura es la frecuencia
(absoluta o relativa) correspondiente a dicha categora.

4
0 AB B A
Grupo Sanguneo
250
200
150
100
50
0
F
r
e
c
u
e
n
c
i
a
250
25
75
150
0 AB B A
Grupo Sanguneo
250
200
150
100
50
0
F
r
e
c
u
e
n
c
i
a
250
25
75
150
Ejemplo 1.2
El diagrama de barras correspondiente a los datos del ejemplo 1.1 sera el siguiente

















Polgono de frecuencias
Se obtiene uniendo los extremos superiores de las barras en el diagrama de barras.











Grfico de sectores
El grfico de sectores consta de un crculo en el que a cada categora se asigna un
sector de rea (y por tanto, el ngulo que lo genera) proporcional a la frecuencia de la
categora. Como los 360 de la circunferencia corresponden a los n individuos de la
muestra (o al 100%), a una modalidad de frecuencia absoluta n
i
le correspondera una
porcin de ngulo:
0 AB B A
Grupo Sanguneo
250
200
150
100
50
0
F
r
e
c
u
e
n
c
i
a
250
25
75
150
0 AB B A
Grupo Sanguneo
250
200
150
100
50
0
F
r
e
c
u
e
n
c
i
a
250
25
75
150
0 AB B A
Grupo Sanguneo
250
200
150
100
50
0
F
r
e
c
u
e
n
c
i
a
50,0%
5,0%
15,0%
30,0%
0 AB B A
Grupo Sanguneo
250
200
150
100
50
0
F
r
e
c
u
e
n
c
i
a
50,0%
5,0%
15,0%
30,0%
5
360
360
i
i
n
x f
n

= =
Para los datos del ejemplo anterior, el diagrama de sectores sera el siguiente










































50,0 %
5,0%
15,0%
30,0%
0
AB
B
A
Gruposan
5,0%
15,0%
30,0%
0
AB
B
A
Gruposan
50,0%
PRCTICADEVARIABLESCUALITATIVAS
Vamosaresolverelejemplo1.1

EnprimerlugarintroducimoslosdatosenlaHojaExcelcomosigue

Acontinuacinvamosaobtenerlatabladefrecuenciasyparaelloseleccionamosdelmen
delapartesuperior:Descriptivo>Univariante>CategricoNominal:

Obtendremoselsiguientecuadrodedilogo

Enlaparecendistintasopciones.Enprimerlugarseleccionemoslosdatos(sinelnombrede
lacolumna). Seleccionamoslaopcin DatossonFrecuencias. Marcamoslaopcin Tabla de
Frecuencias y Porcentajes y los grficos que queramos obtener. Finalmente seleccionamos
laceldadedestino(dondeobtendremoslosresultados)ydamosaAceptar.As,tenemosel
problemaresuelto.

Nosfaltaraelclculodelafrecuenciarelativadecadacategora.Paraobtenerlahacemoslo
siguiente:NossituamosalladodelacolumnaPorcentajeyescribimosFrec.Relativa.Enla
celda de debajo calculamos la frecuencia relativa para la categora A (cociente entre la
frecuenciaabsolutayelnmerodedatos):

y,finalmente,arrastramosparaobtenerlafrecuenciarelativadelasdemscategoras:







8

Veamosotroejemplo:

Un estudio realizado en un conjunto de 25 varones con objeto de determinar su grupo


sanguneohaconducidoalsiguienteresultado:

ABAAAAB0AAA0B0AB0BABAA0BAAB

Clasificarestosdatosenunatabladefrecuencias.Calcularlafrecuenciaabsoluta,relativay
relativaenporcentajeencadacategora.



Acontinuacinvamosaobtenerlatabladefrecuencias.Paraelloseleccionamosdelmen
delapartesuperior:Descriptivo>Univariante>CategricoNominal:



9






















































Unavezseleccionada,obtenemoselsiguientecuadrodedilogo:

En primer lugar seleccionemos los datos (sin el nombre de la columna). Seleccionamos la


opcinDatosDesagregadosymarcamoslasopcionesTabladeFrecuenciasyPorcentajesylos
grficos que queramos obtener. Finalmente seleccionamos la celda de destino (donde
obtendremoslosresultados)ydamosaAceptar.As,tenemoselproblemaresuelto.

10


















































Slos nos faltara el clculo de la frecuencia relativa de cada categora. Para obtenerla
hacemos lo siguiente: Nos situamos al lado de la columna Porcentaje y escribimos Frec.
Relativa. Enlacelda dedebajocalculamoslafrecuenciarelativaparalacategoraA(cociente
entrelafrecuenciaabsolutayelnmerodedatos):

y,finalmente,arrastramosparaobtenerlafrecuenciarelativadelasdemscategoras:




11
1.3. Variables cuantitativas discretas

Tabla de frecuencias de una variable cuantitativa discreta
El tratamiento que damos a las variables cuantitativas discretas es el mismo que el de
las variables cualitativas, con la diferencia de que a los distintos tipos de frecuencia
anteriormente definidos, se aaden dos ms.

Consideremos una poblacin estadstica de n individuos y una variable X, cuyos
valores denotamos por x
1
, x
2
,,x
k
. Para cada uno de los valores introducimos las
siguientes definiciones:

Frecuencia absoluta del valor x
i
, es el nmero de veces que aparece dicho valor en
la muestra, o dicho de otro modo, el nmero de individuos de la muestra que
presentan el valor x
i
. La frecuencia absoluta se representa mediante n
i
.

Frecuencia relativa del valor x
i
, es la proporcin de veces que aparece dicho valor en
la muestra elegida, o dicho de otro modo, la proporcin de individuos de la muestra
que presentan el valor x
i
. La frecuencia relativa se representa mediante f
i
y se calcula
como:

i
i
n
f
n
=

Frecuencia absoluta acumulada del valor x
i
, es el nmero de individuos de la
muestra cuyo valor es igual o inferior a x
i
. Se representa mediante N
i
y se calcula
como

1 2
1
...
i
i j i
j
N n n n n
=
= = + + +



Frecuencia relativa acumulada del valor x
i
, es la proporcin de individuos de la
muestra cuyo valor es igual o inferior a x
i
. Se representa mediante F
i
y se calcula como

1 2
1
...
i
i j i
j
i
i
F f f f f
o
N
F
n
=
= = + + +
=



Al igual que en el caso anterior, tanto las frecuencias relativas, como las frecuencias
relativas acumuladas se pueden expresar en tanto por ciento.

Como en el caso de las variables de tipo cualitativo, la informacin de una variable de
tipo discreta se representa mediante la tabla de frecuencias, que tiene la siguiente
estructura:






12
Valor,
x
i

Frec.
Absoluta,
n
i

Frec.
Relativa,
f
i

Frec. Absoluta
Acumulada, N
i

Frec.
Relativa
Acumulada,
F
i

Frec.
Relativa en
%
x
1
n
1
f
1
N
1
=n
1
F
1
=f
1
100f
1

. .
x
i
n
i
f
i
N
i
=n
1
+n
2
++n
i
F
i
=f
1
+f
2
++f
i
100f
i


x
k
n
k
f
k
N
k
=n F
k
=1 100f
k

Total n 1 100



Ejemplo 1.3
A continuacin representamos la informacin obtenida de las calificaciones de 150
exmenes de la asignatura Estadstica aplicada a las ciencias del deporte.

Nota
Frec.
Absoluta,
n
i

Frec.
Relativa,
f
i

Frec.
Absoluta
Acumulada,
N
i

Frec.
Relativa
Acumulada,
F
i

Frec.
Relativa
en %
Frec.
Relativa
Acumulada
en %
3 1 0,0066 1 0,0066 0,66% 0,66%
4 12 0,08 13 0,0867 8% 8,67%
5 27 0,18 40 0,2667 18% 26,67%
6 35 0,233 75 0,5 23,3% 50%
7 33 0,22 108 0,72 22% 72%
8 25 0,167 133 0,8867 16,7% 88,67%
9 10 0,067 143 0,9533 6,7% 95,33%
10 7 0,0467 150 1 4,67% 100%
Total 150 1 100%




Representacin grfica de una variable cuantitativa discreta
Las representaciones grficas adecuadas para representar la informacin de una
variable cuantitativa discreta son tambin el grfico de barras y el diagrama de
sectores, como en el caso de las cualitativas. A ellas podemos aadir el diagrama de
frecuencias acumuladas o diagrama de barras acumulativo.




Diagrama de frecuencias acumuladas o Diagrama de barras acumulativo.

Se representan en el eje de abscisas los distintos valores de la variable y sobre cada
uno de ellos levantamos una perpendicular cuya longitud sea la frecuencia (absoluta o
relativa) acumulada correspondiente a ese valor. En el extremo de cada barra
trazamos un segmento horizontal hasta cortar la barra situada inmediatamente a su
derecha.




13
N
i
x
i




















































PRCTICADEVARIABLESCUANTITATIVASDISCRETAS.TABLASYGRFICOS
Vamos a resolver el ejemplo 1.3. En primer lugar introducimos los datos en la Hoja Excel
comosigue

14


















































Acontinuacinvamosaobtenerlatabladefrecuenciasyparaelloseleccionamosdelmen
de la parte superior: Descriptivo > Univariante > Categrico Ordinal. As, obtenemos el
cuadro de dilogo correspondiente y seleccionamos las opciones adecuadas (recordemos
quealseleccionarlosdatosNOtenemosquemarcarelnombredelavariable):

PodemosobservarcmohayqueseleccionarlaopcindeDatossonfrecuenciasyel
carcterdelasetiquetascomonumrico.

15


















































Veamosotroejemplo:
Lascalificacionesobtenidaspor90estudiantesdeunaasignaturadeestadsticahansidolas
siguientes:
34687532591033160239424427114813
6514245572978108261651057033824758
62147653426325943012448621
Sepide:
a) Construirlatabladefrecuencias.
b) Representareldiagramadebarrasdefrecuenciasabsolutasyeldiagramadesectores.
Introducimoslosdatosenlahojadeclculo.Recordemosqueseintroducecadavariableen
unacolumna.Enestecasoslotenemoslavariablecalificaciones:

Para obtener la tabla de frecuencias y las representaciones grficas pedidas vamos a la


pestaaUMHStatisticsyseleccionamoslaopcinDescriptivo>Univariante>Categrica
Ordinal. As, obtenemos el cuadro de dilogo correspondiente y seleccionaremos las
opcionesadecuadas.

16

















































Dandoaaceptarobtenemoselresultadorequerido

17


















































Si queremos ahora podemos cambiar alguna de las opciones en los grficos. Por ejemplo
vamos a poner etiquetas en el grfico de sectores. Para ello, nos situamos encima del
crculo,presionamoselbotnderechodelratnyelegimoslaopcinAgregaretiquetasde
datos.

Elresultadoqueobtenemoseselsiguiente:





Nota: La tabla de frecuencias tambin se podra haber obtenido utilizando la opcin
Descriptivo>Univariante>Numrica.

18
Medidas descriptivas de una variable cuantitativa discreta
Las medidas descriptivas se aplican slo a variables cuantitativas discretas y
continuas. A veces es conveniente resumir la informacin proporcionada por las
distribuciones de frecuencias a un solo valor o a un nmero pequeo de valores para
facilitar la comparacin entre los distintos conjuntos de datos muestrales. ste ser el
objetivo de este aparado. Estas medidas (valores), que llamaremos medidas
descriptivas, se pueden clasificar de la siguiente forma:






Medidas de centralizacin y de localizacin
Las medidas de centralizacin indican valores respecto a los cuales los datos parecen
agruparse, y que en determinadas ocasiones pueden representarlos. Las ms usuales
son la media, la mediana y la moda. Por otra parte, las medidas de posicin o
1/2
1/4
1/4
Centro Dispersin
Posicin
Forma
Medidas de
centralizacin o
tendencia central o
de posicin o
localizacin
Media Aritmtica
Mediana
Moda
Cuartiles
Percentiles
Medidas de dispersin
Varianza
Desviacin Tpica
Rango o Recorrido
Rango Intercuartlico
Coeficiente de Variacin de
Pearson
Medidas de forma
Asimetra
Curtosis
19
localizacin dividen un conjunto ordenado de datos en grupos con la misma cantidad
de individuos. Son los cuartiles, deciles y percentiles (en general cuantiles).

Media Aritmtica
Llamamos media aritmtica de una variable estadstica al promedio de todos sus
valores, es decir, a la suma de todos sus posibles valores, ponderada por las
frecuencias de los mismos y dividida entre el nmero total de observaciones. Es decir,
si la tabla de valores de una variable X es

X n
i
f
i

x
1
n
1
f
1

. ..
x
k
n
k
f
k

n

la media es el valor que podemos escribir de las siguientes formas equivalentes:

= =
+ +
= = =

k k
k k
i i i i
i i
x n x n
x x n x f
n n
1 1
1 1
1


Si los datos no estn ordenados en una tabla, la media se puede escribir como
+ +
=

1 n
x x
x
n


Ejemplo 1.3 (continuacin)
En el ejemplo 1.3 representbamos la informacin obtenida de las calificaciones de
150 exmenes de la asignatura Estadstica aplicada a las ciencias del deporte.

Nota
Frec.
Absoluta,
n
i

Frec.
Relativa,
f
i

Frec.
Absoluta
Acumulada,
N
i

Frec.
Relativa
Acumulada,
F
i

Frec.
Relativa
en %
Frec.
Relativa
Acumulada
en %
3 1 0,0066 1 0,0066 0,66% 0,66%
4 12 0,08 13 0,0867 8% 8,67%
5 27 0,18 40 0,2667 18% 26,67%
6 35 0,233 75 0,5 23,3% 50%
7 33 0,22 108 0,72 22% 72%
8 25 0,167 133 0,8867 16,7% 88,67%
9 10 0,067 143 0,9533 6,7% 95,33%
10 7 0,0467 150 1 4,67% 100%
Total 150 1 100%

Calculamos la calificacin media:

1
1 3 1 4 12 5 27 6 35 7 33 8 25 9 10 10 7
150
987
=6.58
150
k
i i
i
x x n
n
=
+ + + + + + +
= = =
=



20
Mediana
Llamamos mediana al valor de la variable X que divide al conjunto de datos en dos
partes iguales, es decir, aquel valor tal que el nmero de datos de la muestra que
quedan a su izquierda (valores ms pequeos) es igual al nmero de valores que
quedan a su derecha (valores ms grandes).
La mediana, por tanto, es el valor que deja el 50% de los datos por debajo de l y el
50% por encima de l. Su clculo en el caso de que la frecuencia de cada valor sea la
unidad es muy sencillo.
Ejemplo 1.4
n impar:
{ } = = 1, 3, 7, ,15, 22, 36 10 10 X Me


n par: En este caso se tomar como mediana la media aritmtica de los dos datos
centrales.
{ }
+
= = =
10 21
1, 3, 5, , 27, 36 10, , 42 21 15, 5
2
X Me
Veamos ahora el clculo de la mediana para el caso general de una distribucin de
frecuencias de una variable cuantitativa discreta:

1.- Clculo de la mediana de una variable discreta (datos sin agrupar):
X n
i
f
i
N
i
F
i

x
1
n
1
f
1
N
1
F
1

x
2
n
2
f
2
N
2
F
2

. .. ..
x
i
n
i
f
i
N
i
F
i

. .. ..
x
n
n
n
f
n
N
n
F
n

n
(a) Dividimos el nmero de observaciones n entre 2.
(b) Comprobamos si el nmero obtenido, n/2, se encuentra en la tabla de
frecuencias absolutas acumuladas, N
i
.
(c) Si no lo est, estar comprendido entre dos nmeros de la citada tabla y la
mediana ser aquel valor de la variable que corresponde al mayor de ellos; es
decir, la abscisa que corresponde a la ordenada n/2 en el diagrama de
frecuencias acumuladas:
21

(d) Si el valor n/2 est en la columna de las N
i
, es que coincide con la frecuencia
absoluta acumulada de algn valor x
k
y, por tanto esta ordenada, n/2,
corresponde a infinitos puntos del intervalo (x
k,
x
k+1
). Como la mediana ha de
ser un punto, tomamos el punto medio de dicho intervalo,
+
+
=
1
2
k k
x x
Me











La mediana es menos sensible que la media aritmtica a la presencia de valores muy
extremos en la muestra, pues depende nicamente de que queden igual nmero de
valores a su izquierda que a su derecha, pero no de su magnitud. Esto quiere decir
que su valor se ve menos influenciado por este tipo de valores. Por ejemplo, los
x
k
x
k+1

N
n/2
N
k+1

Me
N
i

X
x
k+1
N
i

x
k
n/2
Me
X
22
conjuntos de datos {0.2,0.2,0.3,0.4,0.5} y {0.2,0.2,0.3,0.4,19} tienen la misma
mediana, Me=0.; sin embargo, sus medias son distintas, con valores 0.32 y 4.02
respectivamente.
Moda
Llamamos moda a aquel valor de la variable que se presenta con mayor frecuencia; es
decir el de mayor frecuencia absoluta. La moda no tiene porqu ser nica, as
podemos tener distribuciones plurimodales: bimodales, trimodales, etc.

Por ejemplo, para el conjunto de datos observado {2,2,2,2,4,4,5,6,7,8,9,9}, se tiene

= 2 Md


Medidas de localizacin o posicin: Cuartiles, Deciles y Percentiles

Cuartiles
Se definen los cuartiles como los tres valores de la variable que dividen las
observaciones en cuatro partes iguales:

Primer Cuartil (Q
1
): Es el valor de la variable que deja la cuarta parte de las
observaciones inferiores o iguales a l y las tres cuartas partes superiores a l. Para
su clculo se siguen los mismos pasos que para el clculo de la mediana, pero en vez
de tomar n/2, se toma n/4.
Segundo Cuartil (Q
2
): Es el valor de la variable que deja inferiores o iguales a l las
dos cuartas partes (la mitad) de las observaciones. Este cuartil tambin se llama
mediana.
Tercer Cuartil (Q
3
): Es el valor de la variable que deja inferiores o iguales a l las tres
cuartas partes de las observaciones y superior a l la cuarta parte. Su clculo se
efecta de forma anloga al de la mediana pero considerando 3n/4.
Deciles
Se define el decil k-simo como el valor de la variable que deja inferiores o iguales a
l las k/10 partes de las observaciones.
La tcnica empleada para su clculo es la misma que se sigue para el clculo de la
mediana o de los cuartiles.
Se denotan por D
k
(k=1,2,...,9).
Centiles o Percentiles
Se define el centil k-simo como el valor de la variable que deja inferiores o iguales a
l las k/100 partes de las observaciones.
Q
1
Q
2
Q
3

23
Su clculo es anlogo al de la mediana, los cuartiles y los deciles.
Los denotamos por P
k

(k=1,2,,99).
Ejemplo 1.3 (Cont.)
Vamos a calcular las medidas que acabamos de exponer con los datos del ejemplo 1.3

Mediana
n=150 n/2=75
Como el valor 75 est en la columna de la frecuencia absoluta acumulada y
corresponde al valor 6, la mediana ser el promedio entre ese valor y el siguiente:

1
6 7
6.5
2 2
k k
x x
Me
+
+ +
= = =

Moda
Es el valor que ms se repite y, en nuestro caso, el valor que presenta mayor
frecuencia es el 6, con lo que Mo=6

Primer cuartil
n=150 n/4=37.5
Como el valor 37.5 est comprendido entre los valores 13 y 40, el primer cuartil ser el
valor que corresponde a la mayor de las frecuencias, es decir

1
5 Q =

Percentil 40 o 4 decil
n=150 n40/100=60
Como el valor 60 est comprendido entre los valores 40 y 75 el percentil 40 (Cuarto
decil) ser el valor que corresponde a la mayor de las frecuencias, es decir


40 4
6 P D = =


Medidas de dispersin
Las medidas de tendencia central reducen la informacin de una muestra a un solo
valor, pero, en algunos casos, ste estar ms prximo a la realidad de las
observaciones y por tanto ser ms representativa que en otros. Por ejemplo,
consideremos dos variables X e Y con sus respectivas frecuencias,


X n
i

0 1
500 1
1000 1
Y n
i

499 1
501 1

+ +
= =
0 500 1000
500
3
x
+
= =
499 501
500
2
y
24



En ambos casos la media aritmtica es 500; pero la variable X est mucho ms
dispersa que la Y, por lo que parece lgico pensar que la representatividad de y es
mayor que la de x .
As, las medidas de tendencia central o posicin nos indican dnde se sita el
conjunto de observaciones; mientras que las de dispersin nos indican si esas
observaciones o valores estn prximas entre s o si por el contrario estn muy
dispersas. Las medidas de dispersin se determinan en funcin de la distancia entre
las observaciones y alguna medida de tendencia central.
Las medidas de dispersin o concentracin cuantifican la representatividad de los
valores centrales. Los trminos concentracin y dispersin se pueden utilizar
indistintamente, pues se da la relacin:

alt a dispersi n baja concent raci n


baja dispersi n alt a concent raci n




Varianza

Se define la varianza de una variable X que toma los valores x
1
,,x
k
con frecuencias
n
1
,,n
k
, como
o
=
=

2 2
1
1
( )
k
i i
i
x x n
n

Es evidente que al ser s
2

una suma de cuadrados tomar siempre valores positivos.
En el caso en que s
2

=0, entendemos que todos los x
i
coinciden con la media x , es
decir todas las observaciones estn concentradas en un mismo punto, por lo que la
dispersin es mnima (nula).
La expresin anterior, se puede transformar en una ms sencilla, lo que facilitar el
clculo de la varianza:
o
= =
| |
= =
|
\ .

2 2 2 2
1 1
1 1
( )
k k
i i i i
i i
x x n x n nx
n n
.
Si la variable est agrupada en intervalos las x
i
, ser las marcas de clase.
La varianza no tiene la misma magnitud que las observaciones (ej. si las
observaciones se miden en metros, la varianza lo hace en metros
2
). Si queremos que
la medida de dispersin sea de la misma dimensionalidad que las observaciones
bastar con tomar su raz cuadrada.
499 501
y
0 500 1000
x
25

Desviacin Tpica

Definimos la desviacin tpica como la raz cuadrada positiva de la varianza,
o o
=
= =

2 2
1
1
( )
k
i i
i
x x n
n
.
Ejemplo 1.5
Calcular la varianza y la desviacin tpica de las siguientes cantidades medidas en
metros:
3,3,4,4,5

Para calcular dichas medidas de dispersin es necesario calcular previamente el valor
con respecto al cual vamos a medir las diferencias. ste es la media:
( )
=
= = + + + + =

1
1 1
3 3 4 4 5 3.8 met ros
5
n
i
i
x x
n


La varianza es:
( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
o
=
(
= = + + + + =

(
= + + + + =

2
2 2 2 2 2
2
1
2 2 2 2 2
2
1 1
3 3.8 3 3.8 4 3.8 4 3.8 4 3.8
5
1
0.8 0.8 0.2 0.2 1.2 0.56 met ros
5
n
i
i
x x
n

O bien
| |
o
=
( = = + + + + =

= + + + + = = =

2 2 2 2 2 2 2 2 2
1
2
1 1
3 3 4 4 5 3.8
5
1 75
9 9 16 16 25 14.44 14.44 15 14.44 0.56 met ros
5 5
n
i
i
x x
n


La desviacin tpica es su raz cuadrada:
o = = 0.56 0.748 met ros.

Otras medidas de dispersin son las siguientes:
Rango o Recorrido
Llamamos rango o recorrido a la diferencia entre el valor ms grande que toma la
variable (mximo) y el valor ms pequeo (mnimo). Es una medida poco eficaz para
medir la variabilidad pues slo tiene en cuenta dos valores.
26
= max( ) min( ).
i i
R x x
Cuando el valor del rango es pequeo, podemos concluir que la dispersin de los
datos es pequea. Sin embargo no ocurre lo mismo cuando el valor del rango es
grande, ya que podemos tener datos concentrados, pero que el mximo y el mnimo
sean valores extremos, en este caso el rango no da una verdadera medida de la
dispersin de los datos.
Rango Intercuartlico
Se define el rango intercuartlico como la diferencia entre el cuartil superior o tercer
cuartil (Q
3
) y el cuartil inferior o primer cuartil (Q
1
)
=
3 1
RI Q Q
Un valor muy grande de esta medida, es decir una gran diferencia entre los cuartiles
indica que existe bastante dispersin. Tampoco es muy adecuada porque, a diferencia
de lo que ocurre en el clculo de la varianza, no se utilizan todos los datos para su
clculo.
Coeficiente de Variacin de Pearson
A menudo ocurre que queremos comparar las variabilidades entre dos variables para
analizar cual tiene mayor dispersin (por ejemplo altura y peso). Este problema no
puede resolverse con las medidas definidas anteriormente, ya que estas medidas
dependen de las unidades en se midan las variables. El mismo problema se presenta
cuando queremos comparar las mismas variables medidas en distintas unidades
(metros y kilmetros). Para resolver este problema se define el coeficiente de
variacin.
Llamamos coeficiente de variacin al cociente entre la desviacin tpica y la media
aritmtica multiplicado por 100.

o
= 100 CV
x

Como podemos observar, esta medida no tiene unidades y representa cual es el
porcentaje de la desviacin respecto a la media. Esta medida nos permitir comparar
variables con distintas magnitudes y distintas escalas.
Ejemplo 1.3 (Cont.)
Calculamos la varianza, la desviacin tpica y el coeficiente de variacin para la
distribucin de calificaciones del ejemplo 3.
Sabemos que n=150 6.58 x = y, entonces
o
= =
= =

2 2 2 2
1 1
1 1
( )
k k
i i i i
i i
x x n x n x
n n
,
luego,
27
10 8 6 4 2 0
Variable
5
4
3
2
1
0
F
r
e
c
u
e
n
c
i
a

( )
( )
2 2 2 2 2 2 2 2 2 2
1
3 1 4 12 5 27 6 35 7 33 8 25 9 10 10 7 6.58
150
1
9 192 675 1260 1617 1600 810 700 43.296
150
6863
43.296 45.75 43.296 2.457
150
o = + + + + + + + =
= + + + + + + + =
= = =

2.457 1.567 o = =
1.567
100 0.2381 100 23.81%.
6.58
CV = = =

Medidas de forma
Sabemos cmo calcular valores alrededor de los cuales se distribuyen las
observaciones de una variable y sabemos cmo calcular la dispersin que ofrecen los
mismos con respecto al valor de central. Nos proponemos dar un paso ms all en el
anlisis de la variable. En primer lugar, nos vamos a plantear si los datos se
distribuyen de forma simtrica con respecto a un valor central, o si bien la grfica que
representa la distribucin de frecuencias es de una forma diferente en el lado derecho
que en el lado izquierdo.

Una vez determinada la simetra, podemos preguntarnos si la curva es ms o menos
apuntada (larga y estrecha). Este apuntamiento habr que medirlo comparado a cierta
distribucin de frecuencias que consideramos normal (no por casualidad es ste el
nombre que recibe la distribucin de referencia).

Medidas de Asimetra
El coeficiente de asimetra permite caracterizar la asimetra de la curva a la izquierda o
a la derecha, as como su magnitud.

Diremos que una distribucin de frecuencias es simtrica cuando los valores de la
variable equidistantes de un valor central tienen las mismas frecuencias. En este caso,
se tiene que
= = x Me Md







N Vlidos
25
Perdidos
0
Media
5,00
Mediana
5,00
Moda
5
28

Las distribuciones que no son simtricas, se denominan asimtricas. La asimetra
puede presentarse a la derecha o a la izquierda.

La asimetra a la derecha o positiva se caracteriza porque la grafica de frecuencias
presenta cola a la derecha; es decir las frecuencias descienden ms lentamente por la
derecha que por la izquierda. En este caso se tiene
> > x Me Md





La asimetra a la izquierda o negativa se caracteriza porque la grafica de frecuencias
presenta cola a la izquierda; es decir las frecuencias descienden ms lentamente por
la izquierda que por la derecha. En este caso se tiene

s s x Me Md

21,00 18,00 15,00 12,00 9,00 6,00 3,00
Variable
14
12
10
8
6
4
2
0
F
r
e
c
u
e
n
c
i
a
N Vlidos 121
Perdidos 0
Media 10,5372
Mediana 10,0000
Moda 7,00
29


El coeficiente de asimetra de Fisher nos da la simetra o la asimetra de las
distribuciones sin necesidad de representarlas. Se define como


( )
o
=
= >

= = = =

= <

3
1
1
1 1
3
1
Asimet r a la derecha o posit iva
Simet r a
Asimet r a la izquierda o negat iva
1
0
0
0
k
F
i i
i
F F
F
g A
x x n
n
g A g A
g A



Observemos que en el clculo de este coeficiente se toman las diferencias de cada x
i

respecto de la media, x , elevadas al cubo, lo que permite recoger las desviaciones
con el signo correspondiente. El coeficiente no presenta unidades por estar el
numerador dividido por la desviacin tpica elevada al cubo.
Ejemplo 1.3 (Cont.)
Calculamos el coeficiente de asimetra de Fisher para la distribucin de calificaciones:
Sabemos que, en este caso, n=150, 6.58 x = y 1.567 o = . Entonces

14,00 12,00 10,00 8,00 6,00 4,00 2,00 0,00
Variable
10
8
6
4
2
0
F
r
e
c
u
e
n
c
i
a
N Vlidos
65
Perdidos
1
Media
7,6923
Mediana
8,0000
Moda
10,00
30

( )
( )
( ) ( )
( ) ( ) ( ) ( )
( ) ( )
3
3 3
1
1 3 3
3 3 3 3
3 3
1
1 1
[ 3 6.58 1 4 6.58 12
150
1.567
5 6.58 27 6 6.58 35 7 6.58 33 8 6.58 25
9 6.58 10 10 6.58 7] 0.00305
k
i i
i
F
x x n
n
g A
o
=

= = = + +
+ + + + +
+ + =


Tenemos que
1
0.00305 0
F
g A = = ~ Distribucin prcticamente simtrica.

Medidas de Apuntamiento o Curtosis
El coeficiente de apuntamiento o curtosis recoge el mayor o menor grado de
aplastamiento de la distribucin. Dependiendo de este grado de apuntamiento
consideraremos tres grados de apuntamiento:






Se define el coeficiente de apuntamiento o curtosis como

( )
o
=
>

= =

<

4
1
2
4
1
3 Lept ocrt ica
3 Mesocrt ica
3 Plat icrt ica
k
i i
i
x x n
n
g

Ejemplo 1.3 (Cont.)
Calculamos el coeficiente de apuntamiento para la distribucin de notas de este
ejemplo
Sabemos que, en este caso, n=150, 6.58 x = y 1.567 o = . Entonces


Platicrtica
Leptocrtica
Mesocrtica
31
( )
( )
( ) ( )
( ) ( ) ( ) ( )
( ) ( )
4
4 4
1
2 4 4
4 4 4 4
4 4
1
1 1
[ 3 6.58 1 4 6.58 12
150
1.567
5 6.58 27 6 6.58 35 7 6.58 33 8 6.58 25
9 6.58 10 10 6.58 7] 0.00807
k
i i
i
x x n
n
g
o
=

= = + +
+ + + + +
+ + =



Tenemos que
2
0.00807 3 g = <

Distribucin Platicrtica







































PRCTICADEVARIABLESCUANTITATIVASDISCRETAS.MEDIDASDESCRIPTIVAS
Vamos a resolver el ejemplo 1.3. En primer lugar introducimos los datos en la Hoja Excel
comosigue

32























































Acontinuacinvamosaobtenerlatabladefrecuenciasyparaelloseleccionamosdelmen
delapartesuperior:Descriptivo>Univariante>CategricoOdinal

Obtendremos un cuadro en el que tendremos que indicar que los Datos son Frecuencias y
que el tipo de dato es de carcter Intervalo, para que pueda realizarnos el anlisis
descriptivo con esta opcin. Desactivaremos la opcin de Tabla de Frecuencias y
PorcentajesyactivaremosladeAnlisisDescriptivo.

33























































En esta ocasin vamos a calcular todos los estadsticos descriptivos incluyendo los
percentiles40y95.Elresultadoqueobtenemoses

Podemosobservarcomonoseobtieneelclculodelcoeficientedevariacinnidelrangoni
delrangointercuartlico,perotenemosloselementosparacalcularlos.

34























































Veamosotroejemplo

A continuacin figuran los datos correspondientes a los tiempos (expresados en segundos)


quetardanenrecorrer50metroslisosporunamuestrade20deportistas:

7.51;6.60;5.59;7.83;5.71;5.80;7.33;8.71;6.00;7.04;6.36;5.31;6.82;5.88;5.96;
8.27;8.31;8.61;8.50;8.20.

CalcleselaMedia,Mediana,Moda,Rango,DesviacinTpicayCoeficientedevariacin.

Introducimos, como siempre los datos en la Hoja Excel (recordad que los decimales se
introducenconcomadecimalynoconpunto).

Nos piden el clculo de algunas medidas descriptivas. Para obtenerlas vamos a la pestaa
Descriptivo > Univariante > Numrica. Seleccionamos los datos correspondientes a la
variable de inters. En Variable a analizar elegimos Variable original (no agrupamos en
intervalos) y, finalmente en Anlisis Numrico seleccionamos Anlisis Descriptivo y
pulsamos el botn Opciones Anlisis para marcar las medidas descriptivas que nos
interesen.Enestecaso:media,mediana,moda,mximoymnimo(paracalcularelrango)y
desviacintpica
35

























































PulsamoselbotnAceptaryfinalmenteseleccionamoslaceldaenquequeramosquesalgan
losresultadosypulsamosdenuevoelbotnAceptar.

ObservamosquenohemosobtenidonielRangonielCoeficientedeVariacin.Hacemosel
clculodeambasmedidasdirectamenteenExcel.RecordemosqueelRangoesladiferencia
entre el valor mximo y el valor mnimo y que el Coeficiente de Variacin es el cociente
entre la desviacin tpica y la media multiplicado por 100. Finalmente, realizamos ambos
clculosytenemoselproblemaresuelto:




36

























































37
1.4. Variables cuantitativas continuas

Tabla de frecuencias de una variable cuantitativa continua
En el caso cuantitativo continuo, an valiendo los criterios y las definiciones anteriores,
se presenta la dificultad de la gran cantidad de valores diferentes que puede tomar la
variable, lo que hace que una tabla de frecuencias convencional como las que
acabamos de presentar en los casos anteriores no sea til. Por ejemplo, si
consideramos la variable peso en una muestra de 500 datos nos encontraramos con
que es casi imposible que dos individuos tengan exactamente el mismo peso, con lo
que la tabla de frecuencias convencional tendra casi 500 filas, lo cual no nos servira
para resumir la informacin de la variable.

Para solucionar el problema se recurre a definir clases o intervalos que deben generar
una particin de la poblacin, es decir, la medida de la variable en cada individuo
pertenecer a una y slo una de las posibles clases o intervalos.

Se recomienda que todos los intervalos sean de la misma amplitud, por los problemas
que conlleva las representaciones grficas en caso contrario.

La informacin de una variable continua se resume en su tabla de frecuencias que
tendra la siguiente forma:

Intervalo
Marca
de
clase,
x
i

Frec.
Absoluta,
n
i

Frec.
Relativa,
f
i

Frec.
Absoluta
Acumulada,
N
i

Frec.
Relativa
Acumulada,
F
i

Frec.
Relativa
en %
Frec.
Relativa
Acumulada
en %
[a
0
,a
1
) x
1
n
1
f
1
N
1
= n
1
F
1
= f
1
100f
1
100F
1

... ... ... ... ...
[a
i-1
, a
i
) x
i
n
i
f
i
N
i
= N
i-1
+n
i
F
i
= F
i-1
+ f
i
100f
i
100F
i

... ... ... ... ...
[a
k-1
,a
k
) x
k
n
k
f
k
N
k
=n F
k
=1 100f
k
100
Total n 1 100

Teniendo en cuenta que las clases definen una particin de la poblacin, los intervalos
deben ser semiabiertos, consecutivos y disjuntos. Habitualmente se construyen con el
lmite inferior cerrado y el lmite superior abierto y haciendo que coincidan el lmite
superior de un intervalo con el lmite inferior del siguiente.

A continuacin procederemos con las definiciones de los elementos de la tabla de
frecuencias.

Se denomina marca de clase del intervalo i, y se representa mediante el valor x
i
, a
un punto representativo del intervalo, normalmente al punto medio del intervalo

1
2
i i
i
a a
x

+
= .

La marca de clase no es ms que una forma abreviada de representar un intervalo
mediante uno de sus puntos, por ello se toma como representante el punto medio del
mismo.

Frecuencia absoluta del intervalo i, es el nmero de individuos de la muestra cuyo
valor de la variable pertenece al intervalo i. La frecuencia absoluta se representa
mediante n
i
.

38
Frecuencia relativa del intervalo i, es la proporcin de individuos de la muestra cuyo
valor de la variable pertenece al intervalo i. La frecuencia relativa se representa
mediante f
i
y se calcula como:

i
i
n
f
n
=

Frecuencia absoluta acumulada del intervalo i, es el nmero de individuos de la
muestra cuyo valor de la variable pertenece al intervalo i y a los anteriores. La
frecuencia absoluta acumulada se representa mediante N
i
y se calcula como

1 2
1
...
i
i j i
j
N n n n n
=
= = + + +



Frecuencia relativa acumulada del intervalo i, es la proporcin de individuos de la
muestra cuyo valor de la variable pertenece al intervalo i y a los anteriores. La
frecuencia relativa acumulada se representa mediante F
i
y se calcula como
1 2
1
...
i
i j i
j
i
i
F f f f f
o
N
F
n
=
= = + + +
=



Al igual que en el caso anterior, tanto las frecuencias relativas, como las frecuencias
relativas acumuladas se pueden expresar en tanto por ciento.

Ejemplo 1.6
Sobre un grupo de n=21 personas se realizan las siguientes observaciones de sus
pesos, medidos en kilogramos:

58 42 51 54 40 39 49 56 58 57 59
63 58 66 70 72 71 69 70 68 64
Vamos a construir la tabla de frecuencias.
En primer lugar, consideramos la construccin de 5 intervalos. Por tanto, la longitud de
cada uno de ellos ser
max min 72 39
6.6
5 num.intervalos

= = =
Comenzamos por el menor valor de todos (39) y terminamos por el mayor (72).




39
Intervalo
Marca
de
clase,
x
i

Frec.
Absoluta,
n
i

Frec.
Relativa,
f
i

Frec.
Absoluta
Acumulada,
N
i

Frec.
Relativa
Acumulada,
F
i

Frec.
Relativa
en %
Frec.
Relativa
Acumulada
en %
[39,45.6) 42.3 3 0.1428 3 0.1428 14.28% 14.28%
[45.6,52.2) 48.9 2 0.0952 5 0.2380 9.52% 23.80%
[52.2,58.8) 55.5 6 0.2857 11 0.5237 28.57% 52.37%
[58.8,65.4) 62.1 3 0.1428 14 0.6665 14.28% 66.65%
[65.4,72] 68.7 7 0.3333 21 1 33.33% 100%
Total 21 1 100%
El nmero intervalos y la amplitud de los mismos es algo que debemos de decidir en
funcin del tamao de la muestra y de la dispersin de los datos. Cuanto mayor sea n,
ms intervalos deben hacerse; cuanto mayor sea la dispersin de los datos, mayor
longitud han de tener los intervalos. En general el nmero de intervalos ha de estar
entre 5 y 20.

Representacin grfica de una variable cuantitativa continua
Las representaciones grficas adecuadas para representar la informacin de una
variable cuantitativa continua son el histograma, el polgono de frecuencias y el
polgono de frecuencias acumuladas.

Histograma

Para las variables estadsticas agrupadas en intervalos de clase, representamos las
frecuencias mediante rea.

En el eje de abscisas (x) representamos los distintos intervalos de clase. Sobre cada
intervalo de clase levantamos un rectngulo cuya rea sea igual (proporcional) a la
frecuencia del mismo.

Por tanto, la altura de cada rectngulo ser el cociente entre el rea (n
i
o f
i
) y la base
del mismo (amplitud del intervalo).







h
n
i
/c
Intervalos
c
40

En el caso de considerar intervalos de clase de la misma longitud, la altura de cada
rectngulo ser la frecuencia (absoluta o relativa) de la clase correspondiente.



Polgono de frecuencias
Se obtiene uniendo los puntos medios de las bases superiores de cada rectngulo del
histograma.






Polgono de frecuencias acumuladas
En el eje de abscisas (x) representamos los intervalos de clase. Sobre el extremo
superior de cada intervalo se levanta una lnea vertical de longitud la frecuencia
(absoluta o relativa) acumulada del mismo. Uniendo los extremos superiores de cada
lnea, se obtiene el polgono de frecuencias acumuladas.



Intervalos

a
0
a
1
a
2
a
3
a
4
N
i

c
n
i
/c
Intervalos
41
Ejemplo 1.7
El siguiente conjunto de datos corresponden a estadsticas de los jugadores del Real
Madrid de Baloncesto durante la temporada 2004-2005.


Partidos
jugados
Minutos
jugados
Puntos
totales
Bullock, Louis 31 912 526
Gelabale, M. 34 820 275
Sonko, Mous 32 774 251
Reyes, Felipe 31 675 281
Herreros, A. 29 621 257
Burke, Pat 31 589 236
Bennett, Elmer 21 585 196
Fotsis, Antonis 29 538 235
Hervelle, Axel 27 497 163
Bueno, Antonio 29 349 169
Stojic, Mario 26 251 63
Hamilton, J. 5 121 48
Bell, T. 2 44 6
Larraaga, Jay 1 12 14
Antelo, J. A. 3 9 0
Muoz, Daniel 1 3 0
Aspe, Alberto 1 1 0

Este sera el histograma correspondiente a la variable Nmero de minutos jugados en
la temporada.



















Un importante grfico para este tipo de variables es el grfico-caja o box-plot, lo
presentaremos posteriormente, ya que para su clculo son necesarias las medidas
resumen, que veremos a continuacin. Asimismo, cuando se hayan explicado todos
los tipos de grficos, explicaremos cmo se obtienen los grficos con el programa
Excel.
1000 875 750 625 500 375 250 125 0
Minutos jugados
6
5
4
3
2
1
0
F
r
e
c
u
e
n
c
i
a
1
2
1
4
1
2
0
6
Media =400,06
Desviacin tpica =321,
218
N =17
42


















































PRCTICADEVARIABLESCUANTITATIVASCONTINUAS.TABLASEHISTOGRAMA
Vamos a resolver el ejemplo 1.6. En primer lugar introducimos los datos en la Hoja Excel
comosigue

Vamos a agrupar los datos en intervalos, consideraremos 5 intervalos de longitud


6.6. En cualquier caso el programa calcula automticamente la longitud de cada
intervalosimplementeponiendoelnmerodeintervalosquequeremos.

ParaobtenerloquenospidenseleccionamosdenuevoDescriptivo>Univariante>
NumricaperoahoraenvariableaanalizarmarcamoslaopcinVariablecodificada.
Seleccionamos la opcin Anlisis de Frecuencias para obtener la tabla de
frecuencias.

Marcamos la opcin histograma y podremos seleccionar el histograma para


frecuenciasabsolutasorelativas.

43


















































Elresultadoqueobtenemoses

44
Medidas descriptivas de una variable cuantitativa continua
Las medidas descriptivas de una variable continua son las mismas que las de una
variable categrica discreta, la diferencia radica en el clculo, ya que en el caso de las
variables discretas disponemos de todos los datos y podemos calcularlas
directamente, mientras que en el caso de las variables continuas, al no disponer de los
datos, ya que est agrupados en intervalos, debemos utilizar las marcas de clase para
el clculo y los valores no sern exactos sino aproximados.


Medidas de centralizacin y de localizacin

Media Aritmtica
Dada la tabla de frecuencias de una variable continua

Intervalo
Marca
de
clase,
x
i

Frec.
Absoluta,
n
i

Frec.
Relativa,
f
i

Frec.
Absoluta
Acumulada,
N
i

Frec.
Relativa
Acumulada,
F
i

Frec.
Relativa
en %
Frec.
Relativa
Acumulada
en %
[a
0
,a
1
) x
1
n
1
f
1
N
1
= n
1
F
1
= f
1
100f
1
100F
1

... ... ... ... ...
[a
i-1
, a
i
) x
i
n
i
f
i
N
i
= N
i-1
+n
i
F
i
= F
i-1
+ f
i
100f
i
100F
i

... ... ... ... ...
[a
k-1
,a
k
) x
k
n
k
f
k
N
k
=n F
k
=1 100f
k
100
Total n 1 100

La media la calculamos usando la marca de clase

= =
+ +
= = =

k k
k k
i i i i
i i
x n x n
x x n x f
n n
1 1
1 1
1

En general, la media aritmtica obtenida a partir de las marcas de clase, diferir de la
media obtenida con los valores reales, x
i
. Es decir, habr una prdida de precisin que
ser tanto mayor cuanto mayor sea la diferencia entre los valores reales y las marcas
de clase, o sea, cuanto mayores sean las longitudes de los intervalos.

Ejemplo 1.8
Se considera la siguiente tabla de frecuencias sobre la distribucin por edades de
individuos que practican tenis en un determinado club, segn el sexo:

Edad
Marca de
Clase
Frecuencia
Absoluta
Hombres
Frecuencia
Absoluta
Mujeres
Frecuencia
Absoluta
Acumulada
Hombres
Frecuencia
Absoluta
Acumulada
Mujeres
5-15 10 5 3 5 3
15-25 20 23 32 28 35
25-35 30 40 24 68 59
35-45 40 32 15 100 74
45-55 50 7 4 107 78
55-65 60 5 2 112 80
112 80
Calculamos la edad media para hombres, para mujeres y para ambos:
45
=
+ + + + +
= = =
=

1
1 10 5 20 23 30 40 40 32 50 7 60 5
112
3640
= 32.5 Aos
112
k
HOM i i
i
x x n
n

=
+ + + + +
= = =
= =

1
1 10 3 20 32 30 24 40 15 50 4 60 2
80
2310
28.88 Aos
80
k
MUJ i i
i
x x n
n

Edad
Marca de
Clase
Frecuencia
Absoluta
Hombres
Frecuencia
Absoluta
Mujeres
Frecuencia
Absoluta
Ambos
5-15 10 5 3 8
15-25 20 23 32 55
25-35 30 40 24 64
35-45 40 32 15 47
45-55 50 7 4 11
55-65 60 5 2 7
112 80 192

=
+ + + + +
= = =
=

1
1 10 8 20 555 30 64 40 47 50 11 60 7
192
5950
= 30.99 Aos
192
k
AMBOS i i
i
x x n
n

Mediana
Segn se defini anteriormente, la mediana es el valor que deja el 50% de los datos
por debajo de l y el 50% por encima de l. Su clculo difiere del que se realiza en las
variables discretas.
El clculo de la mediana en una variable continua se hace de la siguiente forma
(a) Dividimos el nmero de observaciones n entre 2.
(b) Llevamos el valor n/2 a la columna de frecuencias absolutas acumuladas, N
i
.
(c) Si este valor se encuentra en la tabla, es que n/2 ser la frecuencia absoluta
acumulada de un cierto intervalo de clase [a
k
,a
k+1
), y por tanto, la mediana
ser el extremo superior del mismo, a
k+1
. Grficamente, la situacin sera la
siguiente:

46


(d) Si n/2 no se encuentra en la columna de las N
i
, estar comprendido entre dos
valores N
k
y N
k+1
, que correspondern a las frecuencias absolutas
acumuladas de dos intervalos [a
k-1
,a
k
) y [a
k
,a
k+1
), respectivamente. Por tanto,
la mediana estar en el intervalo [a
k
,a
k+1
).

Para conocer su posicin exacta tenemos que hacer una interpolacin de la
forma siguiente
N
i

n/2
N
k+1

N
k

a
k
a
k+1

X
Me
N
i

a
k
a
k+1

n/2
X
Me
47

Por las propiedades de proporcionalidad de tringulos, se verifica que

+
+

= =

1
1
' ' / 2
k k k
k k k
CC BB N N n N
AC AB a a Me a

Y, despejando, se tiene

+
+

= +

1
1
/ 2
( )
k
k k k
k k
n N
Me a a a
N N


Ejemplo 1.8 (Cont.)
Calculamos la mediana de la distribucin de hombres y de mujeres del ejemplo
anterior.

Distribucin hombres:
Sabemos que n=112, luego n/2=56. Observando en la columna de frecuencias
absolutas acumuladas para los hombres, vemos que la frecuencia 56 corresponde a
un valor del intervalo (25,35). Entonces,

= + = + = + =

56 28 28
25 (35 25) 25 10 25 7 32 Aos
68 28 40
Me
Distribucin mujeres:
Sabemos que n=80, luego n/2=40. Observando en la columna de frecuencias
absolutas acumuladas para las mujeres, vemos que 31 corresponde a la frecuencia de
un valor del intervalo (25,35). Entonces,

= + = + = + =

40 35 5
25 (35 25) 25 10 25 2.083 27.083 Aos
59 35 24
Me
Me a
k
a
k+1

n/2
N
i

N
k+1

N
k

X
B
C
A
B C
48

Moda
Cuando la variable est agrupada en intervalos de clase, hablaremos de intervalo
modal. ste ser aquel intervalo de mayor frecuencia absoluta (en el histograma de
frecuencias, el de mayor rea). Consideraremos como moda el punto medio de dicho
intervalo.

Ejemplo 1.8 (Cont.)
Calculamos la moda de la distribucin de hombres y de mujeres del ejemplo 1.8

Distribucin hombres:
La frecuencia ms alta se alcanza en el intervalo (25,35). Este intervalo es el intervalo
modal. El punto moda ser:

35 25 60
30 30 Aos
2 2
x Md
+
= = = =


Distribucin mujeres:
La frecuencia ms alta se alcanza en el intervalo (15,25). Este intervalo es el intervalo
modal. El punto moda ser:

25 15 40
20 20 Aos
2 2
x Md
+
= = = =


Medidas de localizacin o posicin: Cuartiles, Deciles y Percentiles
Cuartiles
Los cuartiles se definen igual que en el caso de las variables discretas:
Primer Cuartil (Q
1
): Para su clculo se siguen los mismos pasos que para el clculo
de la mediana, pero en vez de tomar n/2, se toma n/4.
Segundo Cuartil (Q
2
): Es la mediana.
Tercer Cuartil (Q
3
): Su clculo se efecta de forma anloga al de la mediana pero
considerando 3n/4.
Deciles
La definicin es la misma que en el caso de variables discretas. La tcnica empleada
para su clculo es la misma que se sigue para el clculo de la mediana o de los
cuartiles.
Se denotan por D
k
(k=1,2,...,9).
Centiles o Percentiles
Su clculo es anlogo al de la mediana, los cuartiles y los deciles.

Los denotamos por Pk (k=1,2,,99).


49
Ejemplo 1.8. (Cont.)

Distribucin hombres:
Calculamos el primer cuartil (Q1), el tercer decil (D3) y el percentil 75 (P75) de la
distribucin de hombres.
Primer Cuartil: Sabemos que n=112, entonces n/4=28. Coincide con la frecuencia
absoluta acumulada del intervalo [15,25), por tanto el primer cuartil coincide con el
extremo superior de dicho intervalo,
=
1
25 Aos Q
Tercer Decil: Se tiene que 3n/10=33.6. Esta frecuencia corresponde al intervalo
[25,35). Entonces

= + = + = + =

3
33.6 28 5.6
25 (35 25) 25 10 25 1.4 26.4 Aos
68 28 40
D
Percentil 75: Tenemos que 75n/100=84, frecuencia que corresponde al intervalo
[35,45). Por tanto,

= + = + = + =

75
84 68 16
35 (45 35) 35 10 35 5 40 Aos
100 68 32
P


Distribucin mujeres:
Calculamos el tercer cuartil (Q3), el noveno decil (D9) y el percentil 95 (P95) de la
distribucin de mujeres.
Tercer Cuartil: En este caso n=80 y tenemos que 3n/4=60. Esta frecuencia
corresponde al intervalo [35,45], por tanto

= + = + = + =


3
60 59 1
35 (45 35) 35 10 35 0.6 35.6 Aos
74 59 15
Q
Noveno Decil: Se tiene que 9n/10=72, frecuencia que corresponde al intervalo
[35,45). Por tanto,

= + = + = + =


9
72 59 13
35 (45 35) 35 10 35 8.6 43.6 Aos
74 59 15
D
Percentil 95: Se tiene que 95n/10=76. Esta frecuencia corresponde al intervalo
[45,55). Entonces

= + = + = + =

95
76 74 2
45 (45 35) 45 10 45 5 50 Aos
78 74 4
P




50

Medidas de dispersin

Varianza
Dada la tabla de frecuencias de la variable continua


Intervalo
Marca
de
clase,
x
i

Frec.
Absoluta,
n
i

Frec.
Relativa,
f
i

Frec.
Absoluta
Acumulada,
N
i

Frec.
Relativa
Acumulada,
F
i

Frec.
Relativa
en %
Frec.
Relativa
Acumulada
en %
[a
0
,a
1
) x
1
n
1
f
1
N
1
= n
1
F
1
= f
1
100f
1
100F
1

... ... ... ... ...
[a
i-1
, a
i
) x
i
n
i
f
i
N
i
= N
i-1
+n
i
F
i
= F
i-1
+ f
i
100f
i
100F
i

... ... ... ... ...
[a
k-1
,a
k
) x
k
n
k
f
k
N
k
=n F
k
=1 100f
k
100
Total n 1 100


Se define la varianza como
o
=
=

2 2
1
1
( )
k
i i
i
x x n
n

Donde los x
i
representan las marcas de clase
La expresin anterior, se puede transformar en una ms sencilla, lo que facilitar el
clculo de la varianza:
o
= =
| |
= =
|
\ .

2 2 2 2
1 1
1 1
( )
k k
i i i i
i i
x x n x n nx
n n
.

Desviacin Tpica
Definimos la desviacin tpica como la raz cuadrada positiva de la varianza,
o o
=
= =

2 2
1
1
( )
k
i i
i
x x n
n
.
Rango o Recorrido
Llamamos rango o recorrido a la diferencia entre el valor ms grande que toma la
variable (mximo) y el valor ms pequeo (mnimo).
= max( ) min( ).
i i
R x x

En el caso de que no dispongamos de los datos originales (es decir, si los tenemos ya
agrupados en clases) el mximo ser la marca de clase correspondiente al ltimo
intervalo y el mnimo ser la marca de clase correspondiente al primer intervalo.



51
Rango Intercuartlico
Se define el rango intercuartlico como la diferencia entre el cuartil superior o tercer
cuartil (Q3) y el cuartil inferior o primer cuartil (Q1)
=
3 1
RI Q Q
Coeficiente de Variacin de Pearson
Llamamos coeficiente de variacin al cociente entre la desviacin tpica y la media
aritmtica multiplicado por 100.

o
= 100 CV
x


Ejemplo 1.8. (Cont.)
Calculamos la varianza, la desviacin tpica y el coeficiente de variacin para la
distribucin de hombres y para la distribucin de mujeres.

Distribucin hombres
Sabemos que n=112, = 32.5 x y, entonces
o
= =
= =

2 2 2 2
1 1
1 1
( )
k k
i i i i
i i
x x n x n x
n n
,
luego,

( )
( )
o = + + + + + =
= + + + + + =
= = =
2 2 2 2 2 2 2 2
1
10 5 20 23 30 40 40 32 50 7 60 5 32.5
112
1
500 9200 36000 51200 17500 18000 1056.25
112
132400
1056.25 1182.143 1056.25 125.89
112
HOM

o = = 125.89 11.22
HOM

= = =
11.22
100 0.345 100 34.5%.
32.5
HOM
CV

Distribucin mujeres
Sabemos que n=80, = 28.88 x y, entonces
52
( )
( )
o = + + + + + =
= + + + + + =
= = =
2 2 2 2 2 2 2 2
1
10 3 20 32 30 24 40 15 50 4 60 2 28.88
80
1
300 12800 21600 24000 10000 7200 834.05
80
75900
834.05 948.75 834.05 114.7
80
MUJ


o = = 114.7 10.7
MUJ


= = =
10.7
100 0.37 100 37%.
28.88
MUJ
CV


Medidas de forma
Las medidas de forma son las mismas que en el caso de las variables discretas, para
su clculo usaremos las marcas de clase como en los casos anteriores.

Medidas de Asimetra
El coeficiente de asimetra de Fisher nos da la simetra o la asimetra de las
distribuciones sin necesidad de representarlas. Se define como


( )
o
=
= >

= = = =

= <

3
1
1
1 1 3
1
Asimet r a la derecha o posit iva
Simet r a
Asimet r a la izquierda o negat iva
1
0
0
0
k
F
i i
i
F F
F
g A
x x n
n
g A g A
g A



Ejemplo 1.8 (Cont.)
Calculamos el coeficiente de asimetra de Fisher para las distribuciones de hombres y
de mujeres:
Distribucin de hombres
Sabemos que, en este caso, n=112, = 32.5 x y o = 11.22. Entonces

( )
( )
( ) ( )
( ) ( ) ( ) ( )
o
=

= = = + +
+ + + + =

3
3 3
1
1 3 3
3 3 3 3
1
1 1
[ 10 32.5 5 20 32.5 23
112
11.22
30 32.5 40 40 32.5 32 50 32.5 7 60 32.5 5] 0.33
k
i i
i
F
x x n
n
g A

Tenemos que = = >
1
0.33 0
F
g A Asimtrica a la derecha.
53
Distribucin de mujeres
Sabemos que n=80, = 28.88 x y o = 10.7 . Entonces
( )
( )
( ) ( )
( ) ( ) ( ) ( )
o
=

= = = + +
+ + + + =

3
3 3
1
1 3 3
3 3 3 3
1
1 1
[ 10 28.88 3 20 28.88 32
80
10.7
30 28.88 24 40 28.88 15 50 28.88 4 60 28.88 2] -0.28
k
i i
i
F
x x n
n
g A

Tenemos que = = <
1
0.28 0
F
g A Asimtrica a la izquierda.

Medidas de Apuntamiento o Curtosis
Se define el coeficiente de apuntamiento o curtosis como

( )
o
=
>

= =

<

4
1
2 4
1
3 Lept ocrt ica
3 Mesocrt ica
3 Plat icrt ica
k
i i
i
x x n
n
g

Ejemplo 1.8 (Cont.)
Calculamos el coeficiente de apuntamiento para las distribuciones de hombres y de
mujeres:
Distribucin de hombres
Sabemos que, en este caso, n=112, = 32.5 x y o = 11.22. Entonces

( )
( )
( ) ( )
( ) ( ) ( ) ( )
o
=

= = + +
+ + + + =

4
4 4
1
2 4 4
4 4 4 4
1
1 1
[ 10 32.5 5 20 32.5 23
112
11.22
30 32.5 40 40 32.5 32 50 32.5 7 60 32.5 5] 3.08
k
i i
i
x x n
n
g

Tenemos que = >
2
3.08 3 g Leptocrtica
Distribucin de mujeres
Sabemos que n=80, = 28.88 x y o = 10.7 . Entonces
54
( )
( )
( ) ( )
( ) ( ) ( ) ( )
o
=

= = + +
+ + + + =

4
4 4
1
2 4 4
4 4 4 4
1
1 1
[ 10 28.88 3 20 28.88 32
80
10.7
30 28.88 24 40 28.88 15 50 28.88 4 60 28.88 2] 2.95
k
i i
i
x x n
n
g

Tenemos que = <
2
2.95 3 g Platicrtica.








































PRCTICADEVARIABLESCUANTITATIVASCONTINUAS.MEDIDAS
Vamosalejemplo1.6quehemosresueltoanteriormente.IntroducimoslosdatosenlaHoja
Excel como antes y realizamos la tabla de 5 intervalos mediante la opcin Descriptivo >
Univariante > Numrica y la opcin Variable codificada. En Anlisis Descriptivo
seleccionamoslasmedidasdescriptivasquenosinteresen

55
Representacin grfica de una variable cuantitativa continua: Diagrama de cajas
o Box-Plot
El diagrama de cajas o box-plot es una representacin grfica de un conjunto de
datos alternativa al histograma, que facilita la percepcin visual de su localizacin,
extensin y de la simetra. Tambin permite identificar datos atpicos. La razn de que
se explique en este apartado y no en el tema anterior es que para su clculo es
necesario utilizar algunas medidas de centralizacin y dispersin explicadas en este
tema.
Construccin de un diagrama de cajas
1. Se construye una escala de referencia horizontal o vertical.
2. Determinar la mediana (Q
2
), el primer cuartil (Q
1
), el tercer cuartil (Q
3
) y el
rango intercuartlico (RI)
3. Determinar dos puntos f
1
y f
3
, que llamamos separadores interiores, mediante

=
= +
1 1
3 3
1.5
1.5
f Q RI
f Q RI

Los puntos por debajo de f
1
y por encima de f
3
se considerarn atpicos.
4. Determinar dos puntos a
1
y a
3
denominados valores adyacentes. El punto a
1

es el dato ms cercano a f
1
superior a l. El punto a
3
es el dato ms cercano a
f
3
inferior a l.
5. Determinar dos puntos F
1
y F
3
, denominados separadores exteriores,
mediante

=
= +
1 1
3 3
3
3
F Q RI
F Q RI

6. Situar los puntos hallados hasta ahora sobre la escala horizontal o vertical.




7. Construir una caja con extremos Q
1
y Q
3
con una lnea interior dibujada en la
mediana.



F
1
F
3
f
1
f
3
a
1
a
3
Q
1
Q
3
Me=Q
2

F
1
F
3
f
1
f
3
a
1
a
3
Q
1
Q
3
Me=Q
2

56
8. Indicar los valores adyacentes con el smbolo y conectarlos a la caja con
lneas punteadas. Estas lneas se denominan patillas o bigotes. Situar los
datos puntuales que estn entre separadores interiores y exteriores y
representarlos mediante . Se considera que estos datos son atpicos
moderados. Indicar los datos puntuales que caen fuera de los separadores
exteriores mediante *. Se considera que estos puntos son datos atpicos
extremos.





Ejemplo del grfico-caja: representacin grfica de una variable
cuantitativa continua y otra categrica o discreta.

El siguiente grfico corresponde a la representacin de la variable que mide el
tiempo en segundos que tardan en recorrer la distancia de 100 m. lisos una muestra
de 406 atletas en campeonatos escolares en Estados Unidos, Europa y Japn.

















Las medidas que necesitamos calcular para obtener el grfico de esta variable
aparecen en la siguiente tabla:











F
1
F
3
f
1
f
3
a
1
a
3
Q
1
Q
3
Me=Q
2

*
* *
Estadsticos
Tiempo
405
0
15,0054
15,0178
1,82414
,232
,121
-,032
,242
9,46
13,6431
15,0178
16,1487
Vlidos
Perdidos
N
Media
Mediana
Desv. tp.
Asimetra
Error tp. de asimetra
Curtosis
Error tp. de curtosis
Rango
25
50
75
Percentiles
57





Si queremos comparar los resultados de los tres pases en los que se ha realizado el
estudio obtenemos el siguiente grfico:
















En este grfico podemos comprobar cmo se puede comparar la variable que
nos interesa, Tiempo para cada una de las categoras de la variable Pas de Origen
y se observa como el comportamiento es similar en los tres pases.

Si calculamos las medidas necesarias para cada uno de los pases, el
resultado sera el siguiente:

Japn EEUU Europa























Estadsticos
a
Tiempo
253
0
15,0160
15,0656
1,95336
,300
,153
-,296
,305
9,46
13,5028
15,0656
16,3345
Vlidos
Perdidos
N
Media
Mediana
Desv. tp.
Asimetra
Error tp. de asimetra
Curtosis
Error tp. de curtosis
Rango
25
50
75
Percentiles
Pas de origen = EE.UU. a.
Estadsticos
a
Tiempo
72
0
14,8098
14,9280
1,61445
-,092
,283
,090
,559
7,57
13,7638
14,9280
15,8082
Vlidos
Perdidos
N
Media
Mediana
Desv. tp.
Asimetra
Error tp. de asimetra
Curtosis
Error tp. de curtosis
Rango
25
50
75
Percentiles
Pas de origen = Europa a.
Estadsticos
a
Tiempo
79
0
15,1427
15,0738
1,57356
,105
,271
,964
,535
9,33
14,2295
15,0738
16,1830
Vlidos
Perdidos
N
Media
Mediana
Desv. tp.
Asimetra
Error tp. de asimetra
Curtosis
Error tp. de curtosis
Rango
25
50
75
Percentiles
Pas de origen = Japn a.
58























































PRCTICADEVARIABLESCUANTITATIVASCONTINUAS.BOXPLOT
Vamosobtenerelgrficocajaconlosdatosdelejemplo1.6.

Paraobtenerelgrficocaja,tenemosquetrabajarconlavariablessinagruparenintervalos.
Seleccionamos de nuevo Descriptivo > Univariante > Numrica y en variable a analizar
marcamos la opcin Variable original. Para obtener el grficocaja marcamos Diagrama de
cajasenlaventanaAnlisisGrfico

As,seobtiene
59























































Ahora, vamos a obtener las representaciones grficas de los datos del ejemplo 1.7.
Concretamenteelhistogramayelgrficocaja.

Paraobtenerel histogramaseleccionamosde Descriptivo> Univariante>Numricay en


variable a analizar marcamos la opcin Variable codificada. Para obtener el histograma
marcamos Histograma e Histograma de Frecuencias (frecuencias absolutas) en la ventana
AnlisisGrfico.Elgrficocajalorealizaremosposteriormenteconotraopcin.

Hemos seleccionado 8 clases de amplitud 125, comenzando por el valor 0, como en el


ejemplo

Paraobtenerelgrficocaja,tenemosquetrabajarconlavariablessinagruparenintervalos.
Seleccionamos de nuevo Descriptivo > Univariante > Numrica y en variable a analizar
marcamos la opcin Variable original. Para obtener el grficocaja marcamos Diagrama de
cajasenlaventanaAnlisisGrfico:
60


















































As,obtenemos

61


















































Veamosotroejemplo
Sehamedidolaconcentracindesodiodelsudorde60atletas,obtenindoselossiguientes
resultados:
46,29,35,61,54,37,53,57,52,51,43,67,66,31,53,51,48,59,55,47,76,49,59,50,65,
41,60,51,43,82,63,58,43,61,73,38,71,47,47,60,69,53,51,39,66,53,56,72,75,52,
63,57,54,77,59,36,45,63,67,44
a) Determinarelpercentil10,lamedianayladesviacintpicadeestosdatos.
b) Agrupar los datos en intervalos de clase, construir la tabla de frecuencias, obtener el
histograma de frecuencias acumuladas y el polgono de frecuencias acumuladas y
determinarlasmismasmedidasanterioresparalosdatosagrupados.
c) Representarelgrficocaja.

Introducimoslosdatosdelavariable,comosiempre,enunacolumna

En primer lugar calcularemos el percentil 10, la mediana y la desviacin tpica de los datos
sin agrupar en intervalos. Tambin obtendremos el grfico caja. Para ello, seleccionamos
Descriptivo>Univariante>Numricayobtenemoselcuadrodedilogocorrespondiente
dondeseleccionaremoslasopcionesquenosinteresen:

62




















































En concreto, seleccionaremos en primer lugar los datos (sin el nombre de la variable). En
variable a analizar, seleccionamos Variable Original (datos sin agrupar en intervalos). En
AnlisisNumricoseleccionamosAnlisisDescriptivoypulsamoselbotnOpcionesAnlisis
para seleccionar las medidas descriptivas que nos interesen. En este caso seleccionaremos
la mediana, la desviacin tpica y los percentiles 25, 50 y 75 (para el grfico caja) y el
percentil 10. Para obtener este ltimo tenemos que definirlo en Personalizado. (ponemos
0,10,damosaladobleflechayyalopodremosseleccionar).


63


















































Finalmente Anlisis Grfico, marcamos Diagrama de Cajas y seleccionamos la celda donde
obtendremoslosresultados.



Aceptamos y obtenemos las medidas descriptivas seleccionadas previamente y el grfico
caja:


A continuacin, agrupamos los datosen intervalos. Consideraremos 8 intervalos, por tanto,
lalongituddecadaintervalosedeterminarmediantelaexpresin:

max min 82 29
6, 25
intervalos 8 n

= = =

64


















































En cualquier caso el programa calcula automticamente la longitud de cada intervalo
simplementeponiendoelnmerodeintervalosquequeremos.
Para obtener lo que nos piden seleccionamos de nuevo Descriptivo > Univariante >
Numrica pero ahora en variable a analizar marcamos la opcin Variable codificada. En
Anlisis Numrico seleccionamos de nuevo las medidas descriptivas que nos interesen
(mediana,percentil10ydesviacintpica)ylaopcinAnlisisdeFrecuencias paraobtener
latabladefrecuencias.Elhistogramayelpolgonodefrecuenciasacumuladasnoloshaceel
programa. En su lugar obtenemos el histograma. Para ello marcamos Histograma e
HistogramadeFrecuencias(frecuenciasabsolutas)enlaventanaAnlisisGrfico.

En la parte derecha del cuadro de dilogo tenemos que seleccionar cmo queremos
construir los intervalos. En nuestro caso, fijamos el nmero de intervalos (8), pero tambin
podramos seleccionar la longitud de cada intervalo. Por tanto, en Segmentacin
Personalizada marcamos Por nmero de intervalos y en N de clases ponemos 8.
Finalmentemarcamoslaceldaenlaqueobtendremoslosresultados.





65

1.5. Descripcin conjunta de dos variables: tablas de doble entrada
La descripcin conjunta de dos variables se realiza mediante lo que se denomina una
tabla de doble entrada. Estas tablas permiten describir de forma conjunta cualquier par
de variables, ya sean cualitativas, discretas o continuas y adems nos permitir
obtener informacin sobre la distribucin de frecuencias de las dos variables de forma
conjunta, la distribucin de frecuencias de cada variable individual (distribucin
marginal) o la distribucin de frecuencias de una variable fijada una categora, valor o
intervalo de la otra variable (distribucin condicionada).

Para construir la tabla de doble entrada, al igual que ocurra con la tabla de
frecuencias, es necesario que los diferentes categoras, valores o intervalos de cada
una de las variables originen una particin de la poblacin, es decir, que cada
individuo de la poblacin debe pertenecer a una y slo una de las clases de cada una
de las dos variables.

La generacin de la tabla consiste en contar los individuos que estn en cada una de
las posibles intersecciones de la tabla. Pongamos un ejemplo de tabla para
representar la informacin conjunta de dos variables cualitativas, la primera, llamada
X, con categoras X
1
, X
2
,,X
k
y la segunda, denominada Y con categoras Y
1
, Y
2
,,
Y

.

Variable Y
Y
1
Y
2
Y
j
Y

Total
Variable

X
X
1
n
11
n
12
n
1j
n
1
n
1+

X
2
n
21
n
22
n
2j
n
2
n
2+


X
i
n
i1
n
i2
n
ij
n
i
n
i+


X
k
n
k1
n
k2
n
kj
n
k
n
k+

Total n
+1
n
+2
n
+j
n
+
n
++


n
ij
representa el nmero de individuos de la muestra que presentan la categora X
i
de
la variable X y la categora Y
j
de la variable Y.

n
i+
representa el nmero de individuos de la muestra que presentan la categora X
i
de
la variable X y se calcula como la suma de los individuos de la fila correspondiente.

n
+j
representa el nmero de individuos de la muestra que presentan la categora Y
j
de
la variable Y y se calcula como la suma de los individuos de la columna
correspondiente.

n
++
representa el nmero total de individuos de la muestra.
La ltima columna representa la distribucin marginal o individual de la variable X.


Variable X Frecuencia
X
1
n
1+

X
2
n
2+


X
i
n
i+


X
k
n
k+

Total n
++

66

La ltima fila representa la distribucin marginal o individual de la variable Y.


Variable Y Y
1
Y
2
Y
j
Y

Total
Frecuencia n
+1
n
+2
n
+j
n
+
n
++



En ocasiones es til conocer la distribucin de frecuencias de una variable
condicionada a uno o varios niveles de la otra variable con el fin de poder comparar la
distribucin de frecuencias de la misma variable condicionada a distintos niveles de la
otra. A esto se le llama distribuciones de frecuencia condicionadas y seran:


Variable X Frecuencia
X
1
n
1j

X
2
n
2j


X
i
n
ij


X
k
n
kj

Total n
+j



Esta tabla correspondera a la distribucin de la variable X condicionada a la
categora Y
j
de la variable Y.

Si nuestro inters est en calcular la distribucin de la variable Y condicionada a la
categora X
i
de la variable X, la tabla sera


Variable Y Y
1
Y
2
Y
j
Y

Total
Frecuencia n
i1
n
i2
n
ij
n
i
n
i+


Las tablas que aqu se han explicado vienen expresadas en trminos de las
frecuencias absolutas, que es como se construyen de forma inicial. Si deseamos la
informacin de las frecuencias relativas slo tenemos que dividir las frecuencias
absolutas entre los correspondientes totales filas o columnas.

Veamos un ejemplo de tabla de doble entrada.


Ejemplo 1.10

El control del estrs es uno de los factores que ms influyen en los resultados de los
deportistas de lite, pero su nivel no es el mismo en los distintos deportes (aun cuando
se trate de competiciones del mximo nivel). Para comprobar esto, se tomaron atletas
de 3 deportes de los que se anot su nivel de estrs y los resultados se proporcionan
en la siguiente tabla





67
Nivel de estres * deporte


deporte
Total
Ftbol Atletismo Natacin
Nivel de
estres
Muy Fuerte
22 41 48 111
Fuerte
48 38 39 125
Moderado
120 20 10 150
Leve
30 11 18 59
Total 220 110 115 445


La tabla de doble entrada completa con frecuencias absolutas y relativas sera la
siguiente:


Para calcular las distribuciones condicionadas de una variable (por ejemplo deporte) a
otra variable (por ejemplo nivel de estrs), procedemos de la siguiente forma:

Ftbol condicionado a nivel de estrs muy fuerte =
22
111
1uu = 19.8% y lo
interpretaramos como el porcentaje de futbolistas entre los que tienen un nivel de
estrs fuerte, es decir, el 19.8% de los deportistas que presentan un nivel de estrs
muy fuerte son jugadores de ftbol.

El resto de los porcentajes condicionados a la variable nivel de estrs se calculan de
forma similar.

Si queremos calcular las distribuciones condicionadas al deporte procedemos de la
misma forma, pero en el denominador pondramos el total de deportistas de cada uno
de los deportes. Por ejemplo, si queremos calcular la condicionada de nivel de estrs
muy fuerte a futbol sera:
Nivel de estres * deporte
22 41 48 111
19,8% 36,9% 43,2% 100,0%
10,0% 37,3% 41,7% 24,9%
4,9% 9,2% 10,8% 24,9%
48 38 39 125
38,4% 30,4% 31,2% 100,0%
21,8% 34,5% 33,9% 28,1%
10,8% 8,5% 8,8% 28,1%
120 20 10 150
80,0% 13,3% 6,7% 100,0%
54,5% 18,2% 8,7% 33,7%
27,0% 4,5% 2,2% 33,7%
30 11 18 59
50,8% 18,6% 30,5% 100,0%
13,6% 10,0% 15,7% 13,3%
6,7% 2,5% 4,0% 13,3%
220 110 115 445
49,4% 24,7% 25,8% 100,0%
100,0% 100,0% 100,0% 100,0%
49,4% 24,7% 25,8% 100,0%
Frecuencia
% de Nivelestres
% de deporte
% del total
Frecuencia
% de Nivelestres
% de deporte
% del total
Frecuencia
% de Nivelestres
% de deporte
% del total
Frecuencia
% de Nivelestres
% de deporte
% del total
Frecuencia
% de Nivelestres
% de deporte
% del total
Muy Fuerte
Fuerte
Moderado
Leve
Nivel de
estres
Total
Ftbol Atletismo Natacin
deporte
Total
68
22
220
1uu = 1u%, que se interpretara como el porcentaje de futbolistas que tienen un
nivel de estrs muy fuerte, es decir, podramos afirmar que el 10% de los deportistas
que juegan al ftbol presentan un nivel de estrs muy fuerte.

El resto de porcentajes condicionados se calculan de forma similar.

Otro de los objetivos de la tabla de doble entrada es determinar la posible relacin o
independencia entre las variables. Dos variables pueden ser independientes o bien
estar relacionadas y, por tanto, obtener informacin de una a partir de la otra. Para
determinar la posible relacin entre las dos variables basta con comparar las
distribuciones condicionadas adecuadas.

Veamos la distribucin condicionada de la categora de estrs Muy Fuerte a cada uno
de los deportes:

Muy fuerte condicionado a ftbol 10%
Muy fuerte condicionado a atletismo 37.3%
Muy fuerte condicionado a natacin 41.7%

Podemos observar que, al haber diferencias entre los porcentajes, existe relacin
entre el presentar un nivel de estrs muy fuerte y el deporte realizado, ya que en
funcin de cada uno de los deportes tendremos un porcentaje de nivel de estrs muy
fuerte diferente.

Igual pasa con el resto de las categoras de la variable nivel de estrs

Fuerte condicionado a ftbol 21.8%
Fuerte condicionado a atletismo 34.5%
Fuerte condicionado a natacin 33.9%

Moderado condicionado a ftbol 54.5%
Moderado condicionado a atletismo 18.2%
Moderado condicionado a natacin 8.7%

Leve condicionado a ftbol 13.6%
Leve condicionado a atletismo 10%
Leve condicionado a natacin 15.7%

Podemos observar como la nica categora que parece no depender del tipo de
deporte es la de nivel de estrs Leve, ya que los porcentajes son similares. La
conclusin que obtendramos es que el nivel de estrs depende del tipo de deporte
realizado y que el ftbol es el tipo de deporte que menor nivel de estrs produce.











69


















































PRCTICADETABLASDEDOBLEENTRADA
Vamosaresolverelejemplo1.10

En primer lugar procedemos a la introduccin de los datos creando tres variables, una de
ellas el deporte, otra el nivel de estrs y por ltimo la frecuencia, que tiene los valores de
cadaunadelascasillasdelatabla

A continuacin procedemos a utilizar el men de Insertar y escogemos la opcin de tablas


dinmicas:

Dentro de la opciones de tabla dinmica escogeremos Tabla Dinmica y nos aparecer un


cuadro de dilogo en el que tendremos que introducir los datos de la tabla y la celda en la
quedeseamosqueaparezcanlosresultados:

70





















































Una vez pulsada la tecla de aceptar, obtendremos la tabla en la que tendremos que
incorporarlainformacinquenecesitamospararesolverelproblema:

Seleccionaremoslavariableniveldeestrsenlasfilasylavariabledeporteenlascolumnas,
paraello,debemosarrastrarelnombredelavariablealaventanaqueinterese(arrastramos
la variable nivel de estrs a la ventana Rtulos de fila y la variable deporte a la ventana
Rtulosdecolumna).Paraconseguirlainformacinquenecesitamosiremosarrastrandola
variablefrecuenciaalaventanaValorestantasvecescomoclculosnecesitemosrealizar.

En la ventana Valores vamos a calcular cuatro medidas: las frecuencias observadas, los
porcentajes por fila (condicionadas de la variable medalla), los porcentajes por columna
(condicionadas de la variable Edad) y los porcentajes totales. Para ello procedemos
arrastrando la variable Frecuencia cuatro veces a la ventana Valores y elegimos, en cada
caso,lasopcionesadecuadas
71






















































ParalasfrecuenciasobservadasseleccionamoslaopcindeSuma,paralosporcentajesfila,
laopcindeSuma,peroenMostrardatospondremos%defila,paralosporcentajesdela
columna igual pero con % de columna y para el porcentaje total introducimos la opcin %
deltotal.

72






















































Finalmente, con el fin de que la tabla de doble entrada quede en la forma que deseamos,
movemoslapestaadeEValoresqueestenlaventanartulosdecolumnasalaventana
rtulosdefilas.

73























































Finalmenteobtenemoslatabladedobleentrada:

Veamosotroejemplo

Dentrodeunaencuestamuyampliarealizadaaunamuestraaleatoriade118medallistasde
juegos olmpicos, se deseaba ver si la edad con la que empezaban en el deporte
condicionaba o no el tipo de medalla que podan alcanzar. Los resultados son los de la
siguientetabla.Piensasquesepodrahablardetalasociacin?

Edaddecomienzo
<11 1114 >14
Medalla
Oro 2 11 18
Plata 7 16 23
Bronce 13 12 16

En primer lugar procedemos a la introduccin de los datos creando tres variables, una de
ellaslamedalla,otralaedaddecomienzoyporltimolafrecuencia,quetienelosvaloresde
cadaunadelascasillasdelatabla

74






















































A continuacin procedemos a utilizar el men de Insertar y escogemos la opcin de tablas


dinmicas:

Dentro de la opciones de tabla dinmica escogeremos Tabla Dinmica y nos aparecer un


cuadro de dilogo en el que tendremos que introducir los datos de la tabla y la celda en la
quedeseamosqueaparezcanlosresultados:

75























































Una vez pulsada la tecla de aceptar, obtendremos la tabla en la que tendremos que
incorporarlainformacinquenecesitamospararesolverelproblema:

Seleccionaremoslavariablemedallaenlasfilasylavariableedadenlascolumnas,paraello,
debemos arrastrar el nombre de la variable a la ventana que interese (arrastramos la
variable medalla a la ventana Rtulos de fila y la variable edad a la ventana Rtulos de
columna) . Para conseguir la informacin que necesitamos iremos arrastrando la variable
frecuenciaalaventanaValorestantasvecescomoclculosnecesitemosrealizar.

En la ventana Valores vamos a calcular cuatro medidas: las frecuencias observadas, los
porcentajes por fila (condicionadas de la variable medalla), los porcentajes por columna
(condicionadas de la variable Edad) y los porcentajes totales. Para ello procedemos
arrastrando la variable Frecuencia cuatro veces a la ventana Valores y elegimos, en cada
caso,lasopcionesadecuadas

76























































ParalasfrecuenciasobservadasseleccionamoslaopcindeSuma,paralosporcentajesfila,
laopcindeSuma,peroenMostrardatospondremos%defila,paralosporcentajesdela
columna igual pero con % de columna y para el porcentaje total introducimos la opcin %
deltotal.

Finalmente, con el fin de que la tabla de doble entrada quede en la forma que deseamos,
movemoslapestaadeEValoresqueestenlaventanartulosdecolumnasalaventana
rtulosdefilas.

77


































Finalmenteobtenemoslatabladedobleentrada:



Observandoporejemplolascondicionadas:

/ 11 9, 09%
/11 14 28, 21%
/ 14 31, 58%
ORO
ORO
ORO
<

>

Vemos que no hay diferencia entre ellas y, por tanto, las variables no son
independientes.Existeasociacinentreellas.