Vous êtes sur la page 1sur 23

Tema 2. Estadstica descriptiva.

Parte I

Contenidos

1. Conceptos generales: Poblacin estadstica, Unidad estadstica o indivivuo,
muestra. Estadsticas
2. Descripcin estadstica de una variable
2.1. Distribuciones de frecuencias, frecuencia absoluta, frecuencias relativa y
acumulada.
2.2. Tabla de frecuencia, agrupamiento. Eleccin de intervalos.
2.3. Representaciones grficas.
3. Medidas de Centralizacin
4. Medidas de dispersin.
5. Momentos
6. Medidas de forma (asimetra y apuntamiento).
7. Ejercicios
2
Conceptos generales.
Las unidades estadsticas o individuos son los elementos que componen la poblacin
estudiada.
Poblacin. Conjunto de elementos o individuos que van a tener alguna caracterstica
en comn y sobre las cuales se va a realizar la investigacin estadstica.
La poblacin se clasificar en finita o infinita segn el nmero de elementos
que la compongan. Por lo general, estaremos antes poblaciones finitas.
Muestra: Es un subconjunto de la poblacin representativo de esta, de forma que las
conclusiones sacadas en la muestra se generalizan a la poblacin. El motivo de utilizar
la muestra y no hacer un estudio exhaustivo de la poblacin puede ser por razones de
tiempo, coste excesivo.
Si la investigacin se dirige a toda la poblacin diremos que estamos
realizando un censo, mientras que la recogida de investigacin muestral recibe el
nombre de encuesta.
Tamao de la poblacin: El nmero de elementos que integran la poblacin.
Variables estadsticas:
Los caracteres son las cualidades o rasgos comunes de una poblacin. Por ejemplo: el
sexo, edad, altura Estas caractersticas se pueden clasificar en:
a) Cualitativas: Aquellas cuyas modalidades no son medibles (color de los
ojos, sexo..). (Las modalidades son las distintas categoras de u una
variable cualitativa. Por ejemplo el sexo tiene las modalidades Varn y
mujer).
b) Cuantitativas: Aquellas que son medibles o numerales (peso, estatura).
As pues una variable estadstica es el conjunto de posibles valores que se pueden
obtener al hacer una medicin de un carcter cuantitativo. Los tipos de variables
estadsticas son:
a) Discreta: Cuando el conjunto de valores posibles es numerable. Por
ejemplo: nmero de hijos de una familia.
b) Continua: Pueden tomar un valor comprendido entre dos valores, es decir,
un intervalo. Por ejemplo el tiempo de duracin de un suceso.
3
2. Descripcin estadstica de una variable

2.1. Distribuciones de frecuencias
Llamaremos distribucin de frecuencias al conjunto de valores que ha tomado una
variable con sus frecuencias correspondientes. Habitualmente se representa como
{x
i
, f
a
(x
i
)}.
Las frecuencias que pueden aparecer en una distribucin son:
- Frecuencia absoluta: Es el nmero de veces que se repite u observa cada
uno de los valores de la variable (x
i
). Se representa por f
a
(x
i
) o simplemente f
a
.
- Frecuencia Total: Es el nmero total de datos observados en la variable, Se
representa por n.
- Frecuencia relativa: Es el cociente entre la frecuencia absoluta de cada valor
.y la frecuencia total. Se representa por f
r
(x
i
) o simplemente f
r
.
f
r
=
n
f
a

- Frecuencia acumulada absoluta. Indica el nmero de datos igual al
considerado o inferior al mismo. Se representa por F
a
(x
i
) o simplemente F
a
.
F
a
= f
a
(x
i
).
- Frecuencia acumulada relativa. Es el cociente entre la frecuencia acumulada
absoluta de cada valor y la frecuencia total. Se representa por F
r
(x
i
) o F
r

F
r
=
n
F
a

2.2. Tablas de frecuencias
Podemos resumir los valores observados y sus frecuencias en una tabla. Podemos
diferenciar dos tipos de tablas: Agrupadas y no agrupadas en intervalos.
Las distribuciones no agrupadas en intervalos son aquellas en la que la informacin se
dispone asociando a cada valor sus correspondientes frecuencias.
Ejemplo 1.1 Los siguientes 120 datos se han obtenido al observar el nmero de fallos
de un sistema elctrico:
4
3 2 4 2 2 1 2 0 2 1 2 2 1 0 0
2 0 1 2 0 2 3 2 3 3 1 1 3 2 2
3 0 4 2 3 3 3 3 1 3 4 1 2 2 1
2 2 1 0 3 3 0 2 4 1 1 2 3 1 3
2 0 3 1 0 2 5 0 6 3 2 1 1 2 2
2 4 2 2 0 5 3 1 1 4 2 1 1 2 1
2 0 1 0 2 2 0 2 1 0 4 1 1 3 1
2 4 4 2 1 0 3 2 0 2 1 1 0 1 0

Agrupando los datos obtenemos la siguiente tabla:
x
i
f
a
f
r
F
a
F
r

0
20 0,16666667 20 0,16666667
1
30 0,25 50 0,41666667
2
38 0,31666667 88 0,73333333
3
20 0,16666667 108 0,9
4
9 0,075 117 0,975
5
2 0,01666667 119 0,99166667
6
1 0,00833333 120 1

En esta tabla podemos observar que el 31,67% de los datos tienen el valor 2 y que el
90% tienen un valor inferior o igual a 3.


Las distribuciones agrupadas son aquellas en las que las frecuencias se
asocian a intervalos de valores:
Agrupamiento: La agrupacin de valores se da cuando el nmero de valores que
presenta la variable es elevado al objeto de lograr mayor comodidad en el manejo de
los datos, o cuando la variable sea continua.
En el proceso de agrupacin se parte del recorrido de la variable definido como la
frecuencia entre el mayor valor y el mnimo de sta, dividindose el recorrido en
intervalos.: Re=max(x
i
)-min(x
i
). Para definir el nmero de intervalos a considerar es
frecuente escoger el entero ms prximo a n , siendo n el nmero de datos totales,
pero conviene probar con distintos nmeros de clases.
Sea L
i-1
y L
i
los extremos inferior y superior del intervalo se define la amplitud
del intervalo (c
i
) como la diferencia entre los extremos superior e inferior del mismo; La
5
amplitud del intervalo puede ser variable o constante aunque es usual seleccionar los
intervalos con la misma longitud. En este ltimo caso debe verificarse que
Re= n de Intervalos x c. Al punto medio o centro de cada intervalo se le denomina
marca de clase y es el valor representante de cada clase o intervalo. As para un
intervalo cualquiera x
i
=( L
i-1
+ L
i
)/2
Ejemplo 1.2. Los siguientes 90 datos representan el tiempo (en horas) entre dos fallos
consecutivos de una mquina.
0,2527 2,6449 6,1265 4,541 1,4612 7,2789 2,2691
0,1082 0,4149 0,5707 0,2928 0,9541 4,6069 0,6177
2,364 1,2292 4,0653 0,8548 1,0826 0,552 10,1949
0,2925 2,2976 0,5801 7,4964 8,335 0,9409 1,5376
0,3109 0,0127 0,7033 0,1094 0,7881 0,5582 3,8023
2,666 1,9646 5,2857 2 5,9078 1,143 0,735
4,1283 1,5422 1,5169 9,0298 2,7487 0,5175 1,8357
0,7033 6,015 1,578 0,0703 1,7483 3,5367 0,03
0,8398 8,1102 2,6781 3,5947 0,0466 1,6817 0,8994
2,812 0,5318 0,9537 0,1659 0,949 0,2411 0,7002
5,9698 1,7856 0,1958 0,4735 1,1176 0,8949 0,076
1,4029 1,0304 1,8654 1,6724 0,5541 2,0238 0,8956
1,0275 0,2239 0,4995 6,0339 0,147 1,4001

Para estos datos el recorrido es max(xi)-min(xi)=10,1949-0,0127=10,1822.
n=90 . Si definimos intervalos de amplitud 1, el nmero de intervalos que
abarcan todo el campo de datos es 11. As obtenemos la siguiente tabla:

Intervalo
Marca de
clase (xi)
f
a
f
r
F
a
F
r

[0,1)
0,5 41 0,455556 41 0,455556
[1,2) 1,5 21 0,233333 62 0,688889
[2,3) 2,5 9 0,1 71 0,788889
[3,4) 3,5 3 0,033333 74 0,822222
[4,5) 4,5 4 0,044444 78 0,866667
[5,6) 5,5 3 0,033333 81 0,9
[6,7) 6,5 3 0,033333 84 0,933333
[7,8) 7,5 2 0,022222 86 0,955556
[8,9) 8,5 2 0,022222 88 0,977778
[9,10) 9,5 1 0,011111 89 0,988889
[10,11) 10,5 1 0,011111 90 1

Vemos que el 45,5% de los datos tienen un valor menor a 1 y que 78,89% tienen un
valor menor o igual a 3
6
2.3. Representaciones grficas.
Son instrumentos que nos permiten detectar a primera vista algunas de las
caractersticas ms notables de una serie estadstica.
Segn el fenmeno que se quiera plasmar, podemos clasificar las
representaciones grficas en:
2.3.1 Representaciones grficas para fenmenos cuantitativos. Las ms utilizas son:
Diagrama de barras: Utilizado para datos de variables discretas y en general
para distribuciones de datos sin agrupar en intervalos. Se representa en el eje
de abscisas los distintos valores de la variable y sobre cada uno de ellos se
levanta en el eje de ordenadas las frecuencias correspondientes.
(Ejemplo 1.1)


Histograma: Es la representacin grfica ms frecuente para datos agrupados
en intervalos. Marcamos en el eje de abscisas los extremos de los intervalos y
se dibujan rectngulos de base la amplitud del intervalo y altura proporcional a
las respectivas frecuencias de cada uno de los diferentes intervalos de valores
del fenmeno analizado.
(histograma correspondiente a ejemplo 1.2)
7



Polgono de frecuencias: Si no hemos agrupado los datos por intervalos, el
polgono de frecuencias se obtiene uniendo los extremos superior de las barras
del diagrama de barras. Si hemos utilizado intervalos de agrupamiento el
polgono de frecuencias se obtiene uniendo los puntos medios de las bases
superiores de cada rectngulo del histograma.
Diagrama de tallos y hojas: Es un mtodo semigrfico para representar datos
numricos, especialmente til cuando el conjunto de datos es pequeo. Para
construir dicho diagrama:
o Redondear los valores a dos o tres cifras significativas
o Representar en una tabla con dos columnas separadas por una lnea
vertical como sigue:
1. Para datos con dos dgitos escribir a la izquierda de la lnea los
dgitos de las decenas (tallo) y a la derecha escribir las unidades
(hojas). Por ejemplo 13 se escribe 13.
2. Para datos con tres dgitos el tallo se forma con los dgitos de las
centenas y decenas (escritos a la izquierda). Por ejemplo, 125 es 125.
o Cada tallo define una clase y se escribe solo una vez. Es usual ordenar
los valores en el tallo en el orden que crecen. El nmero de hojas
representa la frecuencia de dicha clase.
o Si el primer dgito de la clasificacin vara poco, la mayora de los datos
se agrupan alrededor de un tallo y el diagrama resultante tiene poco
detalle. En este caso es conveniente subdividir cada tallo en dos o ms
partes.
8
Ejemplo 1.3. Los siguientes 20 datos representan la edad de un colectivo de 20
personas:
36 25 37 24 39 20 36 45 31 31

39 24 29 23 41 40 33 24 34 40

Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas
2, 3 y 4. A continuacin efectuamos un recuento y vamos aadiendo cada hoja a su
tallo.
Tallos Hojas
2 0 3 4 4 4 5 9
3 1 1 3 4 6 6 7 9 9
4 0 0 1 5




Diagrama de puntos: Grfico til para representar la distribucin de un nmero
pequeos de datos.
Dibujamos una lnea horizontal para representar el recorrido de los datos. Despus,
incluimos una escala con suficiente detalle para localizar el lugar de cada dato
respecto la lnea. Vemoslo con los datos del ejemplo anterior:

.
. . : . . : . . : . : : . .
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ Edad aos
20 25 30 35 40 45



Diagrama de Frecuencias acumuladas: (Datos no agrupados) Utilizamos las
frecuencias acumuladas. En eje de abscisa representamos los datos. Sobre cada valor
colocamos un punto cuya altura sobre la abscisa corresponde a la frecuencia
acumulada correspondiente a este valor. Desde cada uno de estos puntos trazamos
una recta horizontal que termina en el punto cuya abscisa es el siguiente valor
numrico observado. Finalmente conectamos los extremos de estas rectas
horizontales con rectas verticales.
9


Polgono de frecuencias acumuladas: (Vlido para datos agrupados en
intervalos). Consiste en representar las frecuencias acumuladas de cada intervalo,
trazando, por el extremo superior d cada intervalo una barra equivalente a su
frecuencia acumulada.
Para los datos del ejemplo 1.2 podemos construir el siguiente polgono de frecuencias:



10

2.3.2 Representaciones grficas para variables cualitativas.
Diagramas de barras o rectngulos: Consiste en trazar sobre un par de ejes
cartesianos tantos rectngulos como modalidades tenga, todos ellos con idntica base
y con altura proporcional a la frecuencia de la modalidad correspondiente.



Diagrama de Sectores: Consiste en dividir un crculo en tanto sectores como
modalidades tengamos, de forma que el rea de cada sector se proporcional o igual a
la frecuencia de la modalidad. El ngulo asociado a cada modalidad, en grados, viene
dado por:




Donde es la frecuencia asociada a la i-sima modalidad y n es el nmero de
observaciones.
Vemoslo con el ejemplo anterior:
0
5
10
15
20
25
30
35
soltero casado divorciado viudo
Estado civil
Estado civil
11


La distribucin de frecuencias {x
i
, f
a
(x
i
)} de una variable unidimensional ofrece
toda la informacin existente de dicha variable. En ocasiones, es difcil trabajar con
tanta informacin por lo que se hace necesario definir una serie de medidas que la
sinteticen. Estas medidas pueden ser de distintos tipos:
Medidas de Centralizacin: Se trata de medidas que nos permiten situar
cual es el valor central de la distribucin.
Medidas de posicin: Nos permiten situar cualquier valor de la
distribucin.
Medidas de dispersin: Miden el grado de esparcimiento de los datos de
la distribucin.
Medidas de asimetra y apuntamiento (forma): Son necesarias para
caracterizar de modo ms preciso las distribuciones de frecuencias. Nos
dan la forma en la que se distribuyen los datos.
3. Medidas de Centralizacin
3.1. Media Aritmtica ( )
La media aritmtica de una distribucin de frecuencias se define como la suma de los
productos de los valores de la variable multiplicados por su correspondiente frecuencia
relativa:

siendo x
i
los valores de la variable
f
a
la frecuencia absoluta
n la frecuencia total o nmero total de datos

Si las distribuciones estn agrupadas en intervalos, x
i
ser la marca de clase de cada
intervalo que es el valor representante del mismo.
soltero ; 30;
43%
casado; 15;
21%
divorciado; 20;
29%
viudo; 5; 7%
Estado civil
12

Propiedades:
a) La suma de las desviaciones de los valores de la variable respecto de la
media aritmtica es nula.

(Demostrar)

b) Teorema de Koning: La suma de las desviaciones al cuadrado de los valores
de la variable respecto de una constante k se minimiza cuando dicha constante es la
media aritmtica.
Dk=

(Demostrar)

c) Influencia de un cambio de origen en la media aritmtica.
Si a todos los valores de una distribucin {x
i
, f
a
(x
i
)} se le suma una constante C la
media aritmtica de la nueva distribucin es igual a la media aritmtica de la
distribucin inicial ms la constante C.
Si

(Demostrar)

d) Influencia de un cambio de escala en la media aritmtica.

Si todos los valores de una distribucin {x
i
, f
a
(x
i
)} son multiplicados por una constante
k la media aritmtica de la nueva distribucin es igual a la media aritmtica de la
distribucin inicial multiplicada por la constante k.
Si

(Demostrar)


e) Media aritmtica ponderada

Si podemos dividir una distribucin de frecuencias en dos o ms grupos sin elementos
en comn la media aritmtica del total ser:




13
3.2. Mediana (Me)
La mediana tiene un valor importante en la estadstica. Ordenando los datos de forma
creciente, la mediana se define como aquel valor que deja igual nmero de
observaciones inferiores que superiores a l. Si hay un nmero par de datos este valor
no proporciona un valor nico y para este caso tomamos como valor mediano la media
aritmtica de los dos centrales. Por ejemplo, si tenemos el conjunto de datos
{4,1,4,2,4,2,5,3}, ordenando los datos de forma creciente tenemos {1,2,2,3,4,4,4,5}.
Los dos valores centrales son 3 y 4 y su media aritmtica es 3,5.
Ordenando los 120 datos del ejemplo 1.1 en forma creciente obtenemos:
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1
1 1 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 3
4 4 4 4 4 4 4 4 4 5 5 6
Los dos valores centrales son 2. Entonces (2+2)/2=2; Mediana= 2

Para realizar el clculo de la mediana para datos agrupados distinguimos entre
distribuciones no agrupadas por intervalos y agrupadas por intervalos.
a) Distribuciones no agrupadas en intervalos. El clculo es inmediato a partir de la
observacin de la columna de las frecuencias acumuladas.
Por ejemplo, recordemos la tabla de frecuencias del ejemplo 1.1
X
i
f
a
f
r
F
a
F
r

0 20 0,16666667 20 0,16666667
1 30 0,25 50 0,41666667
2 38 0,31666667 88 0,73333333
3 20 0,16666667 108 0,9
4 9 0,075 117 0,975
5 2 0,01666667 119 0,99166667
6 1 0,00833333 120 1

14
La mediana es aquel valor de la distribucin al que le corresponde la frecuencia
acumulada n/2, por tanto en esta distribucin la mediana es el valor 2 puesto que la
frecuencia acumulada es 60 (n/2= 120/2= 60).
* Si n/2 coincide con alguna F
a
se toma la media entre el valor que corresponde a F
a

y el siguiente. Por ejemplo:

X
i
f
a
f
r
F
a
F
r

4 2 0,2 2 0,2
7 3 0,3 5 0,5
9 5 0,5 10 1

n/2 =10/2=5. Coincide con F
a
por lo tanto Me=(7+9)/2=8


b) Distribuciones agrupadas en intervalos.

Ejemplo:

L
j-1
- L
j
xi f
a
f
r
F
a
F
r

[0,1)
0,5 10 0,1960 10 0,1960
[1,2) 1,5 12 0,24 22 0,436
[2,3) 2,5 12 0,24 34 0,676
[3,4) 3,5 10 0,196 44 0,872
[4,5) 4,5 7 0,1372 51 1


n/2= 51/2= 25,5. Se encuentra entre los valores 22 y 34. Por lo tanto el intervalo
mediano ser [2, 3).
Pero no nos interesa el intervalo mediano sino la mediana. Para ello utilizamos la
siguiente expresin:
Me=

Donde:
L
j-1
: Extremo inferior del intervalo; c: Amplitud del intervalo.
F
a(j-1)
: Frecuencia acumulada hasta el intervalo anterior al intervalo mediano.
fa
(j)
: Frecuencia absoluta del intervalo mediano.
Me= 2+1(25,5-22)/12=2,29
15
* Si n/2 = fa
(j)
en este caso la mediana ser el extremo superior del intervalo
correspondiente.
3.3 Moda.
La moda se define como el valor de una muestra de datos que tiene la mayor
frecuencia. Para los datos del Ejemplo 1.1. la moda es el valor 2 (con una frecuencia
absoluta de 38).
Cuando la distribucin est agrupada por intervalos se tiene que una vez determinada
la mayor frecuencia se observa que no corresponde a un valor sino a un intervalo, por
lo que tendremos un intervalo modal. En el ejemplo 1.2 el intervalo modal es [0,1) (con
una frecuencia absoluta de 41).
Si todos los intervalos son de la misma amplitud, la moda vendr dada por la
siguiente expresin:



Ejemplo: Determinar la moda de la siguiente distribucin de frecuencias:


El intervalo modal es [14,20) ya que presenta la mayor frecuencia absoluta. A
continuacin hay que determinar el valor modal del intervalo:


4. Medidas de dispersin.
Las medidas de dispersin nos sirven para cuantificar la separacin de los valores de
una distribucin. Llamaremos dispersin, a la mayor o menor concentracin de los
valores de la muestra respecto de las medidas de centralizacin calculadas.
Al calcular una medida de centralizacin como es la media aritmtica resulta necesario
acompaarle de otra medida que indique el grado de dispersin, del resto de valores
de la distribucin, respecto de esta medida. A estas cantidades les llamamos: Medidas
de dispersin, pudiendo ser absolutas o relativas.
f
a

16
a) Medidas de dispersin absolutas;
a.1) Recorrido: Se define como la diferencia entre el mayor y el menor valor de
las variables de una distribucin. R=x
n
-x
1
a.2) Rango intercuartlico. Para poder calcular esta medida debemos definir, en
primer lugar, los cuantiles.
Se denominan cuantiles de la distribucin a aquellos valores que dividen a la
distribucin en partes iguales. Entre los cuantiles de una distribucin cabe destacar los
cuartiles y los percentiles.
Cuartiles: Son tres valores que dividen la distribucin de un conjunto de datos
en cuatro partes iguales, es decir, en cuatro intervalos dentro de cada uno de los
cuales estn incluidos el 25% de los valores de la distribucin. Entonces el primer
cuartil, Q1, es el valor al que corresponde la frecuencia acumulada n/4, Q2 es el valor
al que corresponde la frecuencia acumulada 2n/4 (que coincide con la mediana), el
tercero, Q3, es el valor al que corresponde la frecuencia acumulada 3n/4.
Percentiles: Son noventa y nueve valores de la distribucin que la dividen en
100 intervalos iguales, de forma que en cada intervalo estn incluidas el 1% de las
frecuencias. El percentil 25 coincide con el primer cuartil, el percentil 50 con la
mediana y el percentil 75 con el tercer cuartil.
Por ltimo el rango intercuartlico es la diferencia entre el tercer cuartil y el
primero.
RI= Q3-Q1
El RI indica, por tanto, la amplitud del intervalo en el que se encuentra el 50%
de los valores centrales de la distribucin.
Si tenemos distribuciones de frecuencias no agrupadas en intervalos el clculo es
inmediato a partir de la columna de frecuencias acumuladas:

xi f
a
Fa
4 2 2
7 3 5
9 2 7
Q1n/4= 7/4=1,75
Por lo tanto Q1= 4
17
Si tenemos distribuciones de frecuencias agrupadas en intervalos aplicamos la
siguiente frmula:


L
j-1
: extremo inferior del intervalo
F
aj-1
: frecuencia acumulada hasta el intervalo anterior
C
j
: amplitud del intervalo
f
aj
: frec. Absoluta del intervalo.
i: Cuantil que se desea calcular
(si calculamos percentiles dividimos i entre 100 y no entre 4)
En el ejemplo 1.2 Q1 90/4= 22,5 que pertenece al intervalo [0,1), entonces
Q1=0+1(22,5-0)/41=0,5487
Q3903/4=67,5 que pertenece al intervalo [2,3) Q3=2+1(67,5-62)/9=2,611
Por lo tanto RI= 2,611-0,5487=2,0624
Si utilizamos los datos sin agruparLos ordenamos en forma creciente del ejemplo
1.2 vemos que el recorrido es 10,1949-0,0127= 10,1822;
Q
1
=P
25
=(0,552+0,5541)/2=0,5531; Q
2
=P
50
= 1,1303; Q
3
=P
75
=(2,6660+2,6781)=2,6721 y
entonces el rango intercuartlico viene dado por Q3-Q
1
= 2,119.
a.3) Varianza.
La varianza es la media aritmtica de los cuadrados de las desviaciones de los valores
de la variable con respecto de la media de la distribucin.


(Muchos autores definen la varianza de una muestra como

)

Si tenemos la distribucin de frecuencias podemos calcular

utilizando la frmula:


18

Si operamos podemos obtener la siguiente expresin, que es mucho ms sencilla:




Propiedad:
La varianza es siempre un valor no negativo.

a.4) Desviacin tpica.

Es la raz cuadrada, con signo positivo, de la varianza.



Si tenemos la distribucin de frecuencias podemos calcular

utilizando la frmula:



Propiedades de la desviacin tpica:
1. La desviacin tpica es siempre un valor no negativo.
2. Es la medida de dispersin ptima por ser la ms pequea.
3. Es invariante ante un cambio de origen. Es decir, Si Y= x + c,


4. Se ve afectada ante cambios de escala, es decir, si Y= x/k (siendo k una contante),


5. Utilizando las propiedades de arriba y las de la media, tenemos el siguiente
resultado importante: Tipificacin de una variable: Sea {x
1
,x
2
x
n
} una variable
estadstica X con media

de desviacin tpica y definimos la variable Y como:



19
a.5) Mediana de las desviaciones absolutas.
Una medida de dispersin asociada a la mediana, Me, es la mediana de las
desviaciones absolutas (MEDA) definida por:
MEDA= mediana x
i
-Me
Si conocemos la mediana y la MEDA de un conjunto de datos sabemos que, al menos,
el 50% de los datos estn en el intervalo (Me MEDA).
Esta medida al igual que la mediana es una medida robusta ya que no se ve afectada
por valores extremos.
Ordenando de forma creciente los datos del ejemplo 1.2, tenemos que:



La mediana de los datos es la media de los datos 1,1176 y 1,1430, es decir 1,1303.
Los valores de las desviaciones absolutas ordenadas de forma creciente son:



La mediana de estos valores es la media de los dos valores centrales 0,7679 y 0,8194,
es decir, 0,7937. En este caso la MEDA=0,793.
20
b) Medidas de dispersin relativas;
b.1) Coeficiente de variacin de Pearson:
Es una de las medidas de dispersin ms significativa y la podemos definir como el
cociente entre la desviacin tpica y la media aritmtica:
C
v
=


C
v
Indica el nmero de veces que la desviacin tpica est comprendida en la media.
El coeficiente de variacin no se ve afectado por cambios de escala. Cv=


En ingeniera se utiliza mucho el coeficiente inverso

, que se conoce como el


coeficiente seal-ruido.
En los datos del ejemplo 1,2 = 2,093 y

= 2,308 y C
v
= 2,308/ 2.093 =1,10.

5. Momentos
Los momentos de una distribucin son unos valores que la caracterizan, de forma que
dos distribuciones son iguales si lo son todos sus momentos
Se define el momento de orden K respecto del origen como:


As



Se define el momento de orden K respecto a la media aritmtica como:


As


(Nota: recordar que si los valores estn agrupados hay que multiplicar por las frec.
absolutas).

21

6. Medidas de forma (Asimetra y apuntamiento)

Haciendo uso de las medidas de dispersin y posicin, se pretende sintetizar el
conjunto de datos obtenidos en unos pocos valores que constituyan una buena
descripcin de la muestra, pero esta descripcin no es completa si no aadimos
medidas de forma.
6.1. Medidas de Asimetra.
Se dirigen a elaborar un indicador que permita establecer el grado de simetra o
asimetra de la distribucin.
Diremos que una distribucin es simtrica cuando dado un valor central existen el
mismo nmero de valores a ambos lados de dicho valor, equidistantes del mismo dos
a dos y tales que a cada par de valores equidistantes le corresponde la misma
frecuencia absoluta. En caso contrario se dice que la distribucin es asimtrica,
a) Coeficiente de asimetra de Fisher: Mide la simetra de un conjunto de datos
respecto a su media aritmtica. Se define como:


Siendo m
3
el momento de orden 3 respecto dicha media aritmtica.
As podemos decir que:
A
F
= 0 La distribucin es simtrica
A
F
> 0 la distribucin es asimtrica a derecha o positiva.
A
F
< 0 la distribucin es asimtrica a izquierda o negativa.

b) Coeficiente de asimetra de Pearson: Al igual que el anterior, mide la asimetra de la
distribucin respecto de la media aritmtica de la misma.
Pearson propuso el siguiente coeficiente:




A
p
= 0 simtrica.
A
p
> 0 asimtrica a derecha o positiva.
A
p
< 0 asimtrica a izquierda o negativa.


22
6.2. Medidas de Apuntamiento o curtosis.
Estudian la concentracin de valores en la zona central de la distribucin. De forma
que cuanto mayor sea la concentracin ms apuntada ser la misma. Estas medidas
se aplican fundamentalmente a la distribuciones campaniformes, es decir, simtricas o
con ligera asimetra, estando basadas en la comparacin del apuntamiento con la
distribucin normal o campana de gauss.
As si consideramos

su valor ser 3 en el caso de una distribucin normal,


definindose a partir de aqu el coeficiente de curtosis de Fisher:
C
f
=

(siendo m
4
el momento de orden 4 respecto de la media). De modo que:
C
f
= 0; La distribucin tiene la misma forma que la distribucin normal.
Denominndose este tipo de distribuciones Mesocrticas.
C
f
> 0. La distribucin es ms apuntada que la distribucin normal. Denominndose
este tipo de distribuciones leptocricas
C
f
<0 La distribucin es menos apuntada que la de la normal. Denominndose este
tipo de distribuciones platicrticas.

Para el ejemplo 1.2:


C
a
=



23


7. Ejercicios
7.1 Encuentra el valor de a para que
7.2 Encuentra el valor de a que minimiza

7.3 Demuestre que si multiplicamos todos los valores de una variable por k, la media y
desviacin tpica quedarn multiplicadas por k(k>0).
7.4.Qu transformacin sufre el coeficiente de variacin de pearson de una variable
X cuando se multiplican sus valores por una constante k?Y si se dividen por k?
7.5. Demuestre que si construimos una variable Z mezclando n
1
valores de X y n
2

valores de Y, la media Z, es:

siendo las medias de las variables iniciales.
7.6. Se tienen dos discos de 10 y 5 cm, respectivamente. Se construye otro disco cuya
rea es la media de las reas de los dos discos originales. Ser su radio tambin la
media de los radios dados?
7.7. Se tienen n valores de una variables estadstica, {x
1
,x
2
,,x
n
} que arrojan una
media de 8 y una desviacin tpica de 5. Se construye los nuevos valores
y
i
=(x
i
-2)
2
. Cunto vale ?
7.8. Es cierta la igualdad
para cualquier nmero real a?
7.9. Dada las siguientes observaciones {-10, 3, x, 10, 1, 0} se sabe que su desviacin
tpica es igual a su coeficiente de pearson. Se pide:
a) Encontrar el valor de x.
b) Encontrar la media de la distribucin.
c) Es la distribucin simtrica?

Vous aimerez peut-être aussi