Vous êtes sur la page 1sur 11

Universidad Panamericana

Estadstica I
Prof. Andrs Sandoval H

Estadstica I
2. MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIN
Distribucin de frecuencias.
Distribucin de Frecuencias. Es un agrupamiento de datos en categoras
mutuamente excluyentes dando el nmero de observaciones en cada categora.
Los pasos para obtener una distribucin de frecuencia son los siguientes:
1) Determinar el nmero de clases que se quiere. Un mtodo para determinar
el nmero de clases es la regla 2 a la k. Esta regla sugiere seleccionar
como el nmero de clases el menor nmero (k), tal que 2 a la k sea mayor
que el nmero de datos (n).
2) Determinar el intervalo o la amplitud de clase. Generalmente el tamao de
la clase o del intervalo debe ser el mismo para todas las clases. Las clases
juntas deben abarcar por lo menos la distancia entre el menor valor de los
datos en bruto hasta el valor mayor. Expresado en la siguiente frmula:
i =HL/k
Donde:
i = intervalo de clase
H = mayor valor observado
L = menor valor observado
k = nmero de clases
Generalmente el resultado de la frmula se redondea a algn nmero
adecuado, como por ejemplo un mltiplo de 10 o de 100.
3) Fijar los lmites de cada clase. Se trata de fijar los lmites de cada clase de
modo que cada observacin se pueda colocar slo en una clase. Se deben
evitar los lmites de clase que sean poco claros o que se sobrepongan.
4) Poner una marca por cada observacin que quede en cada clase.
5) Contar en nmero de observaciones en cada clase (frecuencia de clase)

Universidad Panamericana
Estadstica I
Prof. Andrs Sandoval H

La frecuencia relativa se obtiene dividiendo la frecuencia de clase entre el total de


datos (n). La frecuencia porcentual se obtiene multiplicando la frecuencia relativa
por 100.
Representaciones grficas.
Las representaciones grficas de las distribuciones de frecuencia, se hacen por lo
general con llamadas grficas de barras (en las que las clases se indican en el eje
horizontal y las frecuencias de clase en el eje vertical) o con grficas de pie,
especialmente utilizadas para mostrar las frecuencias porcentuales.
Otro tipo grficas que comnmente se usan para mostrar las frecuencias
acumuladas son las ojivas (
Es importante mencionar que si bien, las representaciones grficas sirven para dar
una visin rpida de la forma en que se comportan los datos, tambin pueden ser
utilizadas (dependiendo de cmo se configuren) para dar una idea equivocada de
la informacin que se quiere presentar.
Medidas de tendencia central
El propsito de cualquier medida de tendencia central es indicar con precisin el
centro de un conjunto de observaciones. Algunas de las medidas de tendencia
central ms comunes son la media, la mediana y la moda.
Media aritmtica
La media aritmtica es probablemente la medida de tendencia central ms
importante, en tato es la ms utilizada. Tambin se le llama promedio y la vemos
aplicada a diario en casi todos los espacios y medio dedicados a brindar
informacin. Algunos ejemplos puedan ser el saldo promedio de una cuenta
bancaria, el salario promedio de los empleados de una empresa, el promedio de
calificaciones de un estudiante, etc.
Definida formalmente, la media aritmtica es la suma de todos los valores de una
muestra o poblacin dividida entre el nmero de valores de la poblacin o
muestra.
Cuando lo que se calcula es la media de una poblacin, sta se representa con la
letra griega . Por otro lado, cuando lo que se calcula es la media de una
muestra, sta se representa con x . As, las frmulas son como sigue:

Universidad Panamericana
Estadstica I
Prof. Andrs Sandoval H

Media poblacional

= X
N

Dnde:

X
N

=
=
=
=

Media poblacional
Representa cualquier valor particular
Nmero de individuos en la poblacin
Indica la operacin de adicin

Media muestral

x = X
n

Dnde:
x
X
n

=
=
=
=

Media poblacional
Representa cualquier valor particular
Nmero de individuos en la poblacin
Indica la operacin de adicin

Algunas caractersticas de la media aritmtica son:


Todo conjunto de datos de intervalo o de razn tienen una media.
Un conjunto de datos slo tiene una media.
La media es til para comparar dos poblaciones.
- La media aritmtica es la nica medida de tendencia central en la que la
suma de las desviaciones de los valores de la media ser siempre cero.
Expresado simblicamente (X - x ) = 0
Mediana
Alguna veces, cuando en un conjunto de datos existen uno o dos muy grandes o
muy pequeos, la media aritmtica puede no ser representativa. En esos casos, el
punto central de ese grupo de datos se puede describir mejor utilizando la
mediana.

Universidad Panamericana
Estadstica I
Prof. Andrs Sandoval H

La mediana es la observacin central de los valores de una poblacin o muestra


una vez que stos han sido ordenados de forma ascendente o descendente. Para
un nmero par de observaciones, la mediana es el promedio de los dos valores
intermedios.

Algunas caractersticas de la mediana son:


-

Todo conjunto de datos ordinales, de intervalo o de razn tienen una


mediana.
Un conjunto de datos slo tiene una mediana.
A la mediana no le afectan valores extremadamente grandes ni
extremadamente pequeos, por eso es especialmente til cuando se
tienen estos valores.
Moda

La moda es el valor que aparece con ms frecuencia en un conjunto de datos. La


moda es especialmente til para encontrar el punto central de un grupo de datos
de tipo nominal u ordinal.
Algunas caractersticas de la moda son:
-

Se puede determinar la moda en grupos de datos de todos los niveles


(nominales, ordinales, de intervalo y de razn).
Puede existir ms de una moda para cada grupo de datos.
A la moda no le afectan valores extremadamente
grandes ni extremadamente pequeos, por eso es especialmente til
cuando se tienen estos valores.
Otras medidas de tendencia central

Otras medidas de tendencia central que se usa con frecuencia son la media
ponderada y la media geomtrica. A continuacin se da una breve explicacin de
ambas.
La media ponderada es un caso especial de la media aritmtica. Se presenta
cuando se tienen varios datos con un mismo valor, lo que puede ocurrir cuando

Universidad Panamericana
Estadstica I
Prof. Andrs Sandoval H

stos se han agrupado en una distribucin de frecuencia. La frmula que se utiliza


es:
Media ponderada

x = (wX)
w

Dnde:
x
X

=
=
=
=

Media poblacional
Representa cualquier valor particular
Indica la operacin de adicin
Indica el peso o nmero de repeticiones de cada valor

Por su parte la media geomtrica es til para encontrar el promedio de


porcentajes, proporciones, ndices o tasas de crecimiento. Por su definicin, la
media geomtrica de un conjunto de n nmeros enteros positivos es la n-sima
raz del producto de los n valores. La frmula que se utiliza es la siguiente:

Media Geomtrica

GM =

(X1) (X2) . . . (Xn)

Dnde:
GM = Media poblacional
X = Representa cualquier valor particular
n = Nmero de individuos en la poblacin
Esta misma medida de tendencia aplicada a problemas de incremento porcentual
promedio es como sigue:

Incremento porcentual
Promedio en el tiempo

GM =

Valor al final del perodo


Valor al inicio del perodo

-1

Medidas de dispersin
Las medidas de dispersin se utilizan para obtener informacin complementaria a
las medidas de tendencia central y miden la forma como se distribuyen los datos
que integran una poblacin o muestra. As, el rango se basa en la localizacin de

Universidad Panamericana
Estadstica I
Prof. Andrs Sandoval H

los valores mayor y menor de un grupo de datos, y la varianza y la desviacin


estndar en las desviaciones de cada uno de los datos que integran la poblacin o
muestra con respecto de su media.
Varianza
La varianza es una de las medidas de tendencia central ms reportadas, y como
ya se mencion, se basa en la diferencia entre el valor de cada observacin y la
media.
En trminos conceptuales la varianza es la media aritmtica de las desviaciones
de la media elevadas al cuadrado.
Cuando lo que se calcula es la varianza de una poblacin, sta se representa con
la letra griega 2 (elevada al cuadrado), y cuando lo que se calcula es la varianza
de una muestra se representa con la letra s2 (tambin elevada al cuadrado). Las
frmulas para calcular cada una son como sigue:
Varianza poblacional

Varianza muestral

s2

( X )2
N

( X x )2
n -1

(frmula conceptual)

X
Varianza muestral

s2 =

(frmula para clculos)

( X )2
n

n -1

Es importante resaltar que la frmula de la varianza muestral para clculos tiene la


ventaja de que no se necesita calcular la media para obtenerla.

Desviacin estndar
La varianza tiene la desventaja de que sus valores son difciles de interpretar ya
que estn expresados en la unidad de medida de los datos que integran la
poblacin o muestra al cuadrado (p.e. litros al cuadrado, metros al cuadrado, aos
al cuadrado, etc.) Resulta obvio pensar que al calcular la raz cuadrada de la
varianza obtendremos valores expresados en la misma unidad de medida de que
los datos que nos interesan.

Universidad Panamericana
Estadstica I
Prof. Andrs Sandoval H

De este modo, una definicin formal de la desviacin estndar es la raz cuadrada


positiva de la varianza.
Las frmulas que se utilizan para calcularla se pueden simplificar entonces en las
siguientes expresiones:

2
Desviacin estndar poblacional
=
Desviacin estndar muestral s
=

s2

Cuartiles, deciles y percentiles


La varianza y la desviacin estndar son las medidas de dispersin ms
ampliamente utilizadas, sin embargo, hay otras maneras de describir la dispersin
de un conjunto de datos. Un mtodo consiste en determinar la localizacin de los
valores que dividen al conjunto de datos en partes iguales (cuartiles, deciles y
percentiles, por ejemplo).
Los cuartiles dividen a un conjunto de observaciones en cuatro partes iguales. El
primer cuartil al que se llama Q1 es el valor por debajo del cual se encuentra el
25% de las observaciones, el segundo cuartil o Q 2 es la mediana, y el tercer cuartil
o Q3 es el valor por debajo del cual se encuentra el 75% de las observaciones. As,
los valores de Q1, Q2, y Q3 dividen a un grupo de datos en cuatro subgrupos iguales,
donde Q1 se podra considerar la mediana de la mitad inferior de os datos y Q 2
como la mediana de la mitad superior de los datos.
De manera similar, los deciles dividen a un grupo de datos en diez partes iguales y
los percentiles en 100 partes iguales. Un criterio para la seleccin de cuartiles,
deciles o percentiles es comnmente el tamao de la poblacin o muestra.
La frmula que se utiliza para calcular la posicin percentil es la siguiente:

Universidad Panamericana
Estadstica I
Prof. Andrs Sandoval H

Posicin de un percentil

Lp = ( n + 1 )

P
100

Donde:
P = posicin percentil que buscamos
n = nmero de observaciones
En los casos en los que frmula da como resultado un nmero no entero, la
posicin del cuartil se reportar movindose en la proporcin de la fraccin
resultante entre las posiciones correspondientes.
Asimetra y curtosis
La asimetra se refiere al grado de simetra que guarda la distribucin de un
conjunto de datos y se mide con el coeficiente de asimetra de Pearson.
Coeficiente de asimetra de Pearson

Sk = 3 ( Md )

Cuando Sk = 0, se dice que la distribucin es simtrica y = Md = Mo

Cuando Sk < 0, se dice que la distribucin tiene sesgo negativo y < Md < Mo

Cuando Sk > 0, se dice que la distribucin tiene sesgo positivo y Mo < Md <

Universidad Panamericana
Estadstica I
Prof. Andrs Sandoval H

Por otra parte, la curtosis es el grado de apuntamiento de una distribucin. El


coeficiente de curtosis se puede calcular algebraicamente como:

Coeficiente de Curtosis C =

1
2

( Q3 Q1 )
( P90 P10 )

Cuando C tiende a ser 0.5 se dice que la distribucin es leptocrtica. Otras


caractersticas de esta distribucin son que la desviacin estndar es pequea,
( Q3 Q1 ) tiende a ser igual a ( P90 P10 ) y se observa un alto apuntalamiento
de los datos.

Cuando C tiende a ser 0 se dice que la distribucin es platicrtica. Otras


caractersticas de esta distribucin son que la desviacin estndar es grande,
( P90 P10 ) tiende a ser mayor que ( Q3 Q1 ) y se observa una distribucin
aplanada.

Universidad Panamericana
Estadstica I
Prof. Andrs Sandoval H

Cuando C tiende a ser 0.25 se dice que la distribucin es mesocrtica. Otras


caractersticas de esta distribucin son que la desviacin estndar es moderada y
se observa una distribucin con apuntalamiento moderado.

Regla Emprica y Teorema de Tcheby Sheff


El teorema de Tcheby Sheff permite determinar la proporcin mnima de valores
que estn dentro de un nmero especfico de desviaciones estndar alrededor de
la media.
Dicho de manera formal: en cualquier conjunto de observaciones la proporcin de
los valores que queda dentro de k desviaciones estndar de la media es por lo
menos 1 1 / k2 donde k es una constante mayor a uno.
Una de las ventajas del teorema de Tcheby Sheff es que se puede aplicar a
cualquier grupo de datos independientemente de la forma de su distribucin. Sin
embargo, en la prctica se ve que muchos grupos de datos tienen una distribucin
normal o en forma de campana, en estos casos se puede aplicar la regla
emprica para conocer el nmero de casos que estn entre un determinado
nmero de desviaciones estndar.
La regla emprica establece que para datos con distribucin en forma de campana:
o Aproximadamente 68% de los elementos estn a menos de una desviacin
estndar de la media.
o Aproximadamente 95% de los elementos estn a menos de dos
desviaciones estndar de la media.
o Casi todos los elementos estn a menos de tres desviaciones estndar de
la media.

Universidad Panamericana
Estadstica I
Prof. Andrs Sandoval H

Regla emprica

f(z)

68%
95%
99%
-4

-3

-2

-1

0
z

Vous aimerez peut-être aussi