Académique Documents
Professionnel Documents
Culture Documents
2 y 4 de febrero
De este modo, se puede observar en un golpe de vista cmo se distribuyen los valores ms
frecuentes y los ms extremos. Adems, el diagrama de tallo hojas sirve para calcular
percentiles.
En este diagrama, la frecuencia acumulada se
representa en la columna de profundidad.
Se inicia desde el extremo superior e inferior,
sumando los valores correspondientes
separadamente y en cada uno de los dos
sentidos hasta llegar a la mediana. En la
mediana se indica slo la frecuencia absoluta
de la clase a la que corresponde.
El rea que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad
(porcentaje o frecuencia) de individuos en el intervalo, es decir, el rea de cada barra es
proporcional a la frecuencia de su clase (esto sucede cuando todas la clases tienen la misma
amplitud) y la altura de la barra coincide con la frecuencia. El rea total del histograma es
siempre 1, y resulta de la suma de la frecuencia relativa de todas las clases.
Si las bases no son de igual amplitud, la altura de la barra no coincide con la frecuencia o
porcentaje de la base.
Sobre el histograma, se unen los puntos medios de cada columna o clase, lo que resulta en un
polgono de frecuencias. El rea bajo el polgono de frecuencias es la misma que el rea bajo el
histograma.
La zona central (caja) contiene al 50% central de las observaciones y sus lmites son el primer
cuartil (percentil 25) y el tercer cuartil (percentil 75). Su tamao se llama rango intercuartlico
(R.I.). En el centro de la caja se representa una raya vertical, la mediana o percentil 50. Muchas
veces, los bigotes no llegan hasta los extremos, no se separan ms de la caja de 1,5 RI
Los extremos o bigotes pueden representar:
a) El valor mnimo y el mximo
0.04
0.02
densidad
0.06
0.08
P25
P50
P75
Mx.
0.00
Mn.
40
45
50
55
60
65
b) Una distancia de 1,5 R.I. de cada extremo de la caja. En este caso, los bigotes no llegan
hasta los extremos y los datos situados ms all de esa distancia se consideran
anmalos y as se marcan.
0.03
0.02
0.01
P25
Mn.
P50
P75
Mx.
0.00
densidad
0.04
80
90
100
110
120
130
140
PARMETROS Y ESTADSTICOS
Un parmetro es una cantidad numrica calculada sobre una poblacin. La idea es resumir
toda la informacin que hay en la poblacin en unos pocos nmeros (parmetros). Ejemplo: la
altura media de los individuos de un pas.
Un estadstico es una cantidad numrica calculada sobre una muestra. Si un estadstico se usa
para aproximar un parmetro tambin se le suele llamar estimador. Ejemplo: la altura media
de los alumnos de una clase.
Normalmente interesa conocer un parmetro, pero por la dificultad que conlleva estudiar a
toda la poblacin, se calcula un estimador sobre una muestra y se confa en que sean
prximos. Para ello, hay que elegir la muestra de manera que el error se confiablemente
pequeo.
Estadsticos
Hay 4 reas de una distribucin en las que puede ser interesante calcular un estadstico:
- Posicin, localizacin o centralizacin: La localizacin se refiere a la situacin
promedio de los valores de una variable a lo largo de la recta de los nmeros reales.
Se refiere a un valor intermedio o central e implica que pueden existir valores
superiores o inferiores a dicho valor. Indican valores con respecto a los que los datos
parecen agruparse o dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos. Como una variable continua puede tomar infinitos valores en
cualquier intervalo fijado, se calcula el intervalo en el que se localizan los datos
mediante medidas de localizacin: la media, mediana, moda, los cuantiles, percentiles,
cuartiles, deciles (estos cuatro ltimos dividen un conjunto ordenado de datos en
grupos con la misma cantidad de individuos).
- Dispersin: La dispersin se refiere al promedio de las distancias de cada dato,
respecto de un valor promedio o central. Por tanto, indican la mayor o menor
concentracin de los datos con respecto a las medidas de centralizacin, es decir,
cunto se alejan los datos de la medida de centralizacin. Son la desviacin tpica,
coeficiente de variacin, rango, varianza
- Forma o centralizacin: Permite calcular si hay mayor cantidad de valores por encima
o por debajo de la mediana o media. Son la asimetra y el apuntamiento o curtosis.
Estadsticos de posicin
Los estadsticos de posicin son los cuartiles, percentiles que no son ms que la divisin en
puntos de una distribucin.
-
Cuantil: se define el cuantil de orden como un valor de la variable por debajo del
cual se encuentra una frecuencia acumulada . Por tanto, indica el valor de la variable
por debajo del cual se encuentra una proporcin (tanto por 1) determinada. Casos
particulares son los percentiles, cuartiles, deciles, quintiles
Ejemplo: El cuantil de orden 0,36 permite expresar un valor que deja un 36% de los
valores por debajo. El cuantil 0,5 coincide con la mediana (50%).
-
Esta informacin sobre percentiles y cuartiles es de utilidad para presentar los datos en
diagramas de cajas o de Tukey.
-
x
i
Mediana (median): es un valor que divide a las observaciones en dos grupos con el
mismo nmero de individuos (percentil 50), es decir, el valor que divide en dos partes
iguales la distribucin. Si el nmero de dato es par, se elige la media de los dos datos
centrales.
No es sensible a valores extremos, por lo que es conveniente cuando los datos son
asimtricos.
Ejemplo 1: la mediana de 1, 2, 4, 5, 6, 6, 8 es 5
Ejemplo 2: la mediana de 1, 2, 4, 5, 6, 6, 8, 9 es (5+6)/2=5,5
1
( )2
Estadsticos de forma
-
Hay diferentes estadsticos que sirven para detectar la asimetra. Pueden estar
basados en diferencias entre estadsticos de tendencia central (media, mediana,
moda), en la diferencia entre el 1 y el 2 cuartiles y el 2 y el 3 o en desviaciones
consigo al cubo con respecto a la media (calculadas por el ordenador).
El coeficiente de asimetra resta la moda a la media y la divide por la desviacin
estndar. En funcin del signo del estadstico diremos que la asimetra es positiva o
negativa.
o En las distribuciones simtricas, la asimetra es nula, ya que la moda coincide
con la media.
o En las distribuciones asimtricas negativas o de asimetra izquierda, la moda es
mayor a la media, por lo que el resultado ser negativo.
o En las distribuciones asimtricas positivas o de asimetra derecha, la moda es
menor que la media, por lo que el resultado ser positivo.
2 =
4
Apuntada
1.5
0.3
0.8
0.5
0.1
1.0
0.2
0.6
0.4
0.2
x s
68 %
x s
0.0
57 %
-1
0.0
x s
82 %
0.0
-2
Aplanada
2.0
-3
-2
-1
0.0
0.2
0.4
0.6
0.8
1.0