Académique Documents
Professionnel Documents
Culture Documents
1
Estadstica I
UNIDAD: DISTRIBUCIONES
Distribucin normal ( campana de Gauss-Laplace)
Una de las distribuciones tericas mejor estudiadas en los textos de bioestadstica y ms utilizada
en la prctica es la distribucin normal, tambin llamada distribucin gaussiana. Su importancia
se debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenmenos
naturales y cotidianos siguen, aproximadamente, esta distribucin. Caracteres morfolgicos
(como la talla o el peso), o psicolgicos (como el cociente intelectual) son ejemplos de variables de
las que frecuentemente se asume que siguen una distribucin normal. No obstante, y aunque
algunos autores han sealado que el comportamiento de muchos parmetros en el campo de la
salud puede ser descrito mediante una distribucin normal, puede resultar incluso poco frecuente
encontrar variables que se ajusten a este tipo de comportamiento.
El uso extendido de la distribucin normal en las aplicaciones estadsticas puede explicarse,
adems, por otras razones. Muchos de los procedimientos estadsticos habitualmente utilizados
asumen la normalidad de los datos observados. Aunque muchas de estas tcnicas no son
demasiado sensibles a desviaciones de la normal y, en general, esta hiptesis puede obviarse
cuando se dispone de un nmero suficiente de datos, resulta recomendable contrastar siempre si
se puede asumir o no una distribucin normal. La simple exploracin visual de los datos puede
sugerir la forma de su distribucin. No obstante, existen otras medidas, grficos de normalidad y
contrastes de hiptesis que pueden ayudarnos a decidir, de un modo ms riguroso, si la muestra
de la que se dispone procede o no de una distribucin normal. Cuando los datos no sean
normales, podremos o bien transformarlos o emplear otros mtodos estadsticos que no exijan
este tipo de restricciones (los llamados mtodos no paramtricos).
A continuacin se describir la distribucin normal, su ecuacin matemtica y sus propiedades
ms relevantes, proporcionando algn ejemplo sobre sus aplicaciones a la inferencia estadstica.
En la seccin 1.1.3 se describirn los mtodos habituales para contrastar la hiptesis de
normalidad.
Propiedades de la distribucin normal:
La distribucin normal posee ciertas propiedades importantes que conviene destacar:
I. Tiene una nica moda, que coincide con su media y su mediana.
II. La curva normal es asinttica al eje de abscisas. Por ello, cualquier valor entre - y + es
tericamente posible. El rea total bajo la curva es, por tanto, igual a 1.
III. Es simtrica con respecto a su media . Segn esto, para este tipo de variables existe una
probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un
dato menor.
IV. La distancia entre la lnea trazada en la media y el punto de inflexin de la curva es igual a
una desviacin tpica (). Cuanto mayor sea , ms aplanada ser la curva de la densidad.
V. El rea bajo la curva comprendida entre los valores situados aproximadamente a dos
desviaciones estndar de la media es igual a 0.95. En concreto, existe un 95% de
posibilidades de observar un valor comprendido en el intervalo (-1.96, +1.96).
VI. La forma de la campana de Gauss depende de los parmetros y (Figura 2). La media
indica la posicin de la campana, de modo que para diferentes valores de la grfica es
desplazada a lo largo del eje horizontal. Por otra parte, la desviacin estndar determina el
grado de apuntamiento de la curva. Cuanto mayor sea el valor de , ms se dispersarn los
datos en torno a la media y la curva ser ms plana. Un valor pequeo de este parmetro
Pg. 2
indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la
distribucin.
Figura 2. Ejemplos de distribuciones normales con diferentes
parmetros.
Como se deduce de este ltimo apartado, no existe una nica distribucin normal, sino
una familia de distribuciones con una forma comn, diferenciadas por los valores de su media y su
varianza. De entre todas ellas, la ms utilizada es la distribucin normal estndar, que
corresponde a una distribucin de media 0 y varianza 1. As, la expresin que define su densidad
se puede obtener de la Ecuacin 1, resultando:
Es importante conocer que, a partir de cualquier variable X que siga una distribucin N
(,), se puede obtener otra caracterstica Z con una distribucin normal estndar, sin ms que
efectuar la transformacin:
Ecuaci
n 2:
Esta propiedad resulta especialmente interesante en la prctica, ya que para una distribucin N
(0,1) existen tablas publicadas a partir de las que se puede obtener de modo sencillo la
probabilidad de observar un dato menor o igual a un cierto valor z, y que permitirn resolver
preguntas de probabilidad acerca del comportamiento de variables de las que se sabe o se asume
que siguen una distribucin aproximadamente normal.
Consideremos, por ejemplo, el siguiente problema: supongamos que se sabe que el peso de los
sujetos de una determinada poblacin sigue una distribucin aproximadamente normal, con una
Pg. 3
media de 80 Kg y una desviacin estndar de 10 Kg. Podremos saber cul es la probabilidad de
que una persona, elegida al azar, tenga un peso superior a 100 Kg?
Denotando por X a la variable que representa el peso de los individuos en esa poblacin, sta
sigue una distribucin . Si su distribucin fuese la de una normal estndar podramos
utilizar la tabla para calcular la probabilidad que nos interesa. Como ste no es el caso, resultar
entonces til transformar esta caracterstica segn la Ecuacin 2, y obtener la variable:
Para poder utilizar dicha tabla. As, la probabilidad que se desea calcular ser:
Como el rea total bajo la curva es igual a 1, se puede deducir que:
Esta ltima probabilidad puede ser fcilmente obtenida a partir de la Tabla, resultando ser
. Por lo tanto, la probabilidad buscada de que una persona elegida
aleatoriamente de esa poblacin tenga un peso mayor de 100 Kg., es de 10.9772=0.0228, es
decir, aproximadamente de un 2.3%.
De modo anlogo, podemos obtener la probabilidad de que el peso de un sujeto est
entre 60 y 100 Kg.:
De la Figura 2, tomando a =-2 y b =2, podemos deducir que:
Por el ejemplo previo, se sabe que . Para la segunda probabilidad, sin
embargo, encontramos el problema de que las tablas estndar no proporcionan el valor de
para valores negativos de la variable. Sin embargo, haciendo uso de la simetra de la
distribucin normal, se tiene que:
Finalmente, la probabilidad buscada de que una persona elegida al azar tenga un peso entre 60 y
100 Kg., es de 0.9772-0.0228=0.9544, es decir, aproximadamente de un 95%. Resulta interesante
comprobar que se obtendra la misma conclusin recurriendo a la propiedad (iii) de la distribucin
normal.
No obstante, es fcil observar que este tipo de situaciones no corresponde a lo que habitualmente
nos encontramos en la prctica. Generalmente no se dispone de informacin acerca de la
distribucin terica de la poblacin, sino que ms bien el problema se plantea a la inversa: a partir
de una muestra extrada al azar de la poblacin que se desea estudiar, se realizan una serie de
mediciones y se desea extrapolar los resultados obtenidos a la poblacin de origen. En un ejemplo
similar al anterior, supongamos que se dispone del peso de n =100 individuos de esa misma
Pg. 4
poblacin, obtenindose una media muestral de Kg., y una desviacin estndar muestral
S=12 Kg., querramos extraer alguna conclusin acerca del valor medio real de ese peso en la
poblacin original. La solucin a este tipo de cuestiones se basa en un resultado elemental de la
teora estadstica, el llamado teorema central del lmite. Dicho axioma viene a decirnos que las
medias de muestras aleatorias de cualquier variable siguen ellas mismas una distribucin normal
con igual media que la de la poblacin y desviacin estndar la de la poblacin dividida por .
En nuestro caso, podremos entonces considerar la media muestral , con lo
cual, a partir de la propiedad (iii) se conoce que aproximadamente un 95% de los posibles valores
de caeran dentro del intervalo . Puesto que los valores de y son
desconocidos, podramos pensar en aproximarlos por sus anlogos muestrales, resultando
.
Estaremos, por lo tanto, un 95% seguros de que el peso medio real en la poblacin de origen oscila
entre 75.6 Kg. y 80.3 Kg. Aunque la teora estadstica subyacente es mucho ms compleja, en
lneas generales ste es el modo de construir un intervalo de confianza para la media de una
poblacin.
Teorema de la combinacin lineal de variaciones normales y chi-cuadrada
Terorema de Chebshev, este teorema da una estimacin conservadora de la probabilidad de que
una variable aleatoria tome un valor dentro de k dentro de k desviaciones estndar de su media
para cualquier nmero real k. Proporcionaremos solo la demostracin para caso continuo.
La probabilidad de que cualquier variable aleatoria X tome un valor dentro de k desviaciones
estndar de la media es al menos 1- 2
1
k
. Es decir
( )
2
1
1
k
k u X k u P > + < < o o .
Distribuciones muestrales
En esta seccin estudiaremos las distribuciones ms importantes de variables aleatorias
continuas unidimensionales. El soporte de una variable aleatoria continua se define como aquella
regin de donde su densidad es no nula, ( ) 0 = x f . Para las distribuciones que enunciaremos,
podr ser bien todo , o bien un segmento de la forma | | 9 c b a, .
Distribuciones normales
La distribucin gaussiana, recibe tambin el nombre de distribucin normal, ya que una gran
mayora de las variables aleatorias continuas de la naturaleza siguen esta distribucin. Se dice que
una variable aleatoria X sigue una distribucin normal de parmetros y
2
, lo que representamos
del modo:
Si su funcin de densidad es:
Pg. 5
Observacin
Estos dos parmetros y 2coinciden adems con la media (esperanza) y la varianza
respectivamente de la distribucin como se demostrar ms adelante:
La forma de la funcin de densidad es la llamada campana de Gauss.
Figura: Campana de Gauss o funcin de densidad de una variable aleatoria de distribucin
normal. El rea contenida entre la grfica y el eje de abcisas vale 1.
Para el lector es un ejercicio interesante comprobar que sta alcanza un nico mximo
(moda) en , que es simtrica con respecto al mismo, y por tanto:
Con lo cual en coinciden la media, la mediana y la moda, y por ltimo, calcular sus
puntos de inflexin.
El soporte de la distribucin es todo , de modo que la mayor parte de la masa de
probabilidad (rea comprendida entre la curva y el eje de abcisas) se encuentra concentrado
alrededor de la media, y las ramas de la curva se extienden asintticamente a los ejes, de modo
que cualquier valor ``muy alejado" de la media es posible (aunque poco probable).
La forma de la campana de Gauss depende de los parmetros y :
- indica la posicin de la campana (parmetro de centralizacin);
Pg. 6
Figura: Distribuciones gaussianas con diferentes medias e igual
dispersin.
-
2
(o equivalentemente, ) ser el parmetro de dispersin. Cuanto menor sea,
mayor cantidad de masa de probabilidad habr concentrada alrededor de la media
(grafo de f muy apuntado cerca de ) y cuanto mayor sea ``ms aplastado" ser.
Figura: Distribuciones gaussianas con igual media pero varianza
diferente.
La funcin caracterstica de la distribucin normal, se comprueba ms adelante que es:
Pg. 7
Como consecuencia, la distribucin normal es reproductiva con respecto a los parmetros
, y 2, ya que:
Observacin
Como se ha mencionado anteriormente, la ley de probabilidad gaussiana la encontramos
en la mayora de los fenmenos que observamos en la naturaleza, por ello gran parte de lo que
resta del curso lo vamos a dedicar a su estudio y a el de las distribuciones asociadas a ella. Sin
embargo, a pesar de su utilidad, hay que apuntar un hecho negativo para esta ley de probabilidad:
La funcin
2
x
e