Vous êtes sur la page 1sur 38

La Distribucin Normal y su uso en la Inferencia Estadstica

Los conceptos bsicos de Probabilidad y de Distribuciones Muestrales sirven como introduccin al mtodo de Inferencia Estadstica; esta se compone en dos reas: Estimacin Pruebas de Hiptesis La estimacin busca evaluar los valores de los parmetros de la poblacin (por ejemplo la media y la desviacin estndar) basados en una muestra. Las pruebas de Hiptesis constituyen un proceso relacionado con aceptar o rechazar alguna afirmacin acerca de los parmetros de la poblacin.

Ejemplo. Supngase que un fabricante de lpices compra a un proveedor borradores para pegarlos a los lpices. El fabricante tiene que decidir si cada lote de borradores del proveedor es de calidad aceptable. Para ello necesita que contenga el 15% o menos de borradores defectuosos.

Desde luego, no puede inspeccionar cada borrador del lote. Debido a esto, obtiene una muestra de 20 borradores de cada lote y la inspecciona. Decide que si hay 3 o menos borradores defectuosos en la muestra, aceptar un lote; si hay ms de 3 defectuoso rechazar el lote y lo de volver al proveedor. Sin embargo, si acepta un lote cuando ste contiene ms del 15% de borradores defectuosos, ha cometido un error. Por otra parte si rechaza un lote cuando contiene menos del 15% de borradores defectuosos, tambin ha cometido un error. Con base en la evidencia proporcionada por la muestra, el fabricante ha tratado de responder a la pregunta tiene el lote una proporcin de lpices defectuoso tan grande que sea necesario rechazarlo?

Al responder a lo anterior, el fabricante de lpices ha tomado una decisin acerca de la proporcin de defectos en la poblacin general, ya que la proporcin en la poblacin es un parmetro de la poblacin y las decisiones acerca de los parmetros de la poblacin constituyen el proceso de pruebas de hiptesis, en realidad el fabricante ha realizado la tarea de probar una hiptesis. Si el fabricante est interesado en estimar la verdadera proporcin de defectos con base a su informacin muestral, tendr que intentar responder a la pregunta

Con base en la muestra Qu afirmacin puedo hacer acerca de la proporcin de la poblacin que es defectuosa ?

Esta pregunta corresponde a lo que se llama Estimacin.

Porqu es normal la distribucin Normal? Al hacer mediciones de cualquier tipo y distribuir nuestros resultados bajo algn criterio, es muy comn encontrar que los datos se agrupen de manera muy caracterstica. En muchos de estos casos veremos que dichas distribuciones siguen una forma muy particular en la que tenemos un mayor nmero de observaciones para cierto valor, disminuyendo la cantidad de observaciones a ambos lados de la observacin ms frecuente. Un ejemplo es al dejar caer canicas por entre una serie clavos como lo muestra la figura, al final del experimento con muchas canicas tendremos que las canicas se han agrupado como se ve en la figura.

Ejercicio interactivo: Mquina de Galton

A este tipo de distribucin se le conoce como Distribucin Gaussiana, ya que el matemtico alemn Karl F. Gauss (1799-1830) fue quien la describi de manera analtica. La forma de sta funcin es parecida a la de una campana, por eso tambin se conoce como campana de Gauss.

Distribucin Normal
0.4 0.999

0.3 Densidad

0.2

0.1

0.0

-3.09

0 X

Es tan comn encontrar esta distribucin en tan diversas ramas del conocimiento, que tambin se le da el nombre de Distribucin Normal. La aportacin de Gauss se honraba en los billetes de los marcos alemanes (antes de los Euros) como uno de sus descubrimientos ms trascendentales.

La distribucin Gaussiana se aplica a una gran gama de observaciones en ramas como la biologa, la geografa, la astronoma y por supuesto la economa. Muchos ejemplos de la naturaleza se pueden aproximar con una distribucin normal. En general esto se puede pensar como resultado de la interaccin de muchos (o un gran nmero) efectos aleatorios en la variable que se estudia. Por ejemplo, si medimos el tamao de las hojas de un rbol, veremos que tienden a distribuirse en forma gaussiana. Ejercicio interactivo: Jugando con la distribucin normal

Pero a qu se debe esta aparentemente sorprendente resultado? Estas distribuciones son el resultado del agregado de muchos procesos azarosos o fortuitos que podran no ser observables individualmente. Matemticamente esta distribucin obedece a lo que se conoce como el

Teorema del Lmite Central.

Este teorema estipula que si tomamos muestras de una poblacin que tenga cualquier tipo de distribucin, pero una media y varianza finitas, entonces, la distribucin de las medias tiende a la distribucin normal. Entre mayor sea el nmero de muestras mejor ser la aproximacin a una distribucin normal.

Por ejemplo, si nos tiramos un dado la probabilidad de que caiga cualquier nmero es 1/6. Esto implica una distribucin de posibilidades de la siguiente forma (x es el nmero o cara):

P 1/6

Esta es una Distribucin de Probabilidad Uniforme que, como se ve, es la misma probabilidad para todos los valores que toma la variable

Ahora imaginemos que tiramos un dado 500 veces y tomamos el nmero total de puntos de cada tirada, entonces decimos que N = 1, y las sumas de cada tirada las distribuimos como en la figura. Ahora lo hacemos con 4 dados (N = 4), y luego con 7 y con 10. Al final tendremos las siguientes distribuciones:

Notemos que conforme vamos aumentando el nmero de muestras la distribucin se acerca ms a una distribucin normal. Ejemplo interactivo: distribucin muestral

Otro motivo por el cual as distribuciones normales son muy utilizadas es que tienen muchas propiedades muy convenientes. Por eso, si las variables aleatorias que nos interesan tienen distribuciones desconocidas, podemos hacer inferencias iniciales suponiendo distribuciones normales. Entre las propiedades agradables de la distribucin normal, est el hecho de que La distribucin normal de una suma o diferencia (que en general es lo mismo) de distribuciones normales es tambin normal. Si tenemos que: y Y la correlacin entre x1 y x2 es , entonces:

Y tambin:

Debido a todo lo anterior esta distribucin es muchas veces el modelo de partida de los anlisis de los datos. Aunque cuando no podemos generalizar, muchas veces la podremos utilizar como una buena aproximacin a la realidad.

Distribucin Normal Estndar o tipificada. Calificacin Z. poblacin con media m y para n lo bastante grande, la distribucin de la variable i Una de las consecuencias del Teorema del Lmite Central es que dada una

x x Z= s

es una distribucin normal. donde:

xi

es la observacin que estamos queriendo analizar es el valor de la media de la muestra

s es el valor de la desviacin estndar de la muestra


Si nos fijamos en la frmula el valor de Z es la distancia de la observacin a la media en unidades de desviacin estndar, es decir, a cuntas desviaciones estndar est alejada nuestra observacin de la media.

Veamos qu significa esto en una grfica:

Normal estndar
Media=0, Desv Est=1 0.4

0.3 Densidad

Dos desviaciones estndar


0.2

0.1

Una desviacin estndar

0.0

-3

-2

-1

0 Z

Actividad 1 Si nos dicen que una poblacin tiene una media de 23 y una desviacin estndar de 3.5, encontrar la calificacin Z de a)26.6, a) b) 16, c)19.5 d) 29: lo que significa que 26.6 est a 1.03

Z=

26.6 23 = 1.03 3.5

desviaciones estndar a la derecha de la media (porque es positivo). b)


Z= 16 - 23 = -2 3.5

lo que significa que la observacin est

a 2 desviaciones estndar a la izquierda de la media (porque es negativo). c)


Z= 19.5 - 23 = -1 3.5
29 23 = 1.72 3 .5

Qu significa este resultado?

d)

Z=

Qu significa este resultado?

Si cambiamos todos los valores observados a calificaciones Z, entonces podemos crear una distribucin normal genrica llamada distribucin normal estndar o tipificada en donde la media, que est en el centro de la curva, nos queda en el valor 0 la desviacin estndar es ahora igual a 1 y el rea bajo la curva tambin es igual a la unidad lo que equivale al total de los casos de la poblacin estudiada, es decir, El rea total = 1 corresponde al 100% de los casos, y porciones del rea son proporcionales a porcentajes parciales de la muestra.

De este modo, la porcin de rea bajo la curva, limitada por dos ordenadas o perpendiculares levantadas en puntos del eje X, expresan el porcentaje de casos que quedan comprendidos entre las calificaciones Z correspondientes a los puntos sobre los que se trazan las ordenadas. Vemoslo en el siguiente diagrama.

La Regla del 68 95 - 99.7% Todas las curvas o distribuciones de densidad normal satisfacen la siguiente propiedad a la cual comnmente se le refiere como la Regla Emprica. 68% de las observaciones caen dentro de 1 desviacin estndar de la media, o sea, entre - y + . 95% de las observaciones caen dentro de 2 desviaciones estndar de la media, o sea, entre - 2 y + 2 . 99.7% de las observaciones caen dentro de 3 desviaciones estndar de la media, o sea, entre - 3 y + 3 . Podemos ver que casi todas las observaciones caen dentro de 3 desviaciones estndar de la media y ms del 95% caeran a 2 desviaciones estndar de la media

Porcentajes del rea total o porcentajes de la poblacin o probabilidad

2.15%

13.59% 34.13%

34.13% 13.59% 2.15%

-3

-2

-1

Valores o calificaciones z

El rea correspondiente a una distancia de 1 desviacin estndar de la media (a ambos lados) es de aproximadamente 68%

De acuerdo a lo especificado anteriormente entonces entre 0 y 1 se encuentra el 34.13% de los casos, es decir que el rea bajo la curva es 0.3413, o lo que significa que el 68.26% de la poblacin est alejada de la media a lo ms una desviacin estndar. O que solamente el 4.30% de los casos estn ms all de dos desviaciones estndar de la media. Existen tablas que nos ayudan a obtener los porcentajes de casos entre diferentes calificaciones Z y la media. Sin embargo se debe tener mucho cuidado de ver cul es el rea bajo la curva que nos dan, porque se tabula de forma diferente en los libros, algunos la dan a partir de 0 y otros a partir de -

R e g l a e m p r i c a

f(z) -4

-3

-2

-1

0 z

Ejemplos:

1.Si queremos encontrar el rea bajo la curva comprendida entre las calificaciones estndar de los incisos a) y d) anteriores, buscamos en la tabla los valores que corresponden:

para Z = 1.03 el rea bajo la curva es 0.8485 para Z = 1.72 el rea bajo la curva es 0.9564 lo que nos da un rea de 0.9564-0.8485 = 0.1079 Esto quiere decir que el 10.79% est entre los valores 26.6 y 29 (recordar que el rea total =1 equivale al 100% de los casos).

Que porcentaje de datos podramos esperar con valores mayores a 29? para Z = 1.72 el rea bajo la curva es 0.9564 lo que nos da 1 0.9564 = 0.0436 o sea 4.36%

10.79%

95.64%

2. Encontrar el rea bajo la curva entre las calificaciones Z = -2 y Z = -1

Como en unas tablas no nos dan el rea del lado izquierdo podemos usar los valores del lado derecho y el rea es la misma porque la curva es simtrica. Para Z = 2 el rea bajo la curva es 0.9772 para Z = 1 el rea bajo la curva es 0.8413 lo que nos da un rea entre medio de ellas de 0.9772-0.8413 = 0.1359

Clculo de Probabilidades
Antes de pasar a usar los conceptos anteriores tenemos que definir qu es la probabilidad. Podemos pensar en este concepto de dos maneras: 1. Si conocemos todos los resultados posibles de un experimento u observacin, y queremos saber el porcentaje de que ocurra un cierto tipo de resultado, entonces llamamos probabilidad a:

Nmero de resultados de un cierto tipo n = P( A) = Nmero de resultados totales N


Actividad No. 1: Al tirar dos dados queremos ver la probabilidad de que salga el nmero 4 al sumar los puntos.

En este caso el nmero total de resultados es 36, por lo tanto N=36 El nmero de resultados que cumplen el criterio es 1+3, 2+2, 3+1, n=3

P( A) =

n 3 1 = = N 36 12

Es la probabilidad de que la suma de los puntos de dos dados sea = 4

Si embargo, algunas de estas sumas se repiten, por lo que podemos hacer una tabla como la siguiente
Valores de la suma (x) 2 3 4 5 6 7 8 9 10 11 12 Total Nmero de casos 1 2 3 4 5 6 5 4 3 2 1 36 Probabilidad P(x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/26 1.0

Si ahora hacemos un histograma con los valores de las sumas y sus probabilidades, tendremos lo siguiente

Esto es lo que llamaramos a una distribucin de probabilidad para la suma de dos dados. La cual, por cierto, en este caso se aproxima a una distribucin normal.

2. La otra manera de pensar en el concepto de probabilidad es por medio de la idea de frecuencia. Si realizamos un experimento muchas veces (tantas como sea posible) entonces

Nmero de resultados de un cierto tipo n = P( A) = Nmero de resultados totales N


La diferencia con la forma anterior es que ahora no conocemos todos los posibles casos, sino que los medimos con base en una serie de experimentos. Como puede pensarse, en esta situacin tendremos una aproximacin a la probabilidad buscada, la cual es mejor mientras mayor sea el nmero de experimentos.

Tarea 3. Si se tiene una media de 156 y una desviacin estndar de 15, encontrar las calificaciones Z para: a) 144 b) 167 c) 173 d) 136 Encontrar el rea bajo la curva entre las calificaciones Z de: a) y b) b) y c) b) y d) Nota: se puede consultar cualquier tabla de calificaciones Z en un libro de estadstica pero hay que fijarse si se tabula la curva completa o slo la mitad.

El concepto de calificacin Z estudiado nos va a ayudar para calcular probabilidades de que ocurra un cierto caso referido a la media de la poblacin, como veremos a continuacin.

Actividad 2. Resolver los siguientes problemas El promedio de estudiantes inscritos en jardines de nios es de 500 con una desviacin estndar de 100. El nmero de alumnos tiene una distribucin aproximadamente normal. Cul es la probabilidad de que el nmero de alumnos inscritos en una escuela elegida al azar est: a) entre 450 y 500 b) entre 400 y 640 = 500, = 100
Distribution Plot
Normal, Mean=0, StDev=1 0.4 0.191

a)

0.3

rea = 0.1915

450 500 z1 = = 0.5 100

Density

z2 = 0

0.2

0.1

0.0

-0.5

0 X

P(450 < x < 500 ) = [(0.5)]- [(0)] = 0.6915-0.5 = 0.1915

Respuesta: la probabilidad es de 19.15%

b) entre 400 y 640 = 500, = 100

b)

rea = 0.7605

z1 =

400 500 = 1 100

z2 =

640 500 = 1. 4 100


Density

Distribution Plot
Normal, Mean=0, StDev=1 0.4 0.761

0.3

0.2

P(400 < x < 640 ) = (1)- [1-(1.4)] = 0.8413-(1-.9192) = 0.8413-0.0808 = 0.7605

0.1

0.0

-1

0 X

1.4

Respuesta: la probabilidad es de 76.05%

Se ha determinado que la vida til de cierta marca de llantas radiales tienen una distribucin normal con un promedio de 38,000 kilmetros y desviacin estndar de 3,000 kilmetros a)Cul es la probabilidad de que una llanta elegida al azar tenga una vida til de cuando menos 30,000 kilmetros? b)Cul es la probabilidad de que dure 40,000 kilmetros o ms? = 38,000 , = 3000
Distribution Plot
Normal, Mean=0, StDev=1 0.4 0.996

a)

0.3

rea = 0.9962

z1 =

30000 38000 = 2.666 3000

Density

0.2

0.1

P(x > 30,000 ) = (2.67) = 0.9962

0.0

-2.666

0 X

Respuesta: la probabilidad es de 99.62%

b)Cul es la probabilidad de que dure 40,000 kilmetros o ms?

b)

Distribution Plot
Normal, Mean=0, StDev=1

40000 38000 z1 = = 0.666 3000


Density

0.4

0.3

rea = 0.2514

0.2

P(x > 40,000 ) = 1- (0.67) = 1-0.7486 = 0.2514

0.1

0.253

0.0

0 X

0.666

Respuesta: la probabilidad es de 25.14%

Un distribuidor hace un pedido de 500 de las llantas especificadas en el problema anterior. Aproximadamente cuntas llantas durarn a) entre 30,000 y 40,000 kilmetros b) 38,000 kilmetros o ms
a)

z1 =

30000 38000 = 2.666 3000

z2 =

40000 38000 = 0.666 3000


Distribution Plot
Normal, Mean=0, StDev=1 0.4

P(30000 < x < 40000) = (0.67) [1- (2.67)]


Density

= 0.7486 (1 0.9962) = 0.7486

rea = 0.7486
0.3 0.743 0.2

0.1

0.0

-2.666

0 X

0.666

74.86% de 500, 0.7486x500 = 374.3

Actividad 3. La produccin de tomates por planta tiene una media de 12 kg y una desviacin estndar (o tpica) de 2 kg. Se considera que la produccin de tomates tiene una distribucin normal. a) Si se selecciona al azar una planta de tomate Cul es la probabilidad de que rinda 15 kg o ms?
Distribution Plot

8. = 12, = 2 a) P (15 x )
Density

Normal, Mean=0, StDev=1 0.4

15 12 3 Z= = = 1 .5 2 2

0.3

rea = 0.0668
0.2 0.1 0.0668 0.0 0 X 1.5

P (15 x ) = 1 (1.5) = 1 0.9332 = 0.0668


La probabilidad es del 6.68%

b) Si en una granja hay 10000 plantas de tomate Cuntas rendirn ms de 11 kg?


Distribution Plot

b) P (11 x )

Normal, Mean=0, StDev=1 0.4

Z=

11 12 1 = = 0 .5 2 2
Density

0.3

rea = 0.6915
0.691

P (11 x ) = 0.6915 0.6915 10,000 = 6,915

0.2

0.1

0.0

-0.5

0 X

El total de plantas de tomates que producirn ms de 11 kg. de tomate es 6,915

TAREA 4 Supngase que la duracin promedio de las estancias de los pacientes en un hospital es de 10 das con una desviacin estndar de 2 das. Considrese que la distribucin de las duraciones est normalmente distribuida. a) Cul es la probabilidad de que el prximo paciente que se reciba permanezca ms de 11 das? b) Si el da de hoy se admitieran 200 pacientes Cuntos continuarn en el hospital despus de 2 semanas?

Vous aimerez peut-être aussi