Vous êtes sur la page 1sur 24

UNIDAD 1

>DISTRIBUCIONES
FUNDAMENTALES PARA EL
MUESTREO.
>1.1
INTRODUCCION A LA ESTADISTICA INFERENCIAL.

El arte de obtener con confianza conclusiones sobre el modo de proceder


del fenómeno que se estudia es el objeto de las diferentes técnicas
existentes de Inferencia Estadística. La estadística inferencial o inductiva
plantea y resuelve el problema de establecer previsiones y conclusiones
generales sobre una población a partir de los resultados obtenidos de una
muestra. Los modelos estadísticos actúan como puente entre lo observado
(muestra) y lo desconocido (población). Su construcción y estudio están
basados en el cálculo de probabilidades.

Podemos concluir entonces que la Inferencia Estadística es la metodología


tendente a hacer descripciones, predicciones, comparaciones y
generalizaciones de una población estadística a partir de la información
contenida en una muestra. Utiliza resultados obtenidos mediante la
Estadística Descriptiva y se apoya fuertemente en el cálculo de
probabilidades.

La estadística inferencial: se dedica a la generación de los modelos,


inferencias y predicciones asociadas a los fenómenos en cuestión teniendo
en cuenta la aleatoriedad de las observaciones. Se usa para modelar
patrones en los datos y extraer inferencias acerca de la población bajo
estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas
si/no (prueba de hipótesis), estimaciones de unas características numéricas
(estimación), pronósticos de futuras observaciones, descripciones de
asociación (correlación) o modelamiento de relaciones entre variables
(análisis de regresión). Otras técnicas demodelamiento incluyen anova,
series de tiempo y minería de datos.

IMPORTANCIA DE LA ESTADISTICA INFERENCIAL

La Estadística Inferencial puede dar respuesta a muchas de las


necesidades que la sociedad actual puede requerir. Su tarea fundamental
es el análisis de los datos que se obtienen a partir de experimentos, con el
objetivo de representar la realidad y conocerla. Permite la recolección de
datos importantes para el estudio de situaciones que se presentan a diario
y permite dar respuesta a los problemas de una forma útil y significativa.
>1.2
MUESTREO
1.− INTRODUCCIÓN

El muestreo estadístico es la herramienta que la Matemática utiliza para el


estudio de las características de una población a través de una
determinada parte de la misma. La muestra de estudio debe ser lo más
pequeña posible ya que del hecho de que una muestra sea más grande,
no se desprende necesariamente que la información sea más fiable.

Además, la muestra elegida debe serlo por un proceso aleatorio para que
sea lo más representativa posible.
Términos usuales en un estudio estadístico

• Población: conjunto de todos los individuos que son objeto del estudio.

• Muestra: parte de la población en la que miden las características


estudiadas.
• Muestreo: proceso seguido para la extracción de una muestra.
• Encuesta: proceso de obtener información de la muestra.
Métodos de muestreo
TIPOS DE MUESTREO

1.− Muestreo no probabilístico: no se usa el azar, sino el criterio del


investigador.
2.− Muestreo probabilístico o aleatorio:
2.1.− Muestreo aleatorio simple: se asigna un número a cada uno de los
individuos de la población, y seguidamente se van eligiendo al azar los
componentes de la muestra. La elección de un individuo no debe afectar
a la del siguiente, por tanto debe reemplazarse el nº, una vez extraído.

En un muestreo aleatorio simple todos los individuos tienen la misma


probabilidad de ser seleccionados. La selección de la muestra puede
realizarse a través de cualquier mecanismo probabilístico en el que todos
los elementos tengan las mismas opciones de salir. Por ejemplo uno de
estos mecanismos es utilizar una tabla de números aleatorios, o también
con un ordenador generar números aleatorios, comprendidos entre cero y
uno, y multiplicarlos por el tamaño de la población, este es el que vamos a
utilizar.

2.2.− Muestreo aleatorio sistemático: se ordenan previamente los individuos


de la población, después se elige uno al azar y a continuación, a intervalos
constantes, se eligen todos los demás hasta completar la muestra.

Es un tipo de muestreo aleatorio simple en el que los elementos se


seleccionan según un patrón que se inicia con una elección aleatoria.
Considerando una población de N elementos, si queremos extraer una
muestra de tamaño n, partimos de un número h=N/n, llamado coeficiente
de elevación y tomamos un número al azar a comprendido entre 1 y h que
se denomina arranque u origen.
La muestra estará formada por los elementos: a, a+h, a+2h,....a+(n-1)h.
De aqui se deduce que un elemento poblacional no podrá aparecer más
de una vez en la muestra. La muestra será representativa de la población
pero introduce algunos sesgos cuando la población está ordenada en
función de determinados criterios.

2.3.− Muestreo estratificado: se divide la población total en clases


homogéneas (estratos). La muestra se escoge aleatoriamente en número
proporcional al de los componentes de cada estrato.
>1.3
TEOREMA DEL LIMITE CENTRAL

Teorema del límite central. Si X1, X2, ..., Xn son variables aleatorias (discretas
o continuas) independientes ,con idéntico modelo de probabilidad, de
valor medio μ y varianza σ2 , entonces la distribución de la variable

se aproxima a la de una variable normal tipificada N(0,1), mejorándose la


calidad de la aproximación a medida que n aumenta.
Este resultado prueba que el estadístico o estimador media muestral

Con carácter general, o al menos en los modelos de probabilidad clásicos,


se admite una aproximación aceptable al modelo normal siempre
que n sea mayor o igual que 30, a pesar de que esta cifra es insuficiente en
determinados casos y excesiva en otros; por lo que debemos ser
cautelosos en su aplicación. En el enlace modelos de probabilidad , se
establece una relación de algunos modelos, con aproximaciones
particulares, que en la mayoría de los casos derivan del teorema del límite
central.

El teorema describe la distribución de la media de una muestra aleatoria


proveniente de una población con varianza finita. Cuando el tamaño de
la muestra es lo suficientemente grande, la distribución de las medias sigue
aproximadamente una distribución normal.

El teorema se aplica independientemente de la forma de la distribución de


la población. Muchos procedimientos estadísticos comunes requieren que
los datos sean aproximadamente normales. El teorema de límite central le
permite aplicar estos procedimientos útiles a poblaciones que son
considerablemente no normales.

El tamaño que debe tener la muestra depende de la forma de la


distribución original. Si la distribución de la población es simétrica, un
tamaño de muestra de 5 podría producir una aproximación adecuada. Si
la distribución de la población es considerablemente asimétrica, es
necesario un tamaño de muestra más grande. Por ejemplo, la distribución
de la media puede ser aproximadamente normal si el tamaño de la
muestra es mayor que 50. Las siguientes gráficas muestran ejemplos de
cómo la distribución afecta el tamaño de la muestra que se necesita.

Muestras de una población uniforme

Una población que sigue una distribución uniforme es simétrica, pero


marcadamente no normal, como lo demuestra el primer histograma. Sin
embargo, la distribución de las medias de 1000 muestras de tamaño 5 de
esta población es aproximadamente normal debido al teorema del límite
central, como lo demuestra el segundo histograma. Este histograma de las
medias de las muestras incluye una curva normal superpuesta para ilustrar
esta normalidad.
>1.4
DISTRIBUCIONES FUNDAMENTALES PARA EL MUESTREO

DISTRIBUCION NORMAL

Es una distribución de probabilidad continua (puede tener cualquier valor


dentro de unrango definido de valores), es tanto simétrica como
mesocurtica (ni plana ni puntiaguda).Su curva es una campana simétrica
que se extiende sin límite tanto en la dirección positiva como negativa. su
rango de variación es
−∞ ≤x ≤ ∞

Cualquier conjunto de valores x normalmente distribuidos puede


convertirse a valores normales estándar z por medio de la formula:

Aunque los datos originales para la variable aleatoria x tengan la media µ


(miu) y la desviación estándar σ (sigma) la variable aleatoria
estandarizada z siempre tendrá unamedia de Z µ =0 y la desviación
estándar Z σ =1 por lo tanto todos los datos estandarizados siempre
tendrán media igual a cero y desviación estándar igual a 1.
>1.4.1
DISTRIBUCION MUESTRAL DE LA MEDIA

Si tenemos una muestra aleatoria de una población N(m,s ), se sabe


(Teorema del límite central) que la fdp de la media muestral es también
normal con media m y varianza s2/n. Esto es exacto para poblaciones
normales y aproximado (buena aproximación con n>30) para poblaciones
cualesquiera. Es decir es el error típico, o error estándar de la media.

¿Cómo usamos esto en nuestro problema de estimación?


1º problema: No hay tablas para cualquier normal, sólo para la normal m=0
y s=1 (la llamada z); pero haciendo la transformación (llamadatipificación)

una normal de media m y desviación s se transforma en una z.

Llamando za al valor de una variable


normal tipificada que deja a su derecha
un área bajo la curva de a, es decir, que
la probabilidad que la variable sea
mayor que ese valor es a(estos son los
valores que ofrece la tabla de la normal)

podremos construir intervalos de la


forma

para los que la probabilidad es 1 - a.


Teniendo en cuenta la simetría de la normal y manipulando
algebraícamente

que también se puede escribir

o, haciendo énfasis en que es el error estándar de la media,

Recuérdese que la probabilidad de que m esté en este intervalo es1- a.

A un intervalo de este tipo se le denomina intervalo de confianza con


unnivel de confianza del 100(1 - a)%, o nivel de significación de 100a%. El
nivel de confianza habitual es el 95%, en cuyo caso a=0,05 y za /2=1,96. Al
valor se le denomina estimación puntual y se dice que es un estimador
de m.

Ejemplo: Si de una población normal con varianza 4 se extrae una muestra


aleatoria de tamaño 20 en la que se calcula se puede decir
que mtiene una probabilidad de 0,95 de estar comprendida en el intervalo

que sería el intervalo de confianza al 95% para m

En general esto es poco útil, en los casos en que no se conoce m tampoco


suele conocerse s2; en el caso más realista de s2 desconocida los intervalos
de confianza se construyen con la t de Student (otra fdp continua para la
que hay tablas) en lugar de la z.
o, haciendo énfasis en que es el error estándar estimado de la media,

Este manera de construir los intervalos de confianza sólo es válido si la


variable es normal. Cuando n es grande (>30) se puede sustituir t por zsin
mucho error.
>1.4.2
DISTRIBUCION MUESTRAL DE LA DIFERENCIA DE MEDIAS.

Suponga que se tienen dos poblaciones distintas, la primera con media


1 y desviación estándar 1, y la segunda con media 2 y desviación
estándar 2. Más aún, se elige una muestra aleatoria de tamaño n1 de la
primera población y una muestra independiente aleatoria de tamaño
n2 de la segunda población; se calcula la media muestral para cada
muestra y la diferencia entre dichas medias. La colección de todas esas
diferencias se llama distribución muestral de las diferencias entre medias o
la distribución muestral del estadístico

La distribución es aproximadamente normal para n1 30 y n2 30. Si las


poblaciones son normales, entonces la distribución muestral de medias es
normal sin importar los tamaños de las muestras.

En ejercicios anteriores se había demostrado que y que

, por lo que no es difícil deducir que

y que .
La fórmula que se utilizará para el calculo de probabilidad del estadístico
de diferencia de medias es:
Ejemplo :

El responsable de la sede central de una empresa afirma que las edades


de sus empleados siguen una distribución normal con una media de 41
años y una desviación típica de 5 años. Por otro lado, el responsable de
una sede de las sucursales de dicha empresa en otro país, ha determinado
que sus empleados también tienen edades que se ajustan a una
distribución normal con una media de 39 años y desviación típica
de 3 años.
Con el fin de hacer un estudio comparativo se seleccionan muestras de
40 personas de cada sede de la empresa.
a) Determina la distribución para la diferencia de las medias muestrales.
b) ¿Cuál es la probabilidad de que los empleados de la sede central
tengas una media de edad de al menos 3 años mayor que los de la
sucursal extranjera?
>1.4.3
DISTRIBUCION MUESTRAL DE LA PROPORCION

Existen ocasiones en las cuales no estamos interesados en la media de la


muestra, sino que queremos investigar la proporción de artículos
defectuosos o la proporción de alumnos reprobados en la muestra. La
distribución muestral de proporciones es la adecuada para dar respuesta a
estas situaciones. Esta distribución se genera de igual manera que la
distribución muestral de medias, a excepción de que al extraer las
muestras de la población se calcula el estadístico proporción (p=x/n en
donde "x" es el número de éxitos u observaciones de interés y "n" el tamaño
de la muestra) en lugar del estadísitico media.

Una población binomial está estrechamente relacionada con la


distribución muestral de proporciones; una población binomial es una
colección de éxitos y fracasos, mientras que una distribución muestral de
proporciones contiene las posibilidades o proporciones de todos los
números posibles de éxitos en un experimento binomial, y como
consecuencia de esta relación, las afirmaciones probabilísticas referentes
a la proporción muestral pueden evaluarse usando la aproximación normal
a la binomial, siempre que np 5 y
n(1-p) 5. Cualquier evento se puede convertir en una proporción si se
divide el número obtenido entre el número de intentos.
Generación de la Distribución Muestral de Proporciones

Suponga que se cuenta con un lote de 12 piezas, el cual tiene 4 artículos


defectuosos. Se van a seleccionar 5 artículos al azar de ese lote sin
reemplazo. Genere la distribución muestral de proporciones para el
número de piezas defectuosas.
Como se puede observar en este ejercicio la Proporción de artículos
defectuosos de esta población es 4/12=1/3. Por lo que podemos decir que
el 33% de las piezas de este lote están defectuosas.

El número posible de muestras de tamaño 5 a extraer de una población de


12 elementos es 12C5=792, las cuales se pueden desglosar de la siguiente
manera:

Número de
Proporción maneras en las
Artículos Artículos
de artículos que se puede
Buenos Malos
defectuoso obtener la
muestra

1 4 4/5=0.8 8C1*4C4=8

2 3 3/5=0.6 8C2*4C3=112

3 2 2/5=0.4 8C3*4C2=336

4 1 1/5=0.2 8C4*4C1=280

5 0 0/5=0 8C5*4C0=56

Total 792

Para calcular la media de la distribución muestral de proporciones se


tendría que hacer la sumatoria de la frecuencia por el valor de la
proporción muestral y dividirla entre el número total de muestras. Esto es:

Como podemos observar la media de la distribución muestral de


proporciones es igual a la Proporción de la población.

p=P
También se puede calcular la desviación estándar de la distribución
muestral de proporciones:
La varianza de la distribución binomial es 2= npq, por lo que la varianza
de la distribución muestral de proporciones es 2p =(Pq)/n. Si se sustituten
los valores en esta fórmula tenemos que:

, este valor no coincide con el de


0.1681, ya que nos falta agregar el factor de corrección para una
población finita y un muestreo sin reemplazo:

La fórmula que se utilizará para el cálculo de probabilidad en una


distribución muestral de proporciones está basada en la aproximación de
la distribución normal a la binomial . Esta fórmula nos servirá para calcular
la probabilidad del comportamiento de la proporción en la muestra.
>1.4.4
DISTRIBUCION MUESTRAL DE LA DIFEERENCIA DE PROPORCIONES.

Sea X1, X2,…, Xn1 una muestra aleatoria extraída de una población
Bernoulli. Del mismo modo sea Y1, Y2,…, Yn2 una muestra aleatoria extraída
de una población Bernoulli.

Si definimos a X = ∑(Xi) y Y = ∑ (Yi como el número de éxitos en la primera y


segunda muestra, respectivamente, entonces ambas variables tendrán
distribución Binomial de parámetros π1 y π2.

Si definimos a p1 = X/n1 como la proporción muestral de éxitos en la


primera muestra y p2= Y/n2 como la proporción muestral de éxitos en la
segunda muestra, entonces diremos que p1 - p2 es una variable aleatoria
muestral definida como la diferencia de proporciones muestrales cuya
distribución muestral viene dada por su media y su varianza; es decir, por
μ(p1 - p2 ) y σ2(p1 - p2) .
>1.4.5
DISTRIBUCION T-STUDENT

Supóngase que se toma una muestra de una población normal con

media y varianza . Si es el promedio de las n observaciones que

contiene la muestra aleatoria, entonces la distribución es una


distribución normal estándar. Supóngase que la varianza de la
población 2 es desconocida. ¿Qué sucede con la distribución de esta
estadística si se reemplaza por s? La distribución t proporciona la
respuesta a esta pregunta.

La media y la varianza de la distribución t son =0y para


>2, respectivamente.

La siguiente figura presenta la gráfica de varias distribuciones t. La


apariencia general de la distribución t es similar a la de la distribución
normal estándar: ambas son simétricas y unimodales, y el valor máximo de
la ordenada se alcanza en la media = 0. Sin embargo, la
distribución t tiene colas más amplias que la normal; esto es, la
probabilidad de las colas es mayor que en la distribución normal. A
medida que el número de grados de libertad tiende a infinito, la forma
límite de la distribución t es la distribución normal estándar.
Propiedades de las distribuciones t

Cada curva t tiene forma de campana con centro en 0.


Cada curva t, está más dispersa que la curva normal estándar z.

A medida que aumenta, la dispersión de la curva t correspondiente


disminuye.

A medida que , la secuencia de curvas t se aproxima a la curva


normal estándar, por lo que la curva z recibe a veces el nombre de curva t
con gl =
La distribución de la variable aleatoria t está dada por:

Esta se conoce como la distribución t con grados de libertad.

Sean X1, X2, . . . , Xn variables aleatorias independientes que son todas


normales con media y desviación estándar . Entonces la variable

aleatoria tiene una distribución t con = n-1 grados de libertad.

La distribución de probabilidad de t se publicó por primera vez en 1908 en


un artículo de W. S. Gosset. En esa época, Gosset era empleado de una
cervecería irlandesa que desaprobaba la publicación de investigaciones
de sus empleados. Para evadir esta prohibición, publicó su trabajo en
secreto bajo el nombre de "Student". En consecuencia, la distribución t
normalmente se llama distribución t de Student, o simplemente distribución
t. Para derivar la ecuación de esta distribución, Gosset supone que las
muestras se seleccionan de una población normal. Aunque esto parecería
una suposición muy restrictiva, se puede mostrar que las poblaciones no
normales que poseen distribuciones en forma casi de campana aún
proporcionan valores de t que se aproximan muy de cerca a la distribución
t.

La distribución t difiere de la de Z en que la varianza de t depende del


tamaño de la muestra y siempre es mayor a uno. Unicamente cuando el
tamaño de la muestra tiende a infinito las dos distribuciones serán las
mismas.
Se acostumbra representar con el valor t por arriba del cual se
encuentra un área igual a . Como la distribución t es simétrica

alrededor de una media de cero, tenemos ; es decir, el


valor t que deja un área de a la derecha y por tanto un área de a
la izquierda, es igual al valor t negativo que deja un área de en la cola
derecha de la distribución. Esto es, t0.95 = -t0.05, t0.99=-t0.01, etc.

Para encontrar los valores de t se utilizará la tabla de valores críticos de la


distribución t del libro Probabilidad y Estadística para Ingenieros de los
autores Walpole, Myers y Myers.
Ejemplo:

El valor t con = 14 grados de libertad que deja un área de 0.025 a la


izquierda, y por tanto un área de 0.975 a la derecha, es
t0.975=-t0.025 = -2.145

Si se observa la tabla, el área sombreada de la curva es de la cola


derecha, es por esto que se tiene que hacer la resta de . La manera
de encontrar el valor de t es buscar el valor de en el primer renglón de
la tabla y luego buscar los grados de libertad en la primer columna y
donde se intercepten y se obtendrá el valor de t.
Ejemplo:
Encuentre la probabilidad de –t0.025 < t < t0.05.
Solución:
Como t0.05 deja un área de 0.05 a la derecha, y –t0.025 deja un área de
0.025 a la izquierda, encontramos un área total de 1-0.05-0.025 = 0.925.
P( –t0.025 < t < t0.05) = 0.925
Ejemplo:

Encuentre k tal que P(k < t < -1.761) = 0.045, para una muestra aleatoria de
tamaño 15 que se selecciona de una distribución normal.
Solución:

Si se busca en la tabla el valor de t =1.761 con 14 grados de libertad nos


damos cuenta que a este valor le corresponde un área de 0.05 a la
izquierda, por ser negativo el valor. Entonces si se resta 0.05 y 0.045 se tiene
un valor de 0.005, que equivale a . Luego se busca el valor de 0.005 en
el primer renglón con 14 grados de libertad y se obtiene un valor de t =
2.977, pero como el valor de está en el extremo izquierdo de la curva
entonces la respuesta es t = -2.977 por lo tanto:
P(-2.977 < t < -1.761) = 0.045
Ejemplo:

Un ingeniero químico afirma que el rendimiento medio de la población de


cierto proceso en lotes es 500 gramos por milímetro de materia prima. Para
verificar esta afirmación toma una muestra de 25 lotes cada mes. Si el valor
de t calculado cae entre –t0.05 y t0.05, queda satisfecho con su
afirmación. ¿Qué conclusión extraería de una muestra que tiene una
media de 518 gramos por milímetro y una desviación estándar de 40
gramos? Suponga que la distribución de rendimientos es
aproximadamente normal.
Solución:

De la tabla encontramos que t0.05 para 24 grados de libertad es de 1.711.


Por tanto, el fabricante queda satisfecho con esta afirmación si una
muestra de 25 lotes rinde un valor t entre –1.711 y 1.711.
Se procede a calcular el valor de t:

Este es un valor muy por arriba de 1.711.

Si se desea obtener la probabilidad de obtener un valor de t con 24 grados


de libertad igual o mayor a 2.25 se busca en la tabla y es
aproximadamente de 0.02. De aquí que es probable que el fabricante
concluya que el proceso produce un mejor producto del que piensa.
>1.4.6
DISTRIBUCION MUESTRAL DE LA VARIANZA

La comprensión del concepto de la distribución de la Varianza Muestral


esfundamental para el correcto entendimiento de la inferencia estadística.

Una distribución de la población es la distribución de la totalidad de


las medidas

individuales de una población, en tanto que una distribución muestral es la


distribución de los valores individuales incluidos en una muestra.

Se debe tener en cuenta su uso, para ciertos casos donde conlleva como
principio valorar o estimas diferentes actividades como: las desigualdades
en ingresos, rentas los riesgos en las inversiones! tratándose de una
variable aleatoria, contara con media varianza. Si se extraen todas las
muestras posibles de una población normal cada muestra se le calcula
su varianza, se obtendrá la distribución muestral de las varianzas.
>1.4.7
DISTRIBUCION MUESTRAL DE A RELACION DE VARIANZAS
INSTITUTO TECNOLOGICO DE MATAMOROS

ESTADISTICA INFERENCIAL l
UNIDAD 1
Docente: Sandra Patricia Perez Nieto
Alumno: Silvia Edith Pacheco Valdez
16260261

H. Matamoros, Tamps. 11/Diciembre/2017