Vous êtes sur la page 1sur 15

UNIDAD 4: ESTADISTICA INFERENCIAL

La inferencia estadstica es una parte de la Estadstica que comprende los


mtodos y procedimientos para deducir propiedades (hacer inferencias) de una
poblacin, a partir de una pequea parte de la misma (muestra). La bondad de
estas deducciones se mide en trminos probabilsticos, es decir, toda inferencia se
acompaa de su probabilidad de acierto.
La estadstica inferencial comprende:

1.-La Teora de muestras.
2.-La estimacin de parmetros.
3.-El Contraste de hiptesis.
4.-El Diseo experimental.
5.-La Inferencia bayesiana.
Mtodo

Un estudio estadstico comprende los siguientes pasos:

1.-Planteamiento del problema
2.-Elaboracin de un modelo
3.-Extraccin de la muestra
4.-Tratamiento de los datos

5.-Estimacin de los parmetros
6.-Contraste de hipotesis
7.-Conclusiones

Estimacin puntual

Consiste en la estimacin del valor del parmetro mediante un slo valor, obtenido
de una frmula determinada. Por ejemplo, si se pretende estimar la talla media de
un determinado grupo de individuos, puede extraerse una muestra y ofrecer como
estimacin puntual la talla media de los individuos. Lo ms importante de un
estimador, es que sea un estimador eficiente. Es decir, que sea
insesgado(ausencia de sesgos) y estable en el muestreo (varianza mnima).
Distribucion de muestras
Si X1, X2 ... Xn, es una muestra aleatoria de tamano n tomada de una poblacion
(finita o no infinita) son media (M) y varianza finita y si es la media muestral,
entonces la forma limite de la distribucion Z cuando n tiende infinito es una
distribucion normal estandar:

La aproximacion normal depende del tamano de la muestra



Si n 30 , se puede aplicar el TLC, para una poblacion con cualquier tipo de
distribucion de probabilidad.

Diferencia de medias

Sean 2 poblaciones con medias M1 y M2, y varianzas conocidas




condicion:

Muestra debe ser n 30

Distribucion de T

En probabilidad y estadstica, la distribucin-t o distribucin t de Student es una
distribucin de probabilidad que surge del problema de estimar la media de una
poblacin normalmente distribuida cuando el tamao de la muestra es pequeo.
sta es la base del popular test de la t de Student para la determinacin de las
diferencias entre dos medias muestrales y para la construccin del intervalo de
confianza para la diferencia entre las medias de dos poblaciones.
La distribucin t surge, en la mayora de los estudios estadsticos prcticos,
cuando la desviacin tpica de una poblacin se desconoce y debe ser estimada a
partir de los datos de una muestra.

Aparicin y especificaciones de la distribucin t

Supongamos que X1,..., Xn son variables aleatorias independientes distribuidas
normalmente, con media y varianza 2. Sea


la media muestral y


la varianza muestral. Entonces, est demostrado que


tiende a la distribucin normal de media 0 y varianza 1 cuando n tiende a infinito.
Gosset estudi una expresin relacionada,



si es menor, debemos tener la confianza de que la poblacion se distribuye de
manera normal.
Distribucion de ji-cuadrada
En estadstica, la distribucin ji-cuadrado, tambin denominada ji-cuadrado de
Pearson, es una distribucin de probabilidad continua con un parmetro k que
representa los grados de libertad de la variable aleatoria:



donde Zi son variables de distribucin normal, de media cero y varianza uno. Esta
distribucin se expresa habitualmente
Donde el subndice k de , es le nmero de sumandos, se denomina grados de
libertad de la distribucin. Se suele usar la denominada prueba ji-cuadrado como
test de independencia y como test de bondad de ajuste.
si se extraen todas las muestras posibles de una poblacin normal y a cada
muestra se le calcula su varianza, se obtendr la distribucin muestral de
varianzas.Para estimar la varianza poblacional o la desviacin estndar, se
necesita conocer el estadstico X2.Si se elige una muestra de tamao n de una
poblacin normal con varianza , el estadstico: donde n es el tamao de l a
muestra, s2 la varianza muestral y la varianza de la poblacin de donde se extrajo
la muestra.

El estadistico de Ji cuadrada es el siguiente:



Distribucion F

Usada en teora de probabilidad y estadstica, la distribucin F es una distribucin
de probabilidad continua. Tambin se la conoce como distribucin F de Snedecor
o como distribucin F de Fisher-Snedecor.
Una variable aleatoria de distribucin F se construye como el siguiente cociente:



donde:
1.-U1 y U2 siguen una distribucin ji-cuadrada con d1 y d2 grados de libertad
respectivamente.
2.-U1 y U2 son estadsticamente independientes.

La distribucin F aparece frecuentemente como la distribucin nula de una prueba
estadstica, especialmente en el anlisis de varianza.
Intervalos de confianza
Se llama intervalo de confianza en estadstica a un intervalo de valores alrededor
de un parmetro muestral en los que, con una probabilidad o nivel de confianza
determinado, se situar el parmetro poblacional a estimar. Si es el error
aleatorio que se quiere cometer, la probabilidad ser de 1 . A menor nivel de
confianza el intervalo ser ms preciso, pero se cometer un mayor error.

Para comprender las siguientes frmulas, es necesario conocer los conceptos de
variabilidad del parmetro, error, nivel de confianza, valor crtico y valor .
Un intervalo de confianza es, pues, una expresin del tipo [1, 2] 1 2,
donde es el parmetro a estimar. Este intervalo contiene al parmetro estimado
con una determinada certeza o nivel de confianza 1-.

Al ofrecer un intervalo de confianza se da por supuesto que los datos
poblacionales se distribuyen de un modo determinado. Es habitual que lo hagan
mediante la distribucin normal.
Ejemplos

Intervalo de confianza para la media de una poblacin

De una poblacin de media y desviacin tpica se pueden tomar muestras de n
elementos. Cada una de estas muestras tiene a su vez una media (). Se puede
demostrar que la media de todas las medias muestrales coincide con la media
poblacional:

Pero adems, si el tamao de las muestras es lo suficientemente grande, las
medias muestrales tienden a una distribucin normal (o gaussiana) con dicha
media y una desviacin tpica dada por la siguiente expresin:


Si estandarizamos:


En esta distribucin normal de medias se puede calcular el intervalo de confianza
donde se encontrar la media poblacional si slo se conoce una media muestral (
), con una confianza determinada. Habitualmente se manejan valores de
confianza del 95% y 99%. A este valor se le llamar 1 (debido a que es el
error que se cometer, un trmino opuesto).
Para ello se necesita calcular el punto X / 2 o mejor dicho su versin
estandarizada Z / 2 junto con su "opuesto en la distribucin" X / 2. Estos
puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente
imagen:


Dicho punto es el nmero tal que:


Y en la versin estandarizada se cumple que:

Z / 2 = Z / 2

As:



Haciendo operaciones es posible despejar para obtener el intervalo:



Resultado el intervalo de confianza:



Si no es conocida y n es grande (p.e. 30):

donde s es la desviacin tpica de una muestra.

Aproximaciones para el valor Z / 2 para los niveles de confianza estndar son
1,96 para 1 = 95% y 2,576 para 1 = 9.
______-----------PRUEBA DE HIPOTESIS------------________

Objetivo de la prueba de hiptesis
El propsito de la prueba de hiptesis no es cuestionar el valor calculado del
estadstico (muestral), sino hacer un juicio con respecto a la diferencia entre
estadstico de muestra y un valor planteado del parmetro.
Procedimiento para prueba de hipotesis

1.- Identificar el parametro de interes (para probar parametros se hacen
estimaciones por medio de la muestra).
2.- Establecer Hipotesis Nula.
3.- Establecer una apropiada Hipotesis Alternativa.
4.- Seleccionar el nivel de significancia ().
5.- Establecer un parametro de prueba apropiada (Z,t, ji cuadrada, F).
6.- Establecer region de rechazo (critica).
7.- Calcular las cantidades muestrales y sustituirlos en los estadisticos de prueba
(z,t, ji cuadrada, f) y encontrar los calculos.
8.- Decide si se debe rechazar hipotesis.
9.- Conclusion.

Criterios de rechazo

Ho-si Z* <>
1.-si Z* > Z

2.-si Z* <>

Tipos de prueba

a) Prueba bilateral o de dos extremos: la hiptesis planteada se formula con la
igualdad

Ejemplo:

H0 : = 200
H1 : 200

b) Pruebas unilateral o de un extremo: la hiptesis planteada se formula con o

H0 : 200 H0 : 200
H1 : <> 200

Ejemplo:
Paso 1: Plantear la hiptesis nula Ho y la hiptesis alternativa H1.

Cualquier investigacin estadstica implica la existencia de hiptesis o
afirmaciones acerca de las poblaciones que se estudian.

La hiptesis nula (Ho) se refiere siempre a un valor especificado del parmetro de
poblacin, no a una estadstica de muestra. La letra H significa hiptesis y el
subndice cero no hay diferencia. Por lo general hay un "no" en la hiptesis nula
que indica que "no hay cambio" Podemos rechazar o aceptar Ho.

La hiptesis nula es una afirmacin que no se rechaza a menos que los datos
maestrales proporcionen evidencia convincente de que es falsa. El planteamiento
de la hiptesis nula siempre contiene un signo de igualdad con respecto al valor
especificado del parmetro.

La hiptesis alternativa (H1) es cualquier hiptesis que difiera de la hiptesis nula.
Es una afirmacin que se acepta si los datos maestrales proporcionan evidencia
suficiente de que la hiptesis nula es falsa. Se le conoce tambin como la
hiptesis de investigacin. El planteamiento de la hiptesis alternativa nunca
contiene un signo de igualdad con respecto al valor especificado del parmetro.

Paso 2: Seleccionar el nivel de significancia.

Nivel de significacia: Probabilidad de rechazar la hiptesis nula cuando es
verdadera. Se le denota mediante la letra griega , tambin es denominada como
nivel de riesgo, este termino es mas adecuado ya que se corre el riesgo de
rechazar la hiptesis nula, cuando en realidad es verdadera. Este nivel esta bajo el
control de la persona que realiza la prueba.
Si suponemos que la hiptesis planteada es verdadera, entonces, el nivel de
significacin indicar la probabilidad de no aceptarla, es decir, estn fuera de rea
de aceptacin. El nivel de confianza (1-), indica la probabilidad de aceptar la
hiptesis planteada, cuando es verdadera en la poblacin.

La distribucin de muestreo de la estadstica de prueba se divide en dos regiones,
una regin de rechazo (conocida como regin crtica) y una regin de no rechazo
(aceptacin). Si la estadstica de prueba cae dentro de la regin de aceptacin, no
se puede rechazar la hiptesis nula.

La regin de rechazo puede considerarse como el conjunto de valores de la
estadstica de prueba que no tienen posibilidad de presentarse si la hiptesis nula
es verdadera. Por otro lado, estos valores no son tan improbables de presentarse
si la hiptesis nula es falsa. El valor crtico separa la regin de no rechazo de la de
rechazo.

Tipos de errores

Cualquiera sea la decisin tomada a partir de una prueba de hiptesis, ya sea de
aceptacin de la Ho o de la Ha, puede incurrirse en error:

Un error tipo I se presenta si la hiptesis nula Ho es rechazada cuando es
verdadera y deba ser aceptada. La probabilidad de cometer un error tipo I se
denomina con la letra alfa .

Un error tipo II, se denota con la letra griega se presenta si la hiptesis nula es
aceptada cuando de hecho es falsa y deba ser rechazada.

En cualquiera de los dos casos se comete un error al tomar una decisin
equivocada.

En la siguiente tabla se muestran las decisiones que pueden tomar el investigador
y las consecuencias posibles.

Para que cualquier ensayo de hiptesis sea bueno, debe disearse de forma que
minimice los errores de decisin. En la prctica un tipo de error puede tener ms
importancia que el otro, y as se tiene a conseguir poner una limitacin al error de
mayor importancia. La nica forma de reducir ambos tipos de errores es
incrementar el tamao de la muestra, lo cual puede ser o no ser posible.

La probabilidad de cometer un error de tipo II denotada con la letra griega beta ,
depende de la diferencia entre los valores supuesto y real del parmetro de la
poblacin. Como es ms fcil encontrar diferencias grandes, si la diferencia entre
la estadstica de muestra y el correspondiente parmetro de poblacin es grande,
la probabilidad de cometer un error de tipo II, probablemente sea pequea.

El estudio y las conclusiones que obtengamos para una poblacin cualquiera, se
habrn apoyado exclusivamente en el anlisis de una parte de sta. De la
probabilidad con la que estemos dispuestos a asumir estos errores, depender,
por ejemplo, el tamao de la muestra requerida. Las contrastaciones se apoyan en
que los datos de partida siguen una distribucin normal

Existe una relacin inversa entre la magnitud de los errores y : conforme a
aumenta, disminuye. Esto obliga a establecer con cuidado el valor de a para las
pruebas estadsticas. Lo ideal sera establecer y .En la prctica se establece el
nivel y para disminuir el Error se incrementa el nmero de observaciones en la
muestra, pues as se acortan los limites de confianza respecto a la hiptesis
planteada .La meta de las pruebas estadsticas es rechazar la hiptesis planteada.
En otras palabras, es deseable aumentar cuando sta es verdadera, o sea,
incrementar lo que se llama poder de la prueba (1- ) La aceptacin de la hiptesis
planteada debe interpretarse como que la informacin aleatoria de la muestra
disponible no permite detectar la falsedad de esta hiptesis.

Paso 3: Clculo del valor estadstico de prueba

Valor determinado a partir de la informacin muestral, que se utiliza para
determinar si se rechaza la hiptesis nula., existen muchos estadsticos de prueba
para nuestro caso utilizaremos los estadsticos z y t. La eleccin de uno de estos
depende de la cantidad de muestras que se toman, si las muestras son de la
prueba son iguales a 30 o mas se utiliza el estadstico z, en caso contrario se
utiliza el estadstico t.
En las pruebas de hiptesis para la media (), cuando se conoce la desviacin
estndar () poblacional, o cuando el valor de la muestra es grande (30 o ms), el
valor estadstico de prueba es z y se determina a partir de:


El valor estadstico z, para muestra grande y desviacin estndar poblacional
desconocida se determina por la ecuacin:


En la prueba para una media poblacional con muestra pequea y desviacin
estndar poblacional desconocida se utiliza el valor estadstico t.


Paso 4: Formular la regla de decisin

Se establece las condiciones especficas en la que se rechaza la hiptesis nula y
las condiciones en que no se rechaza la hiptesis nula. La regin de rechazo
define la ubicacin de todos los valores que son tan grandes o tan pequeos, que
la probabilidad de que se presenten bajo la suposicin de que la hiptesis nula es
verdadera, es muy remota

Distribucin muestral del valor estadstico z, con prueba de una cola a la derecha

Valor critico: Es el punto de divisin entre la regin en la que se rechaza la
hiptesis nula y la regin en la que no se rechaza la hiptesis nula.

Paso 5: Tomar una decisin.

En este ltimo paso de la prueba de hiptesis, se calcula el estadstico de prueba,
se compara con el valor crtico y se toma la decisin de rechazar o no la hiptesis
nula. Tenga presente que en una prueba de hiptesis solo se puede tomar una de
dos decisiones: aceptar o rechazar la hiptesis nula. Debe subrayarse que
siempre existe la posibilidad de rechazar la hiptesis nula cuando no debera
haberse rechazado (error tipo I). Tambin existe la posibilidad de que la hiptesis
nula se acepte cuando debera haberse rechazado (error de tipo II).

4.1 Estimacion puntual y por intervalos de confianza

Qu es una estimacin?
Cuando queremos realizar un estudio de una poblacin cualquiera de la que
desconocemos sus
parmetros, por ejemplo su media poblacional o la probabilidad de xito si la
poblacin sigue una
distribucin binomial, debemos tomar una muestra aleatoria de dicha poblacin a
travs de la cual
calcular una aproximacin a dichos parmetros que desconocemos y queremos
estimar. Bien,
pues esa aproximacin se llama
estimacin
.
Adems, junto a esa estimacin, y dado que muy probablemente no coincida con
el valor real del parmetro, acompaaremos el error aproximado que se comete al
realizarla. Una estimacin puntual del valor de un parmetro poblacional
desconocido (como puede ser la media , o la desviacin estndar ), es un
nmero que se utiliza para aproximar el verdadero valor de dicho parmetro
poblacional. A fin de realizar tal estimacin, tomaremos una muestra de
la poblacin y calcularemos el parmetro muestral asociado ( x para la media,
s para la desviacin estndar, etc.). El valor de este parmetro muestral ser
la estimacin puntual del parmetro poblacional.
Consiste en la estimacin del valor del parmetro mediante un slo valor, obtenido
de una frmula determinada. Por ejemplo, si se pretende estimar la talla media de
un determinado grupo de individuos, puede extraerse una muestra y ofrecer como
estimacin puntual la talla media de los individuos. Lo ms importante de un
estimador, es que sea un estimador eficiente. Es decir, que sea
insesgado(ausencia de sesgos) y estable en el muestreo o eficiente (varianza
mnima) Estimacin puntual Sea X una variable poblacional con distribucin F ,
siendo desconocido. El problema de estimacin puntual consiste en,
seleccionada una muestra X1, ..., Xn, encontrar el estadstico T(X1, ..., Xn) que
mejor estime el parmetro . Una vez observada o realizada la muestra, con
valores x1, ..., xn, se obtiene la estimacin puntual de , T(x1, ..., xn) = .
Vemos a continuacin dos mtodos para obtener la estimacin puntual de un
parmetro: mtodo de los momentos y mtodo de mxima verosimilitud. Mtodo
de los momentos: consiste en igualar momentos poblacionales a momentos
muestrales. Deberemos tener tantas igualdades como parmetros a estimar.
Momento poblacional de orden r r = E(Xr) Momento muestral de orden r ar = Xn
i=1 Xr i n
Mtodo de mxima verosimilitud: consiste en tomar como valor del parmetro
aquel que maximice la probabilidad de que ocurra la muestra observada. Si X1, ...,
Xn es una muestra seleccionada de una poblacin con distribucin F o densidad
f(x), la probabilidad de que ocurra una realizacin x1, ..., xn viene dada por:
L(x1, ..., xn) = Yn i=1 f(xi)
A L(x1, ..., xn) se le llama funcin de verosimilitud.(credibilidad de la muestra
observada). Buscamos entonces el valor de que maximice la funcin de
verosimilud, y al valor obtenido se le llama estimacin por mxima verosimilitud de
. Nota: si la variable X es discreta, en lugar de f(xi ) consideramos la funcin
masa de probabilidad p(xi).
Ejemplo 7.1: Sea X N(, ), con desconocido. Seleccionada una m.a.s. X1,
..., Xn, con realizacin x1, ..., xn, estimamos el parmetro por ambos mtodos.
Segn el mtodo de los momentos: E(X) = Xn i=1 Xi n = X, y al ser = E(X) se
obtiene que = x. Por el mtodo de mxima verosimilitud: L(x1, ..., xn) = Yn
i=1 f(xi ) = = Yn i=1 1 2 e (xi) 2 2
Estimacin por Intervalos de conanza 109 y maximizamos en tal funci n; en
este caso resulta ms fcil maximizar su logaritmo: lnL(x1, ..., xn) = 1 2 2 Xn
i=1 (xi ) 2 n ln( 2) lnL(x1, ..., xn) = 1 2 Xn i=1 (xi ) = n x n
2 = 0 =
Estimacin por intervalos
Consiste en la obtencin de un intervalo dentro del cual estar el valor del
parmetro estimado con una cierta probabilidad. En la estimacin por intervalos se
usan los siguientes conceptos:
Intervalo de confianza
El intervalo de confianza es una expresin del tipo [1, 2] 1 2, donde es
el parmetro a estimar. Este intervalo contiene al parmetro estimado con un
determinado nivel de confianza. Pero a veces puede cambiar este intervalo
cuando la muestra no garantiza un axioma o un equivalente circunstancial.
Variabilidad del Parmetro
Si no se conoce, puede obtenerse una aproximacin en los datos aportados por la
literatura cientfica o en un estudio piloto. Tambin hay mtodos para calcular el
tamao de la muestra que prescinden de este aspecto. Habitualmente se usa
como medida de esta variabilidad la desviacin tpica poblacional y se denota .
Error de la estimacin
Es una medida de su precisin que se corresponde con la amplitud del intervalo
de confianza. Cuanta ms precisin se desee en la estimacin de un parmetro,
ms estrecho deber ser el intervalo de confianza y, si se quiere mantener o
disminuir el error, ms ocurrencias debern incluirse en la muestra estudiada. En
caso de no incluir nuevas observaciones para la muestra, ms error se comete al
aumentar la precisin. Se suele llamar E, segn la frmula E = (2 - 1)/2.
Lmite de Confianza
Es la probabilidad de que el verdadero valor del parmetro estimado en la
poblacin se site en el intervalo de confianza obtenido. El nivel de confianza se
denota por (1-), aunque habitualmente suele expresarse con un porcentaje ((1-
)100%). Es habitual tomar como nivel de confianza un 95% o un 99%, que se
corresponden con valores de 0,05 y 0,01 respectivamente.
Valor
Tambin llamado nivel de significacin. Es la probabilidad (en tanto por uno) de
fallar en nuestra estimacin, esto es, la diferencia entre la certeza (1) y el nivel de
confianza (1-). Por ejemplo, en una estimacin con un nivel de confianza del
95%, el valor es (100-95)/100 = 0,05
Valor crtico
Se representa por Z/2. Es el valor de la abscisa en una determinada distribucin
que deja a su derecha un rea igual a /2, siendo 1- el nivel de confianza.
Normalmente los valores crticos estn tabulados o pueden calcularse en funcin
de la distribucin de la poblacin. Por ejemplo, para una distribucin normal, de
media 0 y desviacin tpica 1, el valor crtico para = 0,1 se calculara del
siguiente modo: se busca en la tabla de la distribucin ese valor (o el ms
aproximado), bajo la columna "rea"; se observa que se corresponde con -1,28.
Entonces Z/2 = 1,64. Si la media o desviacin tpica de la distribucin normal no
coinciden con las de la tabla, se puede realizar el cambio de variable t =(X-)/
para su clculo.
Con estas definiciones, si tras la extraccin de una muestra se dice que "3 es una
estimacin de la media con un margen de error de 0,6 y un nivel de confianza del
99%", podemos interpretar que el verdadero valor de la media se encuentra entre
2,7 y 3,3, con una probabilidad del 99%. Los valores 2,7 y 3,3 se obtienen
restando y sumando, respectivamente, la mitad del error, para obtener el intervalo
de confianza segn las definiciones dadas.
Para un tamao fijo de la muestra, los conceptos de error y nivel de confianza van
relacionados. Si admitimos un error mayor, esto es, aumentamos el tamao del
intervalo de confianza, tenemos tambin una mayor probabilidad de xito en
nuestra estimacin, es decir, un mayor nivel de confianza.
4.2 Estimacion de la media, de la diferencia de medias, de la proporcion y de
la diferencia de proporciones
Estimacion de la media:El intervalo de confianza, para la media de una poblacin,
con un nivel de confianza de 1- , siendo x la media de una muestra de tamao n
y la desviacin tpica de la poblacin, es:

El error mximo de estimacin es:

Cuanto mayor sea el tamao de la muestra, n, menor es el error.
Cuanto mayor sea el nivel de confianza, 1-, mayor es el error.
Tamao de la muestra

Si aumentamos el nivel de confianza, aumenta el tamao de la muestra.
Si disminuimos el error, tenemos que aumentar el tamao de la muestra.
Ejemplo:
El tiempo que tardan las cajeras de un supermercado en cobrar a los clientes
sigue una ley normal con media desconocida y desviacin tpica 0,5 minutos. Para
una muestra aleatoria de 25 clientes se obtuvo un tiempo medio de 5,2 minutos.
1.Calcula el intervalo de confianza al nivel del 95% para el tiempo medio que se
tarda en cobrar a los clientes.


2.Indica el tamao muestral necesario para estimar dicho tiempo medio con un el
error de 0,5 minutos y un nivel de confianza del 95%.

n 4