Vous êtes sur la page 1sur 60

Estads3cayMtodosNumricos

Tema5.InferenciaEstads3ca

ngelBarnCaldera
ngelCoboOrtega
MaraDoloresFrasDomnguez
JessFernndezFernndez
FranciscoJavierGonzlezOr@z
CarmenMaraSordoGarca

DEPARTAMENTODEMATEMTICAAPLICADAY
CIENCIASDELACOMPUTACIN
UNIVERSIDADDECANTABRIA

License:
Crea3veCommonsBYNCSA3.0
TEMA5: Inferencia Estadstica

1. Muestreo:
Tamao y calidad de la muestra
Muestreo aleatorio
2. Inferencia estadstica:
Estimacin de una proporcin
Estimacin de una media
Estimacin de una varianza
3. Contraste de hiptesis usando
intervalos de confianza
Muestreo
POBLACIN: todos los estudiantes de la
muestra
Universidad de Cantabria
MUESTRA: alumnos de 1 de Grado de
Ingeniera Civil de la Universidad de Cantabria.
poblacin
Necesidad del muestreo:

1. Coste reducido: la recogida y tratamiento de datos resulta


ms barato al trabajar con una pequea parte de la poblacin

2. Mayor rapidez en la evaluacin del resultado final (ej.


escrutinio de votos de las primeras mesas electorales).

3. Imposibilidad material por destruccin del objeto a estudio


(ej. duracin de bombillas, si se estudia toda la poblacin no
quedaran bombillas para vender).
Es importante elegir una muestra que represente bien a la poblacin.
Muestreo Aleatorio
Todos los elementos tienen la misma probabilidad de ser
incluidos en la muestra.

Sin reposicin de los elementos: no se permite que un mismo


individuo sea seleccionado ms de una vez.
Con reposicin: un elemento puede ser extrado varias veces.

Cuando la poblacin es grande la diferencia entre ambos casos


es mnima.

1-1
1-2
1-3
.
3-1
.
6-5
6-6
Inferencia Estadstica
El problema que aparece con ms frecuencia en la prctica es
el de la estimacin de parmetros de la poblacin, que son
desconocidos.

Existe una

utilizados para describir la


POBLACIN parmetros
poblacin

de donde se utilizados
extrae una para estimar

la muestra utilizados
muestra genera para evaluar estadsticos
aleatoria datos
numricos

El objetivo es doble: describir la muestra (mediante la estadstica


descriptiva) y sacar conclusiones sobre la poblacin.
Inferencia Estadstica
Se desea conocer la altura de los alumnos de la Universidad de
Cantabria
V.A. Altura

POBLACIN: utilizados para describir la


alumnos de la parmetro
U.C poblacin
utilizados
para estimar
de donde se
extrae una

la muestra utilizados
muestra aleatoria: genera para evaluar x = 1.71
2 0 .5
Alumnos de 1 de
Grupo alumnos
Ingenieria Civil S n = 0.53
1.7
1.72,1.69,1.57...
23,18,20,1.90

Conjunto de mtodos estadsticos que permiten deducir (inferir)


como se distribuye la poblacin en estudio a partir de la
informacin que proporciona una muestra.
Inferencia Estadstica

Estimacin puntual: Obtener un pronstico numrico


nico sobre un parmetro de la distribucin
Estimacin por intervalos: Obtener un margen de
variacin para un parmetro de la distribucin

Poblacin, parmetro Muestra, estimador parmetro


proporcin P proporcin p

media media

varianza 2 Varianza S2


Objetivo:min
Estimacin de una proporcin
Dada una poblacin con N individuos de los cuales M poseen
cierta propiedad (e.g. mujeres) que no poseen los dems, la
proporcin poblacional se define como P = M/N
Si se elige una muestra de esa poblacin de tamao n, en la
que aparecen m individuos con esa propiedad, entonces la
proporcin muestral se define como p = m/n
P p3
p1
p
La proporcin poblacional (P) es p2
constante mientras que cada p4
muestra puede tener una
proporcin muestral (p) distinta.

La proporcin muestral es una variable aleatoria por lo que


es importante determinar su distribucin.
Distribucin de la proporcin muestral
La distribucin de la proporcin muestral es la distribucin de
probabilidad de todos los valores posibles de la proporcin
muestral (p)

Muestreo con reemplazamiento o poblacin infinita:


El nmero de individuos (m) que poseen la propiedad en la
muestra es una variable aleatoria binomial.
La media y varianza de la proporcin muestral sern:
Distribucin de la proporcin muestral
La distribucin de la proporcin muestral es la distribucin de
probabilidad de todos los valores posibles de la proporcin
muestral (p)

Muestreo sin reemplazamiento y poblacin finita:


El nmero de individuos (m) que poseen la propiedad en la
muestra es una variable aleatoria hipergeomtrica.
La media y varianza de la proporcin muestral sern:
Distribucin de la proporcin muestral
El valor medio de la funcin de probabilidad coincide con
la proporcin poblacional P.
La varianza disminuye a medida que aumenta el tamao
de la muestra(n).
La funcin de probabilidad de p converge a la normal de
=E(p) y 2=Var(p) para n tendiendo a infinito.
Cuando la aproximacin Normal sea vlida, se podr utilizar la
variable tipificada z para obtener la informacin necesaria en la
toma de decisiones.
x
z=
N(, 2)
N(0, 1)
Intervalos de probabilidad de una proporcin
Conocer la funcin de probabilidad de p permite, en el supuesto
de conocer el valor de P, fijar unos intervalos tales que la
probabilidad de que la variable aleatoria p pertenezca a dicho
intervalo sea un valor dado.
Dado un porcentaje 100(1-)%, siempre es posible encontrar
un intervalo alrededor de P que contenga a dicho porcentaje de
la muestra.

Se denomina intervalo de
probabilidad de una
proporcin a aquel intervalo
para el cual se sabe con una
confianza 1- que la proporcin
muestral se encuentra en dicho
intervalo.
P-e P+e
Intervalos de probabilidad de una proporcin
1- (nivel de confianza, 90% 95% 99%)
es el nivel de significacin

Pueden existir numerosos intervalos 1-, sin embargo tiene


mayor inters el simtrico respecto al valor central P.
Intervalos de probabilidad de una proporcin
El intervalo (a,b] es un intervalo para p con probabilidad 1- si
se verifica:
P(a p b) = 1
Tiene especial inters el intervalo de amplitud mnima que, para
muestras grandes es aproximadamente el simtrico respecto
de P.
1-
P(P e p P + e) = 1
P-e
- P
P+e
+

Si el tamao de la muestra es suficientemente grande, la


variable aleatoria p tiende a la ley normal y los intervalos de
probabilidad pueden obtenerse con las tablas de la ley normal.
Intervalos de probabilidad de una proporcin

Si el tamao de la muestra es suficientemente grande, la


variable aleatoria p tiende a la ley normal y los intervalos de
probabilidad pueden obtenerse con las tablas de la ley normal.

P+e
P(P e p P + e) = FN ( , )( P + e) FN ( , )( P e) = FN ( 0,1)
2 2


Pe e e e
FN ( 0,1) = FN ( 0,1) 1 FN ( 0,1) = 2 FN ( 0,1) 1 = 1

FN (0,1)(e / ) = 1 / 2

Donde
Intervalos de probabilidad de una proporcin

1- (nivel de confianza, 90% 95% 99%)


es la significacin

P-z/2 P P+z/2

Los intervalos de probabilidad permanecen constantes para


diferentes muestras.

La probabilidad (1- ) indica que para el 100(1- )% de las


muestras, el valor de p est contenido en el intervalo de
probabilidad y para el resto est fuera.
Intervalos de probabilidad de una proporcin

Pe
Muestreo sin reemplazamiento y Muestreo con reemplazamiento
poblacin finita o poblacin infinita

nP > 5
nP > 5
n(1 P) > 5 Condiciones
de validez n(1 P) > 5
n / N < 0.9
Ejemplo: La poblacin de internados en un centro mdico es
de 1000 enfermos, de los cuales el 20% padecen afecciones
cardiacas. Se elige una muestra de 50 enfermos del fichero de
registro. Calcular el intervalo de probabilidad al 0.95 de p para el
caso de muestreo sin y con reemplazamiento.
Intervalos de probabilidad de una proporcin

Pe
Muestreo sin reemplazamiento y Muestreo con reemplazamiento
poblacin finita o poblacin infinita

nP > 5
nP > 5
n(1 P) > 5 Condiciones
de validez n(1 P) > 5
n / N < 0.9
Ejemplo:
Estimadores de una proporcin
En la realidad, el problema ms frecuente es el de la estimacin de
los parmetros de la poblacin. Para ello se extrae de la poblacin
una muestra de tamao n y conocida sta se trata de estimar P.

Estimacin puntual: Se estima el valor de la proporcin de la


poblacin (P) con el valor del parmetro de la muestra.

p P
No da informacin alguna de la precisin de la estimacin.
Intervalo de confianza: Determina entre que valores (a, b] se
encuentra la proporcin de la poblacin P con cierta probabilidad o
certeza (1-).
P(a P b) = 1
Complementa la estimacin puntual precisando la exactitud de la estimacin.
Intervalos de Confianza de una Proporcin
Se dice que el intervalo (a,b] es un intervalo de confianza
para P al nivel (1-) si se verifica:

P(a P b) = 1

Partiendo del intervalo de probabilidad (1- ):

P(P e p P + e) = 1
Esta expresin se puede escribir como:

P(p e P p + e) = 1
Por lo que el intervalo [p-e, p+e] tiene una probabilidad
asociada de (1- ) de contener al parmetro P.
Intervalos de confianza de una proporcin
pe
Muestreo sin reemplazamiento y Muestreo con reemplazamiento
poblacin finita o poblacin infinita

n ( p e) > 5 n ( p e) > 5
n(1 p e) > 5 Condiciones
de validez n(1 p e) > 5
n / N < 0.9
Ejemplo: En una muestra aleatoria de 50 rocas tomadas de
una mina se observa que 20 de ellas son ricas en contenido
mineral. Estimar puntualmente la proporcin de rocas con alto
contenido mineral en la mina. Calcular un intervalo de confianza
0.95 de esta proporcin.
Intervalos de Confianza de una Proporcin

Los intervalos de confianza s cambian con las muestras.


El 100(1- )% de las muestras dan intervalos de confianza
que contienen a la proporcin poblacional.
Tamao de muestra para estimar proporcin

En la prctica el experimentador se plantea con qu error y nivel


de confianza desea estimar la proporcin y se calcula el tamao
de la muestra necesario.
Es decir, se conocen e y 1- y se busca calcular n.
Muestreo sin reemplazamiento y Muestreo con reemplazamiento o
poblacin finita poblacin infinita
Tamao de muestra para estimar proporcin
El clculo de n implica el conocimiento
previo de la proporcin muestral, en
p(1-p), que es el valor que se busca.

Si no se tiene idea del rango de


valores de p(1-p), se puede usar el
valor que es la cota superior de p(1-
p).

Muestreo sin reemplazamiento y Muestreo con reemplazamiento o


poblacin finita poblacin infinita
Ejercicio
Ejemplo: Se quiere estimar la proporcin de zurdos en una poblacin con una
confianza del 95% y una precisin de 0.01.

1. Cul debe ser el tamao de la muestra escogida?

2. Mediante un muestreo previo se estima que p0.1, qu tamao debe tener la


muestra si para calcularlo se utiliza la estimacin de p obtenida?
Ejercicio
Estimacin de una media
x1 x2
x
Dada una poblacin con N individuos que poseen
x4 x3 cierta propiedad (altura), esa propiedad o
variable tendr su media poblacional , an
cuando su valor numrico se desconozca.

Si se elige una muestra aleatoria de esa poblacin de tamao


n, se puede observar dicha variable y obtener la media
muestral
La media muestral es una variable aleatoria ya que cada
muestra tiene un valor distinto, por lo que tiene inters estudiar
su funcin de probabilidad y en especial su media y su
varianza.
La distribucin de la media muestral es la distribucin de
probabilidad de todos los valores posibles de la media
muestral.
Distribucin de la media muestral
Muestreo sin reemplazamiento y Muestreo con reemplazamiento o
poblacin finita poblacin infinita

La media de las medias muestrales coincide con la media


poblacional.
La varianza disminuye a medida que aumenta el tamao de la

muestra (n).
La funcin de probabilidad converge a la normal para n

tendiendo a infinito (teorema central del lmite).


Intervalos de probabilidad de una media
Se denomina intervalo de probabilidad de una media a aquel
intervalo para el cual se sabe con una confianza 1- que la
media muestral se encuentra en dicho intervalo.
El intervalo (a,b] es un intervalo para la media muestral con
probabilidad 1- si se verifica:

P(a x b) = 1
Al igual que para proporciones, para la media el intervalo de
especial inters es el simtrico respecto de la media de la
poblacin.

P( e x + e) = 1 [ e, + e]
Intervalos de probabilidad de una media
Varianza de la poblacin conocida y n grande (n30): la
distribucin muestral se puede aproximar por una normal, Teor.
central del lmite.
Muestreo sin reemplazamiento y Muestreo con reemplazamiento o
poblacin finita poblacin infinita
N n
z / 2
n(N 1 )

Varianza de la poblacin desconocida y n es pequea.


No se puede emplear 2/n, en su lugar se toma S2/n a partir de la muestra, por lo
que la distribucin ya no es exactamente una distribucin normal.
En este caso, si la distribucin de partida es normal, se considera el estadstico t
que se distribuye segn una t de Student con n-1 grados de libertad.
t de Student, t(n)

Forma de campana, simtrica y unimodal.


Eje de simetra en la recta X=0, por lo que su mediana = 0

n =1, 4, 16,

Cuando n tiende a infinito la distribucin t(n) tiende a la N(0,1)


t de Student, t(n)
Los cuantiles de la
distribucin t(n)
aparecen en muchas
frmulas de inferencia
estadstica y se
aproximan mediante
tablas o mediante
programas de
ordenador.

> qt(0.95, 9)
[1] 1.833113
Ejercicio
En un instituto se sabe que la estatura de los
alumnos se ajusta a una N(165,82) en cm. Calcular la probabilidad
de que la altura media de 64 alumnos, elegidos al azar, est entre
163 y 167 cm.
Estimadores de una media
Como ya se ha mencionado antes, en la realidad, el problema ms
frecuente es el de la estimacin de los parmetros de la poblacin.
Para ello se extrae de la poblacin una muestra de tamao n y
conocida sta se trata de estimar .

Estimacin puntual: La media muestral es un buen estimador de la


media de la poblacin.
x-
No da informacin alguna de la precisin de la estimacin.
Intervalo de confianza: Determina entre que valores (a, b] se
encuentra la media de la poblacin con cierta probabilidad o
certeza (1-).
P(a b) = 1
Complementa la estimacin puntual precisando la exactitud de la estimacin.
Intervalos de confianza de una media
Se dice que el intervalo (a,b] es un intervalo de confianza para
al nivel (1-) si se verifica:
P(a b) = 1
Usando la hiptesis de normalidad y de la misma manera que se
hizo para las proporciones:

Si la aproximacin normal no es vlida (n pequea y


desconocida), al igual que se hizo con el intervalo de probabilidad,
es necesario considerar el valor de la cuasivarianza muestral S2 y
calcular la variable t, que se distribuye segn una t de Student.
Intervalos de confianza de una media
xe
Varianza de la poblacin conocida y n grande (n30):
Muestreo sin reemplazamiento y Muestreo con reemplazamiento o
poblacin finita poblacin infinita

N n
e = z / 2 e = z / 2
n(N 1 ) n

Varianza de la poblacin desconocida y n es pequea.

S
e = tn1, / 2
n
Tamao de muestra para estimar media
Al igual que con la proporcin, en la realidad el problema que se
plantea se centra en estimar el tamao de muestra necesario
para estimar una media con un error y nivel de confianza dados.

Es decir, se conocen e y 1- y se busca calcular n.

e = z / 2 n = z/2 2
2

n e

Si la aproximacin Normal no es vlida, este clculo se complica


ya que n aparece implcitamente en tn-1,/2
Ejercicio
Si la vida en horas de una bombilla elctrica de 75 watios se
distribuye de forma normal con una desviacin tpica de 5 horas
y elegimos una m.a.s. de 30 bombillas cuya vida media es de
1014 horas, se pide:

1. Construir un intervalo de confianza para la vida media de las


bombillas con un nivel de significacin del 0.05.

2. Si queremos tener un nivel de confianza del 95% de que el


error en la estimacin de la vida media fuera menor de una hora,
Qu tamao de la muestra elegiramos?
Ejercicio
Estimacin de una varianza
S
x142 S 2
2
1
S 2 , S n2
Sx2
24 S 2
3

La varianza poblacional (2) es constante mientras que cada


muestra puede tener una varianza o cuasi-varianza muestral
(Sn2, S2) distinta.

Sn2 y S2 son variables aleatorias por lo que es importante


determinar su distribucin
La distribucin de la varianza (cuasi-varianza) muestral es la
distribucin de probabilidad de todos los valores posibles de la
varianza (cuasi-varianza) muestral.
Distribucin de la varianza muestral

4 es el momento de orden cuatro respecto de la media:

El valor medio de las varianzas muestrales no coincide con el


de la varianza de la poblacin (estimador sesgado)
El valor medio de las cuasi-varianzas muestrales si coincide
con el de la varianza de la poblacin (estimador centrado).
Las varianzas tienden a cero cuando n tiende a infinito.
Intervalos de probabilidad de una varianza

Se denomina intervalo de probabilidad de una varianza a


aquel intervalo para el cual se sabe con una confianza 1- que
la varianza muestral se encuentra en dicho intervalo.

P(a S b) = 1
2
n
Para el caso de la varianza y cuasi-varianza muestrales, no
existe una distribucin a la que converjan todos los casos
posibles de distribucin poblacional.
La distribucin de la varianza o cuasi-varianza muestral
depende en alto grado de cual sea la distribucin poblacional
de partida.
Para simplificar vamos a considerar en lo que sigue slo el
caso de poblacin normal.
Intervalos de probabilidad de una varianza

Si asumimos que la poblacin sigue una distribucin N(, 2),


entonces la variable aleatoria
Intervalos de probabilidad de una varianza

Si asumimos que la poblacin sigue una distribucin N(, 2),


entonces la variable aleatoria
Intervalos de probabilidad de una varianza

Si asumimos que la poblacin sigue una distribucin N(, 2),


entonces la variable aleatoria

Por tanto:

Pero hay infinitos valores de a y b que cumplen esta relacin


para una confianza dada.
Intervalos de probabilidad de una varianza
Intervalos de probabilidad de una varianza
Intervalos de probabilidad de una varianza

n=30

a b
Intervalos de probabilidad de una cuasi-varianza

Para la cuasi-varianza el intervalo de probabilidad se calculara de la


misma manera:

2
n1 S sigue una distribucin Chi-cuadrado con n-1
grados de libertad,
2

El intervalo de probabilidad vendra dado de la forma:
Estimadores de una varianza
En la realidad, el problema ms frecuente es el de la estimacin de
los parmetros de la poblacin. Para ello se extrae de la poblacin
una muestra de tamao n y conocida sta se trata de estimar 2.

Estimacin puntual: La varianza y cuasi-varianza muestral son


buenos estimadores de la varianza de la poblacin. La cuasivarianza
tiene la ventaja de se un estimador centrado de 2.
-2
S 2
No da informacin alguna de la precisin de la estimacin.
Intervalo de confianza: Determina entre que valores (a, b] se
encuentra la varianza de la poblacin con cierta probabilidad o
certeza (1-).
P(a b) = 1
2

Complementa la estimacin puntual precisando la exactitud de la estimacin.


Intervalos de confianza de una varianza

De la misma manera que se hizo para el intervalo de probabilidad (1- ):

es un intervalo de confianza para la varianza poblacional si la poblacin


de partida es normal. Por la definicin de la cuasi-varianza muestral, este
intervalo tambin se puede escribir como:
Ejercicio
Se sabe que el peso por bloque de un cierto preparado de
hormign se distribuye de forma normal. Con el objeto de
estudiar la varianza de la distribucin, se extrae una m.a.s de 6
bloques. Sabiendo que la varianza muestral es igual a 40,
estimar la varianza poblacional mediante un intervalo de
confianza al 90%.
Ejercicio
La resistencia a fractura X, en kg/cm2, de unas placas de acero
fueron:
69.5; 71.9; 72.6; 73.3; 73.5; 75.5; 75.7; 75.8; 76.1; 76.2;
77; 77.9; 78.1; 79.6; 79.7; 79.9; 80.1; 82.2; 83.7; 93.7

Calcular un intervalo de confianza para la desviacin tpica de la


distribucin de la resistencia a fractura al nivel de confianza 0.99
es vlido este intervalo cualquiera que sea el tipo de
distribucin de la v.a. X?
Contraste de hiptesis usando intervalos de confianza

El objetivo del contraste de hiptesis es decidir si una


determinada hiptesis o conjetura sobre la distribucin
poblacional estudiada es confirmada o invalidada
estadsticamente a partir de las observaciones de una
muestra, es decir, avalar o rechazar tales informaciones sobre
la caracterstica de la poblacin, pero no estimarla.

Ejemplo:
La proporcin de mujeres en Madrid toma un valor determinado:

P = 50.58%
Contraste de hiptesis usando intervalos de confianza

El planteamiento general de un problema de contraste es el


siguiente:
Se formula una hiptesis o conjetura acerca de la poblacin
Se trata de ver si esa afirmacin se encuentra apoyada por la
evidencia experimental que se obtiene a travs de una
muestra aleatoria.
Hiptesis nula, H0, es la hiptesis que se contrasta.
Una hiptesis estadstica es una afirmacin que se hace con
El nombre de nula proviene de que H0 representa la hiptesis que
respecto a una o ms caractersticas desconocidas de una
mantendremos a no ser que los datos indiquen su falsedad, y debe entenderse,
poblacin de inters.
por tanto, en el sentido de neutra.

Ejemplo:
Se desea contrastar que la proporcin de mujeres en Madrid
toma un valor determinado:
H0: P = 50.58%
Contraste de hiptesis usando intervalos de confianza
La realizacin de un contraste implica la existencia de dos
hiptesis:
La hiptesis nula H0 es la que se formula y se quiere contrastar.
Es la que el investigador asume como correcta y que no
necesita ser probada, es decir, la aceptacin de H0 no implica
que sta sea correcta o que haya sido probada, sino que los
datos no han proporcionado evidencia suficiente como para
rechazarla.
La hiptesis alternativa es la hiptesis opuesta de H0, de forma
que si a partir de la muestra se rechaza H0 entonces se acepta
como cierta H1.
Ejemplo:
Se desea contrastar que la proporcin de mujeres en Madrid
toma un valor determinado:
H0: P = 50.58%
H1: P 50.58%
Contraste de hiptesis usando intervalos de confianza
Las afirmaciones no son todas del mismo tipo, pueden involucrar
ya sea el valor numrico de algn parmetro, suponiendo la
distribucin conocida (generalmente la Normal), o la forma
funcional no conocida de la distribucin de inters a partir de la
cual se obtiene la muestra .
1. H0 : P = 0.5
Contraste paramtrico
2. H0 : = 1.68
3. H0 : F ~ Normal Contraste no paramtrico

Contrastes paramtricos:
Si: H0 : = 0.5,
entonces H1 puede ser: H1 : > 0.5 Contraste unilateral derecho
H1 : < 0.5 Contraste unilateral izquierdo
H1 : 0.5 Contraste bilateral
Contraste de hiptesis usando intervalos de confianza

La estimacin del intervalo de confianza de un parmetro


implica el clculo de lmites para los cuales es "razonable" que
el parmetro en cuestin est dentro de ellos.
En el contraste se decide si hay evidencias suficientes de que
el parmetro en cuestin tenga un determinado valor.
Ambos mtodos basan su decisin en el mismo estadstico,
cuya distribucin muestral es conocida.

La prueba de H0 : = 0
Contraste bilateral
H1 : 0

es equivalente a calcular un intervalo de confianza (a un nivel


de confianza 1-) de y rechazar H0 (a un nivel de confianza
1-) si 0 no est dentro del intervalo de confianza y
aceptarla en caso contrario
Ejercicio
Una muestra aleatoria de 36 cigarrillos de una marca
determinada dio un contenido promedio de nicotina de 3mg.
Suponga que el contenido de nicotina de este tipo de cigarrillos
sigue una distribucin normal con una desviacin estndar de
1mg.

1. Obtenga e interprete un intervalo de confianza del 95% para


el verdadero contenido promedio de nicotina en estos cigarrillos.

2. El fabricante garantiza que el contenido promedio de nicotina


es de 2.9 mg, qu puede decirse de acuerdo con el intervalo
hallado?
Ejercicio

Vous aimerez peut-être aussi