Académique Documents
Professionnel Documents
Culture Documents
DEL MUESTREO
• Media Es la media aritmética (promedio) de los valores de una variable. Suma de los
valores dividido por el tamaño muestral.
– Media de 2,2,3,7 es (2+2+3+7)/4=3,5
– Conveniente cuando los datos se concentran simétricamente con respecto a ese
valor. Muy sensible a valores extremos.
– Centro de gravedad de los datos
• Mediana Es un valor que divide a las observaciones en dos grupos con el mismo
número de individuos (percentil 50). Si el número de datos es par, se elige la media
de los dos datos centrales.
– Mediana de 1,2,4,5,6,6,8 es 5
– Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
– Es conveniente cuando los datos son asimétricos. No es sensible a valores
extremos.
• Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!
Media poblacional ( ) :
= xi / N
N = Tamaño de la población
xi = Observaciones (datos) de la variable X.
Media muestral ( x ) :
x xi / n
x = Media muestral
n = Tamaño de la muestra
MEDIANA (Me)
Si n es impar : Me = X((n+1)/2)
Donde: X ((n+1)/2) = valor de la observación en el lugar (n+1)/2
(valor central)
Ejemplo:
• Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de
conocimiento. ¿Las notas serían las mismas en todos? Seguramente No.
– En alguna pregunta difícil, se duda entre varias opciones, y al azar se elige la mala
• Variabilidad por azar, aleatoriedad.
Medidas de dispersión
Miden el grado de dispersión (variabilidad) de los datos, independientemente de su
causa.
0.05
Mín. P25 P50 P75 Máx.
0.04
Diferencia entre observaciónes extremas.
– 2,1,4,3,8,4. El rango es 8-1=7
0.03
– Es muy sensible a los valores extremos.
25% 25% 25% 25%
0.02
Rango intercuartílico
• Rango intercuartílico (‘interquartile range’):
0.01
– Es la distancia entre primer y tercer cuartil. Rango
0.00
• Rango intercuartílico = P75 - P25
– Parecida al rango, pero eliminando las observaciones150más extremas
160 inferiores
170 180 y 190
superiores.
1
S ( xi x )
2 2
n i
‘estética’ de la varianza.
40
DM = | xi - |/N
DM = | xi - x |/n
x = media muestral
n = tamaño de la muestra
VARIANZA Y DESVIACION ESTANDAR
REGLA EMPIRICA
Tomando como referencia la curva de la Distribución
normal, se espera que de un conjunto de observaciones,
un porcentaje de ellas “caiga”en el intervalo x + ks, donde:
K = 1,2,3,......
Entre x + s se encuentra 68.27% de las observaciones
Entre x + 2s se encuentra 95.45% de las observaciones
Entre x + 3s se encuentra 99.73% de las observaciones
Entre x + 4s se encuentra 99.99% de las observaciones
68.27%
x-s x x+s
95.45%
x - 2s x x + 2s
USOS DE LA DESVIACION ESTANDAR
EJEMPLO
Se observa que los pagos por energía eléctrica en un
área residencial, para un mes determinado, tienen una
distribución normal. Si se determina que la media de
los consumos es de S/. 8,400, con una desviación
estándar de S/. 2,400, entonces puede concluirse que:
• Aproximadamente el 68% de las cuentas por
consumo de Energía eléctrica se encuentra a no más
de S/. 2,400 de la Media, es decir entre S/. 6,000 y S/.
10,800.
• Aproximadamente, 95% de las cuentas, se
encuentran a no más de S/. 4,800 de la media, es
decir, entre S/. 3,600 y S/. 13,200.
PARTE 1
Introducción
Población Muestra
¿Qué es una muestra?
Estrategia que:
- implica la recolección de datos sobre
algunas
o todas las unidades de la población sujeta
a
estudio
- emplea conceptos, métodos y
procedimientos
bien definidos
- resume la información en forma útil.
CRITERIOS PARA ACEPTAR UN METODO
DE MUESTREO
a
donde:
Es un parámetro
E (aˆ ) a
siendo :
E (aˆ ) aˆ .P(aˆ )
MuestrasPosibles
La calidad de un estimador……………….
Donde:
medias V estimador
…………Continua metodología muestral
Probabilísticos
No Probabilísticos
Muestreo Probabilístico
Pocos recursos
Sin Base o “Marco” para la selección
No garantiza “representatividad”
Métodos de Muestreo No
Probabilísticos
Muestreo de voluntarios
Muestreo con intención o conveniencia
Muestreo por cuotas
Estudio o Encuesta por Muestreo
- un método de selección
- un método de estimación
- un método de cálculo de precisión
¿Qué es una Población?
De el depende:
De grupos jerárquico
- marco con distintos niveles donde sus
unidades son divisibles en unidades que
comprenden un marco en el siguiente nivel
(Ej.: marco compuesto por lista de
localidades, de los Radios en esas
localidades, de manzanas en esos Radios y
de Viviendas en esas Manzanas)
Distintas Poblaciones de la encuesta
Sub-cobertura
Sobre-cobertura
Duplicación
Información auxiliar incorrecta
Información de acceso incorrecta
Propiedades deseables para un Marco
Relacionadas a la calidad:
- completo
- estable
- fácil de actualizar
Propiedades deseables para un Marco
(cont.)
Relacionadas a la eficiencia:
- inclusión de información auxiliar
exacta y fácil de actualizar
- permita la selección de las unidades
muestrales
- calidad cartográfica
- fácil de procesar y manipular
PARTE 2
Definiciones y Terminología
•. . .
.
•Promedio muestral
• Parámetro
B)
Estimación Muestral
Parámetro
Tamaño de muestra de A menor que de B
Error
de
Cobertura
Error
Error
Muestral
no
Muestral
Probabilidad:
Probabilidad:
ˆ ( y1 y2 ... yn )
Pr omedio : y
n
(i Mn en la categ. C )
Pr oporción : pˆ
n
N
Total : tˆy ( y1 y2 ... yn )
n
Cómo se selecciona una muestra simple al
azar ?
2
1 f s
n
Cuando tendremos “buena” precisión?
dispersión
débil
2
1 f s
n
tasa de tamaño de
muestreo muestra
cercana a 1 grande
Qué es (1-f)?
2
s
DEˆ ( yˆ ) (1 f )
n
2
s
DEˆ (tˆ) N 2 (1 f )
n
pˆ (1 pˆ )
DEˆ ( pˆ ) (1 f )
n 1
Qué es el CV?
Es otro número o magnitud que en una
escala mas “popular” nos permite hablar de
la precisión en una estimación.
Su formulación permite relacionar en forma
relativa al DE y la estimación propiamente
dicha. CV=DE/estimación.
Este termómetro dice que las cosas andan
bien si el valor de CV es < 0.10 y que la cosa
está muy complicada (con respecto a la
precisión) si supera a 0.25
Qué son los márgenes de error?
Márgenes de Error
Márgenes de Error
Márgenes de Error
para tamaño A
Márgenes de Error
para tamaño B
Márgenes de Error para un mismo nivel de confianza (95%) pero con tamaños de
muestra distintos
Cómo se estima el “Margen de Error”
para una muestra con tamaño dado?
S
estimación 1.96
n
Qué es un “Intervalo de confianza” ?
(cont.)
• Precisión deseada
• Nivel de Riesgo
• Grado de homogeneidad
De qué depende el tamaño de una muestra?
De 3 elementos importantes:
Márgenes de Error
Es la dispersión de la variable en la
población.
Es una magnitud que señala cuán
diferentes son las unidades de la
población en la variable de estudio.
Varianza, desvío estándar, Rango
intercuartil, son elementos que dan idea
de esta magnitud.
Un dolor de cabeza para el muestrista !!!!!
Relación entre los elementos que
determinan el tamaño de una muestra
n tamaño
de la muestra
Znivel s Dispersión
Constante
c margen
de error
Y los costos o sea los $$$$ y los recursos ?
C C
N
n
N c2
1
Z 2S 2
a
N=Tamaño de la Población
c = Margen de error
Z= Constante asociada al nivel de riesgo (1.64 para el 10%
1.96 para 5%, 2.56 para 1%)
S= Desvío estándar de la variable en estudio
Qué fórmulas? (cont.)
NP(1 P) c
n con D
( N 1) D 2 P(1 P) Za
N=Tamaño de la Población
c = Margen de error
Z= Constante asociada al nivel de riesgo (1.64 para el 10%,
1.96 para el 5%, 2.57 para el 1%)
P= un valor a priori de la proporción a estimar
Qué fórmulas? (cont.)
TOTAL
MEDIA
LIMITES DE CONFIANZA
1. LIMITES DE CONFIANZA PARA ESTIMAR
LA MEDIA POBLACIONAL:
DESPEJANDO n:
SIENDO:
Qué pasa si no conozco nada de la
dispersión o desvío estándar?
Mín Máx
Qué pasa si no conozco nada de la
dispersión o desvío estándar? (cont.)
Mín Máx
Qué pasa si no conozco nada de la
dispersión o desvío estándar? (cont.)
Mín Máx
Pero ojo hay que tener cuidado !!!
1 2 3 N
Cómo estimo un total, un promedio y una
proporción? Y los errores?
Y: 0,0,...,0,1,1,...,1,...,99,...,99,100,100,...,100
y y
0-5 51-55
6-10 56-60
11-15 61-65
16-20 66-70
21-25 71-75
26-30 76-80
31-35 81-85
36-40 86-90
41-45 91-95
46-50 96-100
Regla de Dalenius-Hodges
Paso 2: calcula f(y) en cada intervalo
y f (y) y f (y)
0-5 3464 51-55 126
6-10 2516 56-60 107
11-15 2157 61-65 82
16-20 1581 66-70 50
21-25 1142 71-75 39
26-30 746 76-80 25
31-35 512 81-85 16
36-40 376 86-90 19
41-45 265 91-95 2
46-50 207 96-100 3
Regla de Dalenius-Hodges
Paso 3: se crea una variable con el valor
acumulado de la raiz cuadrada de f(y)
y f ( y) y f ( y)
Acum f ( y) Acum f ( y )
0-5 3464 58.9 51-55 126 340.3
6-10 2516 109.1 56-60 107 350.6
11-15 2157 155.5 61-65 82 359.7
16-20 1581 195.3 66-70 50 366.8
21-25 1142 229.1 71-75 39 373.0
26-30 746 256.4 76-80 25 378.0
31-35 512 279.0 81-85 16 382.0
36-40 376 298.4 86-90 19 386.4
41-45 265 314.7 91-95 2 387.8
46-50 207 329.1 96-100 3 389.5
Regla de Dalenius-Hodges
H H
Wh Yh Y h h
2 2
W S
PROP
GRMAS h 1
1 h 1
S2 S2
Cómo se calcula el tamaño de muestra?
n 1.962 h
c2
n 1.962 h
c2
Qué son los muestreos multietápicos (MM)?
La probabilidad de selección de la UE es el
producto de las p. de selección de las UM en
cada etapa
Y los muestreos por conglomerados (MC)?
2 (1 f I ) 2
ˆ
Estimador del error: DECONG (tˆCong1 ) M
2
st
m
i i
(T T ) 2
f m
st
2 I M
m 1
Qué es el coeficiente de homogeneidad?
2
S
1 yW
2
S y
Cómo solucionar las “ineficiencias”?
Controla costos
Incrementa el número de conglomerados
En lugar de considerar los Ti, se los estima
utilizando una muestra en los conglomerados
seleccionados
Se suma otra componente del error, la de la
segunda etapa
Qué es el Muestreo con Probabilidad
Proporcional al Tamaño? (PPT)
N
pk zk z
k 1 k
q=Tz/n=2000/2=1000
q0=69
Muestra: 69, 1069. Los elementos
seleccionados son
1 n yk
YˆHH 447619 510400 958019
n k 1 pk
La estimación del error es:
2
1 n
yk
var(YˆHH )
n(n 1) k 1 pk
YHH 3941453961
ˆ
Otras Fuentes de Error en Encuestas
1 N Pit
o tiempo t, se puede definir al índice It1,t N
i Pi
t1 que se lo puede
1 N
Pit
estimar por It1,t n Pt1 si la muestra es de tamaño n.
ˆ
i i
Iˆt1,t
Es evidente que, por construcción de , es necesario
constituir un panel de productos para poderlo estimar.