Vous êtes sur la page 1sur 16

Parte 1 (semana 3 - 5)

(Semana 3) Selección de muestra


En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los
elementos de una población), se selecciona una muestra, entendiendo por tal una parte
representativa de la población. En ese sentido, escoja un tipo de muestreo y argumente la
viabilidad de esta técnica para la base de datos dada. Úselo como herramienta para elegir
una muestra representativa.

 Procedimiento de muestreo

1. Utilizando la estrategia de muestreo completamente al azar sin remplazo (MAS) y


con el método de selección Fan Müller se selecciona una muestra representativa
para las variables. Como la población es finita, es decir conocemos el total de la
población y deseásemos saber cuántos del total tendremos que estudiar la fórmula
sería:

𝑵𝒁𝟐 𝒑𝒒
𝒏 = (𝑵−𝟏)𝑬𝟐 +𝒁𝟐 𝑷𝒒

Donde, se tiene lo siguiente:


𝑁= Total de la población
Z= el cuantil de la distribución normal estándar al nivel de significancia que se establezca.
𝑝 = proporción esperada (0.5)
𝑞 = 1 – p (en este caso 1-0.5 = 0.5)
E : precisión (en este caso use un 3%=0.03).
Para calcular el tamaño de la muestra, utilice un nivel de confianza del 99%
Para la base de datos se tienen:
𝑁 = 60356
𝑃 = 0.5
𝑞 = 0.5
𝑍𝛼/2 = 2.58

𝐸 = 0.03
Remplazando los datos en la ecuación 1 se tiene la estimación del tamaño de la muestra
(60356)(2.58)2 (0.5)(0.5)
𝑛= = 1078
(60356 − 1)(0.03)2 + (2.58)2 (0.5)(0.5)
Teniendo en cuenta los resultados anteriores, realicemos una selección de elementos para
una muestra, utilizando el algoritmo del coordinado negativo.

Veamos la implementación del algoritmo del coordinado negativo. Para realizar una
selección de elemento para una muestra.

Para extraer la muestra de tamaño n de un universo de N objetos.

 Generar N realizaciones de una variable aleatoria 𝜀𝑘 (k ∈ U) con distribución


uniforme (0,1).
 Asignar 𝜀𝑘 al elemento k-´esimo de la población.
 Ordenar la lista de elementos descendente (o ascendentemente) con respecto a
este número aleatorio 𝜀𝑘 .
 A continuación, seleccionar los n primeros (o los n últimos) elementos. Esta
selección corresponde a la muestra realizada.
Teniendo en cuenta los pasos del algoritmo se tiene la selección de elementos de la
muestra

A continuación veamos algunas imágenes de la selección de los elementos de la muestra


utilizando el método de selección de coordinado negativo.
2. Utilizando la variable género P(6020) determine el tamaño de la muestra seleccionando
adecuadamente y justificando:
a. Fórmula a desarrollar
En este caso utilizando la ecuación (1) y los resultados se tiene que la estimación del
tamaño de la muestra para la variable genero P (6020).
𝑵𝒁𝟐 𝒑𝒒
𝒏 = (𝑵−𝟏)𝑬𝟐 +𝒁𝟐 𝑷𝒒=1078
Luego para esta variable seleccionada se tiene la selección adecuada y las siguientes
imágenes.
a. Estimación de la proporción de mujeres
La estimación de la proporción de las mujeres para la variable seleccionada viene dada de la
siguiente manera.

𝑋 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑚𝑢𝑗𝑒𝑟𝑒𝑠
𝑝̂ =𝑛=𝑛𝑢𝑚𝑒𝑟𝑜𝑠 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑜𝑠

En este caso se tiene que X =593, n =1078, de donde


593
𝑝̂ =1078=0.5510≈0.55

b. Nivel de confiabilidad
El nivel de confianza es 95% es decir α=0.05
c. Error de estimación
El error de estimación en este caso es 2.7%+++++++++ de error de la muestra la cual se
calcula por la ecuación (𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎)(𝑝̂ )= (0.05)(0.55)=0.027=2.75%

(Semana 4) Intervalo de confianza para dos variables numéricas


Un investigador, cree determinar que existen diferencias entre los niveles de estudio de los
hombres y las mujeres en Colombia. Para determinar lo anterior, use la “muestra”
encontrada en la semana 3:

 Utilizando la variable escolaridad (ESC) y sexo (P6020), realice un histograma para


los hombres y mujeres. Según los resultados, ¿Existen diferencias?

Veamos la siguiente tabla que resumen la escolaridad para los hombres y las
mujeres.

Escolaridad Hombres Mujeres


0 51 60
1 15 17
2 14 20
3 23 25
4 26 13
5 50 63
6 20 18
7 25 31
8 20 27
9 17 14
10 10 19
11 89 135
12 6 10
13 15 28
14 17 16
15 11 10
16 36 37
17 4 7
18 12 11
19 2
20 1
21 1 1
26 1
(en blanco) 25 27
Total 487 593
general

(Tabla N: 1)
En la (Tabla N: 1) se observa escolaridad en cuanto a los hombres y las mujeres, nótese
que la escolaridad varia de 0 a 21 para hombre 0 a 26 para las mujeres.

140

120

100

80
Hombres
60 Mujeres
40

20

(Grafico N: 1)
De la (Grafico N: 1) se puede concluir 89 hombres y 135mujeres tienen escolaridad 11,
seguidas por 50 hombres y 63 mujeres con escolaridad 5 y 51 hombre y 60 mujeres con
escolaridad 0. Por otro lado se puede observar que solamente 1 hombre y 1 mujer tienen
el nivel de escolaridad 21 y, solamente una mujer tiene el nivel de escolaridad más alto y
no hay hombre con ese nivel de escolaridad.

 Asumiendo que los datos son normales, calcule un intervalo de


confianza del 95% para estimar, la escolaridad promedio de los
hombres y de las mujeres de forma individual, en los niveles de estudio
de Bachiller, Tecnólogo y Universitario.

En este caso calculemos intervalos de confianza para estimar la escolaridad promedio para
las mujeres y hombre en cuanto a los niveles de bachiller tecnólogo y universitario.
A continuación veamos el resumen en la siguiente tabla para los hombres y mujeres que
si tienen escolaridad en este caso veamos sus niveles.

Niveles de estudios
Sexo Bachiller Técnico Universitario Total
Hombres 117 24 39 180
Mujeres 160 39 40 239
TOTAL 277 63 79 419

Ahora los intervalos de confianza requeridos son para la proporción.

Si X es el número de éxitos en n ensayos tipo Bernoulli con probabilidad


de éxito 𝜋 entonces un intervalo de confianza al (1 - 𝛼) 100% para 𝜋
está dado por

̂(𝟏−𝒑
𝒑 ̂) ̂(𝟏−𝒑
𝒑 ̂)
̂- 𝒛(𝜶) √
𝒑 ̂+ 𝒛(𝜶) √
≤ 𝝅 ≤𝒑
𝟐 𝒏 𝟐 𝒏

𝑋 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑥𝑖𝑡𝑜𝑠 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎


Donde 𝑝̂ = =
𝑛 𝑛𝑢𝑚𝑒𝑟𝑜𝑠 𝑑𝑒 𝑒𝑛𝑠𝑎𝑦𝑜𝑠

z𝛼 Es el Valor que deja un área de 𝛼/2 en la cola superior de la


2
distribución normal estándar.
Veamos para cada sexo
 HOMBRES

 Bachiller

En este caso se tiene que X =117n =180, de donde

𝑋 117
𝑝̂ = = =0.65
𝑛 180

Como se pide un intervalo al 95% entonces 𝛼 = 0.05 𝑍0.05/2 =1.96


Con estos datos se tiene

(0.65)(1−0.65) (0.65)(1−0.65)
(0.65)- (1.96)√ ≤ 𝜋 ≤ (0.65)+ (1.96)√ 180
180

0.58031≤ 𝜋 ≤ 0.7196

Estamos 95% confiados que la escolaridad promedio de los hombres. Con respecto
a nivel de escolaridad bachiller Está entre un 58% y un 71%.

 Técnico o Tecnólogo
En este caso se tiene que X =24, n =180, de donde

𝑋 24
𝑝̂ = = =0.13
𝑛 180

Como se pide un intervalo al 95% entonces 𝛼 = 0.05 𝑍0.05/2 =1.96


Con estos datos se tiene
(0.13)(1−0.13) (0.13)(1−0..13)
(0.13)- (1.96)√ ≤ 𝜋 ≤ (0.13)+ (1.96)√
180 180

0.055 ≤ 𝜋 ≤ 0.1791

Estamos 95% confiados que la escolaridad promedio de los hombres.


Con respecto a nivel de escolaridad técnico o tecnólogo Está entre un
5.5% y un 17.91%.
 Universitario

En este caso se tiene que X =39, n =180, de donde


𝑋 39
𝑝̂ = = =0.21
𝑛 180

Como se pide un intervalo al 95% entonces 𝛼 = 0.05 𝑍0.05/2 =1.96


Con estos datos se tiene
(0.21)(1−0.21) (0.21)(1−0.21)
(0.21)- (1.96)√ ≤ 𝜋 ≤ (0.21)+ (1.96)√
180 180

0.150 ≤ 𝜋 ≤ 0.269
Estamos 95% confiados que la escolaridad promedio de los hombres.
Con respecto a nivel de escolaridad Universitaria Está entre un 15% y
un 26.9%

 MUJERES

 Bachiller

En este caso se tiene que X =160, n =239, de donde

𝑋 160
𝑝̂ = = =0.66
𝑛 239

Como se pide un intervalo al 95% entonces 𝛼 = 0.05 𝑍0.05/2 =1.96


Con estos datos se tiene
(0.66)(1−0.66) (0.66)(1−0.66)
(0.66)- (1.96)√ ≤ 𝜋 ≤ (0.66)+ (1.96)√
239 239

0.59 ≤ 𝜋 ≤ 0.72

Estamos 95% confiados que la escolaridad promedio de Las mujeres. Con respecto
a nivel de escolaridad bachiller Está entre un 59% y un 72%.

 Técnico o Tecnólogo
En este caso se tiene que X =39, n =239*, de donde

𝑋 39
𝑝̂ = = =0.16
𝑛 239

Como se pide un intervalo al 95% entonces 𝛼 = 0.05 𝑍0.05/2 =1.96


Con estos datos se tiene
(0.16)(1−0.16) (0.16)(1−0.16)
(0.16)- (1.96)√ ≤ 𝜋 ≤ (0.16)+ (1.96)√
239 239

0.113 ≤ 𝜋 ≤ 0.2064
Estamos 95% confiados que la escolaridad promedio de las mujeres.
Con respecto a nivel de escolaridad técnico o tecnólogo Está entre un
11.3% y un 20.64%.

 Universitario

En este caso se tiene que X =40, n =239, de donde


𝑋 40
𝑝̂ = = =0.16
𝑛 239

Como se pide un intervalo al 95% entonces 𝛼 = 0.05 𝑍0.05/2 =1.96


Con estos datos se tiene
(0.16)(1−0.16) (0.16)(1−0.16)
(0.16)- (1.96)√ ≤ 𝜋 ≤ (0.16)+ (1.96)√
239 239

0.113 ≤ 𝜋 ≤ 0.2064

Estamos 95% confiados que la escolaridad promedio de las mujeres.


Con respecto a nivel de escolaridad Universitaria Está entre un 11.3%
y un 20.64%.
 Asumiendo que los datos son normales, calcule un Intervalo
de confianza al 95% para estimar la diferencia promedio de
escolaridad para los hombres y mujeres, en los niveles de
estudio de Bachiller, Tecnólogo y Universitario.

En este caso calculemos intervalos de confianza para estimar la


diferencia de escolaridad para las mujeres y hombre en cuanto a los
niveles de bachiller tecnólogo y universitario.

En este caso dicha estimación corresponde a un intervalo de confianza


para la diferencia de proporción

Un intervalo de confianza al (1 - 𝛼) 100% para 𝜋1 − 𝜋2 está dado por


𝑝 𝑝 𝑝 𝑝
(𝑝1 − 𝑝2 ) - 𝒛(𝜶) √𝒏1 + 𝒏2 ≤ 𝜋1 − 𝜋2 ≤ (𝑝1 − 𝑝2 ) + 𝒛(𝜶) √𝒏1 + 𝒏2
𝟐 𝟏 𝟐 𝟐 𝟏 𝟐

Donde z𝛼 Es el Valor que deja un área de 𝛼/2 en la cola superior de


2
la distribución normal estándar.

𝑋 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑥𝑖𝑡𝑜𝑠 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 1


𝑝1 = 1 =
𝑛1 𝑛1
𝑋 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑥𝑖𝑡𝑜𝑠 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 2
𝑝2 = 2 =
𝑛2 𝑛12

Ahora veamos para diferentes tipos de escolaridad los intervalos de


confianza para hombres y mujeres.

 Hombres y mujeres
 Bachiller

Donde se tiene:
𝑋1 117
𝑝1 = = =0.65
𝑛1 180
𝑋2 160
𝑝2 = = =0.66
𝑛2 239

0.65 0.66 0.65 0.66


(0.65 − 0.66) - (𝟏. 𝟗𝟔)√ 𝟏𝟖𝟎 + 𝟐𝟑𝟗 ≤ 𝜋1 − 𝜋2 ≤ (0.65 − 0.66) + (𝟏. 𝟗𝟔)√ 𝟏𝟖𝟎 + 𝟐𝟑𝟗

-0.16 ≤ 𝜋1 − 𝜋2 ≤ 0.14

Por lo tanto un intervalo de confianza para la diferencia promedio de e


scolaridad para los hombres y mujeres, en los niveles de estudio de Ba
chiller es de -0.16 y 0.14

 Hombres y mujeres
 Técnico y tecnólogo
Donde se tiene:
𝑋1 24
𝑝1 = = = 0.13
𝑛1 180
𝑋2 39
𝑝2 = = =0.16
𝑛2 239

0.13 0.16 0.13 0.16


(0.13 − 0.16) - (𝟏. 𝟗𝟔)√ 𝟏𝟖𝟎 + 𝟐𝟑𝟗 ≤ 𝜋1 − 𝜋2 ≤ (0.13 − 0.16) + (𝟏. 𝟗𝟔)√ 𝟏𝟖𝟎 + 𝟐𝟑𝟗

-0.1031 ≤ 𝜋1 − 𝜋2 ≤ 0.04311

Por lo tanto un intervalo de confianza para la diferencia promedio de e


scolaridad para los hombres y mujeres, en los niveles de estudio técnic
o y tecnólogo es de -0.1522287 y 0.1034482

 Hombres y mujeres
 Universitario

Donde se tiene:
𝑋1 39
𝑝1 = = = 0.21
𝑛1 180
𝑋2 40
𝑝2 = = = 0.16
𝑛2 239

0.21 0.16 0.21 0.16


(0.21 − 0.16) - (𝟏. 𝟗𝟔)√ 𝟏𝟖𝟎 + 𝟐𝟑𝟗 ≤ 𝜋1 − 𝜋2 ≤ (0.21 − 0.16) + (𝟏. 𝟗𝟔)√ 𝟏𝟖𝟎 + 𝟐𝟑𝟗

-0.033 ≤ 𝜋1 − 𝜋2 ≤ 0.133

Por lo tanto un intervalo de confianza para la diferencia promedio de e


scolaridad para los hombres y mujeres, en los niveles de estudio unive
rsitario es de -0.033 y 0.133

(Semana 5) Prueba de hipótesis para dos variables nominales


Un investigador, cree determinar que los hombres asisten más a un colegio oficial que las
mujeres en Colombia. Para determinar lo anterior, use la “muestra” encontrada en la
semana 3:

 Utilizando la variable si actualmente asiste a un establecimiento oficial (P6175) y


sexo (P6020), realice un diagrama de barras comparativo para los hombres y
mujeres en un solo gráfico. Según los resultados, ¿Existen diferencias?

Veamos en la siguiente tabla el resultado de la asistencia a un establecimiento


público o no para las mujeres y hombre.

Asistencia Hombres Mujeres

SI 134 127

NO 31 44

Vacío 322 420


TOTAL
487 591
(Tabla N: 3)

150

100 SI
NO
50

0
Hombres Mujeres

(Grafico N: 2)

Del diagrama de barras para (P6175) y (P6020) Se puede observar que existe diferencia
en cuanto a la asistencia por parte de los hombres y mujeres a establecimientos
oficiales de 134 Y 127 respectivamente. Por otro lado podemos observar que en la no
asistencia por parte de los hombres y mujeres hay diferencias, es decir 44 mujeres no
están asistiendo a un establecimiento oficial respecto al total de mujeres, mientras que
31 hombres no están asistiendo a dicho establecimiento oficial respecto al total de
hombres.

 Con un nivel de confianza del 95%, realice una estimación de los hombres y de las
mujeres que asisten a un establecimiento oficial.

En este caso dicha estimación corresponde a un intervalo de confianza para la proporción

Si X es el número de éxitos en n ensayos tipo Bernoulli con probabilidad de éxito 𝜋 entonces


un intervalo de confianza al (1 - 𝛼) 100% para 𝜋 está dado por

̂(𝟏−𝒑
𝒑 ̂) ̂(𝟏−𝒑
𝒑 ̂)
̂- 𝒛(𝜶) √
𝒑 ̂+ 𝒛(𝜶) √
≤ 𝝅 ≤𝒑
𝟐 𝒏 𝟐 𝒏

𝑋 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑥𝑖𝑡𝑜𝑠 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎


Donde 𝑝̂ =𝑛= 𝑛𝑢𝑚𝑒𝑟𝑜𝑠 𝑑𝑒 𝑒𝑛𝑠𝑎𝑦𝑜𝑠

y z 𝛼/2 el valor que deja un área de 𝛼/2 en la cola superior de la distribución normal
estándar.
En este caso se tiene que X =134, n =165, de donde

𝑋 134
𝑝̂ =𝑛= 165 =0.8121≈0.81

Como se pide un intervalo al 95% entonces 𝛼 = 0.05 𝑧0.05/2=1.96


Con estos datos se tiene

(0.81)(1−0.81) (0.81)(1−0.81)
(0.81)- (1.96)√ ≤ 𝜋 ≤ (0.81)+ (1.96)√
165 165

0.7501 ≤ 𝜋 ≤ 0.8698
Estamos 95% confiados que el porcentaje de los hombres que asisten a un establecimiento
oficial. Está entre un 75.01% y un 86.98%.

Para el caso de las mujeres seria de forma análoga esto es

En este caso se tiene que X =127, n =171, de donde

𝑋 127
𝑝̂ =𝑛= 171 =0.7426≈0.74
Como se pide un intervalo al 95% entonces 𝛼 = 0.05 𝑧0.05/2=1.96
Con estos datos se tiene

(0.74)(1−0.74) (0.74)(1−0.746)
(0.74)- (1.96)√ ≤ 𝜋 ≤ (0.74)+ (1.96)√
171 171

≤ 𝜋 ≤ 0.8057
0.6742
Estamos 95% confiados que el porcentaje de los hombres que asisten a un establecimiento
oficial. Está entre un 67.42% y un 80.57%.

 Realice una prueba de hipótesis para determinar la afirmación del investigador.


Utilice un nivel de significancia del 5%. ¿Qué se puede decir de lo anterior?

En este caso estamos interesados en realizar una prueba de hipótesis sobre dos
proporciones. Que los hombres asisten más a un establecimiento oficial que las mujeres en
Colombia

Sea el juego de hipótesis

𝑝1 ≤ 𝑝2
{ 𝑣𝑠
𝑝1 > 𝑝2
Donde
𝑋1 134
𝑝̂1= = 165 =0.8121≈0.81
𝑛1
𝑋2 127
𝑝̂ 2 = = =0.7426≈0.74
𝑛2 171
𝑋 +𝑋 134+127
𝑃̂= 𝑛1+𝑛2 = =0.7767 = 0.78
1 2 165+171

El valor de la estadística de prueba es

𝑝̂1 −𝑝̂2 0.81−0.74


Z= 1 1
= 1 1
=1.63511
√𝑝̂(1−𝑝̂)(𝑛 +𝑛 ) √(0.81)(1−0.81)( + )
1 2 165 171

Con un nivel de significancia de 𝛼 = 0.05 𝑍𝛼 = 𝑍0.05 =1.64


Como el valor del estadístico de prueba Z=1.635 < 𝑍0.05=1.64 con un nivel de confianza
𝛼 = 0.05 No se rechaza la hipótesis nula H0, es decir que no hay suficiente evidencia para
concluir que la afirmación del investigador es la correcta.

Vous aimerez peut-être aussi