Vous êtes sur la page 1sur 20

PROYECTO COLABORATIVO

ESTADISTICA II
Contexto
A continuación, se tiene la información de la Gran Encuesta Integrada de Hogares
(GEIH), realizada por el DANE[1]. Esta encuesta se hace en las 13 ciudades
principales de Colombia (Bogotá, Medellín, Cali, barranquilla, Bucaramanga,
Manizales, Pasto, Pereira, Ibagué, Cúcuta, Villavicencio, Montería, Cartagena) y
11 ciudades intermedias (Tunja, Florencia, Popayán, Valledupar, Quibdó, Neiva,
Riohacha, Santa Marta, Armenia, Sincelejo, San Andrés). Esta encuesta, se
solicita información sobre las condiciones de empleo de las personas (si trabajan,
en qué trabajan, cuánto ganan, si tienen seguridad social en salud o si están
buscando empleo), además de las características generales de la población como
sexo, edad, estado civil y nivel educativo, se pregunta sobre sus fuentes de
ingresos. La GEIH proporciona al país información a nivel nacional, cabecera -
resto, regional, departamental, y para cada una de las capitales de los
departamentos.

Base de datos: en el archivo de Excel ( https://goo.gl/zB3Ntf ) se tiene información


sobre las características generales de las personas que respondieron en un mes
en particular. Para este trabajo colaborativo, realice lo siguiente:

Parte 1 (semana 3 - 5)

(semana 3) Selección de muestra

1. En ocasiones en que no es posible o conveniente realizar un censo (analizar a


todos los elementos de una población), se selecciona una muestra,
entendiendo por tal una parte representativa de la población. En ese sentido,
escoja un tipo de muestreo y argumente la viabilidad de esta técnica para la
base de datos dada. Para seleccionar una muestra debe tenerse en cuenta el
cómo seleccionar los elementos que formarán parte de la muestra (tipo de
muestreo) y cuántos elementos debemos seleccionar (Tamaño de muestra).

2. Utilizando la variable género P(6020) determine el tamaño de la muestra


seleccionando adecuadamente justificando:
a. Fórmula a desarrollar
b. Estimación de la proporción de mujeres
c. Nivel de confiabilidad
d. Error de estimación
(semana 4) Intervalo de confianza para dos variables numéricas
Un investigador, cree determinar que existen diferencias entre los niveles de
estudio de los hombres y las mujeres en Colombia. Para determinar lo anterior,
use la “muestra” encontrada en la semana 3:

1. Utilizando la variable escolaridad (ESC) y sexo (P6020), realice un


histograma para los hombres y mujeres. Según los resultados, ¿Existen
diferencias?
2. Asumiendo que los datos son normales, calcule un intervalo de confianza
del 95% para estimar, la escolaridad promedio de los hombres y de las
mujeres de forma individual, en los niveles de estudio de Bachiller,
Tecnólogo y Universitario.
3. Asumiendo que los datos son normales, calcule un Intervalo de confianza al
95% para estimar la diferencia promedio de escolaridad para los hombres y
mujeres, en los niveles de estudio de Bachiller, Tecnólogo y Universitario.

(semana 5) Prueba de hipótesis para dos variables cualitativas


Un investigador, cree determinar que los hombres asisten más a un colegio oficial
que las mujeres en Colombia. Para determinar lo anterior, use la “muestra”
encontrada en la semana 3:

1. Utilizando la variable si actualmente asiste a un establecimiento oficial


(P6175) y sexo (P6020), realice un diagrama de barras comparativo para
los hombres y mujeres en un solo gráfico. Según los resultados, ¿Existen
diferencias?
2. Con un nivel de confianza del 95%, estime e interprete la proporción de
hombres y de mujeres que asisten a un establecimiento oficial.
3. Realice una prueba de hipótesis para determinar la afirmación del
investigador. Utilice un nivel de significancia del 5%. ¿Qué se puede decir
de lo anterior?

Parte 2 (Semana 5)

En esta semana, los integrantes del grupo Consolidar la información del Parte 1
en un archivo PDF con los soportes de excel, el cual debe ser subido en el Foro:
Desarrollo del trabajo colaborativo. Este archivo debe tener:

-Portada: Solo los estudiantes que participaron en el desarrollo de la actividad


(semana 3, 4 y 5)
-Objetivos
-Desarrollo de la actividad
-Conclusiones
-Referencias

Introducción
Objetivos
Desarrollo de la actividad

(semana 3) Selección de muestra

2. En ocasiones en que no es posible o conveniente realizar un censo (analizar a


todos los elementos de una población), se selecciona una muestra,
entendiendo por tal una parte representativa de la población. En ese sentido,
escoja un tipo de muestreo y argumente la viabilidad de esta técnica para la
base de datos dada. Para seleccionar una muestra debe tenerse en cuenta el
cómo seleccionar los elementos que formarán parte de la muestra (tipo de
muestreo) y cuántos elementos debemos seleccionar (Tamaño de muestra).

Dada la fórmula para el tamaño de muestra para la proporción en un muestreo


aleatorio simple para una población finita.
𝑁
𝑛=
𝑁−1
𝑛0 + 1
2
𝑍1−𝛼/2 ×𝑝×𝑞
con 𝑛0 = .
𝑒2
calculamos el tamaño de muestra con los siguientes datos
con:
𝑁 = 60356 ; 𝑒 = 0.03 ; asumiendo una proporción de mujeres de 𝑝 = 0.53,
entonces 𝑞 = 0.47 y con un nivel de confianza del 95% , el valor de de 𝑍 = 1.96,
asi que
1.962 ×0.53×0.47
𝑛0 = = 1068, por tanto,
0.032

60356
𝑛= = 1050
60356 − 1
+1
1068

RTA: se dio una pauta en el documento de un muestreo aleatorio simple,


observando que cada elemento de la población tiene la misma probabilidad de ser
elegido y este tipo de muestreo es muy utilizado en poblaciones finitas, en la que
un elemento que sea elegido no podrá ser seleccionada de nuevo. Además, se
dispone de un listado completo de los elementos de la población, por tanto, la
selección de la muestra aleatoria simple es muy sencilla.
3. Utilizando la variable género P(6020) determine el tamaño de la muestra
seleccionando adecuadamente justificando:
a. Fórmula a desarrollar
b. Estimación de la proporción de mujeres
c. Nivel de confiabilidad
d. Error de estimación

 Fórmula a desarrollar
 Estimación de la proporción de mujeres
 Nivel de confiabilidad
 Error de estimación

Como se mencionó en el punto 1 la fórmula para el tamaño de muestra para la


proporción, es nuestro caso la proporción de mujeres, es

El nivel de confiabilidad que tomaremos será del 95%, por lo que

Asumiremos un error de estimación

Como las proporciones por estratos es desconocida, asumiremos que la


proporción de mujeres en cada ciudad es

El peso de estrato se presenta en el siguiente cuadro.

Dpto Nh Wh
Antioquia 3651 0,0605
Atlántico 3355 0,0556
Bogotá, D.C. 2971 0,0492
Bolívar 3180 0,0527
Boyacá 1928 0,0319
Caldas 2451 0,0406
Caquetá 2346 0,0389
Cauca 2256 0,0374
Cesar 2540 0,0421
Chocó 2197 0,0364
Córdoba 2284 0,0378
Cundinamarca 800 0,0133
Huila 2573 0,0426
La Guajira 2696 0,0447
Magdalena 2985 0,0495
Meta 2398 0,0397
Nariño 2178 0,0361
Norte de
2723 0,0451
Santander
Quindio 2049 0,0339
Risaralda 2300 0,0381
Santander 2331 0,0386
Sucre 2731 0,0452
Tolima 2248 0,0372
Valle del Cauca 3185 0,0528
Total general 60356 1,0000

Vemos que , el tamaño total de la muestra población.

Con lo anterior el tamaño de muestra será de

Este tamaño de muestra se reduce al tamaño de muestra por muestreo aleatorio


simple, ya que asumimos que en cada estrato

Para determinar cuántas muestra por estrato de las 196 unidades total
considerando fijación proporcional se tiene que

A continuación se presenta el número de muestra por estrato.

Estratos Wh
Antioquia 0,0605 12
Atlántico 0,0556 11
Bogotá, D.C. 0,0492 10
Bolívar 0,0527 10
Boyacá 0,0319 6
Caldas 0,0406 8
Caquetá 0,0389 8
Cauca 0,0374 7
Cesar 0,0421 8
Chocó 0,0364 7
Córdoba 0,0378 7
Cundinamarca 0,0133 3
Huila 0,0426 8
La Guajira 0,0447 9
Magdalena 0,0495 10
Meta 0,0397 8
Nariño 0,0361 7
Norte de
0,0451 9
Santander
Quindio 0,0339 7
Risaralda 0,0381 7
Santander 0,0386 8
Sucre 0,0452 9
Tolima 0,0372 7
Valle del Cauca 0,0528 10
Total general 1,0000 196

Por tanto para Antioquia seleccionaremos 12 unidades atlántico 11 y así


sucesivamente.

(semana 4) Intervalo de confianza para dos variables numéricas

Un investigador, cree determinar que existen diferencias entre los niveles de


estudio de los hombres y las mujeres en Colombia. Para determinar lo anterior,
use la “muestra” encontrada en la semana 3:
1. Utilizando la variable escolaridad (ESC) y sexo (P6020), realice un histograma
para los hombres y mujeres. Según los resultados, ¿Existen diferencias?
2. Asumiendo que los datos son normales, calcule un intervalo de confianza del
95% para estimar, la escolaridad promedio de los hombres y de las mujeres
de forma individual, en los niveles de estudio de Bachiller, Tecnólogo y
Universitario.
3. Asumiendo que los datos son normales, calcule un Intervalo de confianza al
95% para estimar la diferencia promedio de escolaridad para los hombres y
mujeres, en los niveles de estudio de Bachiller, Tecnólogo y Universitario.
Dada la fórmula para el tamaño de muestra para la proporción en un muestreo
aleatorio simple para una población finita.
𝑁
𝑛=
𝑁−1
𝑛0 + 1
𝑍2 ×𝑝×𝑞
con 𝑛0 = 1−𝛼/2 .
𝑒2
calculamos el tamaño de muestra con los siguientes datos
con:
𝑁 = 60356 ; 𝑒 = 0.03 ; asumiendo una proporción de mujeres de 𝑝 = 0.53,
entonces 𝑞 = 0.47 y con un nivel de confianza del 95% , el valor de de 𝑍 = 1.96,
asi que
1.962 ×0.53×0.47
𝑛0 = = 1068, por tanto,
0.032

60356
𝑛= = 1050
60356 − 1
1068 + 1
Se toma 1050 observaciones, de la base de datos en EXCEL, realizamos la
selección aleatorias de las 1050 obsevaciones , en una columna generamos
60356 números aleatorios con la función aleatorio(), se procede ordenar de mayor
a menor los datos por estos numeros aleatorios y se elgine los primeros 1050
observaciones correspondientes a los 1050 números aleatorio más grandes ver
archivo adjunto de excel
Se muestra a continuación las primeras 10 obsevaciones de nuestra muestra solo
con las variables relevantes al trabajo, esto por cuestion de espacio de trabajo.

N_aleatorio P6020P6175 P6210 P6220 ESC


0.9999951 Mujer NA Superior o Universitario 16
universitaria
0.9999811 Hombre NA Superior o Técnico o 17
universitaria tecnológico
0.9999682 Mujer NA Básica secundaria (6o NA 7
- 9o)
0.9999639 Hombre Sí Básica primaria (1o - NA 2
5o)
0.9999589 Hombre Sí Superior o Bachiller 11
universitaria
0.9999463 Mujer Sí Básica primaria (1o - NA 3
5o)
0.9999283 Mujer No Superior o Técnico o 14
universitaria tecnológico
0.9999217 Mujer Sí Básica primaria (1o - NA 4
5o)
0.9999168 Hombre NA Básica primaria (1o - NA 5
5o)
0.9999015 Hombre NA Media (10o - 13o) Bachiller 11
Hombre Mujer
512 538
Hombre Mujer
48.76 51.24

La muestra está compuesta por 538 mujeres (51.24%) y 512 hombre (48.78%)
Para nuestra muestra, la escolaridad presenta practicamente la misma distribución
para hombres y mujeres. y podemos concluir que no existen diferencia en la
escolaridad entre hombres y mujeres.
2. Asumiendo que los datos son normales, calcule un intervalo de confianza del
95% para estimar, la escolaridad promedio de los hombres y de las mujeres
de forma individual, en los niveles de estudio de Bachiller, Tecnólogo y
Universitario.
Se presenta a continuación la distribución del nivel de estudio por género

Técnico o
/ Bachiller Ninguno Postgrado tecnológico Universitario Sum
Hombre 138 14 8 28 25 213
Mujer 133 12 11 45 35 236
Sum 271 26 19 73 60 449

En la tabla anterior se observa que hay 213 hombre y 236 mujeres , esto se debe
a que hay información incompleta, es decir , casillas vacias, por lo que no se
tienen en cuenta en los cálculos.
El promedio y la desviación tipica de la escolaridad para las mujeres de acuerdo al
mayor nivel de educativo respectivamente son.
Bachiller Ninguno Postgrado
11.43 10.00 17.91
Técnico o tecnológico Universitario
13.53 16.14
Bachiller Ninguno Postgrado
1.11 0.00 1.14
Técnico o tecnológico Universitario
1.25 0.88
El promedio y la desviación típica de la escolaridad para las hombres de acuerdo
al mayor nivel de educativo respectivamente son.
Bachiller Ninguno Postgrado
11.57 10.00 19.00
Técnico o tecnológico Universitario
13.82 16.20
Bachiller Ninguno Postgrado
1.24 0.00 2.00
Técnico o tecnológico Universitario
1.02 0.58

Los intervalos de confianza del 95% para la escolaridad de acuerdo al nivel de


estudios en hombres son:
a. Bachillerato
1.24 1.24
11.57 − 1.96 × ; 11.57 + 1.96 ×
√138 √138
(11.36; 11.78)
b. Técnico o tecnólogo

1.02 1.02
13.82 − 1.96 × ; 13.82 + 1.96 ×
√28 √28
(13.44; 14.20)
c. Universitario
0.58 0.58
16.20 − 1.96 × ; 16.20 + 1.96 ×
√25 √25
(15.98; 16.43)
Intervalos de confianza del 95% para la escolaridad de la mujeres de acuerdo al
nivel de estudio son:
a. Bachillerato

1.11 1.11
11.43 − 1.96 × ; 11.43 + 1.96 ×
√133 √133
(11.41; 11.45)
b. Técnico o tecnólogo

1.25 1.25
13.53 − 1.96 × ; 13.53 + 1.96 ×
√45 √45
(13.16; 13.90)
c. Universitario
0.88 0.88
16.14 − 1.96 × ; 16.14 + 1.96 ×
√35 √35
(15.85; 16.43)
3. Asumiendo que los datos son normales, calcule un Intervalo de confianza al
95% para estimar la diferencia promedio de escolaridad para los hombres y
mujeres, en los niveles de estudio de Bachiller, Tecnólogo y Universitario.
Aplicaremos la fórmula del cálculo de un intervalo de confianza para la diferencias
de medias para varianzas desconocidos pero iguales , ya que las desviaciones
fueron muy parecidas en cada nivel de estudio por género , ademas de tener
tamaños de muestras grandes en cada población, por lo que la diferencia es
aproxiamdamente y por tanto para muestras grandes la fórmula es.

1 1
(𝑥ℎ − 𝑥𝑚 ) ∓ 1.96 × √𝑆𝑝2 ( + )
𝑛ℎ 𝑛𝑚

𝑠ℎ2 (𝑛ℎ −1)+𝑠2 (𝑛𝑚 −1)


con 𝑆𝑝2 = 𝑛ℎ +𝑛𝑚 −2

a. Diferencia de la escolaridad a nivel de bachillerato.


1.242 (138 − 1) + 1.112 (133 − 1)
𝑆𝑝2 = = 1.388
138 + 133 − 2

1 1
(11.57 − 11.43) ∓ 1.96 × √1.388( + )
138 133

(−0.140; 0.421)
b. Diferencia de la escolaridad a nivel de ténico o tecnólogo.
1.022 (28 − 1) + 1.252 (45 − 1)
𝑆𝑝2 = = 1.364
28 + 45 − 2

1 1
(13.82 − 13.53) ∓ 1.96 × √1.364( + )
28 45

(−0.261; 0.841)
c. Diferencia de la escolaridad a nivel de univeritario.
0.582 (25 − 1) + 0.882 (35 − 1)
𝑆𝑝2 = = 0.593
25 + 35 − 2

1 1
(16.20 − 16.14) ∓ 1.96 × √0.593( + )
25 35

(−0.335; 0.455)
(semana 5) Prueba de hipótesis para dos variables cualitativas

Un investigador, cree determinar que los hombres asisten más a un colegio oficial
que las mujeres en Colombia.Para determinar lo anterior, use la “muestra”
encontrada en la semana 3:
1. Utilizando la variable si actualmente asiste a un establecimiento oficial
(P6175) y sexo (P6020), realice un diagrama de barras comparativo para los
hombres y mujeres en un solo gráfico. Según los resultados, ¿Existen
diferencias?
2. Con un nivel de confianza del 95%, estime e interprete la proporción de
hombres y de mujeres que asisten a un establecimiento oficial.
3. Realice una prueba de hipótesis para determinar la afirmación del
investigador. Utilice un nivel de significancia del 5%. ¿Qué se puede decir de
lo anterior?

N_aleatorio P6020 P6175 P6210 P6220 ESC


0.9999951 Mujer NA Superior o Universitario 16
universitaria
0.9999811 Hombre NA Superior o Técnico o 17
universitaria tecnológico
0.9999682 Mujer NA Básica secundaria (6o NA 7
- 9o)
0.9999639 Hombre Sí Básica primaria (1o - NA 2
5o)
0.9999589 Hombre Sí Superior o Bachiller 11
universitaria
0.9999463 Mujer Sí Básica primaria (1o - NA 3
5o)
0.9999283 Mujer No Superior o Técnico o 14
universitaria tecnológico
0.9999217 Mujer Sí Básica primaria (1o - NA 4
5o)
0.9999168 Hombre NA Básica primaria (1o - NA 5
5o)
0.9999015 Hombre NA Media (10o - 13o) Bachiller 11
1. Utilizando la variable si actualmente asiste a un establecimiento oficial
(P6175) y sexo (P6020), realice un diagrama de barras comparativo para los
hombres y mujeres en un solo gráfico. Según los resultados, ¿Existen
diferencias?
Para la comparación realizamos las tablas cruzadas (con las frecuencias y sus
porcentajes por género) con las variables asistencia a un establecimiento público y
Sexo
Frecuencia

/ No Sí
Hombre 49 136
Mujer 41 115

Porcentaje por género

/ No Sí
Hombre 26.49 73.51
Mujer 26.28 73.72

Gráfico de barra comparativo

La distribución de la variable asistencia a un establecimiento público , es muy


similar por género , lo que es un indicio de que no existe diferencias por género,
en asistir a un colegio público.
2. Con un nivel de confianza del 95%, estime e interprete la proporción de
hombres y de mujeres que asisten a un establecimiento oficial.
Estimación de la proporción de hombres que asisten a un establecimiento oficial
0.7351 × 0.2649 0.7351 × 0.2649
0.7351 − 1.96 × √ ; 0.7351 + 1.96 × √
185 185

[0.6715; 0.7987]
La proporción de hombres que asisten a un establecimiento oficial se encuentran
entre 0.6715 (67.15%) y 0.7987 (79.87%) , con una confianza del 95%.
Estimación de la proporción de mujeres que asisten a un establecimiento oficial

0.7372 × 0.2628 0.7372 × 0.2628


0.7372 − 1.96 × √ ; 0.7372 + 1.96 × √
156 156

[0.6681; 0.8063]
La proporción de mujeres que asisten a un establecimiento oficial se encuentran
entre 0.6681 (66.81%) y 0.8063 (80.63%) , con una confianza del 95%.
3. Realice una prueba de hipótesis para determinar la afirmación del
investigador. Utilice un nivel de significancia del 5%. ¿Qué se puede decir de
lo anterior?
De acuerdo a la afirmación del investigador las hipótesis quedan planteadas de la
siguientes manera.
Planteamiento de las hipótesis
𝐻𝑜 : 𝑃1 > 𝑃2  𝑉𝑠 𝐻𝑎 : 𝑃1 ≤ 𝑃2
o equivalentemente.
𝐻𝑜 : 𝑃1 − 𝑃2 > 0 𝑉𝑠 𝐻𝑎 : 𝑃1 − 𝑃2 ≤ 0
Estadístico de prueba
𝑝1 − 𝑝2
𝑍=
𝑝1 𝑞1 𝑝2 𝑞2
√ 𝑛 + 𝑛
1 2

entonces,
0.7351 − 0.7372
𝑍=
√0.7351 × 0.2649 + 0.7372 × 0.2628
185 156
−0.0021
𝑍= = −0.044
0.0479
Críterio de decisión
Si 𝑍 > 𝑍0.05 se rechaza la hipótesis nula, ahora bien el valor de 𝑍0.05 = 1.645,
Dado que el valor de Z es menor a 1.645, No se rechaza la hipótesis nula , es
decir , no hay suficiente evidencia estadística , de que la proporción de hombre
que asisten a un establecimiento oficial es mayor al de las mujeres.

Conclusiones

1. Se optó por un muestreo aleatorio simple dado que se tenía el listado


completo, y el tamaño de muestra calculado fue de 1050 observaciones, La
muestra estuvo compuesta por 538 mujeres (51.24%) y 512 hombre
(48.78%).
2. El histograma presento similar distribución de la escolaridad por género,
evidenciando que no existe diferencias de la escolaridad por género.
3. El promedio de escolaridad en hombres por nivel de bachillerato, tecnólogo
y universitario fueron 11.57, 13.82 y 16.20 respectivamente y para la
mujeres fueron de 11.43, 13.53, y 16.14 respectivamente mostraron que no
existe diferencias de la escolaridad entre hombres y mujeres en estos
niveles de estudio .
4. El porcentaje de hombres y de mujeres que asisten a un establecimiento
oficial fuero de 73,51% y 73,72% y estas proporciones son
estadísticamente iguales, por lo que el porcentaje de hombres que asisten a
un establecimiento oficial no es mayor al porcentaje de mujeres que asisten
a estos establecimiento.
Referencias

 Levy, P. S. y Lemeshow, S., Sampling of Populations: Methods and


Applications, 3a. ed., Wiley, 1999.
 Levy, R. Rubin D. Estadística para la administración y economía, séptima
edición, Pearson Education. México ,2004.

 Anderson, D. Sweeny, D. Willian T. Estadística para la administración y


economía, 10a edición, CENGACE Learning. 2008.
ANEXOS

Vous aimerez peut-être aussi