Vous êtes sur la page 1sur 9

Universidad Tecnica Federico Santa Mara

Tarea Mat-042
Pablo Rodriguez Honores
Felipe Rojas Bravo
Valparaso - Abril 2013
Universidad Tecnica Federico Santa Mara Mat-042
Parte I
A partir de la informacion poblacional se obtiene una muestra de 300 unidades considerando todas las carac-
tersticas mencionadas. De las 10 posibles variables se consideran las siguientes:
Escala Nominal: casa propia (X
a
), automovil (X
b
).
Escala Ordinal: maximo nivel educacional alcanzado por el jefe de hogar (X
c
).
Caracterstica cuantitativa discreta: hijos (X
d
).
Escala intervalar: ingreso familiar (X
e
), gasto en alimentacion (X
f
), consumo energetico (X
g
).
Los datos seleccionados estan disponibles en el correo electronico enviado.
Parte II
1. Para la seleccion de la muestra obtenida se empleo un muestreo aleatorio simple. Para ello primero se enume-
raron los datos de 1 a 10000. Luego se obtuvieron 300 n umeros al azar en Mathematica mediante el comando
RandomInteger[10000,300]. Finalmente se escogieron los datos asociados a los n umeros obtenidos al azar.
En el archivo xls donde estan los datos seleccionados, la primera columna de la izquiera representa la nume-
racion asociada al dato y por lo tanto esa columna muestra el resultado obtenido en Mathematica.
La tecnica empleada es la mas idonea ya que la lista de la poblacion esta disponible y de facil acceso. Ademas
considerando que se trata de una poblacion compuesta de 10000 hogares, los elementos de la poblacion no pre-
sentan grandes variaciones entre posibles grupos naturales que pudiesen formarse (comparten la caracterstica
de que son hogares) y hay una delimitacion geograca.
2. Variable ingreso familiar: X
e
= 695, 969, S
e
= 146, 496 CV = 4, 75.
Variable ingreso gasto en alimentacion: X
f
= 149, 420, S
f
= 30, 957 CV = 4, 82.
Variable consumo energa electrica: X
g
= 149, 397, S
g
= 20, 778 CV = 7, 190.
La variable cuantitativa continua que posee menor variabilidad es X
e
, ingreso familiar. Para la construccion
de la tabla la Regla de Sturges indica que se debe trabajar con 9 clases.
Construccion de la tabla
Se tiene que
max{x
I
} = 1120, 22, min{x
i
} = 211, 78 R
D
= max{x
i
} min{x
i
} = 908, 44.
Amplitud a =
R
D
+u
k
, con u = 0, 01, k = 9 a = 100, 94.
R
T
= a k = 908, 46 y D = R
T
R
D
= 0, 02.
Lmite inferior L
I
= min{x
i
} D/2 = 211, 77.
La tabla es la siguiente
1
Universidad Tecnica Federico Santa Mara Mat-042
Frecuencia Frecuencia Acumulada
Tiempos Marca Clase Abs Rel Abs Rel
211,77 - 312,71 262,24 3 1 % 3 1 %
312,71 - 413,65 363,18 4 1, 33 % 7 2, 33 %
413,65 - 514,59 464,12 25 8, 33 % 32 10, 66 %
514,59 - 615,53 565,06 61 20, 33 % 93 31, 0 %
615,53 - 716,47 666,0 65 21, 66 % 158 52, 67 %
716,47 - 817,41 766,94 77 25, 66 % 235 78, 33 %
817,41 - 918,35 867,88 49 16, 33 % 284 94, 67 %
918,35 - 1019,29 968,82 14 4, 66 % 298 99, 33 %
1019,29 - 1120,23 1069,76 2 0, 66 % 300 100 %
a) Con los datos de los los ingresos mensuales se construye el siguiente graco
Figura 1: Histograma de Frecuencia
A simple vista se observa que los datos estan concentrados al centro, sin datos extremos. Ademas se percibe
una leve asimetra negativa, o sea hay una mayor frecuencia de datos hacia la derecha. Para complementar
esta informacion a priori se construye un histograma de frecuencia acumulada.
Figura 2: Histograma de Frecuencia Acumulada
2
Universidad Tecnica Federico Santa Mara Mat-042
Se observa que los mayores saltos se sit uan al centro de los datos mientras que hacia los costados las diferencias
entre clases son cada vez menores.
b) Para estos datos se obtuvieron los siguientes indicadores, calculados de forma agrupada:
Indicadores de Posicion
Media Aritmetica: X
e
= 696, 282
Mediana: M
e
= 704, 047
Moda: M
o
= 716, 770
Percentiles
P
5
= 445, 951, P
10
= 506, 515, P
25
= 585, 744, P
75
= 804, 301, P
90
= 889, 51, P
95
= 925, 56
Indicadores de Dispersion
Rango Modicado (50 % Central)= 218, 557
Rango Modicado (90 % Central)= 479, 609
Varianza: S
2
e
= 21939, 655 S
e
= 148, 120
Indicadores de Forma
Coeciente de Yule y Bowley: I
Y
= 0, 0128, I
S
= 0, 0826
Coeciente de Pearson: A
s
= 0, 157
Coeciente de Simetra de Fisher:
3
= 0, 176
Coeciente K
2
= 0, 922
Coeciente de Curtosis de Fisher:
4
= 0,09107
Datos a granel
Indicadores de Posicion
Media Aritmetica: X
e
= 695, 9693
Mediana: M
e
= 696, 25
Percentiles
P
5
= 461, 151, P
10
= 505, 998, P
25
= 599, 81, P
75
= 803, 755, P
90
= 890, 546, P
95
= 924, 989
Indicadores de Dispersion
Rango Modicado (50 % Central)= 203, 945
Rango Modicado (90 % Central)= 463, 838
Varianza: S
2
e
= 21146, 1473 S
e
= 145, 417
Indicadores de Forma
Coeciente de Yule y Bowley: I
Y
= 0, 0079, I
S
= 0, 054
Coeciente de Pearson: A
s
= 0, 0058
Coeciente de Simetra de Fisher:
3
= 0, 165
Coeciente K
2
= 0, 992
3
Universidad Tecnica Federico Santa Mara Mat-042
Coeciente de Curtosis de Fisher:
4
= 0,00362
c) Los datos en el intervalo X
e
2S
e
son 288, esto corresponde al 96 % de los datos. La desigualdad de
Tchevychev asegura que al menos

1
1
k
2

100 %
de los datos estan dentro de k desviaciones estandar de la media, es decir, en el intervalo
[X k S ; X +k S].
La desigualdad es valida para k > 1. En este caso k = 2, o sea la Desigualdad de Tchevychev indica que al
menos el (1 1/2
2
)100 % = 75 % de los datos se encuentran en el intervalo [X
e
2 S
e
; X
e
+ 2 S
e
] y la
desigualdad de Tchevychev se cumple.
d) Los indicadores de forma corroboran las observaciones a priori. Los coeciente de Yule y Bowley muestran
que hay una leve asimetra negativa en el centro de los datos. Para complementar a estos dos indicadores,
el Coeciente de Pearson tambien muestra una leve asimetra negativa en el total de los datos, ademas no
se observan a simple vista datos extremos en esta muestra para afectar a este incador. Ademas, gracias al
coeciente K
2
, se observa que los datos estan concentrados alrededor de puntos centrales, o sea se tiene una
curva leptoc urtica.
Claramente se observan diferencias numericas en todos los indicadores. Esto se debe a que al agrupar los
datos, se asume homogeneidad en cada clase para efectuar calculos numericos. Ademas hay errores de arrastre
por aproximaciones en cada operacion.
3. La variable continua que posee mayor variabilidad relativa es el consumo medio mensual en energa electrica
(X
g
). La variable en escala ordinal corresponde al maximo nivel educacional alcanzado por el jefe de hogar
(X
c
). La tabla de doble entrada para estas dos variables es:
Nivel Educacional
Consumo Energetico ($K) 0 1 2 3 4
81,2-95,5 0 1 0 0 1
95,5-109,8 0 1 3 1 0
109,8-124,1 1 11 10 3 2
124,1-138,4 4 24 21 9 4
138,4-152,7 1 12 22 17 10
152,7-167,0 0 13 25 18 20
167,0-181,3 0 0 20 9 21
181,3-195,6 0 0 3 4 6
195,6-209,9 0 0 0 2 1
a) Distribuciones Marginales de ambas variables:
4
Universidad Tecnica Federico Santa Mara Mat-042
Consumo Energetico ($K) Marginal Consumo Frecuencia Relativa
81,2-95,5 2 0,66 %
95,5-109,8 5 1,67 %
109,8-124,1 27 9,0 %
124,1-138,4 62 20,67 %
138,4-152,7 62 20,67 %
152,7-167,0 76 25,33 %
167,0-181,3 50 16,67 %
181,3-195,6 13 4,33 %
195,6-209,9 3 1,0 %
Maximo Nivel Educacional Marginal MNE Frecuencia Relativa
0 6 2 %
1 62 20,67 %
2 104 34,67 %
3 63 21,00 %
4 65 21,67 %
b) Medidas de resumen para el consumo energetico
Indicadores de Posicion
Media Aritmetica: X
e
= 149, 74
Mediana: M
e
= 150, 85
Moda: M
o
= 157, 705
Percentiles
P
10
= 121, 98, P
25
= 133, 56, P
75
= 165, 31, P
90
= 177, 30
Indicadores de Dispersion
Varianza= 453, 515
Coeciente de Variacion = 7,0314
Medidas de resumen para el maximo nivel educacional
Indicadores de Posicion
Moda=2
c) Distribucion condicional de la variable maximo nivel educacional con respecto a la clase de ingresos de
mayor frecuencia (n
i
= 76):
Maximo Nivel Educacional Ingresos entre [152,7 - 167,0] (K$) Frecuencia Relativa
0 0 0 %
1 13 17,11 %
2 25 32,89 %
3 18 23,68 %
4 20 26,32 %
5
Universidad Tecnica Federico Santa Mara Mat-042
4. La variable cuantitativa discreta corresponde a al n umero de hijos (X
d
) y la variable en escala intervalar no
utilizada hasta el momento es el gasto mensual en alimentacion (X
f
). La tabla de doble entrada asociada es:
N umero de hijos
Gasto en alimentacion ($K) 0 1 2 3 4 5
48,65-70,16 1 0 1 0 0 0 2
70,16-91,67 1 4 0 0 0 1 6
91,67-11,16 9 9 8 2 2 1 31
113,16-134,67 12 20 11 7 4 5 59
134,67-156,16 9 7 26 18 9 1 70
156,16-177,67 6 8 22 21 12 5 74
177,67-199,16 1 2 14 18 5 5 45
199,16-220,67 0 0 6 3 2 1 12
220,67-242,16 0 0 1 0 0 0 1
39 50 89 69 34 19 300
Calculo de la media
Primero se calcula la media condicionada a cada clase estraticadora.
X
f
|
0
= (59, 405 1 + 80, 905 1 +... + 188, 405 1)/39 = 129, 418
X
f
|
1
= (80, 905 4 + 102, 405 9 +... + 188, 405 2)/50 = 129, 065
X
f
|
2
= (59, 405 1 + 102, 405 8 +... + 231, 405 1)/89 = 155, 456
X
f
|
3
= (102, 405 2 + 123, 905 11 +... + 209, 905 3)/69 = 162, 543
X
f
|
4
= (102, 405 2 + 123, 905 4 +... + 209, 905 2)/34 = 158, 052
X
f
|
5
= (80, 905 1 + 102, 405 1 +... + 209, 905 1)/19 = 154, 458
Entonces la media total es
X
T
=
129, 418 39 + 129, 065 50 + 155, 456 89 + 162, 543 69 + 158, 052 34 + 154, 458 19
300
= 149, 533
Ahora se calcular la varianza que es la suma de la varianza intra y la varianza inter:
V
Intra
=
129, 418
2
39 + 129, 065

50 + 155, 456
2
89 + 162, 543
2
69 + 158, 052
2
34 + 154, 458 19
300
= 967, 374
V
Inter
=
39(129, 418 149, 533)
2
+ 50(129, 065 149, 533)
2
+... + 19(154, 458 149, 533)
2
300
= 181, 521
Luego V
total
= V
Inter
+V
Intra
= 181, 521+967, 374 = 1148, 895. La varianza intra entrega informacion sobre el
grado de dispersion al interior de las sub-muestras, mientras que la varianza inter mide el grado de dispersion
entre los estratos y la media total, o sea entrega informacion sobre la variabilidad entre los distintos estatos.
En este caso la mayor inuencia sobre la variabilidad total se produce por la variabilidad dentro de cada sub
muestra, ya que la variabilidad inter representa solo el 15, 8 % de la variabilidad total.
5. La variable en escala nominal: casa propia (X
a
). La variable cuantitativa discreta es la cantidad de hijos (X
d
).
La tabla de doble entrada asociada es:
6
Universidad Tecnica Federico Santa Mara Mat-042
Cantidad de hijos
Casa 0 1 2 3 4 5
0 19 24 42 31 11 4 131
1 20 26 47 38 23 15 169
39 50 89 69 34 19 300
Debido al tipo de escala de ambas variables se empleara la Estadstica Chi-Cuadrado. La matriz de frecuencia
de datos observados y esperados es
19 (17) 24 (22) 42 (39) 31 (30) 11 (15) 4 (8)
20 (22) 26 (28) 47 (50) 38 (39) 23 (19) 15 (11)
Entonces el calculo de estadstica
2
es:
(19 17)
2
17
+
(24 22)
2
22
+... +
(23 19)
2
19
+
(15 11)
2
11
= 6, 5748
Finalmente se calculan dos indicadores: el Coeciente de Tschuprow (T
2
) y el Coeciente de Cramer (V ):
T
2
=

2
n

(k 1)(r 1)
=
6, 5748
300

5
= 0, 0098
V =


2
n min{k 1 ; r 1}
=

6, 5748
300 1
= 0, 148
Los indicadores T
2
y V indican que las variables no presentan asociacion entre s. No obstante es importante
mencionar que se trata de indicadores conservadores y tienen un valor solo descriptivo. En el contexto del
problema, los indicadores muestran que en esta poblacion no hay relacion entre vivir en casa propia o no y la
cantidad de hijos que se tengan.
6. La matriz de varianzas y covarianzas para las variables x, y viene dada por

S
2
x
S
xy
S
yx
S
2
y

donde S
2
x
y S
2
y
son las respectivas varianzas y S
xy
= Cov(x, y) = S
yx
. Con estos datos se contruye la matriz
de correlaciones:

1 r
xy
r
yx
1

donde
r
xy
=
S
xy
S
x
S
y
.
Entonces primero se deben obtener las coecientes de correlacion entre las tres variables en escala intervalar
(de las 3 consideradas en Parte I), o sea X
e
, X
f
, X
g
.
Variables X
e
, X
f
:
V ar(X
e
) = 21461, 1473, V ar(X
f
) = 958, 347721
Cov(X
e
, X
f
)=4534,08347
Coeciente de Correlacion: 0,99977319
7
Universidad Tecnica Federico Santa Mara Mat-042
Variables X
e
, X
g
:
V ar(X
e
) = 21461, 1473, V ar(X
g
) = 431, 705006
Cov(X
e
, X
f
) = 3042, 76545
Coeciente de Correlacion:0,99965114
Variables X
f
, X
g
:
V ar(X
f
) = 958, 347721, V ar(X
g
) = 431, 705006
Cov(X
f
, X
g
)=642,971567
Coeciente de Correlacion: 0,99962399
Entonces se construye la matriz de correlaciones:

1 0, 99977319 0, 99965114
0, 99977319 1 0, 99962399
0, 99965114 0, 99962399 1

Se observa que la variable que presenta una mayor grado de asociacion lineal con la variable gasto en alimen-
tacion es la variable ingreso familiar. Luego, si x representa la variable ingreso familiar e y la variable gasto
en alimentacion, entonces la ecuacion lineal que predice la variable gasto es:
y = 149, 420433 + 0, 99977319

958, 3477205
21461, 1473
(x 695, 96933)
Referencias
[1] Apuntes de Clases.
[2] Probabilidad y Estadstica, George C Canavos.
[3] Probabilidad y Estadstica en Ingeniera Civil, McGraw-Hill.
8

Vous aimerez peut-être aussi