Académique Documents
Professionnel Documents
Culture Documents
15
Captulo 2
2.1 Introduccin.
Ejemplo 2.1. Supngase que ante la pregunta del nmero de hijos por familia
(variable X) una muestra de 20 hogares, marc las siguientes respuestas:
2, 1, 2, 4, 1, 3, 2, 3, 2, 0, 3, 2, 1, 3, 2, 3, 3, 1, 2, 4.
Grfico.
La representacin grfica ms comn para este tipo distribucin de frecuencias es el
diagrama de barras que consiste en trazar en cada valor distinto de la variable,
segmentos de lneas proporcionales a su frecuencia.
0
0 1 2 3 4
Nmero de hijos
las observaciones del nmero de pasajeros a bordo de 50 autobuses cuando salen del
terminal terrestre de castilla a los distintos distritos de la provincia de Piura, durante
la ltima semana de mayo de 2008. Los autobuses tienen 55 asientos cada uno y los
pasajeros adicionales deben viajar de pie.
56 42 59 50 38 46 45 49 57 48 47 53 48 39 55 51 50 51
64 48 45 40 56 51 52 46 51 47 48 31 49 42 54 50 51 47
56 46 53 58 41 50 49 52 48 55 45 35 36 43.
Solucin.
1. Debemos de determinar el rango ( R ) de variacin de los datos que se define por:
R = Xmax - Xmin
En nuestro ejemplo, tenemos:
Valor mnimo Xmin = 31
Valor mximo Xmx = 64
Luego el rango es R= 64 - 31= 33
2. Tenemos que calcular cuantas clases deben formarse?. Para eso se usa la frmula
de Sturges:
K 1 3.322 log n
donde:
K = nmero de clases
n = nmero de elementos en la muestra (tamao de la muestra).
Nota.- por razones extradas de la prctica, se adoptan los siguientes lmites para K.
5 K 15
R c K 5 7 35
Debemos repartir este exceso a los dos extremos del recorrido original, mitad a cada
lado, en este caso 1 a cada extremo. Sumamos el nmero 1 al valor mximo: 64 + 1 =
65 y restamos el nmero 1 al valor mnimo: 31 - 1 = 30.
30 35 40 45 50 55 60 65
Figura 2.2
sin embargo una dificultad se presenta cuando algunos de los datos coincide con
cualquiera de los puntos de divisin: 35, 40, 45, 50, 55 y 60.
Para aclarar est ambigedad adoptamos, el intervalo abierto por la izquierda que no
incluye al valor 30 (lmite inferior del intervalo) y cerrado por la derecha que incluye
al valor 35 (lmite superior del intervalo). Este tipo de intervalo se representa
matemticamente por: ( Yi1 Yi , donde Yi1 representa el lmite inferior del
intervalo y Yi representa el lmite superior.
Intervalo
de clases (30 - 35] (35 - 40] (40 - 45] (45 - 50] (50 - 55] (55 - 60] (60 - 65]
6. Es conveniente que todos y cada uno de los datos que se hallen dentro de un
mismo intervalo, estn representados por un mismo valor. Este valor caracteriza a la
clase y por eso se llama marca de clase, se obtiene promediando los lmites de cada
intervalo. Una formula para calcular la marca de clase de un intervalo es:
Yi1 Yi
Yi
2
Interpretacin.-
n2 = 4, significa que 4 autobuses tuvieron a bordo un nmero mayor de 35 pasajeros y menor
o igual a 40 pasajeros.
N4 = 31, significa que 31 autobuses tuvieron a bordo un nmero mayor que 30 y menor o
igual que 50 pasajeros, o tambin significa que 31 autobuses tuvieron a bordo un nmero
menor o igual a que 50 pasajeros.
h3 = 0.14, significa que el 14% de los autobuses tuvieron a bordo nmero mayor de 40
pasajeros y menor o igual a 45 pasajeros.
H5 = 0.86, significa que el 86% del total de autobuses tuvieron a bordo un nmero mayor que
30 y menor o igual que 55 pasajeros, o tambin significa que 86% del total de autobuses
tuvieron a bordo un nmero menor o igual a que 55 pasajeros.
N6 - N2 = 49 - 6 = 43 autobuses tuvieron a bordo un nmero mayor que 40 y menor o igual
que 60 pasajeros.
Ejercicio.
2. Una vez que los datos de la variable Y: Nmero de pasajeros a bordo, est clasificado en
intervalos de clases, utilizando el Software SPSS 12 proceda a recodificar los valores en
funcin de dichas categoras o intervalos de clases. Es decir, escogemos:
Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos (30 - 35] 2 4.0 4.0 4.0
(35 - 40] 4 8.0 8.0 12.0
(40 - 45] 7 14.0 14.0 26.0
(45 - 50] 18 36.0 36.0 62.0
(50 - 55] 12 24.0 24.0 86.0
(55 - 60] 6 12.0 12.0 98.0
(60 - 65] 1 2.0 2.0 100.0
Total 50 100.0 100.0
Comprubelo usted.
a) Histograma.
Es una representacin grfica de una distribucin de frecuencias agrupadas en
intervalos de clase, mediante una serie de rectngulos contiguos que tienen:
- sus bases sobre un eje horizontal y cuya longitud ser igual al tamao de los
intervalos de clase.
- Las alturas proporcionales a la frecuencia (absoluta o relativa).
Ejemplo 2.4. En una encuesta de opinin acerca de las preferencias de una marca de
bebidas gaseosas por sus colores: Negro (N), Blanco (B), Rojo (R), 20 consumidores
dieron las siguientes respuestas:
B, N, N, B, R, N, N, B, B, N, B, N, N, R, B, N, B, R, B, N.
Construir la distribucin de frecuencias.
Solucin.
La tabulacin de estos datos, donde la variable cualitativa es X: Color de bebida
gaseosa, es la distribucin de frecuencias de la tabla 2.3.
Tabla 2.3. Distribucin de personas por su color preferido de una marca de bebida gaseosa.
Ejercicio.
Grficos.
Los grficos ms comunes para la distribucin de frecuencias de variable cualitativa
son el de diagrama de rectngulos y el de sectores circulares.
10
8
N m ero de personas
0
BLANCO NEGRO ROJO
Color_bebida
Total 360o
Parte xo
BLANCO
NEGRO
ROJO
Figura 2.7. Diagrama de sectores circulares para los datos de la tabla 2.4.
En la seccin anterior estudiamos de que manera los datos podran ser presentados en
forma compacta, comprensible mediante tablas y grficos. Sin embargo, con
frecuencia necesitamos resumir an ms para facilitar el anlisis e interpretacin de
la informacin. Cuando la variable en estudio es cuantitativa, el investigador puede
estar interesado en encontrar un solo valor, que pueda caracterizar ms ntidamente la
naturaleza de los datos que se estn midiendo.
Un valor que refleje la tendencia de los datos puede darse mediante las medidas de
tendencia central o de posicin. Las ms importantes y muy usadas son: la media
aritmtica o media, la mediana, la media geomtrica y la media armnica. Tambin
podemos mencionar a los percentiles, etc. Estas medidas o estadgrafos son
considerados como medidas de localizacin, puesto que sealan la localizacin de
los valores ms frecuentes o de valores extremos.
a) Datos no agrupados.
Sea x1, x2,..., xn valores de la variable X. La media aritmtica simple de X
representada por X es dado por:
x i
donde n= es el tamao de la muestra.
X i 1
n
b) Datos agrupados.
Sean x1, x2,..., xk valores de la variable X ponderada por sus respectivas frecuencias
absolutas: n1, n2, ..., nk. La media aritmtica de la variable X es dado por:
x i ni k
, donde n n i .
X i 1
i 1
n
( Yi1 Yi Yi ni Yini
30 - 35 32.5 2 65
35 - 40 37.5 4 150
40 - 45 42.5 7 297.5
45 - 50 47.5 18 855
50 - 55 52.5 12 630
55 - 60 57.5 6 345
60 - 65 62.5 1 62.5
Total 50 2405
y i ni
2405 pasajeros por autobs.
Y i 1
48.1
n 50
Observacin .-
Si consideramos muestras de tamao n1, n2,...,nr de una poblacin, a los
cuales le corresponden medias aritmticas X1 , X 2 , ..., X r respectivamente,
entonces la media asociada a la muestra de tamao n 1 + n2 +...+ nr est dado
por:
r
X1 n 1 X 2 n 2 ... X r n r X i ni
X i 1
n 1 n 2 ... n r n
r
donde n n i .
i 1
Si p1, p2, ....,pr son los pesos o ponderaciones asociados a los valores de la
variable X: x1, x2, ...,xr respectivamente, entonces la media aritmtica ponderada
r
X1p1 X 2 p 2 ... X r p r
Xi pi
ser: X i1r
p1 p2 ... pr
p n
i 1
i
Ejemplo 2.8. Un examen de estadstica aplicada fue rendido por 40 alumnos de una
seccin A y 45 de una seccin B. En la seccin A se obtuvo un promedio de 11.8 y en
la seccin B su promedio fue de 12.5. Hallar la media aritmtica de las notas de
todos los estudiantes que rindieron el examen
Solucin.
Sea: n A = nmero de alumnos de la seccin A.
n B = nmero de alumnos de la seccin A.
Sea x la media aritmtica de las notas de todos los estudiantes que dieron la
prueba.
Entonces:
n A x A n B x B 40(11.8) 45(12.5)
x 12.17
nA nB 40 45
2.3.2. La Mediana.
La mediana es un valor que divide a un conjunto de observaciones ordenadas en
forma ascendente o descendente en dos grupos de igual nmero de observaciones. La
~
notacin que vamos a emplear ser: X Med(X) mediana
Clculo de la mediana
a) Datos no agrupados.
Para calcular el valor de la mediana de los datos x1, x2, ...,xn se tendr en cuenta el
siguiente procedimiento:
1) Se ordenan los datos en forma ascendente o descendente.
2) Si n es impar, el valor de la mediana es el valor del centro, es decir,
Me X (n 1) / 2
n 1
donde es la posicin de la mediana.
2
3) si n es par, el valor de la mediana va a estar dado por:
X n 2 X n 2 1
Me
2
Esto quiere decir, que el valor de la mediana se encuentra entre los valores cuya
posicin son: n/2 y (n/2+1).
Ejemplo 2.9. Las siguientes cifras son los importes del consumo (en soles) de 13
personas en un restaurante:
13, 15, 20, 20, 25, 35 25, 40, 44, 48, 50, 44, 30.
Determinar la mediana de estos importes.
Solucin.
Ordenando la informacin en forma ascendente, tenemos:
13, 15, 20, 20, 25, 25, 30, 35, 40, 44, 44, 48, 50.
Como el nmero de datos es impar (n = 13), se tiene que la posicin de la mediana
n 1 ~
es: 7 , luego la mediana de los importes es: X Med(x) soles
2
Esto significa que el 50% de las personas (es decir, 6 de ellos) tienen un importe
menor o igual que 30 soles y el 50% restante de las personas tienen un importe
mayor que 30 soles.
Solucin.
En este caso, n es par, por consiguiente la mediana se localiza entre los valores
centrales X5 y X6, es decir, entre los valores 9 y 14. Por tanto, el valor mediano de las
notas es:
9 14
Me 11 .5 minutos.
2
b) Datos agrupados.
En este caso el problema consiste en determinar un punto dentro del intervalo en que
est comprendida la mediana.
Procedimiento:
n
1. Calcular la posicin de orden .
2
2. Por las frecuencias acumuladas se identifica la clase que contiene a la mediana,
esto es, la clase para el cual se cumple:
n
N j1 Nj,
2
Con lo cual la mediana estar en la clase que tiene como frecuencia acumulada Ni.
3. Utilizar la formula:
n
N j1
~
X X j1 c 2
N j N j1
donde:
X j1 = lmite inferior de la clase que contiene a la mediana.
n = tamao de la muestra.
c = amplitud de la clase que contiene a la mediana.
Nj = frecuencia acumulada de la clase que contiene a la mediana.
Nj-1 = frecuencia acumulada de la clase inmediatamente anterior a la clase que
contiene a la mediana.
( Yi1 Yi Yi ni Ni
30 - 35 32.5 2 2
35 - 40 37.5 4 6
40 - 45 42.5 7 13
45 - 50 47.5 18 31
50 - 55 52.5 12 43
55 - 60 57.5 6 49
60 - 65 62.5 1 50
Total 50
n 50
1. 25 vo posicin
2 2
~ 25 13
X 45 5 48.33 Pasajeros.
31 13
Interpretacin. Este valor mediano significa, que el 50% de los autobuses tuvieron a
bordo un nmero menor o igual que 48.33 pasajeros, en tanto que el otro 50%
tuvieron a bordo un nmero mayor que 48.33 pasajeros.
Ventajas de la mediana.
1. Algunas veces es un valor ms representativo de un conjunto de datos que otros
promedios (por ejemplo, que la media aritmtica), gracias a su independencia, a
sus valores extremos.
2. La mediana se puede calcular an cuando los intervalos de clase de la
distribucin de frecuencias son de lmites abiertos.
Figura 2.8
Es importante notar que entre dos cuartiles consecutivos se halla el 25% del nmero
de valores.
Las formulas para calcular los cuartiles se derivan de la formula utilizada para
calcular la mediana y los pasos para el clculo son los mismos:
Procedimiento.
rn
1 . Se calcula , para r = 1, 2, 3.
4
2 . Se identifica la clase que contiene a Q r por medio de las frecuencias acumuladas,
esto es, por la desigualdad:
rn
N j1 Nj
4
3 . Se aplica la frmula:
rn
N j1
Q r X j1 c 4 r = 1, 2, 3.
N j N j1
Donde:
( Yi1 Yi Yi ni Ni
30 - 35 32.5 2 2
35 - 40 37.5 4 6
40 - 45 42.5 7 13
45 - 50 47.5 18 31
50 - 55 52.5 12 43
55 - 60 57.5 6 49
60 - 65 62.5 1 50
Total 50
Solucin.-
n 50 3 n 150
1. 12.5 vo ; 37.5 vo
4 4 4 4
2. Por las frecuencias acumuladas identificamos las clases que contienen a Q1 y Q3.
n
Como N 2 6 12.5 13 N 3 , entonces el intervalo de clases que contiene
4
3n
a Q1 es (40 - 45] y como N 4 31 37.5 43 N 5 , entonces el intervalo
4
de clases que contiene a Q3 es (50 - 55].
n
4 N2 12.5 6
Q1 X j1 c 40 5 44.64 pasajeros
N
3 N 2 13 6
3n
4 N4 37.5 31
Q 3 X j1 c 50 5 52.71 pasajeros.
N5 N4 43 31
3
0 Q1 = 44.64 Q2 = 48.33 Q3 = 52.71 65
2.3.4. Percentiles.
Son valores que dividen la muestra ordenada en forma ascendente o descendente en
100 partes iguales.
0% 1% 2% 50% 98% 99% 100%
Figura 2.9
Las formulas para determinar los percentiles, son parecidos a los cuartiles, as:
rn
N j1
Pr X j1 c 100 r = 1, 2, ... , 99
N j N j1
donde:
X j1 = lmite inferior de la clase que contiene a Pr , r = 1, 2, ..., 99.
n = tamao de la muestra.
c = amplitud de la clase que contiene a Pr.
Nj = frecuencia acumulada de la clase que contiene a Pr.
Nj-1 = frecuencia acumulada de la clase anterior a la clase que contiene a Pr.
Ejercicio.- Determinar los valores de los puntos percentiles 10 y 90, para los datos
del nmero de pasajeros a bordo, de la tabla 2.5 (pgina 23).
2.3.5. La Moda.-
La moda denotada por X M 0 , es un valor de la variable que tiene la ms alta
frecuencia, esto es, es el valor ms frecuente en un conjunto de datos. La moda puede
no existe, incluso si existe puede no ser nica.
X M 0 .......
Ejemplo 2.14. Considere la distribucin de los pesos (en kilos) de 15 adultos:
63, 67, 70, 69, 81, 57, 63, 73, 68, 63, 71, 71, 71, 83.
La moda de estas observaciones es:
X ....... kilos y X ....... kilos
Ejemplo 2.15. Las notas promocinales de 7 alumnos son: 15, 16, 17, 14, 13, 12, 11.
Estos datos No tienen moda. Las distribuciones de este tipo se llaman uniforme.
( Yi1 Yi Yi ni
30 - 35 32.5 2
35 - 40 37.5 4
40 - 45 42.5 7
45 - 50 47.5 18
50 - 55 52.5 12
55 - 60 57.5 6
60 - 65 62.5 1
Total 50
Solucin.
Este valor modal significa que: el nmero de pasajeros a bordo ms frecuente en los
autobuses es de 48 ; o tambin que la mayora de los autobuses tienen a bordo un
nmero de pasajeros igual a 48.
2.3.7. Percentiles.
Figura 2.10
rn
N j1
Pr X j1 c 100 r = 1, 2, ... , 99
N j N j1
donde:
Ejercicio. Determinar los valores de los puntos percentiles 10 y 90, para los datos del
nmero de pasajeros a bordo, de la tabla 2.5 (pgina 24).
Todos los valores representativos discutidos en las secciones precedentes han sido
una especie de promedio o medida de posicin. Sin embargo, el uso de un solo valor
para describir una distribucin oculta muchos fenmenos importantes. Por ejemplo,
dos grupos separados de datos pueden contener la misma media, pero un grupo
puede estar ms disperso o esparcido alrededor del valor promedio que el otro.
Por lo que es necesario una medida de la dispersin, esparcimiento o variacin para
ayudar ms completamente la distribucin. Mientras menor es la dispersin, ms
tpico es el valor de la media para toda la distribucin.
Las medidas de dispersin que se utilizan con mayor frecuencia son: la varianza, la
desviacin estndar y el coeficiente de variacin.
2.4.1. La varianza.-
Definicin 1. (Para datos no agrupados). La varianza de una muestra x1, x2, ..., xn
de la variable X, es dado por:
n
(x i x) 2
S2 i 1
n 1
Definicin 2. (Para datos agrupados). La varianza de los valores una muestra y1,
y2, ..., yk de Y con frecuencias absolutas n1, n2, ..., nk respectivamente, es dado por:
(y i y) 2 n i
V(Y) S 2 i 1
n 1
Observaciones.
(x i ) 2
2 i 1
N
donde N es el tamao de la poblacin.
1 n
i
x
S2 x i2 i 1
para datos no agrupados.
n 1 i 1 n
y
k
2
k xini
1
S2 x i2 n i i 1 n
n 1 i 1
para datos agrupados.
Solucin.
a) Clculo de la varianza.
10
x i
5 5 18 109 puntos.
x i 1
10.9
10 10 10
10
(x i x) 2
(5 10.9) 2 (5 10.9) 2 (18 10.9) 2 puntos al
S2 i 1
26.9889
10 1 9
cuadrado.
x
i 1
i 5 5 18 109 y x
i 1
2
i 5 2 5 2 182 1431
n
2
1 n 2
i 1
x
(109) 2
Luego: S2 x i i 1
1431 26.9889
n 1 i 1 n 9 10
( Yi1 Yi Yi ni (y i y) 2 (y i y) 2 ni
30 - 35 32.5 2 243.36 486.72
35 - 40 37.5 4 112.36 449.44
40 - 45 42.5 7 31.36 219.52
45 - 50 47.5 18 0.36 6.48
50 - 55 52.5 12 19.36 232.32
55 - 60 57.5 6 88.36 530.16
60 - 65 62.5 1 207.36 207.36
Total 50 2132
Y 48.1 pasajeros
n (y i i y) 2
2132 pasajeros a bordo al cuadrado.
S2 i 1
43.5102
n 1 49
Observacin.-
Si el C.V es menor del 10% se dice que hay poca dispersin;
Si el C.V oscila entre el 10% y el 33% la dispersin existente es aceptable;
Si el C.V oscila entre el 33% y el 50% se dice que hay alta dispersin;
Pero si el C.V es mayor del 50% se dice que la dispersin es muy alta.
Ejemplo 2.19. Calcular la dispersin relativa para los datos de la tabla 2.4 (pgina
24).
En efecto tenemos que Y 48.1 y S = 6.596226, entonces el C.V es:
6.596226
C.V 100 13.71%
48.1
Como el valor de C.V = 13.71% se encuentra entre 10% y 33%, indica que la
dispersin es aceptable.
Solucin.
Para ver en cul de las dos prueba hubo mayor variacin comparemos los
coeficientes de variacin de ambas pruebas.
9 6
C.V(A) 0.125 (12.5%) y C.V(B) 0.115 (11.5%)
72 52
Ejercicio. Las notas del curso A tuvieron una media aritmtica de 75 puntos y una
varianza de 225. Las del curso B, tuvieron una media de 70 puntos y una varianza de
196. Si en ambos cursos las notas se incrementaron en 10%, Cul de los dos cursos
tienen un coeficiente de variacin mayor despus de arreglar las notas?
Modalidades
o valores de X
= n
j 1
ij ni
x1 n11 n12 ... n1j ... n1q n1.
x2 n21 n22 ... n2j ... n2q n2.
... ... ... ... ... ... ...
xi ni1 ni2 ... nij ... niq ni.
... ... ... ... ... ... ...
xp np1 np2 ... npj ... npq np.
Totales verticales p q
p
n.1 n.2 ... n.j ... n.q
n n ij n
n ij n j
i 1 i 1 j1
donde:
nij = el nmero de veces que aparece repetido el par (xi, yj) y se llama frecuencia
absoluta del par (xi, yj) , i =1, 2, ..., p ; j =1, 2, ..., q.
q
n i n ij = suma total de las frecuencias absolutas n ij segn el ndice j, y se llama
j 1
frecuencia marginal del valor xi.
p
n j n ij = suma total de las frecuencias absolutas n ij segn el ndice i, y se llama
i 1
frecuencia marginal del valor yj.
p q
n
i 1 j1
ij n = suma de las frecuencias absolutas n ij observadas es igual al nmero de pares
observados, n.
Trabajador GradoTrabajador
de ReginGrado
de de Regin de
N instruccinN procedencia
instruccin procedencia
1 Superior 51 Secundaria
Costa Sierra
2 Primaria 52 Secundaria
Sierra Costa
3 Primaria 53 Secundaria
Selva Costa
4 Secundaria54 Secundaria
Selva Selva
5 Secundaria55 SelvaSuperior Selva
6 Secundaria56 CostaSuperior Costa
7 Superior 57 CostaSuperior Costa
8 Primaria 58 Superior
Sierra Sierra
9 Secundaria59 Secundaria
Selva Sierra
10 Secundaria60 Secundaria
Costa Costa
11 Superior 61 Secundaria
Sierra Selva
12 Superior 62 Superior
Sierra Costa
13 Primaria 63 CostaSuperior Sierra
14 Secundaria64 Secundaria
Selva Costa
15 Secundaria65 Secundaria
Selva Selva
16 Primaria 66 Secundaria
Selva Selva
17 Primaria 67 Secundaria
Sierra Costa
18 Primaria 68 Primaria
Sierra Selva
19 Secundaria69 SelvaSuperior Selva
20 Secundaria70 CostaSuperior Sierra
21 Secundaria71 Secundaria
Selva Costa
22 Secundaria72 Secundaria
Sierra Costa
23 Superior 73 CostaSuperior Costa
24 Superior 74 CostaSuperior Costa
25 Superior 75 Superior
Sierra Selva
26 Superior 76 Secundaria
Selva Sierra
27 Secundaria77 Secundaria
Costa Sierra
28 Secundaria78 SelvaPrimaria Sierra
29 Secundaria79 Secundaria
Sierra Costa
30 Superior 80 Secundaria
Costa Selva
31 Superior 81 CostaPrimaria Selva
32 Secundaria82 SelvaSuperior Sierra
33 Secundaria83 SelvaSuperior Costa
34 Secundaria84 Secundaria
Costa Costa
35 Secundaria85 secundaria
Costa Sierra
36 Primaria 86 Superior
Sierra Costa
37 Superior 87 Superior
Sierra Selva
38 Superior 88 CostaSuperior Sierra
39 Secundaria89 Secundaria
Selva Costa
40 Secundaria90 Secundaria
Costa Costa
41 Secundaria91 Primaria
Sierra Sierra
42 Superior 92 CostaSuperior Sierra
43 Superior 93 SelvaSuperior Selva
44 Primaria 94 SelvaSuperior Selva
45 Secundaria95 Secundaria
Costa Costa
46 Superior 96 Secundaria
Costa Selva
47 Superior 97 SelvaPrimaria Sierra
48 Secundaria98 Superior
Sierra Costa
49 Primaria 99 CostaSuperior Selva
50 Superior100 secundaria
costa Sierra
Se pide:
a) Construir una tabla de distribucin bidimensional.
b) La tabla de distribucin de frecuencias relativas.
c) La tabla de distribucin de las proporciones de los datos con relacin al total
de cada fila.
d) Hallar la distribuciones marginales de X e Y.
Solucin.
Tabla 2.8. Distribucin conjunta de las frecuencias de las variables, Grado de instruccin (X) y
Regin de procedencia (Y).
Regin de
Procedencia , Y
Grado de Sierra Selva
Costa Total
Instruccin, X
Primaria Completa 2 7 6
15
Secundaria Completa 20 10 17 47
Superior 18 9 11 38
40
Total 26 34 100
Fuente. Datos hipotticos
b)
Tabla 2.9. Distribucin conjunta de las proporciones (en porcentajes) con relacin al total
general de las variables, grado de instruccin (X) y regin de procedencia (Y).
Regin de
Procedencia , Y
Grado de Sierra Selva
Costa Total
Instruccin, X
Primaria Completa 2% 7% 6%
15%
20%
Secundaria Completa 10% 17% 47%
7
completa, h 12 100 100 7% de los empleados son de la Sierra y tienen
100
grado de instruccin primaria completa, etc.
c)
Tabla 2.10. Distribucin conjunta de las proporciones (en porcentajes) de trabajadores con
relacin a los totales de cada fila de las variables, grado de instruccin (X) y
regin de procedencia (Y).
Regin de
Procedencia , Y
Grado de Sierra Selva
Costa Total
Instruccin, X
Primaria Completa 13.3 % 46.7 % 40.0 %
100 %
42.6 %
Secundaria Completa 21.3 % 36.2 % 100 %
40.0 %
Total 26.0 % 34.0 % 100 %
n 11 2
As, podemos decir que 100 100 13.3 % de los empleados del
n 1 15
Ministerio de Agricultura, con primaria completa son de la costa,
n 12 7
100 100 46.7 % con primaria completa son de la Sierra y
n 1 15
n 13 6
100 100 40.0 % son de la selva.
n 1 15
Nmero de Proporcin de
Grado de instruccin empleados empleados hi.
X ni
Primaria completa 15 15 %
Secundaria Completa 47 47 %
Superior 38 38 %
Total 100 100 %
Tabla 2.12. Distribucin Marginal para Y.
Nmero de Proporcin de
Regin de procedencia empleados empleados h.j
Y nj
Primaria completa 40 40 %
Secundaria Completa 26 26 %
Superior 34 34 %
Total 100 100 %
X Y X Y
20 20 25 24
17 16 27 26
18 20 26 26
24 16 27 24
21 20 25 25
22 19 27 28
23 24 29 22
21 22 30 23
21 20 29 24
23 24 27 24
24 25 30 26
26 19 32 27
25 20 31 26
25 22 30 26
26 20 31 25
27 23 29 28
25 22 31 30
26 22 30 29
25 22 29 30
26 20 31 31
25 24 33 28
25 25 33 26
26 24 35 27
27 26 33 30
27 27 35 34
Se pide:
a) Construir la tabla de doble entrada para la variable bidimensional (X, Y).
b) Representar grficamente esta distribucin.
Solucin.
( 16 20 ] , ( 20 24 ] , ( 24 28 ] , ( 28 32 ] , ( 32 36 ]
Nota.
Una vez que los datos (las edades) para X e Y estn clasificados en intervalos de
clases, utilizando el Software SPSS 13 se procede a recodificar los valores en
funcin de dichas categoras o intervalos de clases. Es decir, escogemos:
Tabla 2.14
Tabla de contingencia Edad del padre * Edad de la madre
Recuento
Edad de la madre, Y
( 15 - 19 ] ( 19 - 23 ] ( 23 - 27 ] ( 27 - 31 ] ( 31 - 35 ] Total
Edad del ( 16 - 20 ] 1 2 0 0 0 3
padre, X ( 20 - 24 ] 2 3 3 0 0 8
( 24 - 28 ] 1 8 11 1 0 21
( 28 - 32 ] 0 2 6 5 0 13
( 32 - 36 ] 0 0 2 2 1 5
Total 4 15 22 8 1 50
Tabla 2.15
Regin de
Procedencia , Y
Grado de Sierra Selva
Costa Total
Instruccin, X
Primaria Completa 2 7 6 15
Secundaria Completa 20 10 17 47
Superior 18 9 11 38
Total 40 26 34 100
17
20
18
11
6
10
7
Figura 2.11
Ejemplo 2.24.
Tabla 2.16. PRINCIPALES INDICADORES DEMOGRAFICOS SEGN PAISES
DE AMERICA: 1988
Tasa Bruta de Tasa Bruta de Esperanza de vida
Pases Natalidad Mortalidad al nacer
(por mil hab.) (por mil hab.) (aos)
ARGENTINA 21 9 71
COLOMBIA 29 7 65
CHILE 24 6 72
MXICO 29 6 69
PER 34 9 62
VENEZUELA 30 5 70
80
70
60
50
40
30
20
Las barras compuestas (o apiladas), se caracterizan por presentar en una sola figura
geomtrica, datos cuyo conjunto forman un todo, mostrando la proporcin de cada
una de las partes con relacin al total. Se dibuja el diagrama de barras de una de las
series estadsticas y luego se contina las barras dibujadas con otras de distinto
sombreado o color que representaran la segunda serie estadstica. De esta forma,
cada barra tendr una altura, que ser la suma de las frecuencias del suceso que
representa la barra en la primera serie ms la frecuencia absoluta del suceso en la
segunda serie.
La diferencia con los grficos de barras simples, dobles o mltiples est en que todos
los datos estn representados en una sola barra, la cual est dividida en porciones,
que pueden representar tambin el peso porcentual de cada una de las partes con
relacin al 100% que forma la totalidad de ellas.
Regin de
50
Procedencia
Costa
45 Sierra
N m e r o d e e m p le a d o s
Selva
40
17
35
11
30
25 10
20
15
6
10 20
18
5 7
2
0
Primaria Secundaria Superior
Grado de Instruccin
Figura 2.13
Regin de
1,0
Procedencia
Costa
Sierra
Selva
0,8
P r o p o r c i n
0,6
0,4
0,2
0,0
Primaria Secundaria Superior
Grado de Instruccin
Figura 2.14
Las representaciones grficas son las mismas que el caso anterior. Adems puede
usarse las barras mltiples o tambin los grficos de lneas de partes
componentes.
Ejemplo 2.26. La distribucin de 284 personas segn el nivel de estudio por nmero
de hijos es la tabla 2.17.
Tabla 2.17
N de Hijos 1 2 4 ms Total
Nivel de 0 3
Estudios
Primaria Completa o menos 2 5 14 29 35 85
Secundaria Completa 5 24 37 40 30 136
Superior 10 15 30 6 2 63
Total 17 44 81 75 67 284
Figura 2.15