Académique Documents
Professionnel Documents
Culture Documents
1. ESTADISTICA BASICA
1.1 INTRODUCCION
Bajo condiciones ideales, a cualquier observador le gustara contar con todas las
observaciones que componen el universo, para poder observar el comportamiento de una
caracterstica relevante, o sea realizar un Censo. Esto es perfectamente factible siempre y
cuando se trate de poblaciones o universos manejables; En general las poblaciones son de
grandes dimensiones, por lo que se vuelve muy difcil en trminos prcticos, (sin
mencionar aspectos econmicos), la medicin de la variable relevante en todos los
elementos que componen el universo. Para ello existe la alternativa de tomar proporciones
ms pequeas del universo de tal manera de hacerlas mas manejables
1
Rodrigo Salas Apuntes de Estadstica
Puesto que prcticamente cualquier caracterstica de los objetos puede ser medida,
la definicin de variable es muy amplia, de tal manera que es prudente clasificar los
distintos tipos de variables; enunciemos las clasificaciones mas utilizadas
Una variable discreta es aquella que no admite valores intermedios entre los
distintos valores de la variable. Por ejemplo si se realiza una encuesta entre las familias de
un barrio cualquiera, que intente cuantificar el nmero de integrantes de cada una, la
variable podr adoptar valores como 2, 3, 4, etc. Sin embargo no es posible que una familia
est integrada por 2,5 personas, de tal manera que sin duda alguna el nmero de integrantes
de cada familia es una variable discreta.
2
Rodrigo Salas Apuntes de Estadstica
Preocupada por las metas planteadas por el nuevo Gobierno, la Ministra de salud se
decide a investigar el nmero de pacientes diarios que atiende la atencin primaria en la
actualidad. Para ello, la Ministra solicita al Jefe de la Direccin Regional Sur del
Ministerio, le entregue la informacin con respecto a las atenciones bsicas que presta el
Hospital Stero del Ro. El funcionario le despacha la siguiente informacin:
3
Rodrigo Salas Apuntes de Estadstica
40 42 45 38 45
41 42 45 42 41
39 37 35 40 43
40 44 35 42 41
37 38 37 42 41
39 43 45 45 37
40 41 43 35 45
Tal como fueron enviados los datos, no prestan mucha utilidad para efectos de
poder tomar las decisiones necesarias, que permitan eliminar las colas en los consultorios.
Es necesario ordenar la informacin.
35 35 35 37 37
37 37 38 38 39
39 40 40 40 40
41 41 41 41 41
42 42 42 42 42
43 43 43 44 45
45 45 45 45 45
Cada uno de los valores que adopta la variable recibe el nombre de clase, y se
denota m; en este caso m=9, por haber nueve valores distintos de la variable.
Sin embargo todava se pueden disponer los datos de mejor manera; para ello
construiremos el cuadro de distribucin de frecuencias para esta variable.
4
Rodrigo Salas Apuntes de Estadstica
La primera columna de esta tabla contiene los valores que adopta la variable o
clases; si bien es cierto en ninguno de los 35 das se atendieron 36 pacientes, para efectos
de la correcta tabulacin la tabla debe contener esta clase.
0 ni n
ni = n
Por otro lado, en el marco de una investigacin, muchas veces es mejor presentar la
informacin en trminos porcentuales. Para ello se calcula la tercera columna, la que recibe
ni
hi =
n
el nombre de columna de frecuencias relativas. La frecuencia relativa expresa
porcentualmente, la importancia de cada clase en relacin con el total de las observaciones
de la variable; cada frecuencia relativa se calcula utilizando la siguiente frmula:
As, se puede afirmar que 8,57% de los das el consultorio atiende 35 consultas.
5
Rodrigo Salas Apuntes de Estadstica
hi = 1
0 hi 1
Otra pregunta que suele surgir, al analizar datos, es cuantas de las observaciones son
menores o mayores que un determinado valor de la variable; para ello se calcula la columna
de frecuencias absolutas acumuladas. La frecuencia absoluta acumulada de una clase
determinada se calcula sumndole a su frecuencia absoluta, las frecuencias absolutas de
todas las clases anteriores. En el ejemplo, la frecuencia absoluta acumulada de la 4 clase es
9, y que proviene de la suma de su frecuencia(2) absoluta mas todas las anteriores (3, 0, 4).
SI a la Ministra de salud le interesara saber en cuantos das se atendi al menos a 40
pacientes, slo debe remitirse a la tabla y observar la frecuencia absoluta acumulada de ese
valor de la variable, en el ejemplo es 15.
Como Ud. ya podr intuir, las variables continuas tambin requieren de ser
ordenadas, para ser adecuadamente analizadas; El Ministerio de educacin realiza un
estudio para determinar el monto de las subvenciones anuales entregados a colegios de
Santiago. Para ello selecciona una muestra de 40 de ellos; los montos por subvencin son
los que a continuacin de se detallan (expresados en millones de pesos)
1
En el caso de las variables discretas, tambin puede tabularse la informacin en intervalos; Sin embargo la
tabulacin en intervalos se justifica sobre todo en la ordenacin de datos de variables continuas, puesto que
los valores que esta puede tomar son infinitos.
6
Rodrigo Salas Apuntes de Estadstica
7
Rodrigo Salas Apuntes de Estadstica
Por sus caractersticas en este apunte slo haremos referencia a un reducido nmero de
grficos. El lector podr encontrar una cantidad mayor de representaciones en un diario,
revista, o bien en programas computacionales como Excel, Q-pro, E-views, etc.
0,1429
5
0,1143
4
0,0857
3
0,0571
2
0,0286
1
0 35 36 37 38 39 40 41 42 43 44 45 Xi 0 35 36 37 38 39 40 41 42 43 44 45 Xi
En ambos casos el grfico resultante es una lnea que recibe el nombre de poligonal.
Para la construccin de polinomiales deben tomarse en cuenta las siguientes
recomendaciones:
8
Rodrigo Salas Apuntes de Estadstica
Siguiendo estas recomendaciones, se puede esperar que las personas que observan
el grfico den una adecuada interpretacin a los datos representados.
5 0,1429
4 0,1143
3 0,0857
2 0,0571
1 0,0286
Xi
0 35 36 37 38 39 40 41 42 43 44 45
El nico cambio en este grfico, es que a la derecha se agregan los valores de las
frecuencias relativas
Xi
0 35 36 37 38 39 40 41 42 43 44 45
9
Rodrigo Salas Apuntes de Estadstica
6 0,150 30 0,750
5 0,125 25 0,625
4 0,100 20 0,500
3 0,075 15 0,375
2 0,050 10 0,250
1 0,025 5 0,125
Xi Xi
0 6 7 8 9 10 11 12 13 14 15 0 6 7 8 9 10 11 12 13 14 15
6,5 7,5 8,5 9,5 10,5 11,5 12,5 13,5 14,5 6,5 7,5 8,5 9,5 10,5 11,5 12,5 13,5 14,5
ni ni
ial
nc
ne
po
ex
rva
Curva normal
Cu
Xi Xi
10
Rodrigo Salas Apuntes de Estadstica
Estadgrafos de posicin
Estadgrafos de dispersin
Veamos en detalle ahora que significan, y como se trabaja con cada uno de ellos y
para ello repasemos el ejemplo del nmero de personas atendidas a diario en el Hospital
Stero del Ro. A pesar de que se ya se ha avanzado notablemente al ordenar los datos
mediante la tabla de distribucin de frecuencias, es necesario seguir caracterizando a la
distribucin de dicha variable. Por ejemplo sera interesante determinar un nmero
(expresado en unidades de la variable), que permita describir el valor en torno al cul se
concentran las observaciones. Esa cifra es un buen dato a tomar en cuenta para las
decisiones que permitan acabar con las colas y las largas esperas de los usuarios.
Definamos entonces a los estadgrafos de posicin.
A) MEDIA ARITMETICA
X = = E[X] =
x i
n
11
Rodrigo Salas Apuntes de Estadstica
X=
x i *ni
n
Xi ni xi*ni
35 3 105
36 0 0
37 4 148
38 2 76 1425
39 2 78 X= = 40,71personas
35
40 4 160
41 5 205
42 5 210
43 3 129
44 1 44
45 6 270
35 1425
Recuerde que esta es una variable discreta. El resultado obtenido podra crear
confusin puesto que 40,71 personas es una cifra inverosmil. Sin embargo se acepta esta
notacin para efectos del clculo de estadgrafos
X = hi * xi
12
Rodrigo Salas Apuntes de Estadstica
xi hi xi*hi
35 0,0857 3,00
36 0 0,00
37 0,1143 4,23 X = 40,72personas
38 0,0571 2,17
39 0,0571 2,23
40 0,1143 4,57
41 0,1429 5,86
42 0,1429 6,00
43 0,0857 3,69
44 0,0286 1,26
45 0,1714 7,71
1 40,72
Analicemos ahora que ocurre cuando se tabula datos en intervalos, para lo cual
recurriremos al ejemplo de las subvenciones de colegios anteriormente expuesto. El
promedio para datos no tabulados puede ser calculado de la misma manera que se calcul
para los pacientes del Hospital. La diferencia en el clculo de la media para este ejemplo
est a partir de la tabulacin de los datos. Al tabularse en intervalos, la frmula de la media
debe ser reinterpretada, debido a que en cada intervalo hay infinitos valores para la
variable. Es necesario entonces buscar un valor que represente a cada intervalo. Ese valor
no es otro que la marca de clase. en la tabla:
Xi-1-Xi xi ni ni*xi
6-6,99 6,5 1 6,5
7-7,99 7,5 5 37,5
8-8,99 8,5 3 25,5 441
X= = 11,03millones
9-9,99 9,5 4 38 40
10-10,99 10,5 5 52,5
11-11,99 11,5 7 80,5
12-12,99 12,5 5 62,5
13-13,99 13,5 7 94,5
14-15 14,5 3 43,5
40 441
Observe que el promedio obtenido en esta ocasin es levemente diferente al
promedio para datos no tabulados (10,95 millones). Esta diferencia se debe a que la
tabulacin de un conjunto de datos en intervalos implica necesariamente una prdida de la
13
Rodrigo Salas Apuntes de Estadstica
exactitud en relacin con los datos originales. Por ejemplo saber que el intervalo que va de
6 a 6,99 tiene una frecuencia absoluta de 5 no permite conocer que valor exacto tienen las 5
observaciones incluidas en dicho intervalo. La solucin a este problema es la tabulacin en
mayor cantidad de intervalos de menor amplitud cada uno, de los datos originales. Sin
embargo es evidente que la cantidad de intervalos implica mayor trabajo (o por lo menos
una tabla de distribucin de frecuencias mas grande). El lector deber buscar la mejor
relacin entre exactitud y eficiencia.
x+a = a+x
2- La media aritmtica de una variable por una constante a, es igual a la media aritmtica
de la variable multiplicada por la constante
x*a = a*x
Estas dos propiedades son de vital importancia porque en la prctica nos simplifican
clculos y por supuesto ahorran tiempo; Retomando el ejemplo de las subvenciones,
suponga que el Ministerio de Educacin decide aumentar 2 millones de pesos la subvencin
de cada colegio; La nueva tabla de distribucin de frecuencias es la siguiente:
14
Rodrigo Salas Apuntes de Estadstica
ni hi
7 0,175
6 0,150
5 0,125
4 0,100
3 0,075
2 0,050
1 0,025
Xi
0
6,5 7,5 8,5 9,5 10,5 11,5 12,5 13,5 14,5 15,5 16,5
Una tercera propiedad de la media surge como corolario de las dos anteriores
z = xi x
As, cada valor de esta nueva variable, no es ms que la resta o diferencia entre cada
valor de la variable y su media aritmtica. Calculemos el promedio de las z, a partir de la
antigua tabla de distribucin de frecuencias
15
Rodrigo Salas Apuntes de Estadstica
Xi-1-Xi xi ni zi ni*zi
6-6,99 6,5 1 -4,525 -4,525
7-7,99 7,5 5 -3,525 -17,625
8-8,99 8,5 3 -2,525 -7,575 0
9-9,99 9,5 4 -1,525 -6,1 z= = 0.millones
40
10-10,99 10,5 5 -0,525 -2,625
11-11,99 11,5 7 0,475 3,325
12-12,99 12,5 5 1,475 7,375
13-13,99 13,5 7 2,475 17,325
14-15 14,5 3 3,475 10,425
40 0
x1 * n1 + x 2 * n 2
X=
n1 + n 2
X=
x i *ni
n
Para conocer el alcance de esta propiedad, veamos el siguiente ejemplo: El ao 99
egresaron dos A y B, el curso A se compone de 20 personas y egres con un promedio 5,2,
el B tiene 10 alumnos y su promedio fue 4,7. El promedio de la promocin en su conjunto
es:
(20 * 5,2) + (10 * 4,7)
X= = 5,03pts
20 + 10
16
Rodrigo Salas Apuntes de Estadstica
1- Primer mtodo abreviado: Consiste en restar a todos los valores una cantidad
constante, trabajar con el residuo, y posteriormente agregar la constante. Se trata de
escoger un valor de la variable como origen de trabajo, restarlo de cada observacin
calcular el promedio de estos residuos y posteriormente sumar el origen de trabajo al
promedio.
X = Ot +
z ' *n
i i
Xi-1-Xi xi ni zi ni*zi
6-6,99 6,5 1 -3,5 -3,5
7-7,99 7,5 5 -2,5 -12,5
8-8,99 8,5 3 -1,5 -4,5 41
9-9,99 9,5 4 -0,5 -2 x = 10 + = 11,03.millones
40
10-10,99 10,5 5 0,5 2,5
11-11,99 11,5 7 1,5 10,5
12-12,99 12,5 5 2,5 12,5
13-13,99 13,5 7 3,5 24,5
14-15 14,5 3 4,5 13,5
40 41
17
Rodrigo Salas Apuntes de Estadstica
y la media:
X = Ot +
c *u i *n i
n
Xi-1-Xi xi ni ui ni*ui
6-6,99 6,5 1 -3 -3
7-7,99 7,5 5 -2 -10
8-8,99 8,5 3 -1 -3 61
9-9,99 9,5 4 0 0 x = 9,5 + 1 * = 11,03.millones
40
10-10,99 10,5 5 1 5
11-11,99 11,5 7 2 14
12-12,99 12,5 5 2 15
13-13,99 13,5 7 4 28
14-15 14,5 3 5 15
40 61
B) MEDIANA(Me)
18
Rodrigo Salas Apuntes de Estadstica
Imaginemos por ejemplo que nos interesa conocer la mediana de las estaturas de 5
personas; Las estaturas son las siguientes expresadas en centmetros y ordenadas de menor
a mayor.
Por definicin la mediana es aquel valor de la variable que supera como mximo a
la mitad de las observaciones y que al mismo tiempo es superado por la mitad de las
observaciones como mximo. La mitad de 5 (el total de observaciones) es 2,5.
Comenzamos a contar de izquierda a derecha y el primer lugar que supere a 2,5
corresponder a la media. En este caso es el tercer valor, por lo tanto la mediana de estas
observaciones es 160 centmetros. Este valor debe ser interpretado como sigue: la mitad de
las personas mide menos de 160 cms. y la otra mitad mide mas.
Xi-1-Xi ni Ni
6-6,99 1 1
7-7,99 5 6
8-8,99 3 9
9-9,99 4 13
10-10,99 5 18
11-11,99 7 25
12-12,99 5 30
13-13,99 7 37
14-15 3 40
ni = 40 = n hi = 1 = 100%
Lo primero que debe hacerse, al igual que con los datos no tabulados, es dividir la
poblacin en dos. En el ejemplo la mitad de las observaciones es 20. El primer intervalo
cuya frecuencia absoluta acumulada supera a la mitad de las observaciones es el intervalo
donde est la mediana, o dicho de otra forma es el intervalo mediano. En la tabla el
intervalo mediano es el que va de 11 a 11,99 millones. Para continuar el clculo
utilizaremos la siguiente frmula:
19
Rodrigo Salas Apuntes de Estadstica
n
N j1
Me = x j1 + c j * 2
nj
Despejando en la frmula:
40
18
Me = 11 * 1 + 2 = 11,2857millones
7
Fractilas
20
Rodrigo Salas Apuntes de Estadstica
ni
Para el clculo de cada una de las cuartilas se utiliza la misma frmula que para la
mediana, con algunas pequeas diferencias.
n 3n
N q 1 N q 1
Q1 = x q 1 + c q * 4 Q 3 = x q 1 + c q * 4
nq nq
21
Rodrigo Salas Apuntes de Estadstica
35 * n
En primer lugar se busca al intervalo cuya frecuencia
N p 1
absoluta acumulada supere al 35% de las observaciones
P35 = x p 1 + c p * 100
np (14). Esto ocurre en el intervalo que va desde 10 a
10,99. Observe que en la frmula lo nico que cambia
en relacin con las cuartilas es el la fraccin (35*n)/100.
De hecho es lo nico que cambia si se desea calcular cualquiera otra de las percentilas.
Reemplazando:
La interpretacin de este resultado es el colegio
14 13
P35 = 10 + 1 * = 10.2millones que mejor subvencin recibe del 35% de los
5 colegios con pero subvencin tiene una
subvencin de 10,02 millones.
C) MODA (Mo)
Por extensin tambin se puede hablar de los valores con menor frecuencia
absoluta. Dichos valores (si es que hubiere mas de uno con frecuencia mnima) reciben el
nombre de antimodas.
Los valores de la media, mediana y moda sern exactamente iguales siempre y cuando se
trate de una distribucin simtrica de una sola punta; en las distribuciones perfectamente
simtricas con mas de una punta solo sern la media y la mediana; observe los siguientes
grficos:
22
Rodrigo Salas Apuntes de Estadstica
ni ni
x Xi x Xi
Me Me
Mo
Ala izquierda hay una distribucin perfectamente simtrica de una sola punta. En
ella la media la mediana y la moda son iguales. En cambio a la derecha hay una
Distribucin perfectamente simtrica de tres puntas y por lo tanto tres modas (ambas con la
misma frecuencia). pero la media y la mediana son exactamente iguales.
Mg = n x1 x 2 x 3 ..........x n
23
Rodrigo Salas Apuntes de Estadstica
14,60
1982 1992
12 * (1 + i ) = 14,6
10
C * (1 + i ) = M
n
Reemplazando (1 + i )10 = 1,2167
i = 10 1,2167 1 = 0,0198
24
Rodrigo Salas Apuntes de Estadstica
A) VARIANZA 2
Una idea que surge para cuantificar las dispersiones con respecto a la media es
restar a cada valor de la variable la media aritmtica previamente calculada y
posteriormente calcular un promedio de esas diferencias; Veamos un pequeo ejemplo: Las
notas obtenidas en una prueba por un curso de 5 personas son las siguientes:
2 3 4 5 6
-2 -1 0 1 2
2
Tenga presente que los estadgrafos que estudiaremos en este texto son slo una parte de los mltiples
estadgrafos de dispersin susceptibles de ser calculados. Considere por ejemplo el promedio de las
desviaciones con respecto a la Mediana. Este ltimo estadgrafo recibe el nombre de desviacin mediana
25
Rodrigo Salas Apuntes de Estadstica
(x )
2
i x
2
= para datos no tabulados
n
(x )
2
i x * ni
2
= para datos tabulados
n
Si comparamos dos distribuciones en relacin con sus varianzas, diremos que la mas
dispersa o desconcentrada es aquella cuya varianza es mayor. Analicemos en extenso la
varianza a partir de otro ejemplo:
CIUDAD A CIUDAD B
xi-1-xi ni xi-1-xi ni
0-99,9 15 0-99,9 38
100-199,9 25 100-199,9 30
200-299,9 42 200-299,9 21
300-399,9 48 300-399,9 23
400-499,9 30 400-499,9 25
500-599,9 20 500-599,9 20
600-699,9 13 600-699,9 25
700-800 7 700-800 18
26
Rodrigo Salas Apuntes de Estadstica
70000
xA == 350 miles de pesos
200
2 6.160.000
A = = 30.800 miles de pesos 2
200
Observe que las unidades de la varianza son pesos al cuadrado. Ello ocurre porque
para su clculo es necesario elevar los valores de las diferencias al cuadrado. En general
nadie esto es una dificultad ya que hablar de pesos al cuadrado no tiene ningn sentido
prctico. La solucin es calcular la raz cuadrada de la varianza. Este valor calculado es el
segundo estadgrafo de posicin que estudiaremos y se llama desviacin estndar.
71700
xB = = 358.5 miles de pesos
200
2 10.995.550
B = = 54.977 miles de pesos 2
200
B = 54977 = 234.47 miles de pesos
Observe en primer lugar que las medias son relativamente similares, puesto que la
diferencia entre ambas ciudades es de slo de $8.500. Sin embargo, tanto la varianza y la
desviacin estndar son mayores para la ciudad B. En definitiva el hecho de que la
varianza y la desviacin estndar mayores para la ciudad B, indican que existe una mayor
desconcentracin de los ingresos con respecto a la media en esta ciudad.
(x ) = x 2x i x + x
2 2
2 2
x 2 x i x + x x 2x x i
2 2 2
i x i
= i i nx
2
= = +
n n n n n n
x x
2 2 2 2 2
i 2n x nx nx i 2 2 2
2 = + = 2x + x = x 2 x
n n n n n
27
Rodrigo Salas Apuntes de Estadstica
30.660.000
2 = 350.2 = 153.000 122.500 = 30.800 miles de pesos 2
200
Tal como predijimos el valor de la varianza obtenido por este mtodo es
exactamente igual al obtenido anteriormente para la ciudad A.
B) Coeficiente de Variacin
28
Rodrigo Salas Apuntes de Estadstica
Momentos de una variable: Son los valores esperados o promedios de ciertas funciones
de dicha variable; En particular, si X es una variable, el r-simo momento de X
alrededor de 0 se define por:
r ' = E(X ) = X
r r
=
x r
i
n
Observe que segn esta definicin el primer momento alrededor de 0, es el
promedio de la variable, al que denominaremos simplemente (Sin y sin subndice).
1' = E(X ) = X
1 1
=
=
x 1
i
n
Por otro lado el segundo momento con alrededor de 0, es el promedio de los valores
de la variable elevados al cuadrado. Este momento entonces corresponde al primer
miembro de la 2 frmula para el clculo de la varianza.
Observe tambin que tambin pueden calcularse momentos de una variable con
respecto a su media
(x x)
r
= E(X X ) =
r
r
n
29
Rodrigo Salas Apuntes de Estadstica
A) Asimetra
A B C
xi xi xi
Observe que la poligonal A tiene una cola mas larga hacia la derecha o hacia los
valores positivos de la variable. Diremos entonces que esta es una variable con asimetra o
sesgo positivo. El grfico C representa una distribucin con asimetra o sesgo negativo y la
figura B representa una distribucin simtrica..
(x x)
3
(
3 = E X X )
3
=
n
Si 3 = 0 Perfecta simetra
Si 3 > 0 Asimetra o sesgo positivo
Si 3 < 0 Asimetra o sesgo negativo
El valor calculado de esta forma adolece del mismo defecto que en algn momento
dijimos que tena la Varianza: No est expresada en las mismas unidades de la variable. En
el caso especial de 3, el valor obtenido estar elevado al cubo. La solucin a este problema
es calcular momentos adimensionales (sin unidades). Recuerde que algo similar hicimos
cuando calculamos el coeficiente de variacin. El tercer momento adimensional de la
variable con respecto a su media recibe el nombre de coeficiente de asimetra o 3. Su
clculo se realiza mediante la siguiente frmula:
30
Rodrigo Salas Apuntes de Estadstica
3
3 =
2
23
Este momento adimensional tiene exactamente las mismas propiedades que 3, para
los efectos de la cuantificacin de la asimetra.
B) Curtosis
A B C
xi xi xi
(x x)
4
= E(X X ) =
4
4
n
El cuarto momento con respecto a la media tambin puede ser expresado en
trminos de los momentos con respecto a 0, como sigue:
4 = ' 4 4 ' 3 +6 2 ' 2 3 4
31
Rodrigo Salas Apuntes de Estadstica
C) Ejemplo numrico
As 3 ser:
(x x )
3
342.000.000
3 = = = 1.710.000 miles de pesos 3
n 200
Calculando 3 mediante los momentos con respecto a 0, obtenemos lo siguiente:
15.385.000.000 30.660.000
3 = 3 * 350 * + 2 * 350 3 = 1.710.000 miles de pesos 3
200 200
Al mismo tiempo:
3 1.710.000
3 = = = 0 ,32
2
3
2
2
30.800 3
Por lo tanto podemos afirmar que esta distribucin tiene sesgo positivo, o sea tiene
una cola ms larga hacia la derecha.
xi ni zi zi4 zi4*ni
50 15 -300 8.100.000.000 121.500.000.000
150 25 -200 1.600.000.000 40.000.000.000
250 42 -100 100.000.000 4.200.000.000
350 48 0 0 0
450 30 100 100.000.000 3.000.000.000
550 20 200 1.600.000.000 32.000.000.000
650 13 300 8.100.000.000 105.300.000.000
750 7 400 25.600.000.000 179.200.000.000
200 45.200.000.000 485.200.000.000
32
Rodrigo Salas Apuntes de Estadstica
Por lo tanto:
(x x )
4
485.200.000.000
4 = = = 2.426.000.000 miles de pesos 4
n 200
y 4
4 2.426.000.000
4 = = = 2 ,56
22 30.800 2
33
Rodrigo Salas Apuntes de Estadstica
2. DISTRIBUCIONES BIDIMENSIONALES
Peso (Xi) 55 58 63 75 77 45 81 66 88 47 56 75 87 90 66
Altura (Yi) 160 165 169 180 181 155 180 170 181 158 161 172 179 181 172
Observe en primer lugar que con esta tabla se pueden calcular fcilmente tanto los
estadgrafos de posicin y de dispersin como los momentos de tercer y cuarto orden de
cada variable considerada por separado. De hecho:
Al mismo tiempo el sentido comn indica que la estatura y el peso de una persona
estn ntimamente relacionados. Sin embargo en nuestro esfuerzo por describir lo mas
exactamente el comportamiento de los fenmenos que estudiamos, necesitamos cuantificar
la relacin existente entre estas variables. Definamos en primer lugar un concepto que ser
de aqu en delante de fundamental importancia:
34
Rodrigo Salas Apuntes de Estadstica
Xi Yi X*Y X2
55 160 8.800 3.025
58 165 9.570 3.364
63 169 10.647 3.969
75 180 13.500 5.625
1.029 2.564
77 181 13.937 5.929 X = = 68 ,6 kilos Y= = 170 ,93 centmetros
45 155 6.975 2.025 15 15
81 180 14.580 6.561
66 170 11.220 4.356 177.714
COV(X.Y) = (69 * 171) = 121.6
88 181 15.928 7.744 15
47 158 7.426 2.209
56 161 9.016 3.136
2 73.593
75 172 12.900 5.625 i = 68 ,62 = 200 ,24 kilos 2
87 179 15.573 7.569
15
90 181 16.290 8.100
66 172 11.352 4.356
1.029 2.564 177.714 73.593
El valor calculado no nos dice mucho. Por ahora nos conformaremos con el hecho
de que es diferente de =. El slo hecho de que sea diferente de 0 implica que existe algn
grado de variabilidad conjunta entre el peso y la estatura de estas 15 personas; tambin se
puede afirmar que existe una relacin directa entre ambos (a mayor estatura mayor peso y
viceversa), debido al valor positivo de la covarianza. Como podr observar el lector esto
an es insuficiente para describir el comportamiento conjunto de ambas variables.
Regresin
Utilicemos un grfico en el que consideremos a las dos variables una en cada eje, el
que nos permitir observar con mayor claridad como se relacionan las variables en cuestin
185
180
ESTATURA
175
170
165
160
155
150
40 50 60 70 80 90 100
PESO
35
Rodrigo Salas Apuntes de Estadstica
este momento intentaremos predecir el valor de una variable (prediccin), dado un valor de
la otra variable (predictora).
La mejor forma de describir esta nube de puntos es a travs de una funcin. Esta
puede adoptar cualquier forma. Por conveniencia utilizaremos una funcin lineal ( al menos
por ahora). Por esa nube de puntos se pueden hacer pasar infinitas lneas. Sin embargo no
todas se ajustarn de igual manera. Una vez trazada la recta de estimacin, la distancia
vertical entre la lnea (que proporciona el valor estimado de la variable) y un punto
determinado, dado un valor de la variable predictora, nos indican el error en la prediccin
i. Una estimacin ser de mejor calidad en la medida en que se minimiza la cuanta de
estos errores.
Observe que el valor del error de prediccin i, es igual a la resta entre el valor
observado de la variable de prediccin, menos l valor observado a partir de la regresin (la
funcin lineal); en donde 1 y 2 representan respectivamente el intercepto y la pendiente
de la recta de regresin.
= [Yi (1 + 2 X i )]
2 2
i
resolviendo un parntesis :
= [Yi 1 2 X i ]
2 2
i
i2 i2
[Y 1 2 X i ]* 2 [Yi 1 2 X i ] = 2 [Yi 1 2 X i ] = 0
2 1
= i
1 1
i2 i2
[Y 2 Xi ]* 2 [Yi 1 2 Xi ] = 2 Xi [Yi 1 2 Xi ] = 0
2 1
= i 1
2 2
36
Rodrigo Salas Apuntes de Estadstica
2 [Yi 1 2 X i ] = 0
[ ] [ ]
2 Yi 1 2 X i = 0 2 Yi n 1 2 X i = 0 2 Yi = +2 n 1 + 2 2 X i
A) Y i = n 1 + 2 X i
y adems:
2 Xi [Yi 1 2 Xi ] = 0
[ ]
2 Xi Yi 1 X i 2 X i2 = 0 2 Xi Yi + 21 Xi + 22 Xi2 = 0
2 Xi Yi = 21 X i + 22 Xi2
B) Y X i i = 1 X i + 2 X i2
Y i = n 1 + 2 X i Diviediendo por n
Y i
=
n 1 2 X i
+
n n n
Y = 1 + 2 X
Esta ecuacin indica que la recta de estimacin pasa necesariamente por el punto
donde se encuentra la media de cada una de las variables. Despejando la ecuacin:
Y X i i = 1 X i + 2 X i2 Dividiendo por n
Y X i i
=
1 Xi
+
2 X i2
= XY = 1 X + 2 X 2 despejando el valor de 1
n n n
( )
XY = Y 2 X X + 2 X 2 XY = X * Y + 2 X + 2 X 2
2
XY X * Y COV [X,Y ]
2 = 2
2 =
X X2 2X
37
Rodrigo Salas Apuntes de Estadstica
121,57
2 = = 0,61 y
200.24
Habiendo calculados los parmetros de la recta de regresin podemos estimar los valores de
Y, a partir de los valores de X:
Xi Yi Yi* i i2
55,00 160,00 162,68 -2,68 7,16
58,00 165,00 164,50 0,50 0,25
63,00 169,00 167,53 1,47 2,15
75,00 180,00 174,82 5,18 26,84
77,00 181,00 176,03 4,97 24,67
45,00 155,00 156,60 -1,60 2,58
81,00 180,00 178,46 1,54 2,37
66,00 170,00 169,35 0,65 0,42
88,00 181,00 182,71 -1,71 2,93
47,00 158,00 157,82 0,18 0,03
56,00 161,00 163,28 -2,28 5,21
75,00 172,00 174,82 -2,82 7,95
87,00 179,00 182,10 -3,10 9,64
90,00 181,00 183,93 -2,93 8,56
66,00 172,00 169,35 2,65 7,00
2564 107,76
Tal como estimamos los valores de Y a partir de los valores de X, se puede hacer
exactamente lo contrario, construyendo la siguiente recta de estimacin:
Xi*=1+2Yi
donde 1y 2 son respectivamente el coeficiente de posicin y la pendiente de la recta de
estimacin de X a partir de Y. Estos se obtienen as:
38
Rodrigo Salas Apuntes de Estadstica
XY X * Y COV [X,Y ]
2' = 2
2' = y 1' = X 2 ' Y
Y Y2 Y2
La determinacin de la recta de regresin de X en Y, ser entonces tarea del
estudiante. Observe sin embargo que por construccin, ambas rectas se interceptan en el
punto en que se encuentran los dos medias.
Observe que lo bien o mal que se adapta una recta de regresin a una nube de
puntos depender de la cuanta de los errores de estimacin i. En la prctica tomaremos la
siguiente relacin como un cuantificador de lo bien que se adapta la recta a la nube de
puntos:
s 2
=
(Y Y )
i i
* 2
(X )
2
2 i X i*
s X = para la recta de estimacin de X en Y
n
estos valores s2x y s2y reciben el nombre de varianzas residuales y mientras menores sean,
indicarn que las rectas de estimacin se ajustan mejor a la nube de puntos, por lo que las
predicciones funcionaran mejor. De hecho si los valores predecidos a partir de la recta de
regresin son exactamente iguales a los valores observados de la variable, la varianza
residual es 0.
COV( XY )
r=
XY
Este valor calculado siempre oscila entre 1 y 1.Si el coeficiente de correlacin
lineal es 0, diremos que no existe correlacin entre las variables. Si es exactamente igual a
1, existe una relacin directa entre las variables, y el ajuste de la recta a la nube de puntos
es perfecto. Por otro lado, si obtenemos el valor 1, existe ajuste perfecto, pero la relacin
entre las variables es inversa.
De tal manera que fcilmente observable que tal como esperbamos, y ms an para este
caso la correlacin lineal entre ambas es muy cercana a 1 y por lo tanto la recta de regresin
se ajusta muy bien a la nube de puntos.
39
Rodrigo Salas Apuntes de Estadstica
3. SERIES DE TIEMPO
El estudio de las series de tiempo se realiza a partir de adaptaciones del mtodo que
utilizamos para distribuciones bidimensionales; Lo anterior queda muy claro a partir de la
construccin de una poligonal para una serie de tiempo. La siguiente Tabla Muestra la
Poblacin Mayor de 18 aos en Chile desde 1978 a 1999.
Ao Poblacin Ao Poblacin
1978 6.311.075 1989 8.242.761
1979 6.473.632 1990 8.423.830
1980 6.641.747 1991 8.596.771
1981 6.814.031 1992 8.773.663
1982 6.988.922 1993 8.951.320
1983 7.167.919 1994 9.126.580
1984 7.352.525 1995 9.296.270
1985 7.544.248 1996 9.463.723
1986 7.711.239 1997 9.627.200
1987 7.884.579 1998 9.787.362
1988 8.062.384 1999 9.944.860
y su poligonal:
Poblacin
11.000.000
10.000.000
9.000.000
8.000.000
7.000.000
6.000.000
5.000.000
78
80
82
84
86
88
90
92
94
96
98
19
19
19
19
19
19
19
19
19
19
19
Observe que en el eje horizontal se anotan los aos y en el eje vertical se anotan los valores
de la variable para cada ao ( en el ejemplo, poblacin mayor de 18 aos en Chile)
40
Rodrigo Salas Apuntes de Estadstica
Variaciones cclicas: Son fluctuaciones de largo plazo, que se repiten regularmente cada
cierto nmero de aos, pero de un perodo no fcilmente determinable. El principal
problema de las variaciones cclicas es la determinacin de la longitud del ciclo.
En dnde:
Y: Es la variable a predecir mediante la serie de tiempo
T: Es la variacin explicada por la tendencia
E: Es la variacin explicada por la estacionalidad
C: Es la variacin explicada por la componente cclica
A: Es la componente aleatoria impredecible de la serie de tiempo
41
Rodrigo Salas Apuntes de Estadstica
b) Promedios mviles
Ao Produccin Ao Produccin
1970 800 1980 840
1971 805 1981 839
1972 815 1982 843
1973 817 1983 873
1974 818 1984 850
1975 822 1985 857
1976 830 1986 860
1977 700 1987 865
1978 831 1988 872
1979 833 1989 875
900
850
800
Pr od u c c i n
750
700
A primera vista es fcil darse cuenta que la tendencia de esta variable es hacia el aumento.
Sin embargo existe aos en que los comportamientos de la variable escapa
inusitadamente del aumento precedente, tanto en aumento como en disminuciones. Para el
analista es fundamental separar estos comportamientos aislados (como los del ao 1977 y
1983) para ello se utiliza un mtodo denominado: promedios mviles.
42
Rodrigo Salas Apuntes de Estadstica
840
820
800
Produccin
780
760
740
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
19
19
19
19
19
19
19
19
19
19
19
19
19
19
19
19
19
19
19
19
880
860
840
820 Produccin
800
780
760
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
19
19
19
19
19
19
19
19
19
19
19
19
19
19
19
19
19
19
19
43
Rodrigo Salas Apuntes de Estadstica
En los grficos obtenidos a partir de los promedios mviles puede observarse con
facilidad que el grfico original se suaviza. De hecho observe que los valores de la
variable reducen su recorrido.
c) Determinacin de tendencia
Ao Xi Yi XI*YI X2 Y* ei ei2
1972 1 811,00 811 1 796,18 14,82 219,65
1973 2 815,40 1630,8 4 800,78 14,62 213,63
1974 3 820,40 2461,2 9 805,39 15,01 225,35
1975 4 797,40 3189,6 16 809,99 -12,59 158,57
1976 5 800,20 4001 25 814,60 -14,40 207,28
1977 6 803,20 4819,2 36 819,20 -16,00 256,05
1978 7 806,80 5647,6 49 823,81 -17,01 289,20
1979 8 808,60 6468,8 64 828,41 -19,81 392,45
1980 9 837,20 7534,8 81 833,01 4,19 17,52
1981 10 845,60 8456 100 837,62 7,98 63,69
1982 11 849,00 9339 121 842,22 6,78 45,92
1983 12 852,40 10228,8 144 846,83 5,57 31,05
1984 13 856,60 11135,8 169 851,43 5,17 26,70
1985 14 861,00 12054 196 856,04 4,96 24,63
1986 15 860,80 12912 225 860,64 0,16 0,03
1987 16 865,80 13852,8 256 865,25 0,55 0,31
136 13291,4 114542,4 1496 13291,40 0,00 2172,03
44
Rodrigo Salas Apuntes de Estadstica
La calidad del ajuste al igual que lo hecho anteriormente se cuantifica a partir del
coeficiente de correlacin lineal la que en nuestro ejemplo arroja un valor de 0,8766, lo que
nos permite asegurar que el ajuste de la recta de regresin es bastante aceptable. Sin
embargo observe que si la recta se calcula sin los promedio mviles, la calidad del ajuste
disminuye, debido a que esa poligonal es menos suave que la que recin ocupamos.
Observe que a partir de los valores obtenidos para nuestra de regresin es posible
predecir el comportamiento de la produccin de tomates para aos distintos a los que
componen la serie. Estas estimaciones funcionan mejor para valores cercanos a los aos
cubiertos por la serie. Para valores alejados (por ejemplo la produccin de tomates del ao
2050), la prediccin no funcionara bien. La demostracin de esta propiedad de la recta de
regresin supera los objetivos de este texto.
45
Rodrigo Salas Apuntes de Estadstica
4. NUMEROS INDICE
Tanto en economa como en muchas otras disciplinas se estudian las variaciones de
los fenmenos en funcin del tiempo, situacin geogrfica, ingresos, etc. Expresar estas
variaciones es el objetivo de los nmeros ndices. Un nmero ndice es una cifra relativa
(expresada en trmino de porcentajes), que representa las variaciones medias en precio,
cantidad o valor, de una o mas variables, en relacin con su valor en un perodo
seleccionado como base o referencia. Un nmero ndice por s slo no significa nada y su
utilidad tiene que ver con la posibilidad de hacer comparaciones entre dos perodos de
tiempo o sitios distintos.
Puesto que los nmeros ndices miden relaciones con respecto a un perodo base, la
determinacin correcta de este perodo es de fundamental importancia. La determinacin
del perodo base depende del destino del ndice. Si se pretende cuantificar la variacin de
precios entre dos perodos de tiempo, basta con tomar como base el precio del perodo
inicial. Pero si se pretende cuantificar las variaciones en una serie continua de ndices
anuales o mensuales, debe procurarse:
Que el perodo considerado como base sea representativo, es decir que no presente
anomalas.
Que el Perodo considerado como base no sea muy distante en el tiempo.
a) Indices simples
SI lo que se desea es cuantificar la variacin del precio de un solo artculo, lo que debe
calcularse es un ndice simple. As el ndice calculado para un artculo determinado ser:
pt
i t = 100 *
p0
Supongamos por ejemplo que el precio de la gasolina de 93 octanos en Enero de
1995 fue de $250 y en Enero del 2000 fue de $300, el valor del ndice para este artculo
para Enero del 2000 (utilizando Enero de 1995 como base ser:
300
i t = 100 * = 120
250
Este valor debe ser interpretado de la siguiente manera: El precio de la Gasolina de
Enero del 2000, es el 120% del precio de la gasolina en Enero de 1995. Si se desea calcular
la variacin del precio de la gasolina entre ambos perodos, debe restarse 100, al valor del
ndice obtenido. De esta manera la variacin entre ambos perodos corresponde al 20%, o
sea la gasolina se encareci en un 20% entre ambos perodos.
Para el clculo de ndices simples para mas de dos perodos pongamos otro ejemplo:
La siguiente Tabla presenta los precios (ficticios) de un kilo de arroz grado 1 desde 1990
hasta 1999
46
Rodrigo Salas Apuntes de Estadstica
La ltima columna calcula la variacin anual del ndice. Tal como se calculo
anteriormente la primera variacin (de 1990 a 1991) puede calcularse restando al ndice de
1991 el de 1990, con lo que se obtiene un 10% de variacin. Para el resto de los aos el
mtodo vara, puesto que se calcula la variacin de un ao a otro, y no una variacin con
respecto a un ao base. Esta variacin debe calcularse dividiendo el ndice de un ao por el
anterior y restarle uno al valor as calculado. Posteriormente este nmero debe multiplicarse
por cien para dejarlo expresado como variacin porcentual.
En la seccin anterior aprendimos a calcular ndices simples (para un solo artculo). Sin
embargo uno de los usos mas extendidos de los nmeros ndices es resumir en una sola
cifra la variacin de precios de un conjunto de artculos para un perodo determinado.
Como primera aproximacin a esta cifra resumen pueden calcularse los ndices agregativos
simples. Para lo anterior se utiliza la siguiente frmula:
It =
pt
p0
Calculemos con esta frmula un ndice que permita cuantificar las variaciones de precios de
un conjunto de artculos; Suponga por un momento que en un pas determinado slo se
consumen 4 cereales: Arroz, Cebada, Maz y Lentejas. La siguiente tabla presenta los
precios de estos 4 artculos para ese pas para 1998 y 1999.
Precio por kilo Consumo anual
Artculo Indice
1998 1999 1998 1999
Arroz 200 230 115,00 50 51
Cebada 150 170 113,33 40 39
Maz 250 260 104,00 45 45
Lentejas 300 340 113,33 60 63
Totales 900 1000 445,67
47
Rodrigo Salas Apuntes de Estadstica
Sin embargo debemos reparar en lo siguiente: Que pasa si en este pas la canasta
representativa del consumo contiene un 50% de lentejas? o dicho de otra forma Qu pasa
se la mitad de los ingresos familiares se gastan en lentejas?; Estos ndices agregativos
simples no pondera adecuadamente esta variacin, ya que para su clculo no se tomo en
cuenta la importancia del articulo en la composicin de la canasta.
c) Indice de Laspeyres
q 0i * p ti
IG = 100 * i
q
t
0i * p0 i
i
donde:
IGt: IPC general que incluye todos los productos de la canasta;
q0i: Consumo fsico medio por hogar del producto i en el mes base;
poi: Precio del producto i en el mes base y;
pti: Precio del producto i en el mes t
48
Rodrigo Salas Apuntes de Estadstica
Las ponderaciones de los artculos son obtenidas a partir de encuestas realizadas por
el Instituto Nacional de Estadsticas peridicamente sobre el consumo de bienes y servicios
de las familias chilenas. La siguiente tabla presenta la ponderacin por grupo de cada uno
de los grupos que se utilizan para el clculo del IPC, en primer lugar sobre la base de las
ponderaciones del antiguo ndice (Abril 1989=100), y luego sobre la base de las
ponderaciones del ndice actualmente en uso (Diciembre 98=100)
Grupos % Grupos %
Alimentacin 33 Alimentacin 27
Vivienda 25 Vivienda 20
Vestuario 8 Equipamiento de vivienda 8
Transporte y Comunicaciones 17 Vestuario 8
Otros 16 Transporte 12
Salud 9
Educacin y Recreacin 11
Otros 4
Total 100 Total 100
La suma de las ponderaciones debe dar un 100%; observe que los cambios en las
ponderaciones se debe al ahecho de que las pautas de consumo de las personas varan de un
ao a otro. A manera de ejemplo puede citarse el hecho de que en Abril de 1989, las
personas destinaban un 33% de sus gastos a productos alimenticios. Posteriormente en
Diciembre de 1998 los chilenos slo destinamos el 27% de nuestro gasto a alimentos. Esta
variacin no necesariamente significa que comamos menos, sino que tambin se debe a
que el gasto de los chilenos se ha incrementado a tasa mayor que el gasto en alimentos.
d) Empalmes
Tal como ocurri en Diciembre de 1998 existen meses para los cuales existen dos
ndices con bases diferentes. Esto trae la complicacin de expresar los ndices anteriores a
la implementacin de la nueva base en trminos de ella. Observemos lo ocurrido en
Diciembre del ao 1998:
49
Rodrigo Salas Apuntes de Estadstica
Indices
Mes
Abril 1989= 100 Diciembre 1998=100 Empalmado
Oct 98 308,64 99,4
Nov 98 308,94 99,49
Dic 98 310,51 100 100
Ene 99 99,67
Feb 99 99,74
Mar 99 100,37
Abr 99 100,75
May 99 100,87
Jun 99 101,01
Jul 99 101,08
Ago 99 101,28
Sep 99 101,51
Oct 99 101,87
Nov 99 102,04
Dic 99 102,31
e) Variaciones mensuales
Cada variacin mensual se calcula dividiendo el ndice de un mes por el valor del
mes anterior y restando 1.
50