Vous êtes sur la page 1sur 18

CAPTULO III

ESTADSTICA DESCRIPTIVA UNIVARIADA:


RESUMEN MEDIANTE INDICADORES
Los indicadores o ndices son nmeros que, segn los procedimientos por los cuales se
obtienen, ofrecen una particular explicacin o caracterstica de la informacin contenida en las
observaciones.
Muchas disciplinas cientficas definen indicadores que son tiles para resumir informacin en sus
respectivos campos de estudio. En el campo econmico, son bien conocidos los IPC o ndices
de Precios al Consumidor; ndices de Valores Burstiles (IPSA, IGPA, Dow Jones) etc. En el
campo social son conocidos tambin los ndices de ocupacin; de analfabetismo; de pobreza,
etc. Y podramos seguir citando ejemplos en otras reas del conocimiento.
La Estadstica Descriptiva tambin utiliza indicadores o ndices para cumplir sus propsitos de
resumir la informacin contenida en un conjunto de datos.
A continuacin presentaremos algunos indicadores de uso frecuente en este campo. En todos
los casos nos referiremos a la interpretacin de cada indicador y presentaremos adems
procedimientos para sus respectivos clculos.
LA MODA
Definicin. Para definir la Moda distinguiremos si dos situaciones:
En el caso de valores de X no agrupados la Moda es el valor de X que presenta mayor
frecuencia. Si existen ms de un valor de X con la misma frecuencia mxima, todos ellos sern
tambin moda y se dice que la distribucin de la frecuencia de valores de X es bimodal (si son 2
valores de X); trimodal (si son 3 valores de X) o, en general, multimodal.
Si los valores de X se encuentran agrupados en intervalos de clase, seguramente la frecuencia
de cada valor es 1 o muy pequea por lo que tiene poco inters conocer el valor de X que ms
se repite (todos se repiten de manera muy parecida). Por ello es que en el caso de datos
agrupados se define el intervalo modal como el intervalo de clase que tiene de mayor
frecuencia. Si [ai, bi) es un intervalo modal se dice que los valores de de X se observan con
mayor frecuencia entre ai y bi. Al igual que para los valores no agrupados pueden existir ms de
un intervalo modal.
Clculo de la Moda mediante Tablas de Frecuencia: Distinguiremos dos casos
Caso de valores de X no agrupados
En la tabla de frecuencia, se determina ni = Mx {n1, n2, , nk} que es fcilmente identificable
dado que k necesariamente es un nmero pequeo para que la tabla de frecuencia sea
efectivamente un resumen. Entonces la moda es el valor xi que acompaa a ni.
Ejemplos:
La informacin sobre el nmero de hijos (X) dada por una encuesta a 400 hogares se resume en
la siguiente tabla de frecuencia:
Moda

X(Nhijos)
ni(frecuencia)

0
50

1
80

Mayor Frecuencia

2
90

3
70

4
50

5
30

6
20

7
5

8
3

9
2

Consideremos ahora la Tabla de Frecuencia de la variable Edad presentada en el Captulo II


X (Edad)
ni (Frec.)

9
2

10
3

11
5

12
3

13
4

14
3

Puede comprobarse fcilmente que 11 es el valor de X (Edad) que presentan la mayor


frecuencia y por lo tanto la Moda de X es 11.
Caso de valores de X agrupados.
El clculo del intervalo modal es igualmente fcil. Sin embargo, a veces se desea adems dar
un nmero de este intervalo modal que lo represente1. Para el clculo de este nmero existe
ms de un procedimiento. Una solucin es usar la marca de clase del correspondiente intervalo
modal. Otra solucin es aplicar la frmula:

Moda = LI +

1
ci
1 + 2

donde 1 = ni ni 1 ; 2 = ni ni +1

y adems:

LI = extremo inferior del intervalo modal


ci = amplitud del intervalo modal
Ejemplo: Consideremos la tabla de frecuencia de la variable Altura del ejemplo del Captulo II
X(Altura)
ni (Frec.)

1,25 1,30

1,30 1,35

1,35 1,45

1,45 1,60

1,60 o ms

Diremos que 1,35 1,45 es el intervalo modal lo que significa que la mayor frecuencia de
unidades de observacin (personas) se encuentran entre los valores 1,35 y 1,45. En este
ejemplo se observa que, por el hecho de que las amplitudes no son iguales la comparacin entre
las frecuencias de los intervalos puede resultar injusta.
Si en cambio se considera la tabla para las observaciones de la variable Peso:
X(Peso)
ni (Frecuencia)

27 32

32 37

37 42

42 47

47 52

El intervalo modal ser 32 37 y la comparabilidad de su mayor frecuencia resulta ms


adecuada por cuanto todos los intervalos tienen igual amplitud.
Si se desea calcular un valor del intervalo como representante de la verdadera moda se aplica la
frmula indicada.
Para el caso de la variable altura el intervalo modal es 1,35 1,45 y por lo tanto:
LI = 1,35;

ni = n3 = 7;

ni-1 = n2 = 5;

ni+1 = n4 = 5;

ci = 0,1;

1 = 2; 2 = 2

.Por lo tanto

Moda = 1,35 + [2/(2+2)]x0,1 = 1,40.


1

Se nota que esta nmero no debera ser presentado como moda por cuanto su frecuencia, en general, es desconocida
y en gran cantidad de aplicaciones puede resultar igual a cero

Si en cambio aplicamos la frmula para los datos de la variable Peso se tendr:


LI = 32;

ni = n2 = 7;

ni-1 = n1= 3;

ni+1 = n3 = 6;

1 = 4; 2 = 1

ci = 5;

.Por lo tanto

Moda = 32 + [4/(4+1)]x5 = 36.


Nota: Se recuerda que en el caso de valores agrupados el resultado de la frmula es slo un
representante del intervalo modal. Es muy posible que el valor resultante de esta frmula ni
siquiera figure como valor observado de la variable y su frecuencia sea mnima (cero) y no
mxima como se establece en la definicin.
Moda y Frecuencia Relativa. Cuando se calcula una Moda (de un valor o de un intervalo)
resulta conveniente indicar la respectiva frecuencia relativa a efectos de tener una mejor idea
sobre la importancia de dicha moda. Por ejemplo si un grupo de valores de la variable Edad,
tiene Moda 15, no es lo mismo si la frecuencia relativa de 15 es 0,05 o es 0,75.
Clculo de la Moda a base de Programas Computacionales
Existen muchos programas computacionales que ofrecen clculos de indicadores estadsticos.
Dado el carcter introductorio de este Curso ser suficiente utilizar el programa Excel que es
ampliamente difundido.
Dentro de las Funciones y en la categora Estadsticas se encuentra la funcin MODA. Si a
esta funcin se ingresan apropiadamente los valores originales de la correspondiente variable
establecidos en la Matriz de Datos, el programa devuelve la Moda de dichos valores. Para
mayores antecedentes se puede consultar la Ayuda que ofrece dicho programa.
LA MEDIANA
Definicin: La mediana es un valor de la variable X tal que a lo ms el 50 % de las
observaciones presentan valores menores que l y, simultneamente, a lo ms el 50% presentan
valores mayores que l. Por su definicin, la mediana resulta de inters slo para variables
cuantitativas (tericamente tambin se puede considerar en variables cualitativas ordinales)
Grficamente si ordenamos de menor a mayor los n valores observados de la variable X y
representamos por x(1) , x(2) , , x(i) , , x(n) , estos valores ordenados, la mediana es un valor
que deja tanto hacia su izquierda y como hacia su derecha, a lo ms, el 50% de las
observaciones (no ms de la mitad de las observaciones).

X(1)

X(2)

X(j)

A lo ms n/2 observaciones

X(i)

X(i+1)

X(n)

A lo ms n/2 observaciones

Mediana

Por ejemplo, consideremos los valores de X correspondientes a la variable Ingreso (en miles $),
presentada en el Captulo I
Unidades
Informac.

10

11

12

13

14

15

16

17

18

19

20

X(Ingreso)

400

350

1.000

525

738

473

412

380

734

803

1.320

632

795

978

260

325

660

319

1.230

324

X (orden.)

260

319

324

325

350

380

400

412

473

525

632

660

734

738

795

803

978

1.000

1.230

1.320

Subndice

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

(9)

(10)

(11)

(12)

(13)

(14)

(15)

(16)

(17)

(18)

(19)

(20)

El nmero de observaciones es 20 y la mitad de las mismas (50% de las observaciones) ser 10.
El valor de X = 380 no es mediana puesto que si bien hay 5 (5 10) observaciones menores que
ese valor, hay 14 (14 10) observaciones mayores que el valor 380.
En cambio el valor X = 525 es mediana por cuanto hay 9 observaciones menores que este valor
(9 10) y hay 10 observaciones mayores que l (10 10)
Por igual razonamiento se puede comprobar que X = 632 es tambin una mediana y por lo tanto
lo ser cualquier otro nmero entre 525 y 632. Al intervalo determinado por estos extremos se
llama intervalo mediano.
Veamos otro ejemplo considerando la variable Edad slo para las primeras 15 personas
Unidades
Informac.

10

11

12

13

14

15

X(Edad)

10

11

11

14

12

10

12

13

13

12

13

14

11

X (orden.)

10

10

10

11

11

11

11

11

12

12

12

13

13

Subndice

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

(9)

(10)

(11)

(12)

(13)

(14)

(15)

En este caso la mitad de las observaciones es 7,5. Para que un valor de X = x0 sea mediana
basta que el nmero de valores de X menores que este valor (x0) sea menor o igual a 7
(tcnicamente menor que 7,5) y simultneamente el nmero de los valores X que superan este
valor x0 sea tambin menor o igual a 7 (tcnicamente menor que 7,5).
Puede comprobarse que X = 11 cumple con esta condicin por cuanto slo 5 observaciones son
menores que este valor y simultneamente 5 observaciones son mayores que dicho valor.
Asimismo se puede comprobar que no hay otro valor de X que pueda ser mediana.
Mtodos de clculo de la Mediana de X
Sean x1, x2, xi, , xn-1, xn los n valores de X observados y sean x(1), x(2), x(i), , x(n-1), x(n)
estos mismos valores puestos en orden de menor a mayor.
Entonces:

Si n es impar el valor x((n+1)/2) , es decir el valor que una vez ordenado ocupa el lugar
(n+1)/2, es el valor mediano o simplemente, la mediana

Si n es par los valores x(n/2) y x(n/2 +1) cumplen la condicin de no dejar ms del 50% de
las observaciones ni a su izquierda ni a su derecha. En efecto, el primero dejar a su
izquierda y a su derecha, a lo ms n/2 1 valores observados y por lo tanto es una
mediana. Tambin lo es el segundo valor indicado por cuanto a su izquierda deja a lo
ms n/2 valores y a su derecha, a lo ms, n/2 2 observaciones.
En este caso se observa adems que todo nmero entre x(n/2) y x(n/2 +1) cumple con la
condicin de ser mediana, por lo que al intervalo [x(n/2) , x(n/2 +1) ] se llama intervalo
mediano y todo valor de este intervalo es una mediana

Ejemplo
Consideremos el ejemplo de la variable Edad y dispongamos sus 20 valores observados en
forma ordenada:

9, 9, 9, 9, 10, 10, 10, 11, 11, 12, 12, 12, 12, 13, 13, 13, 14, 14, 14, 14
10

11

En este caso n es par y n/2 =


10. Por lo tanto los valores que ocupan los
lugares 10 (n/2) y 11 (n/2 + 1) en la lista ordenada son valores medianos. Como en el ejemplo
estos valores son iguales, el intervalo mediano tiene un solo punto que corresponde al nmero
12 que es la nica mediana.
Si en cambio consideramos la variable Peso, las 20 observaciones ordenadas sern:
25, 28, 29, 30, 30, 31, 32, 33, 34, 36, 37, 37, 38, 39, 40, 41, 42, 45, 47, 47
Como n es 20, nuevamente los valores que ocupan el dcimo y undcimo lugar en esta lista
ordenada (en negrita) sern los lmites del intervalo mediano y por lo tanto todo nmero mayor
o igual a 36 y menor o igual a 37 en una mediana. En estos casos es frecuente escoger como
representante al punto medio del intervalo mediano vale decir: (36+37)/2 = 36,5
Clculo de Mediana mediante de Programas Computacionales
Dentro de las Funciones y en la categora Estadsticas que ofrece el programa Excel, se
encuentra la funcin MEDIANA Si a esta funcin se ingresan apropiadamente los valores
originales de la correspondiente variable establecidos en la Matriz de Datos, el programa
devuelve la Mediana de dichos valores. Puede consultarse la Ayuda que ofrece el programa
Excel para mayores antecedentes
EL PERCENTIL ORDEN p (0<p<1)
Definicin: Un percentil de orden p es un valor de la variable X = xp tal que, a lo ms, el (100p)%
de las observaciones presentan valores menores que l y a lo ms el 100(1-p)% presentan
valores mayores que l.
X(1)

X(2)

X(j)

xp

A lo ms 100p% de las observaciones

X(i)

X(i+1)

X(n)

A lo ms 100(1-p)% de las observaciones

Percentil de
orden p

Por ejemplo, un percentil de orden 0,15 ser un valor x0,15 tal que, a lo ms 15% (100x0,15)% de
los valores observados de X son menores que x0,15 y tambin, a lo ms, el 85% (100(1-0,15))%
de los valores de X observados tienen valores mayores que este valor x0,15.
Puede verificarse que el percentil de orden 0,5 (p0,5) es la mediana.
Cuartilas.
Las Cuartilas son los percentiles de orden 0,25(p0,25); 0,50 (p0,5); 0,75 (p0,75) que son llamados,
respectivamente, 1er Cuartil: 2 Cuartil y 3er Cuartil.
Quintiles
Los Qintiles son los percentiles de orden 0,2(p0,20); 0,4(p0,40); 0,6(p0,60); 0,8(p0,80) que se llaman:
1er Quintil: 2 Quintil; 3er Quintil; 4 Quintil y 5 Quintil respectivamente.

Deciles
Son los percentiles de orden 0,1 (p0,1); 0,2 (p0,2); 0,3 (p0,3); 0,4 (p0,4); 0,5 (p0,5); 0,6 (p0,6); 0,7 (p0,7);
0,8 (p0,8); 0,9 (p0,9), que se llaman, respectivamente, 1er Decil; 2 Decil; 3er Decil; 4 Decil, etc.
Mtodo de clculo de percentiles
Sean x(1), x(2), x(i), , x(n-1), x(n) los valores ordenados de las observaciones de X.
Entonces:

Si np es entero, tanto el valor observado de X que ocupa el lugar np en la lista ordenada


(x(np)) como el que ocupa el lugar np+1 en dicha lista (x(np+1) ) son percentiles de orden p.
Por lo tanto cualquier nmero mayor o igual a x(np) y menor o igual a x(np+1) sern tambin
percentiles de orden p.

Si np no es entero se considera la parte entera de np (ENT[np ]). Entonces el percentil


de orden p es el valor observado de X que ocupa el lugar ENT[np ] + 1

Ejemplos:
Para los valores observados de la variable Edad calcularemos el percentil de orden 0,20
(p=0,2). Los valores ordenados son:
9, 9, 9, 9, 10, 10, 10, 11, 11, 12, 12, 12, 12, 13, 13, 13, 14, 14, 14, 14
Entonces:
np = 20x0,20 = 4. Por ser entero los valores que ocupan el 4 y 5 lugar que corresponden a los
valores 9 y 10 respectivamente, son percentiles de orden 0,2. Por lo tanto todo nmero mayor o
igual a 9 y menor o igual 10 sern tambin percentiles de orden 0,2.
Si en cambio se desea calcular el percentil de orden 0,18 (p=0,18) se tiene que:
np = 20x0,18 = 3,6 que no es entero. La parte entera de 3,6 es 3 por lo que la parte entera de 3,6
ms 1 es 4. El valor observado de X que ocupa el 4 lugar es 9. Luego 9 es el percentil de
orden 0,18.
Si consideramos ahora la variable Peso, los valores observados puestos de menor a mayor son:
25, 28, 29, 30, 30, 31, 32, 33, 34, 36, 37, 37, 38, 39, 40, 41, 42, 45, 47, 47
Entonces
El percentil de orden 0,36 ser el valor de X que ocupa el octavo lugar (la parte entera de
20x0,36= 7,2, es 7)
Los percentiles de orden 0,30 sern los nmeros mayores o iguales al 6 valor (20x0,3 = 6) y
menor o igual al 7 valor (6+1). Por lo tanto un percentil de orden 0,3 ser cualquier nmero
mayor o igual a 31 y menor o igual a 32.
Mtodo de Clculo mediante Tablas de Frecuencias
La definicin de percentiles lleva implcito que sus respectivos clculos estn basados en los
valores originales dados por la matriz de datos para la respectiva variable X.

Sin embargo en ocasiones puede ocurrir que no se cuente con estos valores originales aunque
s se disponga de informacin agrupada de la variable X mediante una tabla de frecuencia.
1) Valores no agrupados. Si los datos no estn agrupados, sea p tal que 0<p<1. y sea xp el
primer valor de X donde se cumple que la frecuencia relativa acumulada (Fi) de X es mayor o
igual a p. Entonces:
Si en el valor xp la frecuencia Fi = p, entonces xp y el valor de X siguiente a xp sern el percentil
de orden p.
Si en el valor de xp su frecuencia Fi > p, entonces nicamente xp es percentil de orden p
Veamos algunos ejemplos de clculo de percentiles mediante tabla de frecuencias
Consideremos distribucin de frecuencias de valores no agrupados de la variable Edad ya
presentada y supongamos que se desea calcular el percentil de orden p = 0,5 (Mediana).
Valores
de X

Frecuencia
Absoluta

Frecuencia
Acumulada

Frecuencia
Relativa

Frec. Relat.
Acumulada

ni

Ni

Fi

Fi

0,10

0,10

10

0,15

0,25

11

10

0,25

0,50

12

13

0,15

0,65

13

17

0,20

0,85

14

20

0,15

1,00

Total

20

En la columna de las Frecuencias Relativas Acumuladas (Fi en negrita), encontramos que X = 11


su Frecuencia acumulada es exactamente igual a 0,5. Por lo tanto X = 11 y el siguiente valor X =
12 sern medianas (al igual que cualquier nmero entre 11y 12).
Si en cambio deseamos calcular el percentil de orden p = 0,2 (que corresponde al 2 Decil),
encontramos que X = 10 es el primer valor para el cual Fi es mayor (no igual) a 0,2 (igual a p).
Por lo tanto el valor X = 10 ser el nico percentil de orden 0,2.
2) Valores agrupados. Si los datos estn agrupados este procedimiento slo permite identificar
el correspondiente intervalo de clase donde se encuentra el respectivo percentil de orden p. Pero
resulta imposible determinar cul valor del intervalo es precisamente ese percentil
(prdida de informacin).
No obstante existen algunos procedimientos para seleccionar un nmero del intervalo como una
aproximacin al verdadero percentil de orden p los cuales se basan en supuestos sobre la
distribucin de los valores observados dentro del respectivo intervalo donde se encuentra el
percentil de orden p. Uno de tales procedimientos consiste en aplicar la frmula

Pp = LI + [ p n N i 1 ]

ci
, donde
ni

LI = lmite inferior del intervalo donde se encuentra el percentil de orden p


Ni-1 =frecuencia acumulada del intervalo anterior al que contiene el percentil de orden p

ni = frecuencia absoluta del intervalo que contiene al percentil de orden p


ci = amplitud del intervalo que contiene el percentil de orden p.
Ejemplo: Considera nuevamente la Tabla de Frecuencia de la variable Talla (Altura)
Intervalos de Clase Frecuencia
Absoluta
de la Variable X
1,25 1,30
1,30 1,35
1,35 1,45
1,45 1,60
1,60 en adelante
Total

2
5
7
5
1
20

Frecuencia
Acumulada
2
7
14
19
20

Frecuencia
Relativa
0,10
0,25
0,35
0,25
0,05
1

Frec. Relat.
Acumulada
0,10
0,35
0,70
0,95
1,00

Supongamos que se desea calcular la Mediana (percentil de orden 0,5). El intervalo donde se
encuentra la Mediana ser el primer intervalo para el cual la Frecuencia Relativa Acumulada es
mayor o igual a 0,5. En nuestro ejemplo este intervalo es 1,35 1,45.
Para aplicar la frmula tenemos que:

P=0,5
LI = 1,35
Ni-1 =7
ni = 7
ci = 1,45-1,35=0,10
Entonces

Pp = LI + [ p n N i 1 ]

ci
0,10
0, 30
= 1, 35 + ( 0, 5 20 7 )
= 1, 35 +
= 1, 3928
ni
7
7

Clculo de Percentiles mediante Programas Computacionales


Dentro de las Funciones y en la categora Estadsticas que ofrece el programa Excel, ya se
mencion cmo se procede para el clculo de la Medina (percentil de orden 0,5). Tambin este
programa Excel, en la misma categora Estadsticas) ofrece la funcin PERCENTIL a la cual
se ingresan los valores de la variable X que se encuentran en la matriz de datos y el valor k que
corresponde al valor del percentil que se desea calcular (0<k<1). A base de esta informacin el
programa calcula el percentil de orden k. Para mayores antecedentes se puede consultar la
Ayuda que ofrece dicho programa.
LA MEDIA.
Definicin y Clculo de la Media.
La Media es un indicador definido para variables cuantitativas, ampliamente utilizado y
generalmente mal interpretado. Esto es debido a que la Media no pretende describir una
caracterstica de un conjunto de datos sino que pretende representar al conjunto de datos en el
sentido de que el usuario, conociendo la media, no tendra necesidad de informarse sobre los
valores reales valores de la variable. Por ello es que cualquier intento de describir la
caracterstica o propiedad de los datos indicada por la Media ser estril.
La Media entonces debe ser interpretada como un indicador que pretende representar al
conjunto de observaciones en el sentido de que el usuario, conociendo la Media, tiene una
acertada idea del comportamiento de las observaciones. Por cierto ser necesario no slo

encontrar este representante (calcularlo) sino conocer adems si efectivamente representa


adecuadamente o no representa adecuadamente al conjunto de datos
En primer lugar debemos precisar la particular forma de medir la representatividad de un
nmero k respecto del conjunto de observaciones {x1, x2,, xi, , xn}.
La diferencia (xi - k) mide cun distante o disperso se encuentra el valor de la i-sima
observacin respecto del nmero k. Si esta diferencia es positiva xi se encuentra a la derecha de
k y si es negativa se encuentra a la izquierda de k . Como no se desea considerar el signo
(positivo o negativo) de esta distancia o dispersin usaremos como indicador de esta
dispersin, el cuadrado de la diferencia, vale decir: (xi - k )2
As este cuadrado de la diferencia se interpreta tambin como un indicador de cun bien
representa k al valor de la i-sima observacin. Si est cerca de cero diremos que k representa
adecuadamente a xi en otro caso diremos que no representa adecuadamente a este valor.
n

La suma de estos valores para todas las observaciones ( ( x i k ) 2 ) nos proporcionar


i =1

entonces un indicador de la dispersin de todas las observaciones respecto del nmero k o


dicho de otra forma, un indicador de la representatividad de k respecto del conjunto de
observaciones.
Si este nmero es grande k representa mal al conjunto de datos, y si es pequeo se puede decir
que k es un buen representante del conjunto de datos u observaciones {x1, x2,, xi, , xn}.
La media, representada por X es el nmero que mejor representa al conjunto de datos, vale
decir,
n

i =1

i =1

( X i X ) 2 ( X i k ) 2 k R
Se puede demostrar (ver Anexo a este Captulo) que este nmero se calcula mediante la frmula

X=

1 n
Xi
n i =1

Ejemplo: en la Matriz de Datos del Captulo I consideremos la variable Edad. La suma de sus 20
20

valores es 233 (

xi = 233) . Por lo tanto la Media ser X =


i =1

1 20
233
xi =
= 11, 65

20 i =1
20

Como ejercicio se pide verificar que las Medias de: Peso, Talla, Ingreso y Rendimiento para la
referida Matriz de Datos son respectivamente: 37,15Kg; 1,402mts; $632.900; 5,15
Calculo de la Media mediante de Tabla de Frecuencias
1) Valores no agrupados. Es posible calcular la media a base de la Tabla de Frecuencia de
valores de X no agrupados observando que:
n

xi = xi ni para frecuencias absolutas y


i =1

i =1

k
1
x
=
xi fi para frecuencias relativas
i
n i =1
i =1

Por lo tanto:

X=

1 k
xi ni para frecuencias absolutas
n i =1
k

X = xi f i para frecuencias relativas


i =1

Ejemplo: Consideremos nuevamente la Tabla de Frecuencia de la variable Edad


Valores
de X

Frecuencia
Absoluta
ni

1
2 0

i=1

xini

Frecuencia
Relativa
fi

xifi

9x2=18

0,10

9x0,1=0,90

10

10x3=30

0,15

10x0,15=1,50

11

11x5=55

0,25

11x0,25=2,75

12

12x3=36

0,15

12x0,15=1,80

13

13x4=52

0,20

13x0,20=2,60

14

14x3=42

0,15

14x0,15=2,10

Total

=20

=233

xini =11,65

Media de X

1
2 3 3 = 1 1, 6 5
2 0

2) Valores Agrupados. Cuando los valores de X aparecen agrupados en intervalos de clase, la


Tabla de Frecuencias slo permite calcular la Media en forma aproximada. Para ello se
procede como en el caso de valores no agrupados considerando como valores de X las marcas
de clase de los respectivos intervalos (equivale a suponer que todos los valores dentro de un
intervalo son iguales a la marca de clase. Cuanto ms adecuado resulte este supuesto para los
datos reales observados, mejor ser la aproximacin).
Ejemplo: Consideremos la Tabla de Frecuencia de la variable
Intervalos de
Clase de X
1,25 1,30
1,30 1,35
1,35 1,45
1,45 1,60
1,60 1,80

X =

1
20

i=1

Marca de Frecuencia
Clase
Absoluta
1,275
1,325
1,40
1,525
1,70

( m a r c a c la s e ) i n i =

2
5
7
5
1
20

Marca Clase x
Frec. Absol.

Frecuencia
Relativa

2,55
6,625
9,8
7,625
1,7
= 28,3

1
2 8 , 3 = 1, 4 1 5
20

0,10
0,25
0,35
0,25
0,05
1

Frec. Relat.
Acumulada
0,1275
0,33125
0,49
0,38125
0,085
= 1,42
Media de X (aprox.)

A base de los datos originales la Media es 1,402 mts. Los clculos aproximados usando las
marcas de clase, en este ejemplo dieron 1,415 mts.
Clculo de la Media mediante Programas Computacionales

El cculo de la Media en el programa Excel se realiza bajo la funcin PROMEDIO que se


encuentra dentro de las Funciones y en la categora Estadsticas. Para proceder a su
aplicacin se ingresan los valores de la variable X que se encuentran en la matriz de datos y el
programa calcula la Media de los mismos. No se debe confundir esta funcin con las funciones
MEDIA.ACOTADA; MEDIA.ARMO y MEDIA.GEOM que tambin se incluyen como
funciones en la categora Estadsticas del programa Excel. Para mayores antecedentes se
puede consultar la Ayuda que ofrece dicho programa.
LA VARIANZA.
Hemos visto que si utilizamos como indicador de representatividad

(X
i =1

k ) 2 la media es el

valor que mejor representa a un conjunto de datos, pero esto no necesariamente significa que
los representa adecuadamente. Para conocer cun bien representa una media a un conjunto de
datos se define el indicador Varianza mediante

Var ( X ) = X2 =

1 n
( X i X )2
n i =1

Entonces si Var(X) es grande, la media es un mal representante del conjunto de datos (y


cualquier otro nmero es peor). Si la Var(X) es pequea, la media representa bien al conjunto de
observaciones.
Se puede demostrar que V a r ( X ) =

2
X

1
n

i =1

( X i X )2 =

1
n

i =1

2
i

.Esta ltima

expresin es comnmente utilizada para efectos de clculo cuando no se dispone de programas


computacionales especficos. La demostracin se presenta en el Anexo a este Captulo 03.
Ejemplo: Sean las observaciones de la variable Edad en la Matriz de Datos ( X = 11,65 ):
Unidades

Edad (X)

xi 11,65

( xi 11,65)2

-2,65

7,0225

2
3

10
11

-1,65
-0,65

2,7225
0,4225

11

-0,65

0,4225

5
6
7

14
12
10

2,35
0,35
-1,65

5,5225
0,1225
2,7225

8
9

12
13

0,35
1,35

0,1225
1,8225

10
11

9
13

-2,65
1,35

7,0225
1,8225

12
13

12
13

0,35
1,35

0,1225
1,8225

14
15
16

14
11
10

2,35
-0,65
-1,65

5,5225
0,4225
2,7225

17
18
19
20

11
13
14
11

-0,65
1,35
2,35
-0,65

0,4225
1,8225
5,5225
0,4225
= 48, 55

Indicador, sin signo, de la


representatividad de 11,65
respecto de c/valor de la Edad

Indicador de la representatividad
de 11,65 respecto del conjunto
de valores de la Edad

Como se indic la varianza de X ser

Var ( X ) = X2 =

1 n
1 n
48,55
2
x

X
=
= 2, 4275
(
)
( xi 11, 65) 2 =

i
n i =1
20 i =1
20
Edad (X)

Unidades
1

81

2
3

10
11

100
121

11

121

5
6
7

14
12
10

196
144
100

8
9

12
13

144
169

10
11

9
13

81
169

12
13

12
13

144
169

14
15
16

14
11
10

196
121
100

17
18
19
20

11
13
14
11

121
169
196
121

= 233

Para el clculo de este valor tambin se puede proceder


de la siguiente manera

xi2

Var ( X ) = X2 =
=

2
1 n 2
Xi X =

n i =1

1
2763 11, 652 = 138,15 135, 7225 = 2, 4275
20

= 2763

Clculo de la Varianza mediante Tabla de Frecuencias


Al igual que para el caso de la Media si se tiene una Tabla de Frecuencia de valores de X no
agrupados, observando que:

Var ( X ) =

2
X

1
n

i =1

i =1

i =1

xi2 = xi2 ni se tiene que

x i2 X

1
n

i =1

x i2 n1 X

Ejemplo: Consideremos nuevamente la Tabla de Frecuencia de la Variable Edad


Valores
de X

Frecuencia
Absoluta
ni

xini

9x2=18

10

10x3=30

11

11x5=55

12

12x3=36

13

13x4=52

14

14x3=42

xi2ni
2

9 x2=162
2

10 x3=300
2

11 x5=605
2

12 x3=432
2

13 x4=676
2

14 x3=588

Total

=20

=233

xi ni =2763

Entonces:
2
1 6 2
1
Var ( X ) = = xi ni X = 2763 11, 652 = 2, 4275
n i =1
20
2
X

En el caso de una Tabla de Frecuencia valores de X agrupados en intervalos de clase no ser


posible calcular exactamente la Varianza de X. Un clculo aproximado se obtiene aplicando el
mismo procedimiento utilizado para valores no agrupados a las marcas de clase de los
respectivos intervalos como lo muestra el siguiente ejemplo que corresponde a la variable Talla:
Intervalos de
Clase de X
1,25 1,30
1,30 1,35
1,35 1,45
1,45 1,60
1,60 1,80

Marca de Frecuencia
Clase
Absoluta
1,275
1,325
1,40
1,525
1,70

Marca Clase x
Frec. Absol.

(Marca Clase) x
Frec. Absol.

2,55
6,625
9,8
7,625
1,7
= 28,3

3,25125
8,778125
13,72
11,628125
2,89
=40,2675

2
5
7
5
1
20

2
1 6
1
28,3
Var ( X ) = = (marca declase)i2 ni X = 40, 2675
= 2,0134 2,0022 = 0,0012
20
n i =1
20
2
X

Si utilizamos la frmula correcta basada en los valores originales de la variable en la matriz de


datos el valor de la varianza es 0,009466 casi ocho veces mayor que la aproximacin obtenida
usando marca de clases.
Como se indic, es muy importante conocer la magnitud de la Varianza para conocer cun bien
representa la Media al conjunto de datos. Sabemos que si la Varianza es grande la media no
representa adecuadamente al conjunto de datos y si la Varianza es pequea la Media representa
bien al conjunto de datos u observaciones.
Pero Cundo una varianza se considera grande o pequea?
El indicador Varianza resulta medido en trminos del cuadrado de las unidades correspondientes
a las observaciones, lo que puede dificultar una adecuada interpretacin de su magnitud (grande
o pequea). De all que tambin se derivan dos indicadores de la representatividad de la Media
que resultan de expresar la varianza en trminos de otra unidad a saber:
Desviacin o Error Estndar: Definido como la raz cuadrada de la Varianza, expresa a la
representatividad de la media en trminos de las mismas unidades de trabajo de las
observaciones. Vale decir:

DE ( X ) = X = X2 =

1 n
( X i X )2

n i =1

Ejemplo:
En el caso de la Edad DE ( X Edad ) = X Edad =

X2

Edad

= 2, 4275 = 1,5580

En el caso de la Talla DE ( X Talla ) = X Talla =

X2

Talla

= 0, 009466 = 0, 0973

Coeficiente de Variacin. Se define como el cociente entre la Desviacin o Error Estndar y la


Media de las observaciones y en consecuencia este indicador es un nmero neutro (no
depende de las unidades de trabajo). En consecuencia:

CV ( X ) =

X
X

Para los efectos de este Curso usaremos la siguiente regla prctica: si CV(X) 0,1 aceptaremos
que X representa adecuadamente al conjunto de valores de X observados (cuanto ms cerca
de cero es mejor su representatividad).

Si en cambio CV(X) 0,1 diremos que X no representa adecuadamente al conjunto de valores


de X observados (cuanto mayor sea su valor ser ms pobre su representatividad).

Ejemplos
En el caso de la Edad CV ( X Edad ) =

Edad

X2

Edad

2, 4275
= 0,1337 0,1
11, 65

Por lo tanto la Media de la Edad (11,65 )no representa adecuadamente al conjunto de valores de
Edades en la Matriz de Datos
En el caso de la Talla CV ( X Talla ) =

Talla

X2
X

Talla

0, 0973
= 0, 0694 0,1
1, 402

En este caso la Talla Media (1,402 mts) representa adecuadamente al conjunto observado de
tallas (20 observaciones).
INDICADORES DE DISPERSIN DE LOS DATOS
Se trata de construir indicadores que informen sobre si los datos se encuentran concentrados
(o presentan valores homogneos) o bien si los datos se encuentran dispersos (o bien sus
valores son heterogneos).
Varianza, Desviacin Estndar y Coeficiente de Variacin.
Hemos visto que la Varianza, la Desviacin Estndar y el Coeficiente de Variacin son
indicadores de dispersin (o concentracin) de los datos respecto de la Media. Adems se
demostr que esta dispersin respecto de la Media es menor que la dispersin respecto de
cualquier otro nmero.
Por tal motivo la dispersin respecto de la Media (que es la mnima) se considera como la
dispersin de los datos y en consecuencia tanto la Varianza, como la Desviacin Estndar y el
Coeficiente de Variacin resultan indicadores de esta dispersin.
Recorrido (o Rango)
Sea

a = min xii = 1, 2,..., N = xmin y sea b = max xii = 1, 2,..., N = xmax . Se define el

Recorrido (o Rango) de la variable X mediante:

R ( X ) = b a = max xii = 1, 2,..., N min xii = 1, 2,..., N = xmax xmin


INDICADORES Y TRANSFORMACIONES LINEALES DE LOS DATOS
Una transformacin lineal de una variable X est definida mediante la funcin (lineal):

Y = a + bX donde a y b son constantes.


Se llama lineal porque el grfico de esta funcin corresponde al grfico de una recta (lnea).
Para estudiar el efecto que una transformacin lineal tiene sobre los valores de la variable x
consideremos en primer lugar que b = 1 . En este caso y = a + x con lo cual y es una
translacin de los valores de x
Consideremos ahora que

a = 0 , vale decir y = bx . Entonces si b < 1 los valores de y

resultan comprimidos en el sentido de que si y1 = bx1 ; y2 = bx2 se tiene que

Si en cambio

y1 y2 < x1 x2

b > 1 los valores y resultan expandidos en el sentido de que si

y1 = bx1 ; y2 = bx2 se tiene que y1 y2 > x1 x2


En general, una transformacin lineal del tipo y = a + bx se traducir en valores de y
trasladados (segn

a ) y expandidos o contrados (segn b > 1 o b < 1 respectivamente).

b < 0 la relacin de orden entre los valores de y es la


contraria a la que presentan los valores x . Es decir, si y1 = bx1 ; y2 = bx2 y b < 0 se tiene que
x1 < x2 y2 < y1
Por otra parte se observa que si

b > 0 la relacin de orden se mantiene, es decir, si y1 = bx1 ; y2 = bx2 y b > 0 se


tiene que x1 < x2 y1 < y2 .
Si en cambio

Relacin entre indicadores


Veamos que relacin existe entre los indicadores de la variable X y los correspondientes
indicadores para la variabla Y = a + bX
Moda.
Si xMod es la Moda de los valores observados de X entonces yMod = a + bxMod es la
Moda de los valores observados de Y .
La demostracin es consecuencia inmediata de la definicin de Moda.
Percentil
Si x p es el percentil de orden p para los valores observados de X entonces:

a)

b > 0 se tiene que y p = a + bx p es el percentil de orden p para los valores


observados de Y .

b)

b < 0 se tiene que y p = a + bx p es el percentil de orden (1 p ) para los valores


observados de Y .

Si

Si

La demostracin de a) se realiza fcilmente observando que la transformacin Y = a + bX


mantiene el orden y por lo tanto si a lo ms 100 p % de las observaciones eran menores
que x p y simultneamente a lo ms 100(1 p )% de las observaciones eran mayores que

x p lo mismo ocurrir con las observaciones de Y respecto de y p .


En el caso b) la transformacin Y = a + bX invierte el orden y, por lo tanto si a lo ms
100 p % de las observaciones eran menores que x p y simultneamente a lo ms

100(1 p )% de las observaciones eran mayores que x p se tendr que respecto de los
valores de la variable Y , se tendr que a lo ms 100(1 p )% de las observaciones sern

y p = a + bx p y a lo ms 100 p % de las observaciones de Y

menores que

(transformaciones de X ) sern mayores que y p .


Media
Respecto de la media se tiene la siguiente relacin:

Y = a + bX

En efecto:

Y=

1
N

yi =
i =1

1
N

(a + bxi ) =
i =1

N
1

Na
+
b
xi = a + b X

N
i =1

Varianza
La relacin es:

V (Y ) = b 2V ( X )

Demostracin:

V (Y ) =
b2

1
N

1
N

( y Y )
N

i =1

(x X )
N

i =1

1
N

(
N

i =1

a + bxi a + b X

))

1
N

b (x X )
N

i =1

= b2 V ( X )

Recorrido o Rango
La relacin es:

R(Y ) = b R ( X ) donde R ( X ) y R (Y ) son los Recorridos de X e

Y respectivamente

En efecto, si

b > 0 se tiene que:

{
} {
}
= max { yi = 1, 2,..., N } = max {a + bxi = 1, 2,..., N } = a + bx

ymin = min yii = 1, 2,..., N = min a + bxii = 1, 2,..., N = a + bxmin .


ymax

y por lo tanto si

max

b > 0 , el Recorrido Y ser:

R(Y ) = ymax ymin = ( a + bxmax ) ( a + bxmin ) = b ( xmax xmin ) = bR ( X )


Si en cambio

b < 0 se tiene que:

{
} {
}
= max { yi = 1, 2,..., N } = max {a + bxi = 1, 2,..., N } = a + bx

ymin = min yii = 1, 2,..., N = min a + bxii = 1, 2,..., N = a + bxmax


ymax

En consecuencia, si

min

b < 0 el Recorrido de Y ser:

R(Y ) = ymax ymin = ( a + bxmin ) ( a + bxmax ) = b ( xmin xmax ) = (b) ( xmax xmin ) = ( b ) R ( X )
Entonces

R(Y ) = b R ( X ) b R .

ANEXO
Enunciado:

Sea X =

1 n
X i entonces
n 1=1

(X
i =1

X ) 2 ( X i k ) 2 k R
i =1

Demostracin:
n

(X
i =1

i =1

i =1

i =1

k ) 2 = ( X i X + X k ) 2 = ( X i X ) 2 + 2( X k ) ( X i X ) + ( X k ) 2

pero
n

i =1

i =1

i =1

i =1

( X i X ) = X i nX = X i X i = 0
en consecuencia
n

i =1

i =1

( X i k )2 = ( X i X )2 + ( X k )2 como ( X k )2 0 k R
Se tiene que
n

i =1

i =1

( X i k )2 ( X i X )2 k R

Vous aimerez peut-être aussi