Vous êtes sur la page 1sur 24

Universidad Nacional de La Rioja

Sede Universitaria Chepes


Departamento de Ciencias Aplicadas













ESTADISTICA
APLICADA





_________________________________________________________________________________________
Medidas de Posicin
1

UNIDAD N 1: Medidas de posicin

Introduccin:

Esta unidad trata sobre la presentacin de datos. En particular, se mostrar
cmo grandes series de datos numricos pueden organizarse y presentarse de manera
ms eficaz en forma de tablas y diagramas con el fin de intensificar el anlisis e
interpretacin de datos, aspectos clave del proceso de toma de decisiones. Para
motivar nuestro anlisis sobre la presentacin tabular y de diagrama de los datos
numricos, las observaciones en nuestra serie de datos son de dos tipos, de orden de
tiempo o independientes. Las observaciones de orden de tiempo pueden controlarse
sobre una grfica digipunto, mientras que las observaciones independientes pueden
presentarse en forma tabular como una distribucin de frecuencia o en forma grfica
como un histograma, polgono u ojiva.

1.1 Frecuencias:

Con el fin de introducir las ideas relevantes, daremos un ejemplo para
desarrollar los contenidos de la presente unidad.
Tomando como base la encuesta realiza por la Direccin de Recursos
Agropecuarios sobre la existencia de ganado caprino en la provincia de La Rioja, a 40
establecimientos de cra de ganado se muestran los resultados en la tabla 1.1.
Es necesario tener en cuenta que cuando se recolecta una serie de datos como
sta generalmente se hace en forma sin procesar, es decir, las observaciones
numricas no se disponen en ningn orden o secuencia particular. Como se observa en
la tabla 1.1, al crecer el nmero de observaciones, se hace ms difcil centrarse en las
principales caractersticas de un conjunto de datos y se necesitan mtodos para
posibilitar organizar las observaciones de tal manera que entendamos mejor la
informacin que transmite la serie de datos.

Tabla 1.1 Datos sin procesar en existencia de ganado caprino

678 1204 224 306 1221 322 789 871 569 691
_________________________________________________________________________________________
Medidas de Posicin
2
324 987 568 889 743 269 305 290 210 327
630 262 508 224 1199 233 406 224 832 768
1350 1503 1145 960 1478 408 1170 1287 1371 1470

Usando los datos sin procesar de la existencia de ganado caprino de la
provincia, la Direccin de recursos desea construir las tablas y diagramas apropiados
que amplen el informe que est preparando para el gobierno de la provincia. Al crecer
el nmero de observaciones se hace necesario condensar an ms los datos en tablas
de resumen apropiadas. As pues, tal vez se desea acomodar los datos en
agrupamientos de clase (por ejemplo, categoras, cantidad o aos) de acuerdo con
divisiones establecidas convenientemente del alcance de la observaciones. Tal
acomodo de los datos en forma tabular se denomina una Distribucin de frecuencia.

Una distribucin de frecuencia es una tabla de resumen en la que los
datos se disponen en agrupamientos o categoras convenientemente
establecidas de clases ordenadas numricamente.

Cuando las observaciones se agrupan o condensan en tablas de distribucin de
frecuencia, el proceso de anlisis e interpretacin de los datos se hace mucho ms
manejable y significativo. En esta forma resumida las caractersticas ms importantes
de los datos se aproximan muy fcilmente, compensando as el hecho, que cuando los
datos se agrupan de ese modo, la informacin inicial referente a las observaciones
individuales que antes se dispona se pierde a travs del proceso de agrupamiento o
condensacin.

Al construir la tabla de frecuencia de distribucin, debe ponerse atencin a:
A). Seleccionar el nmero apropiado de agrupamientos de clase para la tabla.
B). Obtener un intervalo o ancho de clase de cada agrupamiento de clase.
C). Establecer los lmites de cada agrupamiento de clase para evitar los traslapes.

A) Seleccin del nmero de clases
El nmero de agrupamientos de clase por utilizar depende principalmente del
nmero de observaciones en los datos. Esto es, un nmero mayor de observaciones
requiere un nmero mayor de grupos de clase. En general, sin embargo, la distribucin
_________________________________________________________________________________________
Medidas de Posicin
3
de frecuencia debe tener al menos cinco agrupamientos de clase, pero no ms de 15.
Si no hay suficientes agrupamientos de clase o si hay demasiados, se obtendr poca
informacin. Como ejemplo, una distribucin de frecuencia que slo tiene un
agrupamiento de clase que abarca todo el alcance de las existencias de ganado
caprino de la siguiente manera:

Cantidad de cabezas N de establecimientos


200 1600 40
Total 40

Sin embargo, de esta tabla de resumen no se obtiene informacin adicional que
no se conociera ya al examinar los datos sin procesar. Una tabla con demasiada
concentracin de datos no es significativa. Lo mismo sera cierto en el otro extremo, si
una tabla tuviera demasiados agrupamientos de clase, habra una subconcentracin de
datos, y se sabra muy poco.

B) Obtencin de los intervalos de clase
Al desarrollar la tabla de distribucin de frecuencia es deseable que el ancho de
cada agrupamiento de clase sea igual. Para determinar el ancho de cada clase, el
alcance de los datos se divide entre el nmero de agrupamientos de clase deseado:

Rango
Ancho de intervalo: (1.1)
Nmero de agrupamientos deseados


Puesto que slo hay 40 observaciones en nuestros datos de ganado caprino, se
decide que siete agrupamientos de clase sern suficientes. El alcance se calcula
tomando el dato ms chico y el ms grande como 200 - 1503 = 1303 cabezas de
ganado y usando la ecuacin (1.1), el ancho del intervalo de clase se aproxima
mediante

_________________________________________________________________________________________
Medidas de Posicin
4
Ancho de intervalo = 1303 / 7 = 186 cabezas de ganado

Por conveniencia y facilidad de lectura, el intervalo seleccionado o ancho de cada
agrupamiento de clase se redondea a 200 cabezas de ganado caprino.

C) Establecimiento de los lmites de las clases
Para construir la tabla de distribucin de frecuencia, es necesario establecer
claramente lmites de clase definidos para cada agrupamiento de clase de manera que,
las observaciones, se registren apropiadamente. Debe evitarse el traslape de clases.
Puesto que el ancho de cada intervalo de clase para los datos del ganado se estableci
en 200 cabezas, los lmites de los diversos agrupamientos de clase deben establecerse
de manera que incluyan todo el alcance de observaciones. Siempre que sea posible,
estos lmites deben elegirse para que faciliten la lectura e interpretacin de los datos.
De esta forma, el primer intervalo de clase se establece desde 200 hasta abajo de 400,
el segundo de 400 a abajo de 600, etc. Los datos sin procesar (tabla 1.1) se registran
entonces en cada clase segn se muestra:

Ncabezas Registros Frecuencia

200 pero menor que 400 ///// ///// /// 13
400 pero menor que 600 ///// 5
600 pero menor que 800 ///// / 6
800 pero menor que 1000 ///// 5
1000 pero menor que 1200 /// 3
1200 pero menor que 1400 ///// 5
1400 pero menor que 1600 /// 3
Total 40


Estableciendo los lmites de cada clase de esta manera, las 40 observaciones se
han registrado en siete clases, cada una con un ancho de intervalo de 200 cabezas de
ganado sin traslape. De esta "hoja de trabajo" la distribucin de frecuencia absoluta se
presenta en la tabla 1.2 en la pgina siguiente.

_________________________________________________________________________________________
Medidas de Posicin
5
La principal ventaja de usar una de estas tablas de resumen es que las
principales caractersticas de los datos se hacen evidentes inmediatamente para el
lector. Por ejemplo, de la tabla 1.2 vemos que el alcance aproximado de los 40
establecimientos va de 200 a 1600 cabezas de ganado, en la provincia de La Rioja, en
la mayora de los establecimientos, tendiendo a agruparse entre 200 y 400 cabezas de
ganado caprino.

Tabla 1.2 Distribucin de frecuencia absoluta con intervalos, de nmero de cabezas de
ganado en 40 establecimientos de La Rioja.

Ncabezas Frecuencia

200 pero menor que 400 13
400 pero menor que 600 5
600 pero menor que 800 6
800 pero menor que 1000 5
1000 pero menor que 1200 3
1200 pero menor que 1400 5
1400 pero menor que 1600 3

Total 40

Fuente: Los datos fueron tomados de la tabla 1.1

Tipos de Distribucin de frecuencia:

Distribucin de frecuencia absoluta.
Distribucin de frecuencia relativa.
Distribucin de frecuencia absoluta acumulada.
Distribucin de frecuencia relativa acumulada.

1.1.1 Frecuencia Absoluta:
Se puede definir como la cantidad de veces que se repite un valor de la variable ( n
1
).
_________________________________________________________________________________________
Medidas de Posicin
6
En el ejemplo dado en la tabla 1.2, las frecuencias son absolutas con intervalos.
Tambin se pueden sacar frecuencias absolutas de nmeros sin intervalos, por
ejemplo, si se toman las edades de los ingresantes a la Universidad de Buenos Aires
en la carrera de Ingeniera Agropecuaria, el caso se ejemplifica en la tabla 1.3
siguiente:

Tabla 1.3 Distribucin de edades de los ingresantes

17 18 18 19 20 17 20 20 21 19
18 17 18 19 23 23 18 20 19 22
17 21 20 19 17 21 19 21 18 22
18 20 21 22 19 18 19 20 22 19
18 18 18 23 19 22 23 17 20 20

En este ejemplo no sera necesario determinar la Seleccin del nmero de
clases, la Obtencin de los intervalos de clase y el Establecimiento de los lmites de las
clases debido a que no existe una gran diferencia entre el dato ms chico al ms
grande, por lo que se puede plantear una distribucin de frecuencia por edad, la cual
estara representado por la tabla 1.4 siguiente:

Tabla 1.4 Distribucin de frecuencia absoluta

Edades Frecuencia

17 6
18 11
19 10
20 9
21 5
22 5
23 4

Total 50

_________________________________________________________________________________________
Medidas de Posicin
7
1.1.2 Frecuencia Relativa:
Se define como la proporcin que en el total de observaciones representa cada valor
de la variable ( h
i
= n
1
/ n ).
Tambin se puede decir que la distribucin de frecuencia es una tabla de
resumen en la que los datos originales se condensan o agrupan para facilitar el anlisis
de datos. Sin embargo, para ampliar el anlisis, casi siempre es deseable formar la
distribucin de frecuencia relativa o la distribucin de porcentaje, dependiendo de si
preferimos proporciones o porcentajes. Estas dos distribuciones equivalentes se
muestran en las tablas 1.5 y 1.6, respectivamente.
Tabla 1.5 Distribucin de frecuencia relativa de nmero de cabezas de ganado caprino
en los 40 establecimientos.

Ncabezas de Proporcin
ganado de establecimientos

200 400 0.325
400 600 0.125
600 800 0.150
800 1000 0.125
1000 1200 0.075
1200 1400 0.125
1400 1600 0.075
Total 1


Fuente: Los datos fueron tomados de la tabla 1.2 de pgina 4.






_________________________________________________________________________________________
Medidas de Posicin
8
Tabla 1.6 Distribucin de porcentaje de nmero de cabezas de ganado caprino.

Ncabezas de Porcentaje
ganado de establecimientos

200 400 32,50
400 600 12.50
600 800 15.00
800 1000 12.50
1000 1200 7.50
1200 1400 12.50
1400 1600 7.50
Total 1


La distribucin de frecuencia relativa descrita en la tabla 1.5 se forma
dividiendo las frecuencias de cada clase de distribucin de frecuencia (tabla 1.2) entre
el nmero total de observaciones. Entonces puede formarse una distribucin de
porcentaje (tabla 1.6) multiplicando cada frecuencia relativa o proporcin entre 100.0.
Por lo tanto, de la tabla 1.5 resulta claro que la proporcin de ganado caprino en
distintos establecimientos de la provincia que tienen entre 600 y 800 cabezas es .150,
mientras que en la tabla 1.6 se ve que 15% de los establecimientos tiene esa cantidad
de cabezas del total.
Generalmente es ms significativo trabajar con una base de 1 para proporciones
o de 100.0 para porcentajes que usar las frecuencias mismas. De hecho, el uso de la
distribucin de frecuencia relativa o de la distribucin de porcentaje se vuelve esencial
siempre que una serie de datos se compara con otras series de dato, especialmente si
difiere el nmero de observaciones en cada serie de datos.
Como ejemplo, supongamos que un psiclogo industrial deseaba comparar
ausentismo diario entre los empleados de oficina de dos tiendas departamentales. Si,
en un da dado, seis empleados de 50 de la tienda A se ausentan y tres empleados de
10 de la tienda B se ausentan, qu conclusiones podemos sacar? Es inapropiado
decir que ocurri ms ausentismo en la tienda A. Aunque hemos observado que en la
tienda A hubo el doble de ausencias que en la tienda B, tambin haba cinco veces
_________________________________________________________________________________________
Medidas de Posicin
9
ms empleados que en la tienda B. Por lo tanto, en estos tipos de comparaciones,
debemos formular nuestras conclusiones a partir de los cocientes relativos de
ausentismo, no de los conteos reales. As pues, puede establecerse que el cociente de
ausentismo es dos veces y media mayor en la tienda B (30.0%) que en la tienda A
(12.0%).
Ahora suponga, al desarrollar su informe para el Gobierno de la provincia de La
Rioja, el analista investigador deseaba comparar las cantidades de cabezas de ganado
caprino, con las de 40 establecimientos de la provincia de Crdoba. La tabla 1.7
muestra informacin sobre las cantidades de cabezas de ganado caprino en la
provincia por cada uno de los 40 establecimientos encuestados de Crdoba.
Para comparar las cantidades de los 40 establecimientos de La Rioja con los de
los establecimientos de Crdoba, se desarrolla una distribucin de porcentaje para este
ltimo grupo. Esta nueva tabla se comparar entonces con la tabla 1.6.


Tabla 1.7 Datos sin procesar referentes a cantidades de cabezas de ganado caprino de
la provincia de Crdoba.

650 400 701 853 534 786 990 1507 1567 1152
694 520 855 577 707 782 1264 711 522 958
987 424 700 683 823 639 577 756 799 1260
759 690 852 1084 999 319 948 842 1300 520

La tabla 1.8 describe tanto la distribucin de frecuencia como la distribucin de
porcentaje de las colegiaturas cobradas a residentes fuera de la provincia por las 45
escuelas de Crdoba. Esta tabla se ha construido en lugar de las dos tablas separadas
para ahorrar espacio. Observe que los agrupamientos de clase seleccionados en la
tabla 1.8 concuerdan, donde es posible, con aquellos seleccionados en la tabla 1.2
para las escuelas de Buenos Aires. Los lmites de las clases deberan concordar o ser
mltiplos entre s con el fin de facilitar las comparaciones.




_________________________________________________________________________________________
Medidas de Posicin
10

Tabla 1.8 Distribucin de frecuencia y distribucin de porcentaje de las colegiaturas
para residentes fuera de la provincia en 45 escuelas de Crdoba.

Cantidades Nmero de Porcentaje de
de cabezas establecimientos cabezas

200 400 1 2.5
400 600 8 20
600 800 14 35
800 1000 10 25
1000 1200 2 5
1200 1400 3 7.5
1400 1600 2 5
Total 40 100

Fuente: Los datos fueron tomados de la tabla 1.8.

Usando las distribuciones de porcentaje de las tablas 1.6 y 1.8, ahora resulta
significativo comparar la cantidad de las dos provincias en trminos de las cabezas de
ganado que poseen los 40 establecimientos. De las dos tablas resulta evidente que las
cantidades generalmente son menores en La Rioja que en Crdoba. Por ejemplo, en
La Rioja las cantidades por lo general se agrupan entre 200 y 400 cabezas de caprinos
(es decir, 32.50 de los establecimientos), mientras que en Crdoba las cantidades por
lo general se agrupan entre 600 y 800 cabezas de caprinos (es decir, 35% de los
establecimientos).

Distribucin de frecuencia absoluta acumulada y relativa acumulada
Otros mtodos tiles de representacin de datos que facilitan el anlisis y la
interpretacin son las tablas de distribucin de frecuencia acumulativa. Esta puede
desarrollarse a partir de la tabla de distribucin de frecuencia absoluta, de la tabla de
distribucin de frecuencia relativa.
Tomando como fuente la tabla 1.2 y 1.5 se pueden obtener las siguiente tabla
de frecuencias:
_________________________________________________________________________________________
Medidas de Posicin
11

Tabla 1.9 Frecuencias Absoluta , Relativa y porcentual acumuladas

Colegiatura (en $00) Abs. Acumulada Rel. Acumulada % Acumulad

200 pero menor que 400 13 0.325 32.50
400 pero menor que 600 18 0.450 45.00
600 pero menor que 800 24 0.600 60.00
800 pero menor que 1000 29 0.725 72.50
1000 pero menor que 1200 32 0.800 80.00
1200 pero menor que 1400 37 0.925 92.50
1400 pero menor que 1600 40 100 100


La forma en que se calcula la frecuencia absoluta acumulada esta dado por la
frmula F
j
= n
1
+ n
2
+ ...+ n
j
, es decir, que la frecuencia absoluta acumulada se obtiene
de la suma de cada una de las frecuencias absolutas; mientras que la frecuencia
relativa acumulada esta dado por la frmula Fr
j
= n
1
+ n
2
+ ... + n
j,
, es decir, la suma de
cada una de las frecuencias relativas.

1.1.3 Cuadros y Grficos

A menudo se dice que "una imagen vale ms que mil palabras". De hecho, los
estadsticos han empleado las tcnicas grficas para describir de manera ms vvida
series de datos. En particular, los histogramas, diagrama de barras, los polgonos y el
diagrama de ojiva se usan para describir los datos numricos que han sido agrupados
en distribuciones de frecuencia, de frecuencia relativa o de porcentaje.

Diagrama de Barras

Son una serie de lneas o palos verticales u horizontales que se desplazan hasta
los lmites de cada dato cuantitativo.

_________________________________________________________________________________________
Medidas de Posicin
12
Al graficar un diagrama de barras la variable independiente o aleatoria se
depliega a lo largo del eje horizontal; el eje vertical representa el nmero, proporcin o
porcentaje de observaciones por dato; dependiendo de si el diagrama particular es,
respectivamente, un diagrama de barras de frecuencia absoluta, relativa o de
porcentaje.


Tomando como base la tabla 1.4 se obtiene la siguiente grfica:


Frecuencia


11-
10-
9-
8-
7-
6-
5-
4-
3-
2-
1-
Edades
17 18 19 20 21 22 23

Histogramas

Los histogramas son diagramas de barras verticales en los que se construyen
barras rectangulares en los lmites de cada clase.

Al graficar histogramas, la variable aleatoria o fenmeno de inters se despliega
a lo largo del eje horizontal; el eje vertical representa el nmero, proporcin o
_________________________________________________________________________________________
Medidas de Posicin
13
porcentaje de observaciones por intervalo de clase; dependiendo de si el histograma
particular es, respectivamente, un histograma de frecuencia absoluta, un histograma de
frecuencia relativa o un histograma de porcentaje. Tomando como base la tabla 1.4 la
grfica se muestra a continuacin:

Histograma
0
2
4
6
8
10
12
17 18 19 20 21 22 23
Edades
frecuencia


Teniendo en cuanta la tabla 1.2 la grfica es la siguiente:

Histograma
0
2
4
6
8
10
12
14
200
400
400
600
600
800
800
1000
1000
1200
1200
1400
1400
1600
Cabezas
F
r
e
c
u
e
n
c
i
a


Polgonos
Al igual que con los histogramas, al graficar polgonos el fenmeno de inters se
despliega a lo largo del eje horizontal y el eje vertical representa el nmero, proporcin
o porcentaje de observaciones por intervalo de clase.
_________________________________________________________________________________________
Medidas de Posicin
14
El polgono de porcentaje se forma permitiendo que el punto medio de cada
clase represente los datos de esa clase y luego conectando la sucesin de puntos
medios con sus respectivos porcentajes de clase.
Debido a que los puntos medios consecutivos son conectados por una serie de
lneas rectas, el polgono algunas veces est dentado en apariencia. Sin embargo, al
tratar con una serie de datos muy grande, si tuviramos que crear los lmites de las
clases en su distribucin de frecuencia ms juntos (incrementando as el nmero de
clases en esa distribucin), las lneas dentadas del polgono se "suavizaran". Tomando
en cuanta la tabla 1.6 ganado caprino de La Rioja en porcentaje se obtiene la siguiente
grfica:

Polgono
0
5
10
15
20
25
30
35
200-400 400-600 600-800 800-
1000
1000-
1200
1200-
1400
1400-
1600
Cabezas
Porcentaje


Polgono de porcentaje acumulativo

Para construir un polgono de porcentaje acumulativo (tambin conocido
como ojiva), observamos que el fenmeno de inters, la cantidad de cabezas de
ganado caprino nuevamente se grafica en el eje horizontal, mientras que los
porcentajes acumulativos se grafican en el eje vertical. En cada lmite inferior,
graficamos el valor de porcentaje (acumulativo) correspondiente del listado de la
distribucin de porcentaje acumulativo. Entonces conectamos estos puntos con una
serie de segmentos de lneas rectas.
_________________________________________________________________________________________
Medidas de Posicin
15
La figura a continuacin ilustra el polgono de porcentaje acumulativo de las cabezas
de ganado caprino de la Provincia de La Rioja. La principal ventaja de la ojiva sobre
otros diagramas es la facilidad con que podemos interpolar entre los puntos graficados.
Tomando los datos de la tabla 1.9 se desprende la siguiente grfica:


Ojiva
0
20
40
60
80
100
120
200-
400
400-
600
600-
800
800-
1000
1000-
1200
1200-
1400
1400-
1600
Cabezas
P
o
r
c
e
n
t
a
j
e



Mediciones de la tendencia central

La mayor parte de las series de datos muestran una clara tendencia a agruparse
alrededor de un cierto punto central. As pues, dada cualquier serie de datos particular,
por lo general es posible seleccionar algn valor o promedio tpico para describir toda la
serie de datos. Este valor descriptivo tpico es una medicin de tendencia central o de
ubicacin.
Cuatro tipos de promedios a menudo usados como mediciones de tendencia central
son la media aritmtica, la mediana, la moda y el eje medio.

1.2 La media aritmtica

La media aritmtica (tambin llamada la media) es el promedio o medicin de
tendencia central de uso ms comn. Se calcula sumando todas las observaciones, de
_________________________________________________________________________________________
Medidas de Posicin
16
una serie de datos y luego dividiendo el total entre el nmero de elementos
involucrados.
Por lo tanto, para una muestra que contiene una serie de n observaciones X
1
, X
2
, ...,
X
n
, la media aritmtica (dada por el smbolo X, denominado "X barra") puede escribirse
como :

_ X
1
+ X
2
+ ... + X
n

X =
n
Para simplificar la notacin y por comodidad se usa convencionalmente el trmino
n
X
i

i=1
( que significa la sumatoria de todos los valores X
i
) siempre que deseemos sumar una
serie de observaciones. Esto es

n
X
i
= X
1
+ X
2
+ ...+ X
n

i=1

Usando esta notacin de sumatoria, la media aritmtica de la muestra puede
expresarse de manera ms simple como:



n
_ X
i

X =
i=1

n

donde _
X = media aritmtica de la muestra
n = tamao de la muestra

Xi
= isima observacin de la variable aleatoria X
n
X
i
= sumatoria de todos los valores X de la muestra
_________________________________________________________________________________________
Medidas de Posicin
17
i=1

Para la muestra de nuestro ejemplo tomamos las encuestas de la cantidad de ganado
caprino de 6 establecimientos de la provincia de La Rioja:

X
1
= 678
X
2
= 1199
X
3
= 408
X
4
= 233
X
5
= 224
X
6 =
960
La media aritmtica para esta muestra se calcula como

n
_ X
i

X =
i=1
= 678 + 1199 + 408 + 233 + 224 + 960 = 617 cabezas de ganado
n 6

Aqu observamos que la media se calcula como 617cabezas de ganado caprino,
cuando ningn establecimiento en particular de la muestra tena realmente esa
cantidad. Adems, para esta serie de datos tres observaciones son menores que la
media y tres son mayores. La media acta como punto de equilibrio de tal forma que
las observaciones menores compensan aquellas que son mayores.

Observe que el clculo de la media se basa en todas las observaciones (X
1
, X
2
,
..., X
n
) de la serie de datos. Ninguna otra medicin de tendencia central comnmente
usada posee esta caracterstica. Puesto que su clculo se basa en cada observacin,
la media aritmtica se ve afectada en gran medida por cualquier valor extremo. En
estos casos, la media aritmtica presenta una representacin distorsionada de lo que
los datos estn transmitiendo; as pues, la media no sera el mejor promedio a usarse
para describir o resumir esta serie de datos.

La media de la poblacin est dad por el smbolo
x
, la letra minscula griega
mu subndice x, es decir:
_________________________________________________________________________________________
Medidas de Posicin
18


N
X
1


i=1



=
N

donde:
N: tamao de poblacin
X: isimo valor de la variable aleatoria x

N
X: sumatoria de todos los valores X de la poblacin


i=1


1.3 Mediana

La mediana es el valor medio de una secuencia ordenada de datos. Si no hay empates,
la mitad de las observaciones sern menores y la otra mitad sern mayores, la
mediana no se ve afectada, por ninguna observacin extrema de una serie de datos.
Por tanto, siempre que est presente una observacin extrema es apropiado usar la
mediana en vez de la media para describir una serie de datos.

Para calcular la mediana de una serie de datos recolectados en su forma sin procesar,
primero debemos poner los datos en una clasificacin ordenada. Despus usar la
frmula del punto de posicionamiento

n + 1
2

para encontrar el lugar de la clasificacin ordenada que corresponde al valor de la
mediana. Se sigue una de las dos reglas:

_________________________________________________________________________________________
Medidas de Posicin
19
Regla 1: Si el tamao de la muestra es un nmero impar, la mediana se
representa mediante el valor numrico correspondiente al punto de
posicionamiento, la observacin ordenada es {n + 1)/2.
Regla 2: Si el tamao de la muestra es un nmero par, entonces el punto de
posicionamiento cae entre las dos observaciones medias de la clasificacin
ordenada. La mediana es el promedio de los valores numricos correspondientes a
estas dos observaciones medias,

Muestra de tamao uniforme: Para la muestra de nuestro ejemplo de las cantidades de
ganado caprino en 6 establecimientos, los datos sin procesar fueron

678 1199 408 233 224

960

La clasificacin ordenada se vuelve:

224 233 408 678 960 1199

1 2 3 4 5 6
Mediana = 543

Para estos datos, el punto de posicionamiento es (n + 1)/2= ( 6 + 1)/2 = 3.5. Por
consiguiente, la mediana se obtiene promediando la tercera y cuarta observacin
ordenada:
408 + 678 / 2 = 543 cabezas de ganado

Como puede verse en la clasificacin ordenada, la mediana no se ve por
observaciones extremas. Sin importar si la cantidad mayor es 1278 cabezas, 1578 o
1145cabezas, la mediana sigue siendo 543 cabezas.

Muestra de tamao no uniforme: Si la muestra hubiera tenido un nmero impar, la
mediana estara representada simplemente por el Valor numrico dado a la
observacin (n + 1)/2 de la clasificacin ordenada. Por tanto, clasificacin ordenada de
n = 5 encuestas de establecimientos, la mediana es valor de la tercera observacin
ordenada, [es decir, (5 + 1)/2]= 3= 590
_________________________________________________________________________________________
Medidas de Posicin
20



500 570 5 59 90 0 600 690
Mediana

Empates en los datos: Al calcular la mediana, ignoramos el hecho de que pueden
haber valores empatados en los datos. Suponga, por ejemplo, que la siguiente serie de
datos representa la superficie plantada con olivares en distintas zonas de la provincia
de La Rioja en hectreas:

465 789 456 465 246 833 345

La clasificacin ordenada se vuelve

246 345 456 4 46 65 5 465 789 833

1 2 3 4 5 6 7
Mediana

Para esta muestra de tamao impar, el punto de posicionamiento de la mediana
es la (n + 1)/2 = 4a observacin ordenada. As, la mediana es 465 hectreas plantadas
con olivares, el valor medio de la secuencia ordenada, aun cuando la tercera
observacin sea tambin 456 hectreas.

Para resumir, el clculo del valor de la mediana se ve afectado por el nmero de
observaciones, no por la magnitud de cualquier extremo, cualquier observacin
seleccionada aleatoriamente tiene la misma probabilidad de exceder la mediana como
de ser excedida por sta.

_________________________________________________________________________________________
Medidas de Posicin
21
1.4 La moda

Algunas veces, al resumir o describir una serie de datos, la moda se usa como
una medicin de tendencia central. La moda es el valor de una serie de datos que
aparece con ms frecuencia. Se obtiene fcilmente de una clasificacin ordenada. A
diferencia de la media aritmtica, la moda no se ve afectada por la ocurrencia de
cualesquier valores extremos. Sin embargo, la moda no se usa para propsitos ms
que descriptivos porque es ms variable de muestra a muestra que otras mediciones
de tendencia central. .

Usando la clasificacin ordenada de las cantidades de ganado caprino en 6
establecimientos, los datos sin procesar fueron :
678 1199 408 233 224

960

vemos que no hay moda. Ninguna de las colegiaturas fue la ms tpica.

Observe que hay una diferencia entre ninguna moda y una moda de 0, como se
ilustra en la siguiente clasificacin ordenada de temperaturas de medioda (C) en Rio
Gallegos durante la primera semana de diciembre

-4 -2 -1 -1 0 0 0 0
Moda = 0.

Adems, una serie de datos puede tener ms de una moda, como se ilustra en
la siguiente clasificacin ordenada de temperaturas de medioda (C) en Necochea
durante la primera semana de enero:

21 28 28 35 31 31 29

En Necochea vemos que hubo dos modas, 28y 31. Estos datos se describen como
bimodales.

1.5 Cuartiles, deciles y percentiles

_________________________________________________________________________________________
Medidas de Posicin
22
Adems de las mediciones de tendencia central, existen tambin algunas
mediciones tiles de ubicacin no central que se emplean particularmente al resumir o
describir las propiedades de grandes series de datos numricos. La medicin de este
tipo ms ampliamente usadas son los cuartiles.
Mientras que la mediana es un valor que divide la clasificacin ordenada a la
mitad (50 % de las observaciones son menores y 50% de las observaciones son
mayores), los cuartiles son mediciones descriptivas que dividen los datos ordenados en
cuatro cuartos.

El primer cuartil, Q
1
, es un valor tal que 25.0% de las observaciones son menores y
75.0% de las observaciones son mayores.
El segundo cuartil, Q
2
, es la mediana , 50.0% de las observaciones son menores y
50.0% de las observaciones son mayores.
El tercer cuartil, Q
3
, es un valor tal que 75.0% de las observaciones son menores y
25.0% son mayores.

Para aproximar los cuartiles, se usan las siguientes frmulas de punto de
posicionamiento:

Q
1
= valor correspondiente a n + 1 observacin clasificada
4

Q
2
= mediana, el valor correspondiente a 2 ( n + 1 ) = n + 1 observacin clasificada
4 2

Q
3
= valor correspondiente a 3 ( n + 1 ) observacin clasificada
4
Las siguientes reglas se usan para obtener los valores de cuartiles:

1) Si el punto de posicionamiento resultante es un entero, se elige la observacin
numrica particular correspondiente a ese punto de posicionamiento para el cuartil.
2) Si el punto de posicionamiento resultante est a la mitad del camino entre dos
enteros, se selecciona el promedio de sus valores correspondientes,
_________________________________________________________________________________________
Medidas de Posicin
23
3) Si el punto de posicionamiento resultante no es ni un entero ni un valor a la mitad del
camino; entre dos enteros, se usa una regla simple para aproximar el cuartil particular
que consiste en redondear al punto de posicionamiento entero ms cercano y
seleccionar el valor numrico de la observacin correspondiente.

Tambin se pueden obtener las mediciones llamadas deciles y percentiles,
donde las primeras dividen a conjunto de datos en diez partes iguales y las segundas
dividen al conjunto de datos en cien partes iguales.

En resumen los cuantiles pueden ser:

Cuartiles : dividido en 4 partes
Deciles: dividido en 10 partes
Percentiles: dividido en 100 partes

Vous aimerez peut-être aussi