Vous êtes sur la page 1sur 15

UNIDAD I:

INTRODUCCIÓN. ESTADÍSTICA DESCRIPTIVA

INTRODUCCIÓN

Tanto en carreras profesionales como en la vida cotidiana estamos en contacto con


información (datos). Frecuentemente, necesitamos sintetizar dicha información y/o extraer
alguna conclusión a partir de la misma. En ello la estadística resulta de utilidad, ya que permite
recopilar, presentar y analizar información. Las técnicas estadísticas pueden ser usadas para
describir y comprender la VARIABILIDAD presente en los datos, permitiendo tomar decisiones
teniendo en cuenta dicha variabilidad.

Un autor dice: "La estadística es el campo de la ciencia que se refiere al acopio de


datos de un número comparativamente pequeño de casos para obtener conclusiones lógicas
acerca del caso general ". Ahora, ¿pueden obtenerse conclusiones acerca del todo si sólo se
toma una parte de la información necesaria para responder una pregunta? La respuesta es
afirmativa; aunque esta respuesta tiene sus limitaciones. Wallis y Roberts expresan que "La
Estadística es un conjunto de métodos para tomar decisiones prudentes ante la incertidumbre".
Para llegar a decisiones acertadas es necesario saber qué y cuánta información se necesita,
qué metodología de análisis es la apropiada, qué conclusiones pueden llegar a obtenerse y qué
exactitud tendrán las mismas.

La estadística aplicada al área agropecuaria y de alimentos constituye una herramienta


útil para el diseño de investigaciones y el mejoramiento de calidad, el análisis de la información
y la extracción de conclusiones a partir de los datos.

POBLACIÓN Y MUESTRA

Un aspecto estadístico importante es poder llegar a decisiones acertadas acerca de un


grupo grande (población), después de obtener datos relevantes de una parte pequeña del
mismo (muestra). El término POBLACIÓN se refiere al conjunto de observaciones sobre todos
los elementos de un universo (un grupo de personas, objetos o elementos abstractos) acerca
del cual se desean extraer conclusiones y tomar decisiones. Las observaciones pueden ser
mediciones, conteos, atributos cualitativos, índices, etc. Es decir, una población consiste en los
posibles valores de una variable y, por lo tanto, la población queda especificada cuando se ha
determinado la característica o variable que la define. Los valores que puede tomar dicha
variable pueden ser infinitos.

Se puede considerar población al conjunto de datos que se obtendrían al observar la


variable de interés en cada uno de los elementos que constituyen el universo de interés; como
así también al conjunto de todos los valores que se podrían obtener al realizar sucesivas
observaciones sobre el mismo objeto. Un ejemplo del primer caso lo constituyen los pesos de
todos los animales que forman un rodeo, mientras que un ejemplo del segundo es el conjunto
de los rendimientos posibles que se obtendrían al realizar mediciones sucesivas sobre una
parcela experimental (año tras año).

Cuando se necesita obtener información sobre una población, un modo de lograrlo es


examinar a cada uno de los elementos que la componen. Esto es evidentemente complicado y
costoso cuando la población es grande o sus elementos están distribuidos en el tiempo o en el
espacio, e imposible cuando la población fue definida conceptualmente. Por éstas y otras
razones, debe introducirse el concepto de muestreo. Una MUESTRA es un grupo
comparativamente pequeño, elegido mediante un procedimiento objetivo y que representa a la
población. Es un subconjunto de una población especificada previamente, es decir que sus
integrantes gozarán de las mismas características que los de la población de donde ella
proviene.

La estadística, en su faz inicial, se ocupa de proveer los métodos para recopilar datos,
organizarlos y presentarlos o resumirlos. La estadística cumple así su primer objetivo:
"DESCRIBIR". Esta parte de la estadística que se ocupa de caracterizar (organizar y sintetizar)
grupos de datos se llama ESTADÍSTICA DESCRIPTIVA.

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 2


En gran cantidad de situaciones describir no es suficiente y lo que se pretende es
predecir el comportamiento de una población, basándose en el conocimiento de los datos
proporcionados por una muestra. Esto se realiza mediante la INFERENCIA ESTADÍSTICA. Es
particularmente importante definir la población que se estudia y obtener una muestra
representativa de dicha población. Existen métodos para asegurar la representatividad de una
muestra. Dichos métodos se basan en el principio de aleatoriedad (es decir, una muestra será
buena cuando los elementos que la componen no fueron elegidos deliberadamente, sino
mediante algún proceso de elección al azar). Las inferencias hechas desde una muestra a una
población no pueden ser absolutamente ciertas y por ello se acompañan con los términos de
PROBABILIDAD de que ello ocurra o, lo que es lo mismo, con la magnitud de los riesgos que
se están corriendo.

ORGANIZACIÓN Y PRESENTACIÓN DE DATOS

En general, en todo trabajo de investigación se tiene una etapa que es la recolección de


información. En este caso, la información consiste en datos, que pueden ser de dos tipos:

1) los que se representan con números, como el peso de un animal, el rendimiento


de un cultivo, el número de animales Aberdeen Angus en un rodeo, el número de
plantas anormales en un cultivo, etc.; a los que se denominará datos
CUANTITATIVOS, o numéricos.

2) aquéllos que representan cualidades o que permiten clasificar en categorías,


como la raza, el sexo, la variedad, el color de la piel, etc., llamados características
CUALITATIVAS o categóricas. En este caso, la adjudicación de un valor numérico
puede utilizarse sólo como un código que represente la cualidad.

Entre los datos cuantitativos se encuentran aquellos que pueden tomar cualquier valor
dentro de un intervalo de números reales y que, generalmente, se obtienen a partir de una
medición (como el peso de animales, la temperatura, el rendimiento), y los que sólo pueden
tomar algunos valores de un intervalo (en particular números enteros no negativos) y que
generalmente se obtienen de conteos (como por ejemplo, el número de plantas enfermas, el
número de machos en un rodeo, etc.). A los nombrados en primer término se les llama DATOS
CONTINUOS y a los segundos, DATOS DISCRETOS.

Supongamos que se dispone de una muestra seleccionada de una población


previamente definida e introduzcamos cierta notación. Representaremos con n a la cantidad de
observaciones que constituyen la muestra y con x1, x2 , ... , xn a cada una de las observaciones
en sí. Es decir, disponemos de una muestra de tamaño n formada por los valores de una
variable X, donde xi (con i=1, 2, ..., n) representa el valor de la variable que corresponde a la
i-ésima observación.

Ejemplo 1: Se toma una muestra de 10 parcelas de un determinado cultivo y se cuenta


el número de plantas enanas en cada una. Suponga que los valores observados son:

x1=2; x2=1; x3=3; x4=1; x5=2; x6=1; x7=3; x8=0; x9=2; x10=1

En principio, se cuenta con datos sin ningún ordenamiento ni clasificación. La


estadística descriptiva permite organizar y presentar la información. Para ello utiliza métodos
TABULARES, GRÁFICOS y NUMÉRICOS.

MÉTODOS TABULARES

Cuando se cuenta con DATOS CUANTITATIVOS, lo primero que puede hacerse es


colocarlos en orden de magnitud creciente o decreciente. Esto permite conocer el valor mínimo,
el máximo y cerca de qué valor tiende a concentrarse la mayor parte de la información.
También se los puede resumir en una tabla o cuadro, que se denominará TABLA O
DISTRIBUCIÓN DE FRECUENCIAS.

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 3


CASO 1:

Para construir una tabla de frecuencias lo primero que se hace es registrar los
distintos valores con que cuenta la variable en estudio (supongamos y i, i = 1, ..., k), ordenarlos
en forma creciente y contar la cantidad de veces que aparece cada valor de la variable. A esta
última cantidad se la llama FRECUENCIA o FRECUENCIA ABSOLUTA y se simboliza fi , con i
= 1,...,k. También suele adicionarse lo que se llama FRECUENCIA RELATIVA (frecuencia /
total de datos) que se simbolizará hi , con i = 1, ..., k y las FRECUENCIAS ACUMULADAS Y
FRECUENCIAS RELATIVAS ACUMULADAS (que se simbolizarán Fi y Hi , respectivamente,
con i = 1, ..., k) y que representan la cantidad o la fracción de valores menores o iguales a
determinado valor de la variable.

La tabla de frecuencias correspondiente al ejemplo 1 tendrá la forma:

Número de plantas enanas en una muestra de 10 parcelas


Número de Frecuencia Frec. Frec. Frec. rel.
acumulada relativa acumulada
plantas enanas fi Fi hi Hi
0 1 1 0,1 0,1
1 4 5 0,4 0,5
2 3 8 0,3 0,8
3 2 10 0,2 1,0
TOTAL 10 1,0

CASO 2:

Algunas veces, la construcción de una distribución de frecuencias requiere que se


agrupen los datos en subconjuntos, dado que hay muy pocas observaciones iguales entre sí (a
menos que la cantidad total de ellas sea muy grande). Estos subconjuntos, llamados
INTERVALOS DE CLASE, constituyen una partición exhaustiva y sin superposiciones del
rango de la variable en estudio, de modo que, al clasificar cada observación, siempre hay un
intervalo (y sólo uno) en el que puede ser ubicada.

La manera más simple de construir este tipo de tablas es determinando intervalos de


clase con la misma amplitud. Con los n valores observados x1, x2,..., xn se calcula el rango, es
decir, la diferencia:

máx (xi) - mín (xi) = rango

Luego se decide la cantidad de intervalos (m por ejemplo) en que se dividirá dicho


rango. Esto permite calcular la amplitud (∆) de cada uno de los intervalos mediante la fórmula

rango
∆ =
m

Obtenidos los valores de los límites de los intervalos de clase (los cuales no deben
superponerse y deben fijarse con mucha claridad, a fin de poder ubicar sin ambigüedades
cualquier dato que coincida con algún extremo de intervalo) se procede a calcular las
frecuencias, es decir, el número de observaciones que hay en cada intervalo.

Ejemplo 2: En una encuesta realizada sobre 82 establecimientos dedicados a la


producción agropecuaria se registró la cantidad de hectáreas sembradas con girasol en la
campaña anterior, lo cual proporcionó la siguiente información:

220 230 170 310 240 330 270 290 210 280 210 280 170 290 210 260 160 250 250 240 310
180 210 280 260 260 220 280 240 290 300 240 230 210 250 260 230 310 180 200 270 260
220 300 220 230 240 200 230 330 270 180 310 190 290 270 180 240 290 230 280 330 300
190 260 200 250 250 240 250 240 240 310 250 220 250 230 260 280 220 220 330.

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 4


Estos datos pueden organizarse en distribuciones de frecuencia. Aquí presentamos dos:

Cantidad de ha. Frecuencia Frec. Frec. relativa Frec. rel.


sembradas con fi acumulada hi acumulada
girasol Fi Hi
[160 ; 190) 7 7 0,085 0,085
[190 ; 220) 10 17 0,122 0,207
[220 ; 250) 23 40 0,280 0,487
[250 ; 280) 19 59 0,232 0,719
[280 ; 310) 14 73 0,171 0,890
[310 ; 340) 9 82 0,110 1,000
82

Cantidad de ha. Frecuencia Frec. Frec. relativa Frec. rel.


sembradas con fi acumulada hi acumulada
girasol Fi Hi
[160 ; 180) 3 3 0,036 0,036
[180 ; 200) 6 9 0,073 0,109
[200 ; 220) 8 17 0,098 0,207
[220 ; 240) 14 31 0,171 0,378
[240 ; 260) 17 48 0,207 0,585
[260 ; 280) 11 59 0,134 0,719
[280 ; 300) 11 70 0,134 0,853
[300 ; 320) 8 78 0,098 0,955
[320 ; 340) 4 82 0,049 1,000
82

También puede construirse una tabla de frecuencias para datos cualitativos. En la tabla
se presentan las frecuencias absolutas y relativas del número de premios Nobel (en las
ciencias) por país entre 1901 y 1939 (Gil y Zárate de Lara, 1998).

País fi hi
Suiza 5 0,040
Dinamarca 4 0,032
Holanda 9 0,072
Suecia 6 0,048
Alemania 37 0,296
Gran Bretaña 21 0,168
Austria 6 0,048
Francia 15 0,120
Canadá 2 0,016
Bélgica 1 0,008
Estados Unidos 15 0,120
Italia 3 0,024
España 1 0,008
12 1
5

MÉTODOS GRÁFICOS

Ciertas características de la distribución de un conjunto de datos cuantitativos pueden


ser visualizadas en varias formas, por ejemplo a través de HISTOGRAMAS, POLÍGONOS DE
FRECUENCIAS, GRÁFICOS DE TALLO-HOJA o DIAGRAMAS DE CAJA. Éstos constituyen
una síntesis visual de dicha distribución.

Histograma: es la representación gráfica directa de una tabla de frecuencias. Consiste


en una serie de rectángulos adyacentes que tienen sus bases sobre los intervalos de clase,
usualmente representados en el eje horizontal con ancho igual al tamaño o amplitud de los
intervalos y superficie proporcional a las frecuencias de cada intervalo. Se acostumbra tomar
las alturas numéricamente iguales a las frecuencias de cada intervalo, salvo cuando los
intervalos tienen distinta amplitud. Cuando se representan frecuencias relativas, el área

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 5


encerrada por el histograma es igual a 1.

Polígono de frecuencias: es un gráfico de líneas, trazado uniendo los puntos medios


superiores de las barras del histograma. Se debe prolongar el trazado hasta los puntos medios
de los intervalos inferior y superior inmediatos, que corresponden a intervalos con frecuencia
cero.

Observar que el área encerrada entre el polígono y el eje horizontal es equivalente al


área que totalizan las barras del histograma.

En la figura 1 se presentan el histograma y polígono de frecuencias correspondientes al


ejemplo 2 (primera tabla).
20
15
Frecuencia

10
5
0

150 200 250 300 350

Hectáreas

Figura 1: Histograma y polígono de frecuencias de la cantidad de hectáreas sembradas con el


cultivo de girasol en 82 establecimientos agrícolas.

Ejemplo 3: Los siguientes datos corresponden a los rendimientos obtenidos en un ensayo con
25 híbridos de maíz, llevado a cabo por una Estación Experimental. Cada parcela incluyó 4
surcos con 10 plantas por surco.

Rendimiento de maíz (kilogramos por parcela):

15,1 13,9 16,1 13,7 13,4 11,2 14,0 13,1 15,9 14,7
12,9 10,9 12,9 11,3 15,9 12,1 12,3 11,6 11,3 13,3
18,2 16,2 13,7 13,7 15,2

Estos datos pueden ser agrupados en una tabla de frecuencias y luego representados en un
histograma como el que se muestra en la figura 2.
8
6
Frecuencia

4
2
0

10 12 14 16 18

Producción de maíz (kg/parcela)

Figura 2: Histograma de la producción de 25 híbridos de maíz (kg/parcela).

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 6


Si deseamos evitar la pérdida de información inherente al histograma, podríamos
reemplazarlo por el diagrama de tallo y hoja.

Para los datos del ejemplo 3 un diagrama de tallo y hoja es el siguiente:

La coma decimal se encuentra en |


10 | 9
11 | 2336
12 | 1399
13 | 1347779
14 | 07
15 | 1299
16 | 12
17 |
18 | 2

Cada número antes de la barra vertical (|) es un tallo y cada dígito a la derecha de |
es una hoja, de tal modo que desde el diagrama pueden reconstruirse los datos. Por
ejemplo, en el primer renglón puede recuperarse el dato 10,9 y en el segundo, los datos
11,2, 11,3, 11,3 y 11,6.

Hay varias maneras en que un diagrama de tallos y hojas puede modificarse para
satisfacer necesidades particulares.

Ejemplo 4: Un productor cuenta con una muestra de 12 vacas lecheras que producen
semanalmente la siguiente cantidad de leche (litros):

60,2 67,1 61,2 93,6 135,6 57,5


77,1 56,6 78,9 86,7 73,9 87,2

El diagrama de tallo y hoja puede ser el siguiente:

La coma decimal se encuentra un dígito a la derecha de |


5 | 78
6 | 017
7 | 479
8 | 77
9 | 4
10 |
11 |
12 |
13 | 6

En este caso puede observarse una pequeña pérdida de información debido al


redondeo realizado. Por ejemplo, en el último tallo leemos 13|6 y debemos ubicar el punto
decimal 1 dígito a la derecha de |, es decir que recuperamos como dato al 136 y desde el
listado de observaciones en la muestra sabemos que es el redondeo de 135,6.

El diagrama de caja se mostrará al final de esta unidad ya que requiere algunos de los
conceptos que se desarrollarán en “Métodos Numéricos”

Algunas otras representaciones gráficas tradicionalmente usadas son:

Gráfico o diagrama de barras: Se utiliza, generalmente, para representar dos


variables, una cuantitativa y otra cualitativa o categórica. Consiste en una secuencia de
rectángulos o barras asentados en el eje, usualmente el horizontal, donde se represntan las
categorías (el cual no tiene una escala numérica) y con altura variable según sea la magnitud
del dato de la variable cuantitativa a representar. Las barras deben estar separadas entre sí y
es conveniente que tengan el mismo ancho, de modo que siempre el área de cada columna
sea proporcional a la magnitud a representar. Deben hacerse todas las referencias que sean
oportunas.

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 7


70
60
Millones de cabezas

50
40
30
20
10
0

1900 1940 1980 1994

Año

Figura 3: Evolución de las existencias ovinas en la Argentina.

Gráficos circulares: Son muy utilizados cuando se quieren destacar las proporciones
de cada uno de los grupos en que se ha clasificado a los datos. Se utiliza para representar
variables cualitativas y es conveniente cuando hay pocas clases. El gráfico se construye
mediante la división proporcional de un círculo, de radio arbitrario, en sectores circulares para
cada clase a representar.

A. Norte

AFRICA
A. Latina

CEE
URSS
Otros

Figura 4: Destino de las exportaciones de aceite de girasol 1990/92.

Gráficos de líneas: Se construyen para relacionar datos de dos variables, colocando


una de ellas en el eje de las abscisas y la otra en el eje de las ordenadas. Se usan en gran
medida para representar datos a través del tiempo. En ese caso se coloca en el eje de las
abscisas los distintos períodos considerados y en el de las ordenadas, las observaciones
correspondientes. En general, ambas variables son continuas.

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 8


2200
Rendimiento (Kg/ha)

2000
1800
1600

82/83 84/85 86/87 88/89 90/91


83/84 85/86 87/88 89/90 91/92
Ciclo agrícola

Figura 5: Evolución del rendimiento del cultivo de trigo (kg/ha) desde el ciclo 82/83 al 91/92.

Dado un conjunto de datos, en general, no hay una única forma de representarlos


gráficamente, como habrá podido apreciarse. Por ejemplo, podemos observar que la
información representada tanto en la figura 4 como en la figura 5, también pueden mostrarse
en un gráfico de barras.

MÉTODOS NUMÉRICOS

El ordenamiento de los datos y la representación gráfica de los mismos brindan de por


sí abundante información de la muestra y permiten inferir algunas conclusiones respecto de su
comportamiento. Sin embargo, es necesario asociar a cada conjunto de datos algunas
características numéricas que describen los aspectos fundamentales de los mismos y permiten
resumirlos. Estas características mínimas para DATOS CUANTITATIVOS reciben el nombre de
MEDIDAS DE POSICIÓN O TENDENCIA CENTRAL y MEDIDAS DE DISPERSIÓN.

Las medidas de posición o tendencia central son aquellas cifras que describen la
ubicación de los datos respecto al origen en un sistema de coordenadas cartesianas.

Ejemplo: El rendimiento promedio de papa variedad Spunta en la campaña 1984/85 fue


de 500 bolsas/ha. Esto indica el lugar que ocupa en el eje de las abscisas el rendimiento de
referencia (500 unidades a la derecha del origen).

Ejemplo: Un lote de vacunos se encuentra en estado de mantenimiento de peso (0 kg.


de aumento de peso por animal y por día), valor que se encuentra en el origen de las
coordenadas.

Las medidas de dispersión o de variación son aquellas que representan el grado de


separación o de concentración que tiene el conjunto de datos en consideración.

Ejemplo: Se dice que en los lotes con trigo candeal en la presente campaña hubo desde
rendimientos muy malos a muy buenos, mientras que, los rendimientos de trigo duro fueron
parejos y de valores aceptables. Hay una mayor variación o dispersión en los rendimientos de
trigo candeal que en los de trigo duro.

Las medidas de posición y dispersión que se calculan con todos los valores
correspondientes a una población reciben el nombre de PARÁMETROS; las correspondientes
calculadas a partir de los datos de una muestra se llaman ESTIMADORES de los parámetros
de la población. Los parámetros son valores FIJOS, por ejemplo: el porcentaje de
establecimientos que fueron explotados por sus propietarios en la Provincia de Buenos Aires en
la campaña 1984/85 es un parámetro. Éste sólo tiene un valor, aunque rara vez se pueda saber

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 9


cual es. Un estimador será el porcentaje de establecimientos explotados por sus propietarios en
la campaña 1984/85, en una muestra de, por ejemplo, 100 establecimientos de la Provincia de
Buenos Aires, elegidos al azar. Se calculan las medidas de posición y dispersión en las
muestras para estimar los parámetros de la población. Obviamente, los valores de los
estimadores VARÍAN de muestra a muestra.

MEDIDAS DE POSICIÓN O TENDENCIA CENTRAL

La medida de posición más utilizada es la MEDIA ARITMÉTICA o PROMEDIO


ARITMÉTICO o simplemente PROMEDIO. En una población, se la designa habitualmente
con la letra griega µ. En una muestra (x1 , x2 , ..., xn), se la representa con x y es el promedio
de los n valores que componen la muestra, es decir,

∑i= 1
xi
x=
n

La media aritmética en una muestra es un valor que puede o no coincidir con uno de los
valores observados, pero siempre estará comprendido entre el mínimo y el máximo valor
observado de la variable X. La unidad de medida en que se expresa es la misma que la de la
variable original.

Para el ejemplo 4: ¿Cuál es el promedio semanal de producción de leche?

60,2 + 67,1 + ... + 73,9 + 87,2


x = = 77,97 litros
12

Cuando los datos se presentan a través de una tabla o distribución de frecuencias,


como en el CASO 1, la media muestral se obtiene como:
k
∑ yi fi
y= i= 1

n
donde k es el número de clases o intervalos.

Ejemplo 5: La cantidad de hectáreas sembradas (y) con una pastura perenne en una
muestra de 50 establecimientos de la provincia de Buenos Aires se presenta en la siguiente
tabla:
Hectáreas Frecuencia
20 3
30 6
40 12
50 15
60 14
Total 50

¿Cuál es la cantidad promedio de hectáreas sembradas con dicha pastura?

20 × 3 + 30 × 6 + 40 × 12 + 50 × 15 + 60 × 14
y = = 46,2 ha
50

La media corresponde al punto de equilibrio de la distribución. Consideremos el siguiente


ejemplo:

Ejemplo 6: En la muestra: 0 2 10 21 100, el promedio es x = 26,6 y la suma de los


desvíos de cada valor menor a x respecto a x es, en valor absoluto, igual a la suma de los
desvíos de los valores restantes

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 10


4
∑ ( xi − x ) = − 73, 4 73,4
i= 1

02 10 21 100
x = 26,6

(0 – 26,6) + (2 – 26,6) + (10 – 26,6) + (21 – 26,6) = - 73,4


(100 – 26,6) = 73,4

Cuando calculamos un promedio, podemos estar cometiendo un error si no


contemplamos el hecho de que no todas las cantidades tienen la misma importancia respecto
al fenómeno que se describe. Supongamos que un profesor de biología tiene 60 alumnos en
primer año, 54 en segundo y 36 en tercero. Si los estudiantes de primer año promediaron 6,8
puntos en la materia, los de segundo promediaron 7,5 puntos y los de tercero, 8,6 puntos,
¿cuál es la calificación media de los estudiantes de biología? Sumar los valores 6,8, 7,5 y 8,6 y
dividir por 3 no es correcto, pues no contempla el hecho de que hay distinto número de
estudiantes según el año y le está dando el mismo peso a 6,8 (que surge de promediar los
valores de 60 estudiantes) que a 8,6 (que surge de promediar sólo 36 valores). Para asignar a
las cantidades que se promedia el grado de importancia que tienen, es necesario asignarle
valores relativos (que tienen que ver con el número de datos del cual se obtuvo el promedio) y
calcular una media de los datos combinados.

La media general de k conjuntos de datos que tienen medias x1 , x 2 ,..., x k obtenidas


de n1 , n2 , ... , nk observaciones respectivamente es

k

n x + n x + ...+ nk x k i= 1
ni x i
x= 1 1 2 2 =
n1 + n 2 + ...+ nk k
∑ ni
i= 1

En el ejemplo planteado anteriormente, la media de los datos combinados es

60x6,8 + 54x7,5 + 36x8,6


x= = 7, 48 puntos
60 + 54 + 36

Otra medida de centralidad es la MEDIANA. Esta medida de posición es un valor que


tiene un 50% de valores menores que él y un 50% mayores. Así, cuando el número de
observaciones es impar, la mediana es igual al valor central de los datos ordenados y cuando el
número de datos es par, es el promedio de los dos valores centrales de los datos ordenados.
La denotaremos Me (en la muestra) y tiene las mismas unidades de medida que la variable en
estudio. La mediana tiene la ventaja de no verse afectada por los valores extremos, cosa que
no ocurre con el promedio.

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 11


Ejemplo 7: Para calcular la mediana en el caso del ejemplo 4, primeramente ordenamos
los datos obtenidos (en litros):

56,6 57,5 60,2 61,2 67,1 73,9 77,1 78,9 86,7 87,2 93,6 135,6

Como hay un número par de datos (n=12), la mediana es el promedio de los valores centrales.
Entonces:

73,9 + 77,1
Me = = 75,5 litros
2

Ejemplo 8: Para los datos del ejemplo 6, Me = 10.

En una distribución de frecuencias representada en un histograma, la mediana es un


valor en el eje de coordenadas tal que la mitad del área del histograma está a su izquierda y la
otra mitad está a su derecha.

Otra medida de posición frecuentemente usada es el MODO. Éste se define,


simplemente, como el valor que ocurre con mayor frecuencia y más de una vez. Lo
denotaremos con Mo y también posee las mismas unidades de medida que la variable en
estudio. Sus dos principales ventajas son que no requiere de cálculos (sólo de conteo) y que se
puede determinar tanto para variables cuantitativas como cualitativas.

Ejemplo 9: En el ejemplo 5, el modo es Mo = 50 hectáreas (pues es el valor que tiene


mayor frecuencia).

Otras medidas de tendencia central son los CUARTILES, DECILES y PERCENTILES.


Éstos son puntos que dividen al conjunto de valores ordenados en cuartos, décimos o
centésimos, respectivamente.

Además de la mediana, que divide un conjunto de datos en mitades, podemos


considerar otros criterios de división. Cuando se divide un conjunto de datos en cuartas partes,
a los puntos de división resultantes se los llama cuartiles de la muestra. El primer cuartil, q1
es un valor que tiene una cuarta parte, o 25%, de las observaciones menores que él. El primer
cuartil también es el vigésimo quinto percentil de la muestra, p0.25. El segundo cuartil (q2),
es la mediana o quincuagésimo percentil y el tercer cuartil (q3) tiene tres cuartas partes, o
75%, de las observaciones menores que él y es el septuagésimo quinto percentil.

primer cuartil q1 = 25o percentil

segundo cuartil q2 = 50o percentil

tercer cuartil q3 = 75o percentil

El 100k-ésimo percentil de la muestra (pk) es un valor tal que al menos 100k% de las
observaciones tienen valores menores o iguales a él y por lo menos 100 (1 - k) % tienen
valores mayores o iguales a él.

Lo anterior no define unívocamente a un percentil. Para tamaños de muestra regulares


a grandes, la convención que se use para localizar el punto en el intervalo es irrelevante. Por
simplicidad, nosotros asumiremos una forma de calcularlos.

El procedimiento para encontrar el valor de cualquier percentil pk desde los datos


ordenados consiste primero en encontrar la posición de pk a partir del cálculo de nk. Así:

• si nk no es entero, considerar como posición al entero más cercano mayor a nk y así


pk será el valor de x en la muestra que esté ubicado en ese lugar.

x (nk ) + x (nk + 1)
• si nk es entero, pk está entre el lugar nk y nk+1 y será pk =
2

donde x (nk ) es la observación ubicada en el lugar nk (luego de haber ordenado los


datos) y x (nk + 1) es la observación ubicada en el lugar nk+1.

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 12


Ejemplos: Los datos ordenados del ejemplo 4 son:

56,6 57,5 60,2 61,2 67,1 73,9 77,1 78,9 86,7 87,2 93,6 135,6

Cálculo de q1: En este caso, k = 0,25 y

nk = 12 x 0,25 = 3. Como este valor es entero, obtenemos

x(nk) + x(nk + 1) x(3) + x(4) 60,2 + 61,2


p0,25= = = = 60,7
2 2 2

Cálculo de q2 o Me: Aquí, k = 0,50 y

x(6) + x (7) 73,9 + 77,1


nk = 12 x 0,50 = 6. Como 6 es un valor entero, p0,5 = = = 75,5
2 2

(observar que esta forma de calcular Me es totalmente coincidente con la dada anteriormente)

Cálculo de q3: En este caso, k = 0,75 y

x(9) + x(10) 86,7 + 87,2


nk = 12 x 0,75 = 9. Como 9 es entero, p0,75 = = = 86,95
2 2

Cálculo para el primer decil (10o percentil): Aquí, k = 0,10 y nk = 12 x 0,10 = 1,2. Como este
valor no es entero, tenemos que p0,1 = x(2) = 57,5

Cálculo para el 88o percentil: En este caso, k = 0,88 y nk = 12 x 0,88 = 10,56. Como no es
entero, p0,88 = x(11) = 93,6

Cálculo para el 95o percentil: Aquí, k = 0,95 y nk = 12 x 0,95 = 11,4. Como no es entero,

p0,95 = x(12) = 135,6

MEDIDAS DE VARIACIÓN O DISPERSIÓN

La medida más simple de variabilidad es el RANGO o AMPLITUD TOTAL, que se


obtiene haciendo la diferencia entre el mayor y el menor valor del conjunto de datos. Lo
denotaremos mediante R y está expresado en las mismas unidades que la variable estudiada.

R = máx (xi) - mín (xi)

Ejemplo: En el ejemplo 4, el rango es R = máx (xi) - mín (xi) = 135,6 - 56,6 = 79 litros.

Otra medida de variación es la VARIANZA, que mide cuánto se alejan los valores
muestrales con respecto a la media. La varianza muestral de un conjunto de observaciones x1,
x2, ..., xn, representada por S2, es la suma de los cuadrados de los n desvíos entre cada valor xi
y la media aritmética de los mismos, dividida por n-1, o sea:

  n  
2
  ∑ xi  
  
1 n 1  n 2  i= 1 
S2 = ∑ ( xi − x) 2 = ∑ x − 
n − 1 i= 1 n − 1  i= 1 i n 
 
 

Es evidente que el valor numérico de S2 describe el grado de dispersión en la muestra


respecto a su media aritmética. Si todas las observaciones xi fueran iguales, la media
coincidiría en ese valor común y las desviaciones serían todas nulas (también sus cuadrados),
resultando S2 = 0.

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 13


En el caso de una tabla o distribución de frecuencias (CASO 1), la varianza se obtiene
como:

k
∑ ( yi − y ) fi
2

i= 1
S2 =
n− 1

donde yi es el valor de la variable, fi es la frecuencia, k es el número de clases y n es la


cantidad de observaciones o tamaño de la muestra.

Ejemplos: Para el ejemplo 4, la varianza es:

( 60,2 − 77,97 ) + ... + ( 87,2 − 77,97 )


2 2
S2 = = 484,72 litros2
12 − 1

Para el ejemplo 5, la varianza es:

2
S =
( 20 − 46,2 ) × 3 + ... +
2
( 60 − 46,2 ) × 14
2
= 142,41ha2
49

En el caso poblacional, la varianza tiene una definición levemente diferente (que


veremos posteriormente) y se simboliza con σ2.

La varianza está expresada en distintas unidades respecto a la variable original; así, si


la variable en estudio es un peso, expresado en kilogramos, la varianza está expresada en
kilogramos al cuadrado. Por esto se calcula el DESVÍO ESTÁNDAR, el cual es la raíz cuadrada
positiva de la varianza:

S = + S2 = +
1
∑ ( xi - x)2 = +
1 
 ∑ xi2 -
( ∑ xi) 2 
n-1 n - 1 n 
 

El desvío estándar está expresado en las mismas unidades que la variable en estudio y
esto permite compararlo con los valores de la misma.

Ejemplos: El desvío estándar en el ejemplo 4 es:

S= + 484,72litros2 = 22,02 litros

En el ejemplo 5, el desvío estándar es:

S= + 142, 41ha2 = 11,93 ha

Otra medida de dispersión que suele calcularse en la muestra es el COEFICIENTE DE


VARIACIÓN, que se define como el cociente entre el desvío estándar y la media aritmética de
los n valores observados:

S
CV =
x

Es habitual expresarlo como porcentaje

S
CV (%) = ⋅ 100%
x

Para saber si un determinado coeficiente de variación es grande o pequeño es preciso


tener experiencia con datos similares. Este estimador no tiene unidad de medida y, por esta
razón, es útil para comparar series de datos que están expresadas en unidades diferentes.

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 14


Ejemplo: En el ejemplo 4 se obtiene:

22,02litros
CV ( % ) = × 100% = 28,24%
77,97 litros

Tanto la varianza como el desvío estándar son medidas de variación absolutas,


mientras que el coeficiente de variación es una medida relativa de variación (pues refiere la
variación respecto a la media del conjunto de datos).

Otra medida de dispersión similar al rango, pero menos sensible a valores extremos, es
la DISTANCIA INTERCUARTIL (DIQ), que se obtiene como la diferencia entre el tercer y
primer cuartil, es decir, DIQ = q3 - q1.

Una vez definidos los cuartiles y la distancia intercuartil estamos en condiciones de


hablar del diagrama de caja.

Un diagrama de caja muestra algunas medidas de posición y de dispersión. Este


gráfico puede ser realizado sobre un eje vertical u horizontal. Primero se dibuja una caja que se
extiende desde q1 hasta q3. Una línea dentro de la caja indica la ubicación de q2 o mediana.
Otra línea se extiende desde los bordes (q 1 y q3) hacia el mínimo no extremo y el máximo no
extremo, respectivamente. Para encontrar el mínimo no extremo y máximo no extremo
debemos primero definir los valores extremos. Valores extremos (o su expresión en inglés
“outliers”) son aquellas observaciones menores que q1 – 1,5 DIQ ó mayores que q3 + 1,5 DIQ.
Si hay observaciones menores que q 1 – 3 DIQ ó mayores que q 3 + 3 DIQ, a dichas
observaciones se las denomina valores muy extremos. El máximo no extremo, entonces, es
el valor más grande en la muestra que no se considera dato extremo. El mínimo no extremo es
el mínimo valor en la muestra que no se considera extremo. Es decir que, si en una muestra no
hay valores extremos entonces el mínimo no extremo es simplemente el mínimo (ídem con el
máximo). Cada valor extremo de una muestra se grafica individualmente en el diagrama de
caja. Diferentes símbolos (estrellas, círculos, etc.) son usados para identificar los dos tipos de
valores extremos.

∗ ° °°

q1 q2 q3

La siguiente figura presenta el diagrama de caja correspondiente a la muestra de


rendimientos de maíz del ejemplo 3.

Figura 6: Diagrama de caja de la producción de 25 híbridos de maíz (kg/parcela).

Como último ejemplo se muestra un diagrama de tallo y hoja y el diagrama de caja


Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 15
correspondiente a los datos de los tiempos necesarios (en minutos) para que 50 clientes de
un banco comercial lleven a cabo una transacción bancaria:

2,3 0,2 2,9 0,4 2,8 3,1 3,7 7,2 1,6 1,9
2,4 4,4 5,8 2,8 3,3 2,4 4,6 3,8 1,5 2,7
3,3 9,7 2,5 5,6 11,5 0,4 1,3 1,1 5,5 3,4
1,8 4,7 0,7 6,2 1,2 4,2 1,2 0,5 6,8 5,2
7,8 0,8 0,9 0,4 1,3 6,3 7,6 1,4 0,5 1,4

La coma decimal se encuentra en |

0 | 24445578912233445689
2 | 34457889133478
4 | 24672568
6 | 238268
8|7
10 | 5

En este caso se puede observar una variante en la construcción del diagrama de tallo y
hoja respecto a los mostrados anteriormente. Los tallos saltan de dos en dos y, a partir del
primer tallo, podemos recuperar los datos 0,2 y 1,1. Al primero lo recuperamos considerando el
tallo (0) y la primer hoja (2). Al segundo, no lo recuperamos en forma tan directa. Como la hoja
1 está ubicada en la posición 10, luego de una serie de hojas que van desde 2 a 9,
consideramos que, en lugar de corresponder a un tallo 0, corresponde a un tallo 1,
generándose así el dato 1,1. Sin embargo, en el quinto tallo no sabemos si el dato es 8,7 ó 9,7
y en el último tallo, no sabemos si es 10,5 ó 11,5.

Desde el gráfico de tallo y hoja y el diagrama de caja de la figura 7 se puede observar


una marcada asimetría en la distribución de los tiempos y, a partir del diagrama de caja,
podemos observar también la presencia de un valor extremo.

Figura 7: Diagrama de caja del tiempo requerido (minutos) para realizar una transacción
bancaria.

Bibliografía recomendada:

Freund, J.E., Simon, G. A. (1994). “Estadística Elemental” (Octava Edición). Cap. 1, 2, 3 y 4.


Prentice Hall.

Miller, I. R., Freund, J. E., Johnson, R. (1992). “Probabilidad y Estadística para


Ingenieros” (Cuarta Edición). Cap. 1 y 2. Prentice Hall.

Todos los gráficos de esta unidad se realizaron con el software R y las sentencias para
reproducir los mismos se encuentran en el anexo 1 al final del apunte.

R Development Core Team (2006). R: A language and environment for statistical computing. R
Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.r-
project.org.

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 16

Vous aimerez peut-être aussi