Académique Documents
Professionnel Documents
Culture Documents
INTRODUCCIÓN
POBLACIÓN Y MUESTRA
La estadística, en su faz inicial, se ocupa de proveer los métodos para recopilar datos,
organizarlos y presentarlos o resumirlos. La estadística cumple así su primer objetivo:
"DESCRIBIR". Esta parte de la estadística que se ocupa de caracterizar (organizar y sintetizar)
grupos de datos se llama ESTADÍSTICA DESCRIPTIVA.
Entre los datos cuantitativos se encuentran aquellos que pueden tomar cualquier valor
dentro de un intervalo de números reales y que, generalmente, se obtienen a partir de una
medición (como el peso de animales, la temperatura, el rendimiento), y los que sólo pueden
tomar algunos valores de un intervalo (en particular números enteros no negativos) y que
generalmente se obtienen de conteos (como por ejemplo, el número de plantas enfermas, el
número de machos en un rodeo, etc.). A los nombrados en primer término se les llama DATOS
CONTINUOS y a los segundos, DATOS DISCRETOS.
x1=2; x2=1; x3=3; x4=1; x5=2; x6=1; x7=3; x8=0; x9=2; x10=1
MÉTODOS TABULARES
Para construir una tabla de frecuencias lo primero que se hace es registrar los
distintos valores con que cuenta la variable en estudio (supongamos y i, i = 1, ..., k), ordenarlos
en forma creciente y contar la cantidad de veces que aparece cada valor de la variable. A esta
última cantidad se la llama FRECUENCIA o FRECUENCIA ABSOLUTA y se simboliza fi , con i
= 1,...,k. También suele adicionarse lo que se llama FRECUENCIA RELATIVA (frecuencia /
total de datos) que se simbolizará hi , con i = 1, ..., k y las FRECUENCIAS ACUMULADAS Y
FRECUENCIAS RELATIVAS ACUMULADAS (que se simbolizarán Fi y Hi , respectivamente,
con i = 1, ..., k) y que representan la cantidad o la fracción de valores menores o iguales a
determinado valor de la variable.
CASO 2:
rango
∆ =
m
Obtenidos los valores de los límites de los intervalos de clase (los cuales no deben
superponerse y deben fijarse con mucha claridad, a fin de poder ubicar sin ambigüedades
cualquier dato que coincida con algún extremo de intervalo) se procede a calcular las
frecuencias, es decir, el número de observaciones que hay en cada intervalo.
220 230 170 310 240 330 270 290 210 280 210 280 170 290 210 260 160 250 250 240 310
180 210 280 260 260 220 280 240 290 300 240 230 210 250 260 230 310 180 200 270 260
220 300 220 230 240 200 230 330 270 180 310 190 290 270 180 240 290 230 280 330 300
190 260 200 250 250 240 250 240 240 310 250 220 250 230 260 280 220 220 330.
También puede construirse una tabla de frecuencias para datos cualitativos. En la tabla
se presentan las frecuencias absolutas y relativas del número de premios Nobel (en las
ciencias) por país entre 1901 y 1939 (Gil y Zárate de Lara, 1998).
País fi hi
Suiza 5 0,040
Dinamarca 4 0,032
Holanda 9 0,072
Suecia 6 0,048
Alemania 37 0,296
Gran Bretaña 21 0,168
Austria 6 0,048
Francia 15 0,120
Canadá 2 0,016
Bélgica 1 0,008
Estados Unidos 15 0,120
Italia 3 0,024
España 1 0,008
12 1
5
MÉTODOS GRÁFICOS
10
5
0
Hectáreas
Ejemplo 3: Los siguientes datos corresponden a los rendimientos obtenidos en un ensayo con
25 híbridos de maíz, llevado a cabo por una Estación Experimental. Cada parcela incluyó 4
surcos con 10 plantas por surco.
15,1 13,9 16,1 13,7 13,4 11,2 14,0 13,1 15,9 14,7
12,9 10,9 12,9 11,3 15,9 12,1 12,3 11,6 11,3 13,3
18,2 16,2 13,7 13,7 15,2
Estos datos pueden ser agrupados en una tabla de frecuencias y luego representados en un
histograma como el que se muestra en la figura 2.
8
6
Frecuencia
4
2
0
10 12 14 16 18
Cada número antes de la barra vertical (|) es un tallo y cada dígito a la derecha de |
es una hoja, de tal modo que desde el diagrama pueden reconstruirse los datos. Por
ejemplo, en el primer renglón puede recuperarse el dato 10,9 y en el segundo, los datos
11,2, 11,3, 11,3 y 11,6.
Hay varias maneras en que un diagrama de tallos y hojas puede modificarse para
satisfacer necesidades particulares.
Ejemplo 4: Un productor cuenta con una muestra de 12 vacas lecheras que producen
semanalmente la siguiente cantidad de leche (litros):
El diagrama de caja se mostrará al final de esta unidad ya que requiere algunos de los
conceptos que se desarrollarán en “Métodos Numéricos”
50
40
30
20
10
0
Año
Gráficos circulares: Son muy utilizados cuando se quieren destacar las proporciones
de cada uno de los grupos en que se ha clasificado a los datos. Se utiliza para representar
variables cualitativas y es conveniente cuando hay pocas clases. El gráfico se construye
mediante la división proporcional de un círculo, de radio arbitrario, en sectores circulares para
cada clase a representar.
A. Norte
AFRICA
A. Latina
CEE
URSS
Otros
2000
1800
1600
Figura 5: Evolución del rendimiento del cultivo de trigo (kg/ha) desde el ciclo 82/83 al 91/92.
MÉTODOS NUMÉRICOS
Las medidas de posición o tendencia central son aquellas cifras que describen la
ubicación de los datos respecto al origen en un sistema de coordenadas cartesianas.
Ejemplo: Se dice que en los lotes con trigo candeal en la presente campaña hubo desde
rendimientos muy malos a muy buenos, mientras que, los rendimientos de trigo duro fueron
parejos y de valores aceptables. Hay una mayor variación o dispersión en los rendimientos de
trigo candeal que en los de trigo duro.
Las medidas de posición y dispersión que se calculan con todos los valores
correspondientes a una población reciben el nombre de PARÁMETROS; las correspondientes
calculadas a partir de los datos de una muestra se llaman ESTIMADORES de los parámetros
de la población. Los parámetros son valores FIJOS, por ejemplo: el porcentaje de
establecimientos que fueron explotados por sus propietarios en la Provincia de Buenos Aires en
la campaña 1984/85 es un parámetro. Éste sólo tiene un valor, aunque rara vez se pueda saber
∑i= 1
xi
x=
n
La media aritmética en una muestra es un valor que puede o no coincidir con uno de los
valores observados, pero siempre estará comprendido entre el mínimo y el máximo valor
observado de la variable X. La unidad de medida en que se expresa es la misma que la de la
variable original.
n
donde k es el número de clases o intervalos.
Ejemplo 5: La cantidad de hectáreas sembradas (y) con una pastura perenne en una
muestra de 50 establecimientos de la provincia de Buenos Aires se presenta en la siguiente
tabla:
Hectáreas Frecuencia
20 3
30 6
40 12
50 15
60 14
Total 50
20 × 3 + 30 × 6 + 40 × 12 + 50 × 15 + 60 × 14
y = = 46,2 ha
50
02 10 21 100
x = 26,6
k
∑
n x + n x + ...+ nk x k i= 1
ni x i
x= 1 1 2 2 =
n1 + n 2 + ...+ nk k
∑ ni
i= 1
56,6 57,5 60,2 61,2 67,1 73,9 77,1 78,9 86,7 87,2 93,6 135,6
Como hay un número par de datos (n=12), la mediana es el promedio de los valores centrales.
Entonces:
73,9 + 77,1
Me = = 75,5 litros
2
El 100k-ésimo percentil de la muestra (pk) es un valor tal que al menos 100k% de las
observaciones tienen valores menores o iguales a él y por lo menos 100 (1 - k) % tienen
valores mayores o iguales a él.
x (nk ) + x (nk + 1)
• si nk es entero, pk está entre el lugar nk y nk+1 y será pk =
2
56,6 57,5 60,2 61,2 67,1 73,9 77,1 78,9 86,7 87,2 93,6 135,6
(observar que esta forma de calcular Me es totalmente coincidente con la dada anteriormente)
Cálculo para el primer decil (10o percentil): Aquí, k = 0,10 y nk = 12 x 0,10 = 1,2. Como este
valor no es entero, tenemos que p0,1 = x(2) = 57,5
Cálculo para el 88o percentil: En este caso, k = 0,88 y nk = 12 x 0,88 = 10,56. Como no es
entero, p0,88 = x(11) = 93,6
Cálculo para el 95o percentil: Aquí, k = 0,95 y nk = 12 x 0,95 = 11,4. Como no es entero,
Ejemplo: En el ejemplo 4, el rango es R = máx (xi) - mín (xi) = 135,6 - 56,6 = 79 litros.
Otra medida de variación es la VARIANZA, que mide cuánto se alejan los valores
muestrales con respecto a la media. La varianza muestral de un conjunto de observaciones x1,
x2, ..., xn, representada por S2, es la suma de los cuadrados de los n desvíos entre cada valor xi
y la media aritmética de los mismos, dividida por n-1, o sea:
n
2
∑ xi
1 n 1 n 2 i= 1
S2 = ∑ ( xi − x) 2 = ∑ x −
n − 1 i= 1 n − 1 i= 1 i n
k
∑ ( yi − y ) fi
2
i= 1
S2 =
n− 1
2
S =
( 20 − 46,2 ) × 3 + ... +
2
( 60 − 46,2 ) × 14
2
= 142,41ha2
49
S = + S2 = +
1
∑ ( xi - x)2 = +
1
∑ xi2 -
( ∑ xi) 2
n-1 n - 1 n
El desvío estándar está expresado en las mismas unidades que la variable en estudio y
esto permite compararlo con los valores de la misma.
S
CV =
x
S
CV (%) = ⋅ 100%
x
22,02litros
CV ( % ) = × 100% = 28,24%
77,97 litros
Otra medida de dispersión similar al rango, pero menos sensible a valores extremos, es
la DISTANCIA INTERCUARTIL (DIQ), que se obtiene como la diferencia entre el tercer y
primer cuartil, es decir, DIQ = q3 - q1.
∗ ° °°
q1 q2 q3
2,3 0,2 2,9 0,4 2,8 3,1 3,7 7,2 1,6 1,9
2,4 4,4 5,8 2,8 3,3 2,4 4,6 3,8 1,5 2,7
3,3 9,7 2,5 5,6 11,5 0,4 1,3 1,1 5,5 3,4
1,8 4,7 0,7 6,2 1,2 4,2 1,2 0,5 6,8 5,2
7,8 0,8 0,9 0,4 1,3 6,3 7,6 1,4 0,5 1,4
0 | 24445578912233445689
2 | 34457889133478
4 | 24672568
6 | 238268
8|7
10 | 5
En este caso se puede observar una variante en la construcción del diagrama de tallo y
hoja respecto a los mostrados anteriormente. Los tallos saltan de dos en dos y, a partir del
primer tallo, podemos recuperar los datos 0,2 y 1,1. Al primero lo recuperamos considerando el
tallo (0) y la primer hoja (2). Al segundo, no lo recuperamos en forma tan directa. Como la hoja
1 está ubicada en la posición 10, luego de una serie de hojas que van desde 2 a 9,
consideramos que, en lugar de corresponder a un tallo 0, corresponde a un tallo 1,
generándose así el dato 1,1. Sin embargo, en el quinto tallo no sabemos si el dato es 8,7 ó 9,7
y en el último tallo, no sabemos si es 10,5 ó 11,5.
Figura 7: Diagrama de caja del tiempo requerido (minutos) para realizar una transacción
bancaria.
Bibliografía recomendada:
Todos los gráficos de esta unidad se realizaron con el software R y las sentencias para
reproducir los mismos se encuentran en el anexo 1 al final del apunte.
R Development Core Team (2006). R: A language and environment for statistical computing. R
Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.r-
project.org.