Vous êtes sur la page 1sur 19

ESTADISTICA

Introducción y conceptos básicos

INTRODUCCIÓN
Si bien el origen de la estadística es tan lejano como la civilización misma, no alcanzó un
desarrollo notable hasta el surgimiento de los Estados ya que fue utilizada en muchos de sus
asuntos, acontecimiento bajo el cual se convirtió en un instrumento preciso para describirlos
utilizando elementos numéricos, de ahí viene el nombre de esta disciplina.

La estadística es un método científico que encuentra aplicación en una gran diversidad de


campos del saber humano y cuya utilidad, como quedó demostrado desde el siglo pasado, va más
allá de la mera descripción, pues permite el descubrimiento de leyes y tendencias. Dentro de los
muchos ejemplos que permiten ilustrar esto, basta con citar el caso del estadístico alemán
Ernesto Engel (1821-1896) que adquirió renombre en el terreno de las investigaciones
económicas y sociales al descubrir la ley que lleva su nombre y que se anuncia así: “Cuanto
menor es el ingreso familiar, mayor es la proporción destinada a la compra de alimentos”.
Con datos recabados en 1857, observó que esa proporción era de 62%, 55% y 50% en familias
de clase baja, media y alta, respectivamente. Al difundirse esta ley, resultó evidente que cuando
mayor es la parte del ingreso familiar que se invierte en alimentos, menor es la que se puede
destinar a otros fines (vestido, salud, recreación, comodidades, etc.) y viceversa. Por esta razón,
esa parte o proporción ha sido utilizada como unidad de medida del bienestar social.

La Estadística se ha extendido ahora a la agricultura, biología, negocios, química,


comunicaciones, economía educación, electrónica, medicina, física, ciencias políticas,
psicología, sociología y otros muchos campos de la ciencia y la ingeniería.

la estadística ha sido objeto de muchísimas definiciones , las cuales han obedecido,


evidentemente, a las diferentes concepciones que se han tenido de ella a lo largo del tiempo. Sin
embargo, será suficiente por ahora con que nos familiaricemos con una definición que responde
a los objetivos de este curso:

Estadística. Es un conjunto de procedimientos que sirven para organizar y resumir datos,


hacer inferencias a partir de ellos y transmitir los resultados de manera clara, concisa y
significativa.

También podemos entender la estadística como la ciencia que permite responder a ciertas
preguntas basándose en datos empíricos, es decir, en datos que se originan de la observación o la
experiencia. Entendida así, diremos que es la ciencia que tiene que ver con los métodos que dan
respuesta a determinadas cuestiones, mediante la recolección y la interpretación
apropiadas de datos empíricos. Las observaciones o las experiencias que constituyen los datos
pueden resultar de la investigación científica, de la actividad comercial o de la vida cotidiana. En
cualquier caso, la estadística busca dar sentido a los datos; esto implica tanto la recolección
como la interpretación de éstos. La recolección abarca el diseño de las investigaciones
empíricas, la planeación de lo que se quiere observar, la calidad y suficiencia de la observación y
el registro de los datos; la interpretación, el análisis y el resumen de los datos, la extracción de
conclusiones a partir de ellos y el reporte y la presentación de los resultados

Para su estudio, la estadística se divide en dos grandes ramas: descriptiva e inferencial.


Estadística descriptiva. Es un conjunto de procedimientos que sirven, para organizar,
describir y sintetizar datos, sin que las conclusiones que se extraigan de éstos rebasen su ámbito
específico.

Por ejemplo, si al recolectar las calificaciones de un grupo de estudiantes en una asignatura


determinada las resumimos diciendo que la calificación promedio es 7.5, estamos describiendo y
sintetizando una característica de los datos; es decir, del total de calificaciones. La validez de esta
descripción numérica atañe únicamente al grupo de estudiantes del cual provienen los datos y no
encierra incertidumbre.

Estadística inferencial. Es un conjunto de procedimientos que se emplean para hacer


inferencias y generalizaciones respecto a una totalidad, partiendo del estudio de un número
limitado de casos tomados de esta última.

El medio empleado para el estudio estadístico es la enumeración o recuento. Enumerar es captar


las características de los elementos sometidos a estudio y anotarlos o medirlos bajo las
condiciones que se presentan. La estadística es, básicamente, un método de inducción basado en
los grandes números y sus propiedades,(La Ley de los grandes Números, conocida también como
Teorema de Bernoulli) con lo cual se eliminan los errores propios de la observación y se aumenta
la validez de los resultados obtenidos.

Población.
También llamada universo, es todo conjunto de personas, cosas u objetos con ciertas
características comunes.

Por ejemplo: los estudiantes de preparatoria con promedio mínimo de 8 en el Estado de


Michoacán en 2002; las fábricas de automóviles existentes en la República Mexicana hasta el 31
de diciembre de 2005; el conjunto de los números primos; el conjunto de las formas imaginables
en que se puede repartir la riqueza nacional, etc. De estos ejemplos debe quedar claro que en
estadística el concepto de población no se refiere necesariamente a personas ni objetos
materiales. Tampoco tiene que estar integrada por un gran número de elementos. Si decimos “los
números naturales < 10”, estaremos definiendo con precisión un universo que consta de muy
pocos elementos.

Cuando se trata de elementos concretos, por ejemplo, estudiantes, fábricas de automóviles,


ejidos, viviendas, etc., su definición rigurosa se alcanza, por regla general, añadiendo a la
característica la ubicación o lugar y el periodo, es decir, el espacio de tiempo en el cual se
considera válida esa característica. “Ejidos en el municipio de Córdoba hasta el 31 de junio de
1980”; viviendas con más de 3 habitaciones en Yucatán hasta el 30 de marzo de 1993”, etc. Cada
uno de los componentes de una población recibe el nombre de elemento o unidad esencial, que
puede ser individual o colectivo. En una población formada por estudiantes, el elemento o
unidad esencial es “el estudiante”, cuyo carácter es, evidentemente, individual; en una población
formada por fábricas de automóviles, el elemento es “la fábrica de automóviles”, de naturaleza
colectiva, ya que se trata de un establecimiento en el que hay muchos obreros, empleados,
departamentos, etc.

Definida una población cualquiera, se llama muestra a toda porción de elementos sacada de
ella.
Si de una población formada por N elementos, se toma una parte de ellos, esta parte o
subconjunto de la totalidad será una muestra. Gráficamente, universo (población), elemento y
muestra se representa como en la figura siguiente:

Relatividad de los términos población, elemento y muestra

Consideremos un universo formado por todas las facultades de una universidad: cada facultad
será un elemento de ese universo. Si tomásemos unas cuantas facultades, tendríamos una muestra
(Fig. 1.2.2). No obstante, el universo objeto de estudio podría ser redefinido en un momento
dado. Podríamos estar interesados en estudiar una facultad determinada, que sería un universo
cuyos elementos podrían estar dados por sus profesores, alumnos, empleados, etc. (Fig. 1.2.4).

También podemos considerar como universo al conjunto de todas las universidades de un país.
En este caso la universidad que inicialmente habíamos considerado pasa a ser un elemento del
nuevo universo. Si tomásemos unas cuantas universidades del conjunto, esa porción o
subconjunto pasaría a formar una muestra (Fig. 1.2.3).
Variable. Es toda propiedad o característica que admite variaciones dentro de un conjunto de
objetos.

Se dice que algo varía si puede tomar por lo menos dos valores, grados o formas o, incluso,
cuando una característica puede estar presente o ausente en una situación específica.

Dicho esto, podríamos estar de acuerdo en que nociones como sexo, número de hijos por
familia, color de automóvil, número de huelgas anuales, nivel de estudios, etc., son variables, ya
que son características que admiten por lo menos dos valores, grados o formas dentro de un
universo determinado.

No obstante, la práctica docente enseña que, al empezar a familiarizarse con este tema, los
alumnos suelen confundir la característica que admite variaciones con el universo o con los
elementos del mismo. Compárese la lista del párrafo anterior con esta otra: persona, vivienda,
lámpara, automóvil. Estos términos se refieren a objetos y no a características de objetos; por lo
tanto, no son variables. Variables serían las características que quisiéramos indagar de esos
objetos. Por ejemplo, de un universo formado por personas podríamos conocer su edad, lugar de
nacimiento, nivel de escolaridad, clase social a que pertenecen, etc. Estas peculiaridades son
variables. También son variables, de un universo formado por automóviles, su marca, modelo,
color, potencia, etc., ya que son características que van cambiando de auto en auto.

Ejemplo 1.1 La tabla siguiente muestra la producción de azúcar en la zafra 1988/1989, en cuatro
ingenios de los más importantes del país (Fuente: Manual Azucarero Mexicano, 1990):

Producción
Ingenio
(miles de ton.)

El potrero 154.8

Emiliano Zapata 116.9

San Cristóbal 153.3

Tala 115.3

En este caso la producción es una variable, porque se ha indagado en un mismo momento (zafra
88/89) y en diferentes fábricas.
Ejemplo 1.2. A continuación se muestra la producción de azúcar en el Ingenio El Potrero,
durante cuatro zafras consecutivas (Fuente: Idem, p. 373):

Zafra Producción (miles de ton.)

84/85 138.2

85/86 160.4

86/87 158.0

87/88 146.6

También aquí la producción es una variable, porque se registra en una misma fábrica (Ingenio El
Potrero) y en diferentes momentos.

TIPOS DE VARIABLES

Desde el punto de vista conceptual, existen tres tipos de variables: nominales, ordinales y
cardinales.

Variables nominales. Son las mas simples y abundantes y su Única función es clasificar. Su
variable operacional correspondiente es una escala nominal que sirve para clasificar las
observaciones en un conjunto de categorías mutuamente excluyentes, cuyo orden de colocación
es indistinto. A éstas se les puede asignar cifras u otros símbolos arbitrarios con el fin de
distinguirlas; si son cifras, no tienen ningún valor intrínseco ni propiedades numéricas como en
la aritmética.

En la tabla 1.3.1 observamos que los símbolos 1, 2, 3 y 4, si bien son los mismos que se emplean
para representar números, no representan sino distritos de riego; es decir, carecen de propiedades
numéricas. Además, el orden que se les dé en la tabla es indistinto, ya que sólo sirven para
distinguir un distrito de otro.

Tabla 1.3.1 

Distrito de Hectáreas
Riego sembradas

1 680

2 1200

3 300

4 500
Veamos ahora el siguiente ejemplo:

Véase que, a nivel de medición, estado civil en este ejemplo es un conjunto de cinco
categorías mutuamente excluyentes, cuyo orden de colocación es indistinto, ya que pudimos
haber puesto primero viudo o casado y terminar en soltero. Además, si a “soltero” le llamamos 1,
a “casado” 2, etc., estas cifras carecen de propiedades numéricas, ya que sólo sirven para
distinguir un estado civil de otro. Aprovecharemos esta explicación para señalar que es común
también confundir la variable con sus categorías. Suele oírse que en un ejemplo como el anterior
hay 5 variables; esto es un error. La variable es sólo una: estado civil, que en este caso tiene
cinco categorías o posibilidades de respuesta en un universo determinado. Se debe hablar de las
categorías “soltero” o “divorciado”, por citar algunas, pertenecientes a la variable “estado
civil”. Otras variables nominales serían: sexo, nacionalidad, color de automóvil, tipo de lámpara,
lugar de nacimiento, etc.

Variables ordinales. Clasifican las observaciones en categorías mutuamente excluyentes que


exigen ordenación, ya que guardan entre sí relaciones de ‘mayor que”. Su variable operacional es
una escala ordinal que va desde la categoría más baja a la más alta o viceversa, de modo que las
observaciones queden en el orden apropiado. Estas, categorías tampoco tienen propiedades
numéricas, aunque se las represente por cifras.

La expresión mutuamente excluyentes significa que si un elemento del universo es, digamos,
soltero, no puede ser casado o cualquier otra modalidad del estado civil al mismo tiempo.

Variables cardinales. Son las más complejas. Su variable operacional es una escala cardinal
que se caracteriza porque las diferencias iguales entre dos de sus puntos son iguales entre si. Las
cifras asociadas a las categorías son efectivamente cuantitativas y, en consecuencia, se puede
efectuar, con ellas operaciones aritméticas.

Las variables cardinales se dividen en continuas o discretas.

Continuas: Son las que pueden tomar cualquier valor dentro de un intervalo (edad, salarios,
estatura, producción anual de azúcar, etc.).

Discretas: son las que toman sólo algunos valores dentro de un intervalo (hijos por familia,
número de huelgas anuales, producción mensual de automóviles, etc).

Por ejemplo, la edad de los niños de una escuela primaria podría admitir como categorías
posibles, las siguientes:
REDONDEO DE DATOS

El resultado de redondear un número como 72.8 en unidades es 73, pues 72.8 está más próximo de 73 que
de 72. Análogamente, 72.8146 se redondea en centésimas (o sea con dos decimales) a 72.81,
porque72.8146 está más cerca de 72.81 que de 72.82.

Al redondear 72.465 en centésimas nos hallamos ante un dilema, ya que está equidistante de 72.46 y de
72.47. Se adopta en tales casos la costumbre de redondear al entero par que preceda al 5. Así pues,
72.465 se redondea a 72.46, 183.575 se redondea a 183.58 y 116, 500,000 se redondea en millones a116,
000,000. Esta estrategia es particularmente útil para minimizar los errores de redondeo acumulados
cuando se efectúa un gran número de operaciones.

DIGITOS SIGNIFICATIVOS
Si una altura se anota con la mejor precisión posible como 65.4 in, eso significa que está entre 65.3 5 y
65.45. Los dígitos empleados, aparte de los ceros necesarios para localizar el punto decimal. Se llaman
dígitos significativos o cifras significativas, del número.
EJEMPLO 65.4 tiene tres cifras significativas.
EJEMPLO 4.5300 tiene cinco cifras significativas.
EJEMPLO .0018 — 0.0018 = 1.8 x 10-3 tiene dos cifras significativas.
EJ EM PLO .001800 = 0.001800 = 1.800 x 10-3 tiene cuatro cifras significativas.

Los números asociados a enumeraciones, por contraposición a los obtenidos por mediciones, son exactos
y tienen una cantidad ilimitada de cifras significativas. No obstante, en algunos de estos casos puede
resultar difícil decidir qué cifras son significativas sin información adicional. Así, el número 186,000,000
puede tener 3, 4, ..., 9 cifras significativas. Si se sabe que tiene cinco, es mejor escribirlo como 186.00
millones o bien 1.8600 x 108.

CALCULOS

Al efectuar cálculos que impliquen productos, divisiones y raíces de números, el resultado final no puede
tener más dígitos significativos que el ingrediente con menor cantidad de ellos.

EJEMPLO 73.24 x 4.52 = (73.24)(4.52) = 331.


EJEMPLO 1.648/0.023 = 72.
EJEMPLO raíz cuadrada de 38.7 = 6.22.
EJ EM PLO (8.416)(50) = 420.8 (si 50 es exacto).

Al hacer sumas y restas, el resultado final no puede tener más cifras significativas tras el punto decimal
que el ingrediente con menor cantidad de ellas.

EJEMPLO 3.16 + 2.7 = 5.9.


EJEMPLO 83.42 — 72 = 11.
EJEMPLO 47.816 — 25 = 22.816 (si 25 es exacto).

AGRUPAMIENTO DE DATOS EN INTERVALOS DE CLASE


La práctica constante en el manejo de conjuntos de datos diversos numerosos, nos va haciendo desarrollar
algunas técnicas útiles para agruparlos cuando es necesario. Por esta razón, basta que nos familiaricemos
con una técnica básica que se ilustra a continuación:

Comprometidos en una investigación sobre los empleados de un supermercado, acopiamos datos sobre
diversas variables, una de las cuales es la edad. La información es la siguiente:

32 20 20 24 24 18 18 18 25 26
41 37 37 37 26 26 26 27 27 32
1. Se localiza el menor y el 32 32 29 40 40 44 44 18 18 45
mayor de los datos, y se escribe 34 34 30 30 30 28 28 28 35 28
en columnas toda la serie
42 42 30 22 30 24 30 22 24 20
ordenada de números naturales
limitada por ellos. Luego, se van 28 20 22 28 35 22 28 35 26 26
marcando los casos que caen en 28 44 35 45 26 32 40 20 26 32
cada categoría. Terminado el conteo, se verifica que esté correcto y se anota a la derecha de las marcas el
número equivalente a ellas; decir, la frecuencia de cada categoría.
Esta simple estructura de columnas para la variable, las marcas y la frecuencia es una tabla de conteo.

Tabla 2.9.1

2. Se encuentra el recorrido de la variable, es decir, la diferencia entre el menor y el mayor de los


datos y se le añade una unidad con el fin de tener el total de datos potenciales.

(45-18)=27 27+1=28
Recorrido de la variable No. de datos potenciales

3. Se elige el número de intervalos que tendrá la tabla o la amplitud conveniente para cada
intervalo.
La práctica ha enseñado -y así lo sostienen diversos autores- que el número de intervalos no debe
ser menor de 5  ni mayor de 20: Si es < 5,  se pierden demasiados detalles; si es
>20, aparte de no cumplir con el objetivo de presentar los datos de manera sintética, el análisis se
toma difícil.

Fijado el número de intervalos -digamos 7 -, se divide el total de datos potenciales entre dicho número. El
cociente indicará la anchura real de cada intervalo 28/7= 4
Identificaremos esa anchura por el símbolo j. Así, j = 4.

4. Se toma el menor de los datos recolectados como el límite inferior de la primera clase y se le suma (j-l)
para obtener el límite superior. 18 + (j - 1) = 18 + 3 = 21
El límite inferior del segundo intervalo será el entero consecutivo mayor que el límite superior del primer
intervalo, 22 en nuestro ejemplo, al cual se le suma (j - 1) para obtener el límite superior. 22 + (j - 1) = 22
+ 3 = 25

El límite inferior del intervalo siguiente será 26 y el superior» 29, etc.


5. Establecidas todas las clases, se determina el total de datos que caen en cada clase, es decir, la
frecuencia de clase.

FILAS DE DATOS
Una fila de datos consiste en datos recogidos que no han sido organizados numéricamente, por ejemplo,
las alturas de 100 estudiantes por letra alfabética.
ORDENACIONES
Una ordenación es un conjunto de datos numéricos en orden creciente o decreciente. La diferencia entre
el mayor y el menor se llama rango de ese conjunto de datos.

EJEMPLOS.
(a) Disponer los números 17, 45, 38, 27, 6, 48, 11, 57, 34 y 22 en lista ordenada.
(b) Determinar el rango de esos números.
Solución
(a) En orden creciente: 6, 11, 17, 22, 27, 34, 38, 45, 48, 57. En orden decreciente: 57, 48, 45, 38, 34, 27,
22, 17, 11, 6.
(b) El menor es 6 y el mayor 57, luego el rango es 57 — 6 = 51.

Las calificaciones finales en Matemáticas de 80 estudiantes figuran en la tabla adjunta.


68 84 75 82 68 90 62 88 76 93
73 79 88 73 60 93 71 59 85 75
61 65 75 87 74 62 95 78 63 72
66 78 82 75 94 77 69 74 68 60
96 78 89 61 75 95 60 79 83 71
79 62 67 97 78 85 76 65 71 75
65 80 73 57 88 78 62 76 53 74
86 67 73 81 72 63 76 75 85 77
Hallar en esa tabla: (e) Las cinco más bajas.

(a) La calificación más alta. (f) La décima de mayor a menor.


(b) La más baja. (g) El número de estudiantes con calificaciones de 75 o más.
(c) El rango. (h) Idem por debajo de 85.

(d) Las cinco más altas.


Distribuciones de frecuencias. Al resumir grandes colecciones de datos, es útil
distribuirlos en clases o categorías, y determinar el número de individuos que pertenecen a cada clase,
llamado frecuencia de clase. Una disposición tabular de los datos por clases junto con las
correspondientes frecuencias de clase, se llama distribución de frecuencias (o tabla de frecuencias). La
Tabla 2.1 es una distribución de frecuencias de alturas (con precisión de 1 pulgada)
Altur de 100 estudiantes varones.
Número de
a
estudiantes
(in) Tabla 2.1. Alturas de 100 estudiantes varones de la Universidad XYZ
60-62
La primera clase (o categoría), por ejemplo, consta de las alturas entre 60 y 62 in,
63-65 5 y se indica por
18
el rango 60-62. Como hay 5 estudiantes en esta clase, la correspondiente frecuencia
66-68 42
27
69-71 8

72-74
TOTAL 100
de clase es 5. Los datos así organizados en clases como en la anterior distribución de frecuencias se
llaman
datos agrupados.

INTERVALOS DE CLASE Y LIMITES DE CLASE

El símbolo que define una clase, como el 60-62 en la Tabla 2.1, se llama un intervalo de clase. Los
números extremos, 60 y 62, se llaman límite inferior de clase (60) y límite superior de clase (62).

Un intervalo de clase que, al menos en teoría, carece de límite superior o inferior indicado, se llama
intervalo de clase abierto. Por ejemplo, refiriéndonos a edades de personas, la clase «65 años o más» es
un intervalo de clase abierto.

FRONTERAS DE CLASE. Si se dan alturas con precisión de 1 pulgada, el intervalo de clase 60-62
incluye teóricamente todas las medidas desde 59.5000 a 62.5000. in. Estos números, indicados más
brevemente por los números exactos 59.5 y 62.5, se llaman fronteras de clase o verdaderos límites de
clase; el menor (59.5) es la frontera inferior y el mayor (62.5) la frontera superior.

En la práctica, las fronteras de clase se obtienen promediando el límite superior de una clase con el
inferior de la siguiente.

TAMAÑO O ANCHURA DE UN INTERVALO DE CLASE. El tamaño o anchura de un intervalo


de clase es la diferencia entre las fronteras de clase superior e inferior. Si todos los intervalos de clase
de una distribución de frecuencias tienen la misma anchura, la denotaremos por c. Para los datos de la
Tabla 2.1, por ejemplo, la anchura del intervalo de clase es c = 62.5 — 59.5 = 3, 65.5 — 62.5 = 3.

MARCA DE CLASE. La marca de clase es el punto medio del intervalo de clase y se obtiene
promediando los límites inferior y superior de clase. Así que las marcas de clase del intervalo 60-62 es
(60 + 62)/2 = 61. La marca de clase se denomina también punto medio de la clase.

HISTOGRAMAS Y POLIGONOS DE FRECUENCIAS. Los histogramas y los polígonos de


frecuencias son dos representaciones gráficas de las distribuciones de frecuencias.
1. Un histograma o histograma de frecuencias, consiste en un conjunto de rectángulos con: (a) bases en
el eje X horizontal, centros en las marcas de clase y longitudes iguales a los tamaños de los intervalos de
clase y (b) áreas proporcionales a las frecuencias de clase.

Un polígono de frecuencias es un gráfico de trazos de la frecuencia de clase con relación ala marca de
clase. Puede obtenerse conectando los puntos medios de las partes superiores de los rectángulos del
histograma.
DISTRIBUCIONES DE FRECUENCIAS RELATIVAS

La frecuencia relativa de una clase es su frecuencia dividida por la frecuencia total de todas las clases y
se expresa generalmente como un porcentaje. Por ejemplo, la frecuencia relativa de la clase 66-68 en la
Tabla 2.1 es 42/100 = 42%. La suma de las frecuencias relativas de todas las clases da obviamente 1, o
sea 100 por 100. Si se sustituyen las frecuencias de la Tabla 2.1 por las correspondientes frecuencias
relativas, la tabla resultante se llama una distribución de frecuencias relativas, distribución de porcentajes
o tablas de frecuencias relativas.

Tabla 2.1. Alturas de 100 estudiantes varones de la Universidad XYZ


Altura
Número de
estudiantes
(in)
60-62 5
63-65 18
66-68 42
69-71 27
DISTRIBUCIONES DE FRECUENCIAS ACUMULADAS Y OJIVAS
72-74 8
TOTAL 100 La frecuencia total de todos los valores menores que la frontera de clase
superior de un intervalo de clase dado se llama frecuencia acumulada hasta
ese intervalo de clase inclusive. Por ejemplo, la frecuencia acumulada hasta el intervalo de clase 66-68 en
la Tabla 2.1 es 5 + 18 + 42 = 65, lo que significa que 65 estudiantes tienen alturas por debajo de 68.5 in.
Una tabla que presente tales frecuencias acumuladas se llama una distribución de frecuencias
acumuladas, tabla de frecuencias acumuladas, o brevemente una distribución acumulada, y se muestra
en la Tabla 2.2 para la distribución de alturas de la Tabla 2.1.

Tabla 2.2
Altura Número de
(in) estudiantes
Menor que
59.5
Menor que 62.5
0
Menor que 5
65.5 23
Menor que 65
68.5 92
Menor que 100
71.5
Menor que
74.5

Un gráfico que recoja las frecuencias acumuladas por debajo de cualquiera de las fronteras de clase
superiores respecto de dicha frontera se llama un polígono de frecuencias acumuladas u ojiva, y se
ilustra en la Figura 2.2 para las alturas de estudiantes de la Tabla 2.1.
A ciertos efectos, es deseable considerar una distribución de frecuencias acumuladas de todos los valores
mayores o iguales que la frontera de clase inferior de cada intervalo de clase. Como eso hace considerar
alturas de 59.5 in o más, de 62.5 in o más, etc., se le suele llamar una distribución acumulada «o más»,
mientras que la antes considerada es
una distribución acumulada
«menor que».
Fig. 2.2

MEDIDAS DE TENDENCIA CENTRAL: MEDIA, MEDIANA Y MODA (SERIES DE


DATOS SIMPLES, SIN FRECUENCIA ASOCIADA)

Las medidas de tendencia central son categorías o puntos dentro del recorrido de una variable; se les
llama de tendencia central porque en torno a ellas parecen agruparse los datos. Sirven para resumir todo
un conjunto de valores; por ello bien se les puede considerar como sintetizadores. En general, cualquier
medida de tendencia central es un valor medio, ya que éste, por definición, es todo valor que se halla
entre dos extremos. Por esta razón a cada indicador de tendencia central se le nombra y define de manera
diferente. Aunque existen diversos indicadores de esta índole, estudiaremos los tres de mayor utilidad
para fines prácticos.

Media aritmética

Es la más conocida de las medidas de tendencia central, aunque no con ese nombre. A ella nos referíamos
desde que pasamos por las aulas de la enseñanza elemental, cuando nos preguntábamos, al término de un
ciclo escolar, cuál era el “promedio” que habíamos obtenido,
dándonos la respuesta con sólo sumar las calificaciones alcanzadas en las diferentes asignaturas y dividir
el resultado entre el número de ellas. Se le conoce también con los nombres de valor medio, promedio
aritmético o simplemente media. Se le simboliza con cualquiera de las letras convenidas para representar
variables, coronada con una barrita. Se le define como la suma de un conjunto de cantidades dividida
entre el número de ellas. En símbolos,

ΣX
X =
N

donde X simboliza los datos de una variable y N, el número de ellos.

Si X = 6, 7, 8, 9, 10, su promedio aritmético es

ΣX 6 +7 +8 +9 +10 40
X= = , X= , X =8
N 5 5

Nótese que la media es un valor tal que si cada término del conjunto se sustituye por ese valor,
resulta una suma igual a la de los términos del conjunto.

ΣX =6+7+8+9+10 =40

Σ X = 8 +8 +8 +8 +8 = 5(8) = 40
 
Es decir, resulta evidente que la suma de los datos de una variable es igual al producto de su valor medio
por el número de datos. ΣX=N X
Mediana

Llamada también valor mediano, es el punto dentro del recorrido de una variable que supera a
no más de la mitad de los datos y es superado por no más de la otra mitad. Dicho de otra
manera: es un punto dentro de una distribución de datos que tiene la característica de dividirla en dos
partes iguales. La identificaremos con el símbolo Me.
Tratándose de series de datos sin frecuencia asociada, no se necesita ninguna fórmula para hallarla, pero
es preciso ordenarlos de menor a mayor o viceversa.

En el ejemplo de los cinco datos usados para ilustrar el cálculo de la media, la mediana es 8, por que es el
dato de la variable que supera a dos datos (6 y 7), que no son más de la mitad, y es superado por dos datos
(9 y 10), que tampoco son más de la mitad.
Si el número de datos de la variable es par, la mediana es la semisuma de los dos valores intermedios que
satisfacen su definición. Supongamos que tenemos seis datos: 5,6,7,8,9,10
7 +8
Entonces Me = = 7.5
2
Obsérvese que tanto 7 como 8 satisfacen la definición de mediana: 7 supera a 2 datos, que no son más de
la mitad, y es superado por 3 datos, que tampoco son más de la mitad; 8 supera a 3 datos, que no son más
de la mitad, y es superado por 2 datos, que tampoco son más de la mitad.

Número de orden de la mediana


Una forma rápida de obtención de la mediana, en una serie ordenada de datos, es determinar
 el número de orden que le corresponde . Para hallarlo basta con sumar una unidad al total de datos (N) y
dividir entre dos.
N +1
No. =
2
Ejemplo. Determinar el valor mediano de las distribuciones siguientes, hallando primero el número de
orden que les corresponde:

X = 12,13,17,21,23,25,30
Y = 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65,

7 +1 8
Solución: Para X, No. = = =4
2 2

El valor mediano tiene número de orden 4, es decir, es el cuarto del conjunto de datos ordenados de
menor a mayor. Me = 21
 
N +1 12 +1
Para Y, No. = = 6 .5
2 2
Como no puede haber número ordinal fraccionario, 6.5 indica que el valor mediano está comprendido
entre los datos que ocupan el sexto y el séptimo lugar, lo cual implica hallar la semisuma de 35 y 40.
35 + 40
Me = = 37.5
2

Moda
También llamada modo o valor modal, es el dato de variable que aparece más veces en una distribución.
En otras palabras: es el dato de variable que tiene mayor frecuencia. Se trata, de hecho, del caso más
notorio o típico de una distribución de datos.

En la distribución 2,3,2,4,4,2,5
La moda es 2, pues es el dato que tiene mayor frecuencia: aparece 3 veces.

En la distribución 3, 4, 3, 4, 3, 4
No hay moda, porque ningún dato aparece más veces que otro.

Una distribución puede tener más de una moda si 2 ó más datos, o clases de datos, tienen la misma
frecuencia y ésta es la más alta de la distribución. Así, según el número de modas que tengan, las
distribuciones reciben nombres específicos: con sólo una moda, unimodal; con dos modas, bimodal; con
tres modas, trimodal y con más de tres modas, multimodal.

CÁLCULO DE LA MEDIA, LA MEDIANA Y LA MODA (DATOS NO AGRUPADOS)

Una tabla como la 3.6.1 presenta una distribución de datos no agrupados, conocida también como
distribución simple de frecuencias.

Tabla 3.6.1

Si preguntáramos ¿cuántos datos tiene esta distribución?, algunos podrían responder: cinco. Esta
respuesta errónea tendría como origen el haber olvidado que se trata de una estructura que muestra las
distintas categorías de la variable acompañadas de la frecuencia que les corresponde. Obsérvese que la 4
aparece 5 veces; la 6, 22 veces, etc. Podemos afirmar que existen cinco categorías, repetidas unas y otras
de tal manera que sumadas dan 72. La distribución consta de 72 datos.

En una distribución de datos no agrupados, la media se obtiene mediante la fórmula


ΣfX
X=
Σf
donde X representa cada dato de la variable; f, la frecuencia que le corresponde y Σf el total de datos (N).
Para hallar la mediana se siguen dos pasos: se determina el número de orden que le corresponde
sumando una unidad al total de datos N y dividiendo entre dos.
N +1
No. =
2
y se construye una distribución de frecuencias acumuladas, ascendente o descendente. La mediana es el
dato de la variable cuya frecuencia acumulada contiene o señala su número ordinal.
Y la moda es el dato de mayor frecuencia.
Conocidos los términos que intervienen para encontrar la media y la mediana, resulta ventajoso, en un
caso concreto, llenar primero una estructura donde todos ellos aparezcan claramente y hacer
posteriormente las sustituciones y lecturas que se necesiten. La estructura es la siguiente:
Ejemplo. Un estudio sobre ausentismo de los obreros de la fábrica A en cierto mes del año, condujo a la
tabla siguiente:
Tabla 3.6.2

Calcular e interpretar sus


medidas de tendencia central.

Solución: Se trata de la variable “número de ausencias” de tipo cardinal


discreta. Asignémosle la letra Y y llenemos la estructura propuesta. Y
= número de ausencias, en días.
Tabla 3.6.3
CUARTILES, DECILES Y PERCENTILES

Si un conjunto de datos está ordenado por magnitud, el valor central (o la media de los dos centrales) que
divide al conjunto en dos mitades iguales, es la mediana. Extendiendo esa idea, podemos pensar en
aquellos valores que dividen al conjunto en cuatro partes iguales. Esos valores, denotados Q1, Q2 y Q3, se
llaman primer, segundo y tercer cuartiles, respectivamente. El Q2 coincide con la mediana.

Análogamente, los valores que dividen a los datos en 10 partes iguales se llaman deciles, y se denotan D1,
D2,…, D9, mientras que los valores que los dividen en 100 partes iguales se llaman percentiles, denotados
por P1, P2,…, P99. El 5º. decil y el 50.° percentil coinciden con la mediana. Los 25.° y 75.° percentiles
coinciden con el primer y tercer cuartiles.

Tabla 3.3. que muestra una distribución de frecuencia de los salarios semanales
de 65 empleados de una empresa.

Hallar: (a) los cuartiles Q1, Q2 y Q3, y (h) los deciles D1, D2,…, D9 para los salarios de los 65 empleados
de la tabla 3.3.
Solución
(a) El primer cuartil Q1 es el salario obtenido contando N/4 = 65/4 = 16.25 de los casos, comenzando con
la primera clase (la más baja). Como la primera clase contiene 8 casos, debemos tomar 8.25 (16.25 — 8)
de los 10 casos de la segunda clase. Por interpolación lineal se tiene
8.25
Q1 = $259.995 + ($10.00) = $268.25
10
El segundo cuartil Q2 se obtiene contando los primeros 2N/4 = N/2 = 65/2 = 32.5 caso
Como las dos primeras clases contienen 18 casos, hay que tomar 32.5 — 18 = 14.5 de los 16 caso de la
tercera clase, es decir
14.5
Q2 = $269.995 + ($10.00) = $279.06
16
Notemos que Q2 es la mediana.

El tercer cuartil Q3 se obtiene contando los primeros 3N/4 = (65) = 48.75 casos, Ya que 1
cuatro primeras clases contienen 48 casos, hemos de tomar 48.75 — 48 = 0.75 de los 10 casos
la quinta; luego
0.75
Q3 = $289.995 + ($10.00) = $290.75
10
Por tanto, el 25% de los empleados ganan $268.25 o menos, el 50% $279.06 o menos, y 75% $290.75 o
menos.

(b) Los deciles primero, segundo y noveno se obtienen contando N/10, 2N/10,…, 9N/ 10 casos a partir de
la primera clase. Así pues,

6.5 5
D1= $249.995 + ($10.00) = $258.12 D6 = $279.995 + ($10.00) = $283.57
8 14
• INTRODUCCION
• POBLACION Y MUESTRA
• VARIABLES DISCRETAS Y CONTINUAS
• REDONDEO DE DATOS
• NOTACION SISTEMATIZADA
• CIFRAS SIGNIFICATIVAS
• CALCULOS
• TOMA DE DATOS
• ORDENACION
• DISTRIBUCIONES DE FRECUENCIAS
• INTERVALOS DE CLASE
• LIMITES DE CLASE
• LIMITES REALES DE CLASE
• TAMAÑO DEL INTERVALO DE CLASE
• MARCA DE CLASE
• HISTOGRAMASY POLIGONOS DE FRECUENCIA
• DISTRIBUCIONES DE FRECUENCIA
• DISTRIBUCIONES DE FRECUENCIA ACUMULADA
• DISTRIBUCIONES DE FRECUENCIA RELATIVAS ACUMULADAS