Vous êtes sur la page 1sur 132

-1-

TABLA DE CONTENIDO

1. Conceptos Preliminares. ……………………………………………………. Pág. 5

1.1 Introducción.
1.2 ¿Qué es la Estadística?
1.3 Tipos de Estadística.
1.4 Variables en Estadística.
1.5 Escalas de medición.
1.6 Ejercicios

2. Encuestas. ……………………………………………………………………. Pág. 13

2.1 ¿Qué es una encuesta?


2.2 Preparación de una encuesta.
2.3 Tipos de Encuestas.
2.4 El Cuestionario.
2.5 Poblaciones y muestras.
2.6 Ejercicios.

3. Tablas y Gráficos. ……………………………………………………………. Pág. 20

3.1 Introducción.
3.2 Tablas y distribuciones de frecuencias.
• Tabla para una variable de atributo.
• Tabla para una variable discreta.
• Tabla para una variable continua.
• Tablas para diferentes tipos de frecuencias.
• Tablas de doble entrada.
• Comentarios acerca del uso de tablas.
3.3 Gráficos.
• Columnas.
• Circular.
• Puntos.
• Barras.
• Histograma.
• Polígono de frecuencias.
• Tallo y hojas.

-2-
• Gráfico de caja (Boxplot).
• Dispersión (Nube de puntos).
• Pareto.
• Pictogramas.
• Perfiles.
• Columnas o barras apiladas.
• Líneas.
• Áreas.
• Columnas en tres dimensiones.
• Cotizaciones.
• Ábaco de probabilidad.
• Comentarios acerca del uso de gráficos.
3.4 Ejercicios.

4. Medidas de Centralización y Localización. …………………………………. Pág. 54


4.1 Introducción.
4.2 Media aritmética.
4.3 Media aritmética ponderada (W).
4.4 Media geométrica (G).
4.5 Media armónica (H).
4.6 Error medio cuadrático (Emc).
4.7 Media potencial (Mp).
4.8 Mediana (Me).
4.9 Cuantiles.
4.10 Moda (MO).
4.11 La relación X > Me > Mo.
4.12 La relación H < G < X < Q para dos datos.
4.13 La relación H < G < X < Q para n datos.
4.14 Ejemplos.
4.15 Ejercicios.

5. Medidas de Dispersión. ……………………………………………………… Pág. 105

5.1 Introducción.
5.2 Recorrido (Re).
5.3 Desviaciones medias.
5.4 Desviación media.
5.5 Desviación media respecto a la mediana.
5.6 Desviación mediana.
5.7 Varianza (S2).
5.8 Desviación estándar (S).
5.9 Coeficiente de variación media de Pearson (CVx).

-3-
5.10 Otros Coeficientes de dispersión relativa.
5.11 Coeficiente de variación mediana.
5.12 Intervalo intercuartílico relativo.
5.13 Desviación cuartílica relativa.
5.14 Coeficiente de variación cuartílica.
5.15 Ejemplos.
5.16 Ejercicios.

-4-
1. CONCEPTOS BÁSICOS

1.1 Introducción.
Introducción.
En diversos campos de las ciencias sociales y naturales, el mundo de hoy se enfrenta a un
volumen de información que cada vez va en aumento y que es necesario manejar ágil y
eficientemente. En muchos casos, la estadística se constituye en una buena alternativa para
hacerlo. Evidentemente, la estadística está presente en muchas actividades de la vida diaria de
los individuos y por ello se hace necesario que el ciudadano común y corriente maneje de
manera apropiada ideas y conceptos básicos del lenguaje estadístico y conozca y comprenda
algo acerca del razonamiento estadístico. Por ejemplo, se requiere que pueda usar las
herramientas básicas de la estadística como apoyo para asimilar, criticar y contrastar la
información recibida y que además las pueda aplicar en el campo del saber donde
desarrollará su trabajo.
Algunas veces un análisis estadístico comienza con un conjunto de datos. Por ejemplo, el
gobierno colecciona y publica con cierta regularidad datos acerca de los porcentajes de
desempleo y de los precios de artículos de consumo básicos de los ciudadanos. La estadística
se debe utilizar entonces para resumir y analizar estos datos. Sin embargo, en otras situaciones
no hay datos disponibles, entonces en estos casos la estadística también se puede utilizar
para diseñar un experimento apropiado para generar datos. El experimento seleccionado
dependerá del uso que se quiera hacer de los datos. Bien sea que sean generados a partir de
un diseño experimental, o que simplemente estén disponibles o se obtengan de
observaciones naturales no planeadas de manera experimental, los datos finalmente se deben
describir. Para la descripción de los datos la estadística proporciona diferentes conceptos y
sistemas de representación. Las representaciones gráficas y los arreglos tabulares son dos
medios muy utilizados para presentar y resumir datos; por otra parte, la localización, la
centralidad, la dispersión y la correlación son, algunas de las nociones y conceptos relevantes
de la estadística. El uso y aplicación de estos conceptos y representaciones se suele
acompañar y materializar en la generación de gráficos de distribuciones y el cálculo e
interpretación de medidas de resumen como porcentajes, promedios o desviaciones, todas
ellas, estadísticas que se constituyen en diferentes tipos de descripción que se pueden calcular
con el fin de caracterizar diversos datos.

1.2 ¿Qué es la Estadística?


Hay muchas definiciones posibles de estadística, y una breve revisión de algunas de las dadas
por diferentes personas que han aportado trabajos relevantes a la estadística pone de
manifiesto el carácter cambiante de su definición en la historia y por ende de dar una
definición precisa de ella. En particular, Ross (1996), presenta una selección interesante de

-5-
algunas definiciones que vale la pena considerar; específicamente, para él “la estadística es el
arte de aprender de los datos y trata con la recolección de los datos, su subsiguiente
descripción y su análisis, el cual frecuentemente lleva a unas conclusiones”
En 1849, Quetelet (1796-1874) consideraba que la estadística tiene como objetivo presentar
una fiel representación de un estado en una época determinada; en esa época todavía
predominaba una visión de la estadística asociada al manejo del estado o gobierno de un país.
Para Fisher (1890-1962) en 1925, la estadística se podía ver como el estudio de poblaciones,
de la variación, o como el estudio de los métodos de reducción de datos; ya al entrar el siglo
20, la concepción de la visión de la estadística se amplía en su aplicación a las ciencias
naturales. Para Pearson (1857-1936), en 1936, la estadística era una disciplina científica que
trataba con la recolección, análisis e interpretación de datos obtenidos de la observación o
experimentación. Esta disciplina tiene una estructura coherente que se fundamenta en la
teoría de la probabilidad e incluye muchos diferentes procedimientos que contribuyen a la
investigación y desarrollo de la ciencia y la tecnología. W. Weaver (1894-1978) hacia el año
1952, dijo que estadística es el nombre para la ciencia y el arte que trata con inferencias
inciertas que utilizan números para conseguir información acerca de alguna cosa de la
naturaleza o de la experiencia. Para Porter (1947-), en 1986, la estadística ha llegado a ser
conocida en el siglo veinte como la herramienta matemática para el análisis datos de
experimentos u observaciones.
Sin embargo, siguiendo a Batanero y Godino (2004), dos definiciones que reflejan de manera
más apropiada una concepción más actual del tema son:
"La estadística estudia el comportamiento de los fenómenos llamados de colectivo. Está
caracterizada por una información acerca de un colectivo o universo, lo que constituye su
objeto material; un modo propio de razonamiento, el método estadístico, lo que constituye su
objeto formal y unas previsiones de cara al futuro, lo que implica un ambiente de
incertidumbre, que constituyen su objeto o causa final." (Cabriá, 1994).
“La estadística es la ciencia de los datos. Con más precisión, el objeto de la estadística es el
razonamiento a partir de datos empíricos. La estadística es una disciplina científica autónoma,
que tiene sus métodos específicos de razonamiento. Aunque es una ciencia matemática, no es
un subcampo de la Matemática. Aunque es una disciplina metodológica, no es una colección
de métodos”. (Moore, 1995).

1.3 Tipos de Estadística.


Es difícil dividir la estadística en partes separadas, sin embargo, una división clásica hasta hace
pocos años ha sido distinguir entre estadística descriptiva y estadística inferencial.
En la estadística descriptiva se tiene como fin presentar resúmenes de un conjunto de datos y
poner de manifiesto sus características, principalmente mediante representaciones gráficas. La
descripción de datos se usa para fines comparativos, y no suele utilizar principios de
probabilidad. El interés se centra en describir el conjunto de datos y no se plantea el extender
las conclusiones a otros datos diferentes o a una población.

-6-
Por el contrario, la inferencia estadística estudia los resúmenes de datos con referencia a un
modelo de tipo probabilístico. Se supone que el conjunto de datos analizados es una muestra
de una población y el interés principal es predecir el comportamiento de la población, a partir
de los resultados de la muestra.
Actualmente, las capacidades de cálculo y representación gráfica de los computadores y
también de las calculadoras graficadoras posibilitan la obtención de una amplia variedad de
gráficos y cálculos estadísticos de una forma sencilla. La tecnología actual con sus
posibilidades interactivas, favorecen la introducción, desde los primeros niveles de
enseñanza, de la “filosofía” basada en los estudios estadísticos introducida por Tukey (1977):
el Análisis Exploratorio de Datos (A. E. D.). Esta última es una perspectiva de análisis
intermedia entre la estadística descriptiva y la inferencia y le da un papel bien importante a la
visualización por medio de diferentes gráficos.
Bajo esta “filosofía” se presta especial atención al problema de la interpretación de resultados
y la generación de hipótesis sobre el problema investigado, a partir de los resultados de los
análisis iniciales. Además, esta “filosofía” no sólo se aplica a nivel de estadística elemental. En
muchos de los métodos del análisis de datos multivariantes utilizados actualmente también se
aplica esta filosofía, para analizar fenómenos físicos o sociales complejos (Godino y Batanero,
1994).

1.4 Variables en Estadística.


La definición de lo que es una variable y los tipos de variables que se suelen distinguir al
utilizar la estadística, es uno de los asuntos que debe tener claro un analista de datos. Además,
en relación con los tipos de variables es relevante discutir la idea de medición y las escalas o
niveles en los que se puede de medir una variable. Una variable estadística es una
característica cuantitativa o cualitativa que se mide o se observa en una población. Para
clasificar las variables en Estadística es conveniente hacer tres distinciones:
Desde lo continuo y discreto:
discreto Se dice que una variable es continua si toma cualquiera de sus
valores en un intervalo de números reales, en la unión de intervalos de números reales o, en
general, en el conjunto de los números reales. Como ejemplo de este tipo de variable se
puede citar la longitud de los tornillos producidos en una fábrica, la estatura de los
estudiantes de una escuela, el tiempo gastado por un estudiante para transcribir una página, la
distancia recorrida por un ciclista en una hora, etc. Por otra parte, cuando es posible contar
los valores que puede tomar una variable o ésta solo toma valores enteros se dice que la
variable es discreta. Por ejemplo, el número de estudiantes por curso de un colegio, el
número de hijos de cada uno de los empleados de una empresa, la cantidad de autos
accidentados en cada departamento de Colombia, la cantidad de asignaturas reprobadas por
los estudiantes de un grado particular, etc.
cualitativo Se dice que una variable es cualitativa, cuando los valores
Desde lo cuantitativo y cualitativo:
que toma son atributos o cualidades de los objetos. Por ejemplo: El “estado civil” induce una
clasificación natural (soltero, casado, divorciado o separado); los grados o insignias de los
oficiales del ejército colombiano permiten hacer un escalafón de acuerdo a la OTAN (General,

-7-
Mayor general, Brigadier general, Coronel, Teniente coronel, Mayor, Capitán, Teniente y
Subteniente); el NIT de las instituciones de educación superior en Colombia; El nombre de las
diferentes dependencias u oficinas de una universidad, etc. En contraste, se dice que una
variable es cuantitativa,
cuantitativa, cuando los valores que toma son numéricos y representan cantidades
con las que se pueden realizar operaciones y comparaciones. Por ejemplo: la estatura de los
estudiantes de una escuela, el peso de los niños que ingresan a una clínica pediátrica, el
salario de los docentes del distrito, la cantidad de docentes de planta de las diferentes
universidades colombianas, etc.
Desde lo determinístico
determinístico y aleatorio:
aleatorio: Una variable es deterministica si su valor corresponde al
resultado o salida de un proceso o experimento determinístico y es singularmente
determinado por una entrada dada. Están ligadas a las funciones y fórmulas usadas en las
diferentes áreas del conocimiento. Por ejemplo: El volumen de una esfera dada, la velocidad
de una partícula que recorre una distancia d en un tiempo t, el determinante de una matriz de
tamaño 2x2, la distancia recorrida por una pelota de béisbol lanzada a una velocidad inicial v
con un ángulo de inclinación de 45º, las raíces de una ecuación cuadrática dada, etc. Una
variable es aleatoria cuando sus resultados están asociados a experimentos aleatorios o
procesos en donde los resultados son impredecibles. Formalmente son funciones cuyo
dominio es el conjunto de los posibles resultados de un experimento aleatorio o
probabilístico y cuyo rango es un conjunto de números reales, a su vez se clasifican en
discretas, continuas y conjuntas. Por ejemplo: Cantidad de aciertos en un test de 20 preguntas
de selección múltiple, la suma de los puntos resultantes cuando se lanzan cuatro dados
distinguibles, la cantidad de sellos que aparecen cuando se lanzan tres monedas distinguibles,
la cantidad de personas que se deben examinar para encontrar cuatro donantes con sangre A
Rh positivo, la cantidad de taxis que pasarán por la intersección de dos avenidas entre las 4:00
pm y las 6:00 pm de un día determinado, etc.

1.5 Escalas de medición.

En cuanto a los niveles o escalas en que se puede medir una variable se hará mención a
cuatro niveles: nominal, ordinal, de intervalo y de razón.
Nivel de medición nominal:
nominal: Es aquel en el que sólo se puede manifestar una relación de
pertenencia a las categorías o valores que puede asumir la variable. Se debe señalar que entre
los valores de una variable de tipo nominal, no se puede establecer ninguna jerarquía, no se
puede trazar ningún ordenamiento. Por ejemplo: el tipo de sangre de los empleados de una
empresa (A, AB, B, O), el credo religioso de los gerentes de las empresas privadas del
continente (Cristianismo, Taoismo, Budismo, Induismo, Islamismo, Judaismo,
Zoroastrianismo, Confucionismo, Shintoismo, Jainismo, Sikhismo), el cereal cultivado en las
diferentes regiones del país (trigo, maíz, centeno, sorgo, cebada, avena, arroz, amaranto, mijo,
quinua, etc.), el número de documento de identidad de los nuevos graduados de una
universidad, etc.

-8-
Nivel de medición ordinal:
ordinal: En este se distinguen los diferentes valores de la variable
jerarquizándolos simplemente de acuerdo a un rango. Se establece que existe una gradación
entre uno y otro valor de la escala, de tal modo que cualquiera de ellos es mayor que el
precedente y menor que el que le sigue. Sin embargo, la distancia entre un valor y otro no
queda definida sino que es indeterminada. Por ejemplo: la posición de los competidores al
finalizar una carrera automovilística (Primero, segundo, tercero, cuarto, etc.), el estrato
socioeconómico de los deportistas de la ciudad (uno, dos, tres, etc.), el máximo nivel de
formación académica alcanzado por los artistas colombianos (primaria, bachillerato, técnico,
tecnólogo, profesional, especialista, magíster, doctorado, postdoctorado).
Nivel de medición de intervalo:
intervalo: Es aquel en el que además de poseerse la equivalencia de
categorías y el ordenamiento interno entre ellas, se tiene la característica de que la distancia
entre dos resultados cualesquiera está claramente determinada. La diferencia entre dos
mediciones tiene sentido y permite comparar las unidades estudiadas. Ejemplos típicos de
medición a nivel de intervalo son las escalas termométricas, la temperatura de una persona, el
nivel del aceite del motor de un automóvil medido con una varilla graduada, sobrepeso de las
personas que asisten a un gimnasio con respecto a una tabla de medidas internacionales, etc.
Nivel de medición de razón:
razón Se caracteriza por conservar las propiedades de los casos
anteriores pero además se le añade la existencia de un valor cero que tenga un sentido real,
con lo que se hacen posibles ciertas operaciones matemáticas. El cociente entre dos
mediciones tiene un significado interpretable en función de una proporción o razón entre las
dos magnitudes. Esto quiere decir que un valor de 20 en una escala de este tipo es el doble de
un valor de 10, o de las dos terceras partes de un valor de 30. Ejemplos de variables medidas
en este nivel son la longitud, la masa, la intensidad de corriente eléctrica, cantidad de litros
diarios de agua que consumen los deportistas que asisten a los juegos olímpicos, la cantidad
de goles anotados por los delanteros de los equipos profesionales del fútbol colombiano, etc.
.
.
.
.
.
.
.
.
.
.
.

-9-
1.6 Ejercicios.
1. Observe cuidadosamente el siguiente diagrama y sugiera una interpretación del mismo
para proponer una definición de lo que significa estadística.

ESTADISTICA

SISTEMA ORDENADO DE REGLAS Y PRINCIPIOS

PARA PARA PARA PARA PARA PARA PARA

OBSERVAR RECOLECTAR ORGANIZAR DESCRIBIR ANALIZAR INTERPRETAR PUBLICAR

UNA SERIE DE HECHOS CON EL FIN DE:

PLANEAR DECIDIR DIRIGIR COORDINAR EJECUTAR CONTROLAR EVALUAR

2. ¿De qué forma, desde su quehacer diario, puede utilizar la Estadística? Dé su respuesta en
términos del diagrama.
3. ¿Qué uso ha observado que tiene la estadística en la información que suministra la prensa
escrita? ¿Cómo considera este uso?
4. ¿Por qué cree que es importante que un estudiante de educación básica y educación
media tenga conocimientos de estadística?
5. ¿Una variable continua se puede considerar que es una variable cualitativa? Explique.
6. Un experimento aleatorio consiste en lanzar 5 monedas de la misma nominación pero
distinguibles, y anotar la figura resultante en cada una de ellas (cara o Sello). Elabore una
lista con los posibles resultados. Elabore una tabla para la función X o variable aleatoria X
definida como el número Caras resultantes.
7. Un experimento aleatorio consiste en lanzar 5 dados normales distinguibles, y anotar los
números resultantes en la cara superior de cada uno de ellos. Elabore una tabla para la
función X o variable aleatoria X definida como la suma resultante. Elabore una tabla para
la función Y o variable aleatoria Y definida como la cantidad de “5” resultantes.
8. De un grupo de 5 deportistas, entre los cuales hay 3 beisbolistas y 2 ciclistas, se eligen al
azar 3 de ellos y se anotan sus nombres. Elabore una lista de las posibles elecciones o
selecciones. Elabore una tabla para la variable aleatoria X definida como el número de
beisbolistas que resulta en una selección.
9. Un experimento consiste en lanzar un dado dos veces y anotar la pareja de números (X,Y),
donde X es la cantidad de pares que resultan en el primer lanzamiento, Y es la cantidad de
pares entre los dos lanzamiento. Escriba la población de posibles parejas resultantes.
10. Un experimento consiste en lanzar cinco monedas distinguibles y anotar el resultado que
aparece en la cara visible de cada moneda. Las monedas no tienen Caras y Sellos, sino

- 10 -
“Cuatros” y “Cincos”. Escriba la población de posibles resultados y las posibles sumas
resultantes.
11. En un campeonato de ajedrez participan ocho jugadores: Lasker, Alekhine, Capablanca,
Botvinnik, Fischer, Spaski, Kárpov, Kaspárov. Determine la población de posibles partidos
que deben realizarse, en cada una de las siguientes metodologías de eliminatoria: (a)
Juegan todos contra todos un solo partido. (b) Juegan todos contra todos dos partidos:
uno con fichas blancas y otro con negras. (c) Se juegan 4 partidos en la primera ronda y se
eliminan cuatro, luego se juegan dos partidos en la segunda ronda y se eliminan dos, y en
la tercera ronda se define el campeón.
12. Interprete la siguiente representación acerca de las escalas de medición.

Razón Cero absoluto


Intervalo Distancia
Ordinal Relación de orden
Nominal Relación de identidad

13. Clasifique las siguientes variables según su tipo y nivel de medición.


a) Número de estafilococos por mililitro.
b) Número de habitantes por kilómetro cuadrado.
c) Número de ciruelas por árbol.
d) Duración de cierta marca de tubos fluorescentes.
14. Dé otros ejemplos de variables que se puedan ubicar en cada una de las escalas de
medición consideradas en este capítulo.
15. Discutir y establecer el nivel de medición de los siguientes casos:
a) Clases de bacterias en una muestra de agua contaminada.
b) Latitud de una ciudad.
c) Rango militar en el ejército colombiano.
d) Intensidad de corriente eléctrica.
e) Densidad de diferentes muestras de un mismo líquido.
f) Tamaño de gaseosa que se vende en restaurantes de comida rápida.
g) Velocidad de un automóvil al pasar por la calle 100 con 7ª.
h) Salario mensual de los profesores de cierta universidad.
i) Tiempo de duración de cierta marca de tubos fluorescente.
j) Estrato socio-económico indicado en el recibo de energía.

- 11 -
k) Temperatura de Bogotá a las 12 meridiano.
l) Ubicación temporal de un acontecimiento histórico.
m) Tipos de productos enlatados para la alimentación.
n) Altitud de ciudades de Colombia.
o) Número telefónico de los estudiantes de Estadística.
p) Primer beneficiario de una póliza de seguros.
q) Día de la semana en la que más estudia un estudiante.
r) Talla de calzado que utiliza un estudiante.
s) Grado de escolaridad de un trabajador.
t) Hora GMT.
u) Medición de un taxímetro.
v) Sintonía de un programa de televisión.
w) Índice de masa corporal.
x) Magnitud de los terremotos ocurridos en los últimos cinco años.
y) Intensidad del sonido de los instrumentos musicales.
z) Puntaje obtenido en un Test de medición de CI.

- 12 -
2. ENCUESTAS

2.1 ¿Qué es una encuesta?


Para García Ferrando (1986) todo fenómeno social puede ser estudiado a través de las
encuestas. Para él la encuesta es una investigación realizada sobre una muestra representativa
de sujetos pertenecientes a un colectivo más amplio que utiliza procedimientos
estandarizados de interrogación con el propósito de obtener mediciones cuantitativas de una
gran variedad de características objetivas y subjetivas de una población.
La encuesta es una de las escasas técnicas de que se dispone para el estudio de las actitudes,
valores, creencias y motivos. Las técnicas de encuestas se adaptan a todo tipo de información
y a cualquier población. Además, las encuestas permiten recuperar información sobre sucesos
acontecidos a los entrevistados y estandarizar los datos para un análisis posterior, obteniendo
gran cantidad de datos a un precio bajo y en un periodo corto.
Por su parte Martínez Bencardino (2005, p. 45) afirma que la encuesta es una investigación
estadística parcial cuando se limita a recoger datos numéricos y deja de serlo cuando se
restringe a anotaciones literarias. Además, menciona como ejemplo de ellas a algunas
publicaciones que suelen organizar periódicos y revistas, donde critica que algunas son
“estudios” que no se someten verdaderamente a un recuento o elaboración estadística.
Sierra Bravo (1983) destaca como características de una encuesta los siguientes aspectos:
• No es una observación directa de los hechos, sino que se basa en lo que manifiestan los
interesados.
• Es un método preparado para la investigación.
• Permite una aplicación masiva que mediante un sistema de muestreo puede extenderse a
una nación entera.
• Hace posible que la investigación social pueda abordar el estudio de aspectos subjetivos
de los miembros de la sociedad.
Ejemplos de encuestas que se citan con frecuencia son las encuestas sobre ingresos y gastos,
o las encuestas sobre problemas sociales que se llevan a cabo en casi todos los países del
mundo. En particular la sociología emplea con frecuencia la observación a través de
encuestas.
Se supone que las encuestas, cuando son aplicadas con base en métodos de muestreo,
aportan muestras representativas de un colectivo en estudio. Por ello, es ventajoso aplicar
encuestas por razones como cuando la población es muy grande, por motivos económicos,
por falta de personal adecuado, por motivos de calidad de los resultados, o bien para mayor
rapidez en recoger datos y presentar resultados. Sin embargo, las encuestas también
presentan algunas limitaciones.

- 13 -
2.2 Preparación de una encuesta.
La preparación de una encuesta conlleva la realización de una serie de pasos y la utilización
recursos económicos y humanos. En términos muy generales la elaboración y aplicación de
una encuesta requiere de la definición de un proyecto, de la formulación del cuestionario, del
trabajo de campo y del procesamiento de la información recolectada.
En la definición de un proyecto se suele contemplar la formulación del problema de
investigación, la concreción de los objetivos del estudio, la definición y delimitación de las
variables a considerar, el diseño de muestreo y la determinación del marco muestral y el
presupuesto de tiempo y de gastos de aplicación y procesamiento de la información.
La formulación del cuestionario, por su parte, implica su diseño, la aplicación de una prueba
piloto y la aplicación a la muestra definitiva. En cuanto al trabajo de campo, es de especial
importancia la selección y preparación de los entrevistadores para una apropiada obtención
de los datos.
El paso final del proceso de aplicación de una encuesta es el procesamiento de la
información. En esta etapa es relevante la codificación de información, la producción de
gráficas y tablas y el cálculo de estadísticas, para la presentación y elaboración de un informe
de los resultados encontrados.

2.3 Tipos de Encuestas.


Los tipos de encuestas que se pueden mencionar dependen de diversos aspectos. Por
ejemplo, se puede hablar de encuestas privadas o públicas de acuerdo al organismo que las
aplique. También se habla de encuestas exhaustivas, cuando se aplican a todo el colectivo,
universo o población, como es el caso bien conocido de los censos; o encuestas parciales
cuando se aplican a una muestra, como el caso de la Encuesta Nacional de Hogares.
Las encuestas privadas son frecuentes en muchos países en donde existe una inclinación
grande entre el público a dar repuestas a las preguntas formuladas en ellas. Sin embargo, este
tipo de encuesta es quizás menos frecuente en los países latinos. La prensa también las utiliza
con el propósito de medir la opinión o para hacer publicidad, y las entidades científicas de
carácter privado también las utilizan para sus investigaciones.
Otra distinción que se hace es entre encuestas directas e indirectas. Son del primer caso,
cuando la unidad estadística se observa a través de la investigación propuesta registrándose
en el cuestionario, como en el caso de un formulario de admisión; y son de tipo indirecto,
cuando los datos obtenidos no corresponden al objetivo principal de la encuesta
pretendiendo en realidad averiguar algo distinto, o bien cuando los resultados son deducidos
de anteriores investigaciones, caso típico, de los cuestionario de entrevistas de empleo.
Las encuestas también pueden ser acerca de hechos, cuando lo que se pretende es averiguar
lo que el público en general piensa acerca de una determinada materia o sobre
acontecimientos ya ocurridos, como por ejemplo la conformidad de la gente con la firma de
un tratado de libre comercio. En contraste con las anteriores están las encuestas de opinión,
que se dan cuando lo que se pretende es averiguar lo que el público considera debe hacerse
en una circunstancia concreta, caso típico de las encuestas sobre intención de voto.

- 14 -
2.4 El Cuestionario.
Una parte fundamental de una encuesta lo constituye el instrumento con base en el que se
recolecta la información, es decir, el cuestionario. Un cuestionario básicamente es un
conjunto de preguntas sobre los hechos o aspectos que interesan en una investigación y que
son contestadas por los encuestados.
Los cuestionarios pueden ser de diversos tipos o estilos. Están, por ejemplo, los cuestionarios
individuales donde el encuestado contesta de forma individual por escrito sin que intervenga
el encuestador y se suelen presentar en forma de boletín o cuadernillo. Por otro lado, el
llamado cuestionario lista se utiliza cuando se interroga al encuestado en una entrevista por
uno de los especialistas de la investigación. El especialista anota en una matriz las respuestas,
en donde cada columna se reserva para cada pregunta y cada fila para un encuestado.
Otro tipo de cuestionario es el sociométrico, donde se proponen preguntas que tienen
atribuido un valor numérico que permite cuantificar los resultados y medir alguna capacidad o
cualidad del encuestado. Un ejemplo bien conocido de este tipo de cuestionario es el del
cociente intelectual. También tiene afinidad con este tipo de cuestionario las pruebas
psicométricas aplicadas por algunos psicólogos.
En cuanto al diseño y tipos de preguntas que se pueden formular en un cuestionario hay
varios aspectos que es conveniente tener en cuenta. Respecto al diseño de preguntas, en
general se recomienda que las preguntas sean cerradas y que se formulación lleve a opciones
que sean excluyentes, es decir, que no se puedan elegir dos respuestas para la misma
pregunta; igualmente, se sugiere que las respuestas sean exhaustivas, es decir, que
contemplen todas las posibilidades para que no se deje de responder a la pregunta.
La clasificación del tipo o variedad de preguntas que se pueden formular en un cuestionario
se puede organizar de acuerdo a diferentes criterios. Quizás la distinción más conocida es la
que se refiere al tipo de contestación que se busca. Así, se habla entonces de preguntas
abiertas,
abiertas que recogen la respuesta en palabras del encuestado; y de preguntas cerradas en las
que se plantean las opciones de cada pregunta en forma dicotómica o politómica.
Sin embargo, el tipo de preguntas también se puede organizar de acuerdo a la clase de
contenido que se pretende conseguir. Desde esta perspectiva se habla entonces de preguntas
de identificación,
identificación por ejemplo se proponen preguntas acerca de la edad, el género, la
profesión y/o la nacionalidad del encuestado. También hay preguntas de hechos,
hechos en las que
se interroga al encuestado acerca de acontecimientos concretos, por ejemplo, se le pregunta
al encuestado si tiene casa. Las llamadas preguntas de acción,
acción se pueden referir acerca de
actividades realizadas por el encuestado, por ejemplo, ¿utilizó transmilenio la semana pasada?
Otro tipo de preguntas son las preguntas de información,
información con ellas se busca indagar acerca de
conocimientos del encuestado, por ejemplo, ¿sabe qué es el SIDA? Las preguntas de intención
buscan conocer intenciones específicas del encuestado, por ejemplo, ¿va a viajar en las
próximas vacaciones? Y finalmente, están las preguntas de opinión que son preguntas del
estilo ¿está de acuerdo con la reelección del presidente?
Una tercera manera de organizar la clasificación del tipo de preguntas se puede proponer en
función del papel que desempeñen en un cuestionario. Algunas preguntas de este tipo son:

- 15 -
• Preguntas filtro.
filtro Son preguntas que se realizan previamente a otras para eliminar a los que
no les afecte. Por ejemplo, ¿tiene auto? ¿piensa comprar auto? ¿qué modelo de auto tiene?
etcétera.
• Preguntas de control.
control Son preguntas que se formulan para descubrir la intención con que
se responde, aquí se incluyen respuestas contradictorias.
• Preguntas de introducción o rompehielos.
rompehielos Este tipo de preguntas se utiliza para iniciar un
cuestionario o para enlazar temas.
• Preguntas muelles o colchón.
colchón Este tipo de preguntas se propone cuando se quiere abordar
temas peligrosos o difíciles de formular suavemente.
• Preguntas en batería.
batería Son preguntas, que vienen encadenadas y que se complementan
entre sí.
• Preguntas embudo.
embudo Se utiliza esta técnica cuando se empieza por cuestiones generales
hasta llegar a los puntos esenciales.
Para finalizar este apartado se enuncian una serie de sugerencias a tener en cuenta cuando se
diseña un cuestionario: formule pocas preguntas, los cuestionarios con demasiadas preguntas
agotan al encuestado e incluso, lo pueden indisponer; en general es preferible formular
preguntas cerradas y numéricas, las preguntas abiertas exigen un mayor trabajo de análisis y
validaciones externas de su interpretación; utilice un lenguaje sencillo; formule preguntas
concretas y precisas; evite el uso de palabras abstractas y ambiguas; son preferibles las
preguntas cortas; en lo posible, evite la formulación de preguntas que contengan sesgos, las
preguntas se deben formular de forma neutral; evite la formulación de preguntas que
impliquen: esfuerzos memorísticos, consulta de archivos, realización de cálculos numéricos
complicados, que sean indiscretas, generen prejuicios en los encuestados o que condicionen
o conlleven una carga emocional grande; se debe procurar que la redacción de las preguntas
se haga de forma personal y directa, buscando que la respuesta sea directa e inequívoca y
limitada a una sola idea o referencia.

2.5 Poblaciones y muestras.


Aunque en este libro no se consideran métodos de inferencia estadística, como las pruebas de
hipótesis o los intervalos de confianza, es relevante establecer la diferencia y los matices que
hay respecto a los conceptos de población y muestra. Se dedicará este apartado a precisar
algunas ideas al respecto.
La población de una investigación, o simplemente la población de estudio,
estudio se define como el
conjunto de todos los entes a los cuales se pueden aplicar las conclusiones obtenidas a través
de la predicción, estimación, o verificación de una hipótesis, acciones éstas realizadas como
parte final de la investigación. Por otra parte, La población de datos o simplemente la
población se define como el conjunto de todas las mediciones que es posible obtener a partir
de observar una cierta característica en cada uno de los elementos de la población de estudio.
En cuanto a la idea de muestra, se dice que una muestra de estudio es cualquier subconjunto
no vacío de la población de estudio, y de manera similar, a la distinción hecha antes, se
considera que una muestra de datos es cualquier subconjunto no vacío de la población de
datos.

- 16 -
2.6 Ejercicios.
1. Defina un problema sencillo de investigación que se pueda abordar por medio de
encuestas. Asociado al problema formulado, explicite una o varias hipótesis, unos
objetivos a realizar por medio de una encuesta, una propuesta de cuestionario y las
unidades o variables estadísticas a tener en cuenta. Procure que el cuestionario contenga
variables que utilicen diferentes niveles de medición y diferentes tipos de preguntas con
sus respectivas opciones de respuesta para el caso de preguntas cerradas.
2. En las grandes ciudades del país, durante la última década, el número de padres de familia
separados se ha incrementado sustancialmente, trayendo esto como consecuencia
dificultades en el desarrollo emocional y mental de sus hijos. El Instituto Colombiano de
Bienestar Familiar (ICBF) preocupado por el problema social que genera esa circunstancia
contrató con la Universidad Pedagógica Nacional el primer semestre del año 2009 un
estudio en Bogotá para detectar posibles causas de la separación de las parejas con hijos.
El grupo de investigadores de la Universidad aplicó una encuesta a 36 parejas que quieren
seguir juntas y a 30 parejas que están pensando en separarse, todas con hijos. El
contenido de la encuesta se presenta a continuación:

1) Tipo de unión: Religiosa ___ Civil ___ Libre ___


2) Quieren separarse: Sí ___ No ____
3) La situación económica del hogar ha originado conflictos: Sí ___ No ___
4) Califique en una escala de 1 a 5 la tolerancia que tienen como pareja ___
5) Entre semana, ¿cuánto tiempo diario promedio comparten en pareja?
(No incluya el tiempo de sueño) ________
a. Defina en sus palabras el problema de estudio.
b. Establezca la población de estudio. Determine el objetivo del estudio.
c. Determine cuáles son las variables que se consideran en el estudio y cuáles de ellas
estratifican la población. ¿De qué tipo son las variables?
d. ¿Cuántas muestras de estudio hay? ¿Cuántas muestras de datos hay? Menciónelas.
3. El PNDM (Plan Nacional para el Desarrollo de la Microempresa) desde su inicio atiende
fundamentalmente empresas de los sectores económicos de manufactura, comercio y
servicios. Las empresas objeto de atención del PNDM son aquellas que tienen hasta 10
trabajadores en el caso de la manufactura, y hasta 5 en los casos de comercio y servicios.
En el año 2003 el Banco Mundial podía desembolsar un préstamo de 50.000 millones de
pesos para la financiación del PNDM, sin embargo, ese préstamo estaba condicionado a la
justificación que la entidad diera con relación a las necesidades de capital de trabajo de las
microempresas cobijadas. En consecuencia, la Dirección del PNDM se disponía a
establecer esas necesidades y para ello diseñó una encuesta que debía aplicar a una
muestra estratificada por sector económico y ubicación geográfica de las microempresas.
La Dirección poseía información de segunda mano sobre la distribución del número de
microempresas en todo el país, discriminada por las dos variables de estratificación. Esta
se presenta en el siguiente cuadro.

- 17 -
a) Defina en sus palabras el problema de estudio y precise cual es el objetivo general del
estudio.
b) Establezca la población de estudio.
c) Identifique las variables involucradas en la situación y las poblaciones de datos que
ellas generan.
d) Explique cómo se obtiene de la misma información de la tabla los porcentajes de filas
y columnas.
e) Por motivos de presupuesto, los directivos del PNDM decidieron que el tamaño
máximo de muestra fuera 2.000. ¿Cómo conformaría tal muestra de manera que la
población esté proporcionalmente representada en ella?
4. Para conocer la opinión de los bogotanos acerca del desempeño del entonces presidente
de Colombia, un grupo de politólogos llevó a cabo en Bogotá, en febrero de 2006, varias
encuestas en las que se pedía calificar de 1 a 5 el desempeño del presidente, teniendo en
cuenta el manejo de tres asuntos:
• Manejo de la política exterior,
• Manejo del problema del narcotráfico y
• Manejo de la economía colombiana.
Para realizar la encuesta se dividió la población por estratos teniendo en cuenta el nivel
socioeconómico y el sexo. En total se encuestó a 200 personas; las del estrato bajo fueron
seleccionadas en el barrio “Meisen”, las del estrato medio se seleccionaron en el barrio
“Miranda” y las del estrato alto en el barrio “Santa Bárbara”.

- 18 -
En la tabla siguiente aparecen tabulados los resultados de la encuesta para la calificación
del manejo del problema del narcotráfico, discriminados según nivel socioeconómico y
sexo:
Estrato alto Estrato medio Estrato bajo
Calificación 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
Hombres 1 2 1 7 9 10 3 15 10 2 20 5 20 10 5
Mujeres 0 2 3 4 4 0 5 8 8 5 13 5 10 5 8

a) Identifique las poblaciones y muestras de estudio y de datos.


b) Para la división de la población por estratos y para la calificación del desempeño del
Presidente se consideraron varias variables. ¿Cuáles fueron esas variables y de qué tipo
son?
c) En la muestra, ¿cuál es la proporción de personas de estrato alto que calificaron el
manejo del narcotráfico con una nota de 4 ó 5? Compárela con la proporción de
personas de estrato bajo, que también calificaron el mismo aspecto con una nota de 4
ó 5. ¿Qué se puede concluir?
5. Durante los primeros tres meses del año pasado, casi a diario, los habitantes de los
municipios de Chía, Cajicá y Cota han visto levantarse columnas de humo en diferentes
zonas de sus montañas colindantes con el consiguiente pérdida de madera quemada de
árboles de pino, vegetación nativa, matorrales y pastos que se chamuscan bajo el fuego.
La Oficina de Prevención de Emergencias, el Cuerpo de Bomberos, la Defensa Civil, el
Ejército Nacional, y la Policía, han visto reflejada esta situación en los datos de registro y
reconocimiento de su Cuerpo de Bomberos, los cuales muestran la dimensión del
problema ecológico a que se han visto abocados los municipios. Puesto que el gobierno
nacional debe prever el suministro anual de recursos para atender emergencias, quiere
analizar la situación tal como se ha presentado en el primer trimestre del año pasado,
aceptando que eso representa una muestra de lo que puede ocurrir durante el próximo
año. La siguiente tabla presenta los incendios ocurridos en esos meses.
Incendios forestales presentados durante
el primer trimestre del año pasado
Ubicación geográfica Tipo de incendio
Menor magnitud De gran magnitud
Cerros al oriente de Cota 30 9
Cerros al oriente de Cajicá 38 4
Cerros al occidente de Chía 58 6

a) Defina en sus palabras el problema e identifique el objetivo del estudio.


b) ¿Cuáles son las variables relevantes del estudio? Determine los valores que pueden
asumir dichas variables y de qué tipo son ellas.
c) Identifique la población de estudio. Identifique la muestra de estudio, y las muestras
de datos.
d) Con base en la tabla anterior: ¿Qué representa la cifra 58? ¿Cuántos incendios han
ocurrido?

- 19 -
3. TABLAS Y GRÁFICOS

3.1 Introducción.
La recopilación de información es de gran importancia para analizar fenómenos o
comportamientos en los campos educativo, social, económico, científico y político, entre
otros. Igualmente es clave que los resultados numéricos de cualquier estudio se presenten de
manera clara y concisa, de tal forma que la persona que lea la información obtenga
rápidamente una sensación apropiada en torno a las características esenciales de los datos. Lo
anterior es particularmente necesario cuando el conjunto de datos es muy grande. En
realidad, una presentación efectiva de los datos usualmente revela características importantes
tales como su rango de variación, el grado de simetría, qué tan concentrados o dispersos están
los datos, en dónde se concentra la mayor parte de los datos, etcétera. En este capítulo se
presentan algunas técnicas para graficar y tabular datos.
La manera de recopilar datos y presentar la información obtenida, de algún colectivo a
estudiar, es una de las actividades que se desarrollan en el trabajo estadístico y como parte de
esta labor es muy importante la forma en que los datos se organizan para su descripción,
análisis, interpretación y publicación. Hay dos maneras básicas de presentar los datos que son
de uso cotidiano en la estadística: las tablas y las gráficas. Es con base en estas dos formas que
se pueden presentar y destacar diversas ideas que se desean expresar acerca de una
información recopilada en forma de datos.
En este capítulo se hará una descripción de varias formas de organizar datos en forma de
tablas, así como de presentar estos datos en diversas formas de representación gráfica.
Además se dará cuenta de algunas características relevantes de la elaboración de tablas y
gráficas de datos y distribuciones de frecuencias. Por ejemplo veremos, que el tipo de variable
considerada en un análisis de datos, se relaciona e influye en la apropiada elección de la
organización y presentación de los datos.
En la presentación se hablará de tres tipos de variables: en primer lugar, de variables
categóricas o de atributos haciendo referencia a variables que pueden ubicarse en un nivel de
medición nominal u ordinal, es decir, no numérico; en segundo lugar, de variables discretas
para hacer referencia a las que corresponden a mediciones ordinales codificadas en forma
numérica, o a las que provienen de conteos naturales sobre variables numéricas; y finalmente,
de variables continuas para referirse a aquellas que se pueden medir en escalas de intervalo o
de razón.

3.2 Tablas y distribuciones de frecuencias.


Buena parte de las tablas que se utilizan en estadísticas son conocidas como tablas de
distribuciones de frecuencias. La tablas de frecuencia usualmente tienen dos columnas; una
de ellas, la primera, muestra todos los posibles valores que asume la variable y la segunda,

- 20 -
para cada valor de la variable, muestra el número de veces que se presenta dicho valor, en el
contexto en el que se está trabajando; tal número se denomina frecuencia.
frecuencia.
Respecto a los tipos de tablas que se utilizan, se pueden mencionar al menos tres criterios
para clasificarlas. De acuerdo al tipo de variables involucradas, se puede tener tablas de
atributos, de variables discretas y de variables continuas. De acuerdo a la forma como se
organizan las frecuencias se tienen: tablas de frecuencias absolutas, de frecuencias relativas,
de frecuencias porcentuales, de frecuencias acumuladas absolutas, de frecuencias acumuladas
relativas y de frecuencias acumuladas porcentuales. Finalmente, de acuerdo a la cantidad de
variables consideradas se tienen tablas de una variable, tablas de dos variables y tablas
multivariadas. En el segundo caso se pueden reconocer dos formas de presentación: en
paralelo o en forma cruzada. Las tablas cruzadas también son llamadas como tablas de doble
entrada, de contingencia o de correlación.
En lo que sigue se presentará diversos esquemas y ejemplos de la manera de organizar tablas.

3.2.1 Tabla para una variable de atributo.


Este tipo de tabla se utiliza para representar información que provenga de una variable
nominal. La arreglo tabular se presenta en dos columnas o filas, en una se indican las
categorías o valores de la variable y en la otra la frecuencia. El esquema general es de esta
forma:

Categorías de la Frecuencias
Frecuencias
variable A absolutas
A1 f1
A2 f2
… …
Ak fk
Total N
Tabla 1. Esquema de tabla para una variable de atributo.

En este esquema Ai representa el nombre con el que se reconoce la categoría i, es decir, el


valor de la variable, fi representa la frecuencia absoluta y N el número total de datos.

Ejemplo 1.
1. En la Tabla 2 se presentan datos acerca del número de incendios forestales
ocurridos en diferentes regiones españolas en el año 2004. Nótese que no se evidencia el uso
de algún criterio para decidir sobre el orden en que se presentan las regiones. Por ejemplo, se
podrían haber ordenado de manera ascendente de acuerdo a la frecuencia observada en cada
región.

- 21 -
Región Nº de Incendios
País Vasco 124
Cataluña 565
Galicia 10618
Andalucía 1055
Castilla La Mancha 1364
Navarra 261
Extremadura 1623
Madrid 379
Castilla y León 1942
Ceuta 3
Melilla 0
Total 17.934
Tabla 2. Número de incendios forestales ocurridos
en diferentes regiones españolas en el año 2004.

3.2.2 Tabla para una variable discreta.


Este tipo de tabla es similar a la tabla que se usa para una variable de atributo. La diferencia
con el caso anterior, es que los valores de la variable, es decir los xi, son numéricos. El
esquema general de este tipo de tabla se presenta en la Tabla 3.
Valores de la variable Frecuencias absolutas
x1 f1
x2 f2
… …
xk fk
Total N

Tabla 3. Esquema de tabla de una distribución de


frecuencias absolutas de una variable discreta.

Ejemplo 2.
2. En la Tabla 4 se presenta la frecuencia del número de ausencias al trabajo en una
empresa. Nótese que en este ejemplo se organizó la información en filas y no en columnas.

Valor 0 1 2 3 4 5 6 7 8 9
Frecuencia 12 8 5 4 5 8 0 5 2 1
Tabla 4. Frecuencias del número de ausencias al trabajo en una empresa

- 22 -
3.2.3 Tabla para una variable continua.
Cuando se quiere organizar la información de una variable continua o medida en una escala
de intervalo o razón, puede ser necesario, sobre todo cuando la cantidad de datos es muy
grande, reagrupar los valores en algunas pocas categorías llamadas intervalos de clase. En la
práctica el número de estos intervalos suele oscilar entre cinco y veinte; sin embargo, no hay
un criterio único o más recomendable para determinar el número de intervalos de clase. En
general, el número de intervalos que se usen depende del contexto del que surgen los datos,
de la experiencia de quien organiza la información, y/o de las intenciones de lo que quiera
hacer notar el analista de datos. En la Tabla 5 se presenta un esquema general de este tipo de
tabla.
Este tipo de tablas contiene elementos sobre los que es conveniente hacer algunos
comentarios. La columna titulada “orden de clase”, es de uso opcional y se utiliza para
numerar los intervalos de clase. En general, los intervalos de clase son una partición del
conjunto en donde asume valores la variable. Esta partición es excluyente y exhaustiva, es
decir, la unión de todos los intervalos es precisamente el conjunto de todos los valores que
asume la variable y la intersección entre cualquier par de intervalos diferentes es vacía. Esto
implica que un valor cualquiera de los datos siempre se puede clasificar de manera única en
alguno de los intervalos de clase que definen la partición. La Tabla 5 presenta un esquema
general de este tipo de tablas. Aunque la convención para la utilización de los intervalos de
clase en este esquema es la de utilizar un intervalo cerrado a la izquierda y abierto a la
derecha, también se presentan variaciones a esta convención. Finalmente, la marca de clase es
un valor representativo del intervalo de clase y corresponde a su punto medio.

Orden de Clase Intervalo [Li–1, Li) Marca de clase Frecuencia absoluta


1 [L0, L1) m1 f1
2 [L1, L2) m2 f2
… … … …
k [Lk–1, Lk] mk fk
Total N

Tabla 5. Esquema de tabla para una variable continua.

Ejemplo 3.
3. En la Tabla 6 se presenta las temperaturas en grados centígrados reportadas por
cien estaciones meteorológicas colombianas a las doce del día el 23 de febrero de 2006.

Intervalo Marca de clase Frecuencias absolutas


[22,5; 25,5) 24 45
[25,5; 28,5 ) 27 43
[28,5; 31,5) 30 11
[31,5; 34,5] 33 1
Total 100

Tabla 6. Temperaturas de cien estaciones meteorológicas


de Colombia a las 12:00 el 23 de febrero de 2006.

- 23 -
Ejemplo 4. En la Tabla 7 se presenta un ejemplo hipotético de los resultados obtenidos por
cincuenta estudiantes de una institución universitaria en un curso de estadística básica

Intervalo de Clase Frecuencia ni Frecuencia Relativa (fi)


30 – 39 4 0.08
40 – 59 14 0.28
60 – 69 12 0.24
70 - 89 16 0.32
90 – 100 4 0.08
Total 50 1

Tabla 7. Calificaciones en un examen obtenidas por


cincuenta estudiantes de una institución universitaria

3.2.4 Tablas para diferentes tipos de frecuencias.


El hecho de que las frecuencias se puedan presentar en diferentes formas puede causar
confusión a los inexpertos. Aunque no se acostumbra presentar, en trabajos prácticos, todos
estos tipos de frecuencias de manera simultánea, a manera de ilustración se presenta un
esquema, en la Tabla 8, que recopila las diferentes formas de presentar las frecuencias. Por
ejemplo, si N=50, una frecuencia absoluta de 25, corresponde a una frecuencia acumulada de
0.5 y a un porcentaje del 50%. Por otra parte, las frecuencias acumuladas lo que hacen es
acumular el valor de las frecuencias absolutas, relativas o porcentuales.

Frecuencia Frecuencias
Valores Frecuencia Frecuencia
% absoluta relativa % acumulado
variable absoluta relativas
acumulada acumulada
x1 f1 fr1 p1 F1 Fr1 P1
x2 f2 fr2 p2 F2 Fr2 P2
… … … … … … …
xk fk frk pk Fk Frk Pk
Total N 1 100 100
Tabla 8. Esquema de tabla con todas las versiones de tipos de frecuencias

3.2.5 Tablas de doble entrada.


Este tipo de tablas se utiliza con mucha frecuencia para organizar los resultados del cruce de
frecuencias de dos variables. Además, cuando estas tablas se utilizan para analizar relaciones
de dependencia entre las variables, se habla de tablas de contingencia. En estos casos es usual
que en la última fila y columna se presenten los resultados de las frecuencias marginales
correspondientes a cada variable.

Ejemplo 5. La Tabla 9 presenta los resultados de lanzar un par de dados distinguibles (por
ejemplo un dado rojo y uno azul al lanzarlos en 120 ocasiones. Además, el ejemplo ilustra una
manera manual y práctica de hacer conteos de frecuencia.

- 24 -
Tabla 9. Tabla de doble entrada donde han registrado los resultados
del lanzamiento de un par de dados distinguibles en 120 ocasiones

Ejemplo 6. La Tabla 10 presenta los resultados de la intención de separación de 66 parejas


heterosexuales cruzada con el tipo de unión bajo la que conviven. Nótese que en este
ejemplo, puede ser de interés establecer si el tipo de unión está relacionada con la intención
de separación en una relación de pareja.
Tipo de unión
Total
Civil Libre Religiosa
general
Intención de no 7 17 12 36
separación si 10 11 9 30
Total
17 28 21 66
general
Tabla 10. Tabla de doble entrada donde han registrado los resultados
del lanzamiento de un par de dados distinguibles en 120 ocasiones

3.2.6 Comentarios acerca del uso de tablas.


Las tablas de atributos son el tipo de tablas que se utilizan más a menudo para organizar la
información de atributos, es decir, de variables cualitativas de nivel nominal u ordinal. Este
tipo de tablas se puede organizar en orden ascendente o descendente de acuerdo a la
frecuencia de los valores o se acuerdo a algún orden impuesto al atributo como por ejemplo
el orden alfabético. También se pueden dar casos en que las categorías de organización
contengan a su vez subcategorías sobre las cuales también se realizan conteos.

- 25 -
En cuanto a las tablas de variables discretas son las que se utilizan más a menudo para
organizar la información de variables numéricas discretas o cuantitativas ordinales. No es
recomendable su uso cuando existen demasiados valores diferentes de la variable de
observación. Este tipo de tablas, usualmente se presentan en orden ascendente de acuerdo a
los valores de la variable.
Las tablas para variables continuas son las que se utilizan más a menudo para organizar la
información de variables cuantitativas que se miden en un nivel de intervalo o de razón. En
general se debe sopesar, para determinar el número de intervalos de clase a contemplar, el
error generado por el agrupamiento utilizado con las dificultades de cálculo posterior,
especialmente si no se tiene a la mano un computador para los cálculos. La construcción de
este tipo de tablas exige la generación de criterios de partición para realizar el proceso de
agrupamiento por el cual se generan los intervalos de clase; en general, es preferible que la
amplitud de las clases sea constante, aunque en ocasiones pueden verse mejor algunas
características de los datos si se utilizan clases de diferente amplitud. Este tipo de tablas puede
generar problemas de cálculo de estadísticas, como la media aritmética, o de representación
gráfica cuando los intervalos extremos no se definen de manera acotada.
Finalmente, respecto a las tablas de doble entrada, se puede decir que son de uso frecuente
cuando se consideran dos variables de tipo categórico, aunque también las hay para organizar
el cruce de dos variables continuas. Este tipo de tablas es llamado como tabla de
contingencia, cuando se utilizan para analizar la relación de dependencia entre las dos
variables categóricas, o como tabla de correlación cunado las variables consideradas son
continuas. En este tipo de tablas se debe tener que las categorías de clasificación sean
excluyentes y exhaustivas.

3.3 Gráficos.
La forma en que los datos se organizan para su descripción, análisis, interpretación y
publicación es de importancia fundamental en la estadística. La representación gráfica es una
manera de presentar los datos y que permite destacar algunas ideas que se desean expresar.
Al igual que en el caso del uso de representaciones tabulares, las representaciones gráficas
son de tipos muy variados, según se trate de variables unidimensionales, bidimensionales,
multidimensionales o de conjuntos de datos observados a intervalos regulares de tiempo
(como en el caso de las series de tiempo o cronológicas), de atributos, etcétera. Para la
selección apropiada de un tipo de gráfico se debe considerar el tipo de variable y la cantidad
de clases o categorías. Aquí se presentarán los de mayor uso.

3.3.1 Columnas.
Un diagrama de bloques es una gráfica que se emplea para representar la distribución de una
variable discreta o nominal. Consta de una serie de rectángulos, cada uno de los cuales
representa una categoría de la variable. Las bases de los rectángulos están sobre una misma
recta y se nombran con los valores que toma la variable cuya distribución se quiere

- 26 -
representar. Las bases de todos los rectángulos tienen la misma longitud y la altura de cada
uno de ellos es proporcional al número de observaciones de la muestra que están incluidas en
cada clase. Los rectángulos que conforman la gráfica están separados entre sí para indicar que
entre uno y otro valor de la variable no hay más valores.

Ejemplo 7.7 En la Figura1 se muestra la calificación promedio asignado a un grupo de


veinticinco trabajadores en cuanto a sus actitudes de disponibilidad hacia el trabajo, iniciativa
para realizar labores y capacidad de cuestionamiento de su labor en una empresa de
producción de flores.

Figura 1. Calificación promedio asignada por veinticinco trabajadores a su actitud en términos de su


disponibilidad, iniciativa y capacidad de cuestionamiento de su trabajo.

3.3.2 Circular.
Un diagrama circular es una gráfica que se emplea para representar la distribución de una
variable categórica. Para construirlo se utiliza un círculo: se divide en tantos sectores como
categorías tenga la variable. El tamaño de cada sector (o sea del ángulo central
correspondiente) debe ser proporcional al número de observaciones de la muestra que están
incluidas en cada clase. En otras palabras, el gráfico debe presentar el aporte de cada valor
con respecto al total.

Ejemplo 8.
8 La Figura 2 muestra la distribución de las inscripciones de estudiantes a diferentes
carreras en una universidad. Para mayor claridad, también se incluye la tabla de donde
proviene la información.

Programas Diseño Electrónica Matemáticas Química Biología Física Total


Inscritos 250 150 350 200 150 100 1200
Porcentaje 21% 13% 29% 17% 13% 8% 100%

- 27 -
8% DISEÑO
21%
13% ELECTRONICA
MATEMATICAS
17% 12%
QUIMICA
BIOLOGIA
29% FISICA

Figura 2. Distribuciones de las inscripciones de los


estudiantes a diferentes en una Universidad.

3.3.3 Puntos.
Un diagrama de puntos es una gráfica que se emplea para dar una idea aproximada de la
forma de la distribución de una variable cuantitativa discreta. Sobre una misma recta
(usualmente horizontal) se disponen en orden ascendente los posibles valores de la variable y
encima de cada uno de esos valores se anotan tantos puntos como veces se repita el valor.

Ejemplo 9.
9 Cuarenta estudiantes universitarios participaron en un estudio acerca del efecto del
sueño sobre las puntuaciones en los exámenes. La Figura 3 presenta los resultados de 20 de
los estudiantes que estuvieron voluntariamente despiertos estudiando toda la noche anterior
al examen (grupo experimental que no durmió). En la Figura 4 se presentan los resultados de
los otros 20 estudiantes (grupo control) que se acostaron a las 11 p.m. la noche anterior al
examen. Las puntuaciones en el examen se muestran en los siguientes gráficos. Cada punto
representa la puntuación de un estudiante particular. Por ejemplo, los dos puntos encima del
número 80 en el Gráfico 4, indican que dos estudiantes en el grupo control tuvieron una
puntuación de 80 en el examen.

• • • • •
• • • • •
• • • • • • • • • •
30 40 50 60 70 80 90 100
Figura 3. Puntuaciones del grupo experimental.

• • •
• • • • • •
• • • • • • • • • • •
30 40 50 60 70 80 90 100
Figura 4. Puntuaciones del grupo control.

- 28 -
3.3.4 Barras.
Un diagrama de barras es una gráfica que se emplea para representar la distribución de una
variable cuantitativa discreta o nominal. Sobre una misma recta (usualmente vertical) se
disponen en orden ascendente los posibles valores de la variable y al lado de cada uno de
esos valores se trazan segmentos de recta cuya longitud es proporcional a la frecuencia de
cada valor de la variable. En realidad este tipo de gráfico se puede ver como equivalente al de
columnas, salvo por la disposición de las barras en forma horizontal. Por lo tanto, las alturas
de las barras deben ser iguales y el largo de las mismas debe ser proporcional al número de
observaciones de la muestra que están incluidas en cada clase.

Ejemplo 10.
10. En la Figura 5 se muestran los resultados de una investigación en la que una
muestra de 107 profesores respondió una prueba acerca de la interpretación y el
razonamiento con probabilidades.

Utilización de razonamiento
combinatorio para calcular 26,9
probabilidades

Interpretación de probabilidades 63,4

Utilización de razonamiento
proporcional para calcular
probabilidades

0 50
Porcentajes
Figura 5. Porcentaje de aciertos de profesores en una prueba acerca
de interpretación y razonamiento con probabilidades.

3.3.5 Histograma.
Un histograma es una gráfica que se emplea para representar la distribución de una variable
cuantitativa continua. Está constituida por rectángulos ubicados sobre una misma recta. Cada
uno de los grupos en que se clasifica la variable está representado por la base de un
rectángulo; y la altura del mismo es proporcional a la frecuencia del correspondiente grupo
de valores. Además tales rectángulos son adyacentes. Aunque el histograma es una forma
típica de visualizar el comportamiento de una variable continua, también se puede utilizar
para una variable discreta cuando tiene un número muy elevado de valores. En su
elaboración, para elegir la cantidad apropiada de bloques se toma la parte entera de la
cantidad de datos, y para determinar la longitud de la base de los rectángulos (longitud de
clase) se divide la diferencia de los datos extremos por la cantidad de bloques.

- 29 -
Ejemplo 11.
11. El histograma que se presenta en la Figura 6, representa el número de visitas que
ha tenido una página Web de Internet, dependiendo de la hora de la visita. Nótese que en este
ejemplo las frecuencias se han indicado, encima de los bloques que conforman el histograma.

Figura 6. Porcentaje de aciertos de profesores en una prueba acerca


de interpretación y razonamiento con probabilidades

3.3.6 Polígono de frecuencias.


Un polígono de frecuencias es un tipo de gráfico que suaviza el contorno de un histograma.
Es una forma geométrica obtenida de segmentos de recta que unen los puntos medios de los
intervalos de clase adyacentes del histograma. Los polígonos de frecuencia son especialmente
útiles para comparar varias distribuciones en donde la superposición de histogramas causaría
confusión.

Ejemplo 12.
12. El polígono de frecuencias que se muestra en la Figura 7 corresponde a la
suavización que se realizó al histograma presentado en la Figura 6.

Figura 7. Suavización de la gráfica de la Figura 5, sobre el porcentaje de aciertos de profesores en una


prueba acerca de interpretación y razonamiento con probabilidades.

- 30 -
3.3.7 Tallo y hojas.
El gráfico de tallo y hojas es uno de los métodos básicos del análisis exploratorio de datos que
aplica a variables numéricas. La idea de la construcción del mismo se basa en definir un tallo
de valores que represente el primer o primeros dígitos del cuerpo de datos, y a lado de cada
uno de estos valores se escriben los siguientes dígitos de cada número, que semejan las hojas
que se desprenden de un tallo. Una ventaja de este gráfico es la de permitir ver la forma de la
distribución de los datos preservando toda o buena parte de la información numérica.

Ejemplo 13.
13. En la Figura 8 se presenta el gráfico de tallo y hojas correspondiente a las notas
de veinte estudiantes en un examen. También se incluye el conjunto de datos para que se
verifique la construcción del gráfico.
78 93 61 100 70 83 88 74 97 72
66 73 76 81 83 64 91 70 77 86

6 1 4 6
7 0 0 2 3 4 6 7 8
8 1 3 3 6 8
9 1 3 7
10 0
Figura 8. Gráfico de tallos y hojas de las calificaciones de los 20 estudiantes.

6- 1 4
6+ 6
7- 0 0 2 3 4
7+ 6 7 8
8- 1 3 3
8+ 6 8
9- 1 3
9+ 7
10- 0
Figura 9. Gráfico de tallos y hojas extendido de las calificaciones de los 20 estudiantes.

Por otra parte, en la Figura 9 se ilustra una manera de “abrir” el gráfico de tallo y hojas
presentado en la Figura 8. La convención utilizada consiste en usar el signo “-“ para colocar
las “hojas” con valores entre 0 y 4 y el signo “+” para colocar las “hojas" entre 5 y 9.

3.3.8 Gráfico de caja (Boxplot).


El gráfico de caja, conocido en la literatura inglesa como Boxplot,
Boxplot proviene del análisis
exploratorio de datos y es muy apropiado para mostrar el comportamiento de los datos
cuando interesa presentarlos estratificados por alguna variable cualitativa. Para su
construcción es necesario calcular los cuartiles (Q1, Q2 y Q3), el rango intercuartílico (RQ) y los
límites que determinan la zona de anomalías (Q1−1,5×RQ y Q3 + 1,5×RQ).

- 31 -
Ejemplo 14
14. En la Figura 10 se presentan los resultados obtenidos en grado décimo en un
examen final de matemáticas en cuatro cursos dirigidos por diferentes profesores. Se puede
observar, por ejemplo, que en el cursos 1, hubo un estudiante con un puntaje que sobresale
respecto a los demás estudiantes de su curso, mientras que en el curso 2, se identifica a un
estudiante que obtuvo un puntaje significativamente menor que loa puntajes obtenidos por
los demás estudiantes del curso. Asimismo, en cuanto a la homogeneidad de los resultados
obtenidos, se puede observar que el curso 4 es el más heterogéneo de los cuatro cursos.

Figura 10. Resultados en examen de matemáticas de los estudiantes


de cuatro cursos, del mismo nivel académico, en un colegio

Ejemplo 15.
15 La Figura 11 ilustra la construcción del gráfico de caja para los 20 datos
ordenados de la siguiente tabla.

Orden: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Datos: 5 7 8 9 9 9 9 9 9 9 10 10 11 11 11 11 14 15 16 18

Q1 Q2 Q3
Últimos valores antes de entrar a la zona de anomalías

Zona de
anomalías

1,5×RQ
Q3
RQ
Q2

Q1 1,5×RQ

Zona de
anomalías
Figura 11. Gráfico de caja donde Q1 es el primer cuartil, Q2 es la mediana,
Q3 es el tercer cuartil y RQ es el rango intercuartílico (Q3-Q1)

- 32 -
3.3.9 Dispersión (Nube de puntos).
Este gráfico muestra los puntos asociados con los datos, en un plano bidimensional y se usa
para representar los pares de valores (nube de puntos) de una distribución bivariante. Cada
dato, representado por un punto, nos indica una sola unidad de observación sobre las cuales
han sido hechas dos mediciones, x y y. Los valores de cada una de las mediciones son
llevadas a escala sobre los ejes x y y respectivamente. Los gráficos de dispersión son útiles
para analizar la correlación entre variables cuantitativas, ya que la nube de puntos que se
genera permite identificar tendencias o ausencias de correlación.

Ejemplo 16.
16. En la Figura 12 se ilustra el uso de este tipo de gráfico.

10
9
8
7
FILOSOFIA

6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
MATEMATICAS

Figura 12. Resultados obtenidos en matemáticas y estadística por diez estudiantes.

3.3.10 Pareto.
El gráfico de Pareto permite visualizar e identificar las principales razones que generan o se
atribuyen a un evento que se desee estudiar. En particular, se utiliza en la supervisión de
control de calidad cuando, por ejemplo, se desea determinar las razones que provocan una
mala calidad en la elaboración del algún producto textil. Nótese además, que este no es
propiamente un gráfico de frecuencias pues la suma de las ocurrencias de los eventos es, en
general, más alta que el total de los objetos o productos que se revisan.

Ejemplo 17.
17. La Figura 13 muestra las razones atribuidas por treinta consumidores para
devolver las chaquetas vendidas en un almacén.
En el gráfico de Pareto la suma de las ocurrencias es mucho mayor que 30, que es el número
de chaquetas revisadas. Para su elaboración lo que se hace es contar el número de
ocurrencias que se atribuyen al fenómeno en cuestión y luego se muestran las ocurrencias en
columnas ordenadas de mayor a menor.

- 33 -
MOTIVOS DE DEVOLUCIÓN DE CHAQUETAS

35
29
30
OCURRENCIAS 25 22
20
15 12
8
10
4 4
5
0
TELA COLOR AJUSTES BOTONES MANGAS FORRO
RAZONES

Figura 13. Razones para la devolución de chaquetas en un almacén.

3.3.11 Pictogramas.
Los pictogramas usualmente consisten en dibujos icónicos cuyo tamaño suele representar
cantidades o proporciones de la variable o variables de las que se está informando.
Ejemplo 18.
18 En la Figura 14 se
muestra un ejemplo de la manera
como se utiliza el pictograma.

Figura 14. Población de E.U. de 1930 a 1990.

3.3.12 Perfiles.
Los gráficos de perfiles se pueden considerar como una extensión de los gráficos de columnas
o de barras. Se usan para comparar resultados atribuibles a los efectos de controlar u observar
dos variables.

Ejemplo 1919. En la Figura 15 y en la tabla que se presenta a continuación, se comparan los


promedios de efecto de sueño (en horas) de tres tipos de drogas somníferas en diferentes
dosificaciones en una muestra de 60 pacientes voluntarios.

Dosis en miligramos Droga 1 Droga 2 Droga 3


95 5 2 1
96 6 2 1
97 7 3 2
98 8 5 3
99 8 6 2

- 34 -
9
8
7
6
5 Droga 1

4
Droga 2
3
2 Droga 3
1
0
95 96 97 98 99

Figura 15. Comparación del efecto promedios de sueño (en horas) de tres tipos de drogas somníferas
en diferentes dosis, en una muestra de 60 pacientes voluntarios.

En la Figura 16, se representan los datos de la tabla utilizando un diagrama de perfiles con
barras horizontales.

99

98
Droga 1
97 Droga 2

Droga 3
96

95

0 2 4 6 8 10

Figura 16. Versión en presentación de barras de los datos de la gráfica de la Figura 15.

3.3.13 Columnas o barras apiladas.


Una variación de la gráfica de perfiles la aporta los gráficos de columnas o de barras apiladas,
que permiten comparar entre categorías el aporte de cada valor al total. Como se verá en los
ejemplos este tipo de gráficas se puede presentar en versiones absolutas o porcentuales.

Ejemplo 20.
20. Los datos presentados en la tabla siguiente muestran el número de autos,
camionetas y camperos vendidos durante los meses de diciembre de los años 1995 a 1999 en
un concesionario de venta de carros. En las Figuras 17 y 18, se muestra la versión de
apilamiento absoluta en columnas y barras respectivamente.

- 35 -
Año Autos Camionetas Camperos
95 5 2 1
96 6 2 1
97 7 3 2
98 8 5 3
99 8 6 2

18
16
14
12
Camperos
10
Camionetas
8
Autos
6
4
2
0
95 96 97 98 99

Figura 17. Número de autos, camionetas y camperos vendidos durante los meses de diciembre de los
años 1995 a 1999 en un concesionario de venta de carros.

99

98
Autos

97 Camionetas

Camperos
96

95

0 5 10 15 20

Figura 18. Versión presentada en barras de la Figura 17. Observe que en este caso se ha hecho un
manejo menos preciso de la escala numérica horizontal.

Ejemplo 21
21. Respecto a los mismos datos considerados en el ejemplo anterior, en las Figuras
19 y 20, se muestra la versión de apilamiento porcentual en columnas y barras
respectivamente.

- 36 -
100%
90%
80%
70%
60% Camperos

50% Camionetas
40% Autos
30%
20%
10%
0%
95 96 97 98 99

Figura 19. Porcentaje de autos, camionetas y camperos vendidos durante los meses de diciembre de
los años 1995 a 1999 en un concesionario de venta de carros.

99

98
Autos
97 Camionetas
Camperos
96

95

0% 20% 40% 60% 80% 100%

Figura 20. Versión en barras de la Figura 18.

3.3.14 Líneas.
Este tipo de gráficos se utiliza para presentar tendencias a lo largo del tiempo o entre
categorías. Cuando una de las variables es el tiempo y la otra es por ejemplo, las ventas, el
gráfico también se conoce con el nombre de series de tiempo. Por otra parte, y al igual que
en los casos de los gráficos de columnas y barras, en los gráficos de líneas se pueden elaborar
apilamientos absolutos y porcentuales.
Ejemplo 22.
22 Los datos de los ejemplos presentados en el apartado sobre gráficos de columnas
o barras apiladas también se pueden utilizar para representar las diferentes modalidades de
los gráficos de líneas.

- 37 -
9
8
7
6
Autos
5
Camionetas
4
Camperos
3
2
1
0
95 96 97 98 99

Figura 21. Número de autos, camionetas y camperos vendidos durante los meses de diciembre de los
años 1995 a 1999 en un concesionario de venta de carros.

18
16
14
12
Autos
10
8 Camionetas
6 Camperos
4
2
0
95 96 97 98 99

Figura 22. Versión apilada absoluta de gráfico de líneas del número de autos, camionetas y camperos
vendidos durante diciembre en los años 1995 a 1999.

100%
90%
80%
70%
60% Camperos
50% Camionetas
40% Autos
30%
20%
10%
0%
95 96 97 98 99

Figura 23. Versión apilada porcentual de gráfico de líneas del número de autos, camionetas y camperos
vendidos durante diciembre en los años 1995 a 1999.

- 38 -
En la Figura 21 se muestra una versión sin apilar del número de autos, camionetas y camperos
vendidos durante los meses de diciembre en los años 1995 a 1999 en un concesionario de
venta de carros, mientras que en las Figuras 22 y 23, se muestras las versiones apiladas
absolutas y porcentuales respectivamente de los mismos datos.

3.3.15 Áreas.
En este tipo de gráfico, como en los gráficos de línea, también se presenta la tendencia de los
valores de los datos a lo largo del tiempo o entre categorías.

Ejemplo 23.
23 El presupuesto de inversión del gobierno en miles de millones de pesos en las
áreas de educación y ciencia y tecnología se presenta en la siguiente tabla.

Años Educación Ciencia y tecnología Totales


2001 250 200 450
2002 200 150 350
2003 250 180 430
2004 270 150 420
2005 220 200 420
2006 350 250 600

Obsérvese que en la Figura 24 se presentan los presupuestos sin realizar apilamientos,


mientras que en la Figura 25 y 26 respectivamente se utilizan los apilamientos absolutos y
porcentuales.

400
350
300
250
EDUCACIÓN
200
CIENCIA Y TEC.
150
100
50
0
2001 2002 2003 2004 2005 2006

Figura 24. Presupuesto de inversión de los años 2001 a 2006, en educación y


ciencia y tecnología (versión sin apilamientos).

700
600
500
400 CIENCIA Y TEC.

300 EDUCACIÓN

200
100
0
2001 2002 2003 2004 2005 2006

Figura 25. Presupuesto de inversión de los años 2001 a 2006, en educación y


ciencia y tecnología (versión con apilamientos absolutos).

- 39 -
100%
90%
80%
70%
60%
CIENCIA Y TEC.
50%
EDUCACIÓN
40%
30%
20%
10%
0%
2001 2002 2003 2004 2005 2006

Figura 26. Presupuesto de inversión de los años 2001 a 2006, en educación y


ciencia y tecnología (versión con apilamientos porcentuales).

3.3.16 Columnas en tres dimensiones.


Los gráficos columnas en tres dimensiones sirven para representar la información que
proviene de tablas de doble entrada ya que con base en ellos se pueden comparar frecuencias
entre categorías bivariantes. En realidad, este tipo de gráfico puede verse como extensión del
histograma aplicado a dos variables o como variación de los gráficos de columnas (barras), o
de perfiles para dos variables.

Ejemplo 24.
24 La venta de carros en diciembre de 2008 (autos, camionetas y camperos) en tres
concesionarios diferentes se puede volver a utilizar para ilustrar el uso de este tipo de
gráficos. Los datos que se representan en la Figura 27 se organizaron en la siguiente tabla

C1 C2 C3
Autos 2 3 4
Camionetas 1 5 3
Camperos 4 2 1

Figura 27. Número de carros vendidos en tres concesionarios


diferentes en diciembre de 2008

- 40 -
3.3.17 Cotizaciones.
Los gráficos de cotizaciones, como lo indica su nombre, se utilizan en el mercado bursátil para
analizar las fluctuaciones de los precios de las acciones.

Ejemplo 25.
25. Las Figuras 28, 29 y 30 ilustran la utilización de los gráficos de cotizaciones, en
tres modalidades. Los datos que se tomaron para elaborar estos gráficos aparecen en la
siguiente tabla y corresponden al comportamiento de una acción particular. Las columnas
corresponden al día de la semana, volumen de acciones transadas en el día, precio de
apertura en el día, máximo precio alcanzado durante el día, mínimo valor alcanzado durante
el día y precio de cierre en el día.

Día Volumen Apertura Máximo Mínimo Cierre


1 200 55 58 52 56
2 250 53 60 52 54
3 300 59 62 56 60
4 250 54 56 54 55
5 300 56 54 57 55
6 150 58 56 59 57
7 200 56 60 52 58

64
62
60
58
VALORES

56
54
52
50
48
46
1 2 3 4 5 6 7
DIAS

Figura 28. Fluctuaciones de los valores en miles de pesos de una acción durante una semana. Se
indican los valores máximos y mínimos alcanzados y el precio de cierre con una marca rectangular.

- 41 -
64
62
60
VALORES 58
56
54
52
50
48
46
1 2 3 4 5 6 7
DIAS

Figura 29. Fluctuaciones de los valores (en miles de pesos) de una acción durante siete días. Se
indican los valores máximos y mínimos alcanzados y los precios de apertura y cierre de la acción se
representan con un rectángulo. Observe que el rectángulo no está relleno cuando el precio de apertura
es menor que el de cierre.

350 64
300 62
60
250
58

VALORES
VENTAS

200 56
150 54
52
100
50
50 48
0 46
1 2 3 4 5 6 7
DIAS

Figura 30. Fluctuaciones de los valores (en miles de pesos) de una acción durante siete días. Este
gráfico contiene la información del gráfico anterior, pero además, incluye la información de monto total
de las ventas en millones de pesos.

3.3.18 Ábaco de probabilidad.


Este tipo de gráfico se utiliza para representar tablas de frecuencias relativas asociados a una
variable discreta o para representar una tabla de probabilidades de variables aleatorias
discretas.

Ejemplo 26.
26. Un juego consiste en lanzar 3 dados distinguibles y apostarle a la aparición de
cierto número. Si resulta una vez el “6” el jugador se gana un punto, si resulta dos veces el “6”
se gana dos puntos, si resulta tres veces el “6” se gana tres puntos y si no sale el “6” se pierde
un punto.
Los posibles resultados de este juego son 216 ternas: 111, 112, 121, 211, 113, 131, 311, …, 666.

La variable aleatoria es el puntaje ganado por el jugador, la cual toma los valores -1, 1, 2 y 3,
los cuales dependen de la cantidad de veces que aparece el “6”.

- 42 -
En la siguiente tabla aparecen las posibles ganancias y la cantidad de resultados para los
cuales se obtendrían las respectivas ganancias:

Cantidad Ganancia Cantidad de Frecuencias


de “6” (Puntaje) resultados relativas

0 -1 125 125/216

1 1 75 75/216

2 2 15 15/216

3 3 1 1/216

El gráfico que se muestra en la Figura 31, similar a un diagrama de barras, se conoce como
ábaco de probabilidad.

0,7

0,6

0,5

0,4

0,3

0,2

0,1

0
0 1 2 3

Figura 31. Probabilidades de ganancia de un jugador de dados.

Ejemplo 27
27. Un estudiante presenta un examen que contiene 4 preguntas de Falso y
Verdadero. Las dos primeras preguntas son de Estadística y las dos últimas son de
Probabilidad. X es la cantidad de veces que puede marcar Verdadero en las dos primeras
preguntas, y Y es la cantidad de veces que puede marcar Verdadero en todo el examen.

Las preguntas P1, P2, P3 y P4 del examen se pueden responder de las siguientes maneras:

No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
P1 V V V V F V F V F V F V F F F F
P2 V V V F V V F F V F V F V F F F
P3 V V F V V F V F V V F F F V F F
P4 V F V V V F V V F F V F F F V F

La tabla anterior nos permite realizar los conteos para las variables X e Y que se muestran en la
siguiente tabla:

- 43 -
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
X 2 2 2 1 1 2 0 1 1 1 1 1 1 0 0 0
Y 4 3 3 3 3 2 2 2 2 2 2 1 1 1 1 0

Se puede ver que hay 16 maneras de responder el examen. En el primer caso, la variable X
toma el valor 2 y la variable Y toma el valor 4. Con base en esta tabla se obtiene la siguiente
tabla de frecuencias, y con base en esta tabla se obtiene el ábaco para las dos variables que se
muestra en la Figura 32.

Y
0 1 2 3 4
0 1 2 1 0 0
X
1 0 2 4 2 0
2 0 0 1 2 1

Figura 32. Ábaco para las variables X,Y.

3.3.19 Comentarios acerca del uso de gráficos.


Para la elaboración de gráficas se pueden dar algunas recomendaciones. La finalidad de las
gráficas es visualizar mejor la información. Por ello, la mejor gráfica suele ser la más simple. Al
presentar gráficas siempre se debe buscar sencillez y claridad, de tal manera que éstas sean
comprensibles sin la ayuda de las descripciones de textos. Toda gráfica debe tener título e
indicar con claridad el contenido de la misma. Las columnas, barras y líneas en los diversos
gráficos de este tipo deben preservar en lo posible el nivel de frecuencia cero para no generar
gráficos engañosos.
Las gráficas no se deben ver como un sustituto de tablas u otros medios de representación
estadística, más bien son un complemento del análisis de datos. En realidad, la gráfica es
considerada como el principal medio de expresión de la estadística por diferentes razones: es
más llamativa y sugestiva, deja en la memoria una expresión más duradera que las tablas o el
sólo texto y requiere de un menor tiempo de lectura. El gráfico de Tallo y hojas y el de Caja
son típicos del análisis exploratorio de datos y aunque también se usan para estudiar una sola
variable, alcanzan su mayor potencia cuando se utilizan para abordar análisis de tipo
multivariado, por ejemplo para comparar distribuciones.
.
.
.
.
.

- 44 -
3.4 Ejercicios.
Ejercicios.
1. La persona encargada de administrar un taller de carros, quiere determinar los motivos
que inducen con más frecuencia a que los clientes ingresen su automóvil para revisión y
mantenimiento. Después de recoger la información va a presentarla en un gráfico.
a) ¿Cuál es la variable que se va a medir? ¿De qué tipo es?
b) ¿Qué tipo de diagrama es el más adecuado? ¿Por qué?
2. Un estudiante de derecho quiere determinar la proporción de estudiantes que hay en cada
una de las carreras que conforman la facultad de Humanidades para corroborar su
afirmación de que los estudiantes de derecho son los que deciden en una votación pues
son la mayoría. Después de que haya recogido la información va a presentarla en un
gráfico.
a) ¿Cuál es la variable que se va a medir? ¿De qué tipo es?
b) ¿Qué tipo de diagrama es el más adecuado? ¿Por qué?
3. El administrador de un supermercado está interesado en determinar si es necesario
instalar más cajas registradoras en el almacén para darle una atención más rápida a la
comunidad. Para el efecto, la persona encargada de hacer la investigación toma, un día
cualquiera, una muestra aleatoria de 50 compradores y anota el tiempo que cada uno de
ellos gasta haciendo cola para pagar sus compras. Después de que haya recogido la
información va a presentarla en un gráfico.
a) ¿Cuál es la variable que se va a medir? ¿De qué tipo es?
b) ¿Qué tipo de diagrama es el más adecuado? ¿Por qué?
4. En el curso de estadística se han realizado tres parciales. El profesor del curso cree que, en
general, sus alumnos van bien pues la mayoría de ellos han aprobado los tres parciales. El
profesor quiere presentar la información correspondiente en un diagrama.
a) ¿Cuál es la variable que se va a medir? ¿De qué tipo es?
b) ¿Qué tipo de diagrama es el más adecuado? ¿Por qué?
5. El lenguaje es la herramienta propia del hombre para comunicarse con los otros miembros
de una sociedad. Con el fin de comprobar el cumplimiento de la función comunicativa de
su periódico en toda la sociedad cucuteña, el director de un destacado diario de la capital
de Santander del Norte, adelantó una investigación que pretendía medir el alcance de la
información contenida en el periódico con respecto al grado de comprensión que de ésta
lograba el lector. Para tal efecto, se tomó una muestra de cien suscriptores del diario a
quienes se pidió calificar tres tipos de escritos según el grado de dificultad de
comprensión que presentaban. A continuación se especifica un poco más el estudio a
través de cuatro tablas: la primera presenta la muestra estratificada por nivel
socioeconómico de los suscriptores del periódico, la segunda indica los tipos de textos
sometidos a calificación, la tercera indica la escala de calificaciones para el grado de
dificultad de comprensión del texto y la última tabla presenta los resultados, de la
calificación general a los tres textos, obtenidos según el nivel socioeconómico.

- 45 -
Alto 20 A Temas de interés general +2 Muy difícil
Medio alto 30 B Temas sociales y políticos +1 Difícil
Medio bajo 20 C Temas especializados 0 No muy difícil
Bajo 30 -1 Fácil
-2 Muy fácil

0 +1 +1 0 -1 -1 -1 +2 0 0
Alto
0 +1 +1 -1 -1 -1 0 0 +1 -1
-1 -2 +2 +2 0 0 +1 +1 +1 0
Medio alto -1 -2 -2 0 0 +1 +1 +2 -1 0
-2 -1 0 0 0 +1 0 0 0 +1
-1 0 +1 0 0 +1 -1 -2 +2 +1
Medio bajo
0 0 +1 +1 0 -1 -1 -1 -1 0
0 0 +1 -1 -2 +2 +2 0 0 0
Bajo +1 +1 +1 +2 0 0 0 -1 0 0
+1 +1 +1 +2 0 0 +1 +1 0 0

a) ¿Cuál es el problema de estudio?


b) ¿Cuál es la muestra de estudio?
c) ¿Cuáles son las variables y de qué tipo son?
d) Elabore una tabla de frecuencias para las calificaciones dadas y represente la
información con un gráfico apropiado.
e) Elabore tablas de frecuencias y represente en gráficos apropiados las calificaciones
obtenidas según los cuatro niveles socioeconómicos considerados en el conjunto de
datos presentado.
f) Compare los cuatro gráficos y concluya sobre la relación entre el nivel
socioeconómico y el grado de comprensión.
g) ¿Puede concluir algo sobre la diferencia entre grado de comprensión y el tipo de texto
presentado? Explique su respuesta.

6. La siguiente tabla muestra el número de hombres y mujeres en los diferentes


departamentos de una empresa. Contabilidad (C), Estadística (E), Servicios generales (G),
Tesorería (T), Sistemas (S), Ventas (V) y Dirección (D).

C E G T S V D
Hombres 30 35 35 20 25 40 10
Mujeres 40 20 30 25 30 50 20

a) Proponga un gráfico apropiado para representar el número de mujeres por


departamento.

- 46 -
b) Proponga un gráfico apropiado para representar el número de mujeres y hombres por
departamento.
c) ¿En qué departamento hay mayor número de empleados? ¿Cuál gráfica muestra más
claramente este resultado?
d) ¿En qué departamento hay mayor diferencia entre el número de hombres y mujeres?
¿Cuál gráfica muestra claramente este resultado?
e) Para observar en qué departamento hay mayor porcentaje de mujeres, ¿qué tipo de
gráfico se puede utilizar?

7. La tabla que se muestra más abajo se refiere al comercio de Colombia en el grupo Andino
entre los años 1975 y 1979. Datos en millones de pesos. Proponga un gráfico en el que
pueda comparar las exportaciones y las importaciones por año. ¿Tendría sentido presentar
los datos en un gráfico de columnas o barras porcentuales? Explique.

Año Exportaciones Importaciones


1975 80 55
1976 90 40
1977 90 55
1978 140 80
1979 160 90

8. En la siguiente tabla se muestran las razones por las cuales 30 computadores configurados
en la universidad se encuentran en el taller de mantenimiento. Las partes se compran a
diferentes proveedores. Las razones por las cuales cada computador entró al taller se
detallan en la siguiente tabla:

N° R1 R2 R3 R4 R5 R6 R7 R8 R9 R10 N° R1 R2 R3 R4 R5 R6 R7 R8 R9 R10
1 x x x x x 16 x x x x
2 x x x x 17 x x x x x
3 x x x x x x 18 x x x
4 x x x x x 19 x x x x x
5 x 20 x x x x x
6 x x x x 21 x x x
7 x x x 22 x x x
8 x x x x x x 23 x x x x
9 x x 24 x x x x x
10 x x x x 25 x x x
11 x x x 26 x x
12 x x x 27 x x x x x
13 x x x x x 28 x x x x
14 x x x 29 x x x
15 x x x x x x 30 x x x x

- 47 -
Donde las razones son:

R1 = Actualizar sistema operativo R2 = Cambio de batería de la bios


R3 = Molesta la tarjeta de sonido R4 = Molesta la tarjeta de video
R5 = Se desconfigura el teclado R6 = Dañada la tarjeta de red
R7 = Escasa memoria R8 = Daño del disco duro
R9 = Daño en unidad de CD R10 = Daño en la unidad 3 ½ A

a) Represente gráficamente esta información.


b) ¿Sugiera en qué caso se deben tomar medidas correctivas?
9. El siguiente conjunto de datos corresponde al consumo en metros cúbicos de agua de 81
residencias de una ciudadela durante el segundo semestre del año 2006.

40,00 40,30 40,60 40,90 41,20 41,50 41,80 42,10 42,40


40,25 40,70 41,15 41,60 42,05 42,50 42,95 43,40 43,85
40,50 41,10 41,70 42,30 42,90 43,50 44,10 44,70 45,30
40,75 41,50 42,25 43,00 43,75 44,50 45,25 46,00 46,75
41,00 41,90 42,80 43,70 44,60 45,50 46,40 47,30 48,20
41,25 42,30 43,35 44,40 45,45 46,50 47,55 48,60 49,65
41,50 42,70 43,90 45,10 46,30 47,50 48,70 49,90 51,10
41,75 43,10 44,45 45,80 47,15 48,50 49,85 51,20 52,55
42,00 43,50 45,00 46,50 48,00 49,50 51,00 52,50 54,00

a) Elabore tablas de frecuencias relativas y acumuladas.


b) Represente de tres formas diferentes el conjunto de datos.

10. En un zoocriadero destinado a la cría de chigüiros para exportación se ha descuidado la


alimentación de los animales y se ha presentado un desarrollo inesperado en estos. Se han
clasificado los animales en diez grupos, teniendo en cuenta el peso en kilogramos. La
siguiente tabla muestra la cantidad de animales en cada categoría de pesos:

Pesos Cantidad de Porcentaje Porcentaje Marca de la


35.00 - 85.00 animales de animales acumulado categoría
35.00 - 40.00 20
40.10 - 45.00 25
45.10 - 50.00 30
50.10 - 55.00 10
55.10 - 60.00 15
60.10 - 65.00 20
65.10 - 70.00 25
70.10 - 75.00 35
75.10 - 80.00 10
80.10 - 85.00 10

- 48 -
a) Complete la tabla.
b) Estime cuántos animales pesan menos de 70.00 kilos.
c) Estime cuántos animales pesan menos de 58.00 kilos.
11. Indague como se elaboran los gráficos de: anillos, burbujas, radial y superficie. Proponga
cuatro conjuntos de datos con los cuales tenga sentido la utilización de estos diagramas.
12. En el análisis multivariado de datos existen algunos métodos de representación gráfica
como los dispersogramas, las curvas de Andrews y los rostros de Chernov. Investigue cual
es la finalidad de estos gráficos y proponga conjuntos datos para los que tenga sentido su
utilización.
13. La siguiente tabla presenta la información correspondiente a cantidad de estudiantes
matriculados en un postgrado de Estadística en una universidad del estado, durante el
periodo 1995 – 2004. H=(Cantidad de hombres), M=(Cantidad de mujeres).

Año 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
H 15 18 20 25 20 20 18 10 22 24
M 25 25 22 15 15 17 22 35 25 20
Para la información organizada en la tabla, elabore un diagrama de perfiles, un diagrama
de líneas y un diagrama de áreas.
14. La información que se presenta en la siguiente tabla corresponde a 20 pacientes atendidos
en un consultorio pediátrico durante la primera semana del mes de junio. Se ha recabado
la siguiente información: X=Edad (en meses), Y=Peso (en gramos), Z=Talla (en
centímetros).
Paciente X = Edad Y = Peso Z = Talla
Bebé 01 3 3500 55
Bebé 02 4 4500 60
Bebé 03 5 6000 60
Bebé 04 4 5000 55
Bebé 05 5 4500 60
Bebé 06 5 7500 65
Bebé 07 5 6500 65
Bebé 08 6 6000 65
Bebé 09 6 7000 55
Bebé 10 6 6500 70
Bebé 11 8 7500 70
Bebé 12 8 8000 75
Bebé 13 9 10000 70
Bebé 14 9 8500 80
Bebé 15 11 10000 85
Bebé 16 1 4000 45
Bebé 17 1 3500 45
Bebé 18 11 10500 90
Bebé 19 12 9500 85
Bebé 20 7 8000 70

- 49 -
a) Elabore un diagrama de dispersión para las variables Y y Z.
b) Elabore un diagrama de columnas 3D para las variables X y Z.
c) Elabore un diagrama de perfiles para las variables X, Y y Z.
15. Una caja de compensación ha establecido 10 categorías para clasificar a sus afiliados de
acuerdo a sus salarios, de tal manera que un afiliado queda clasificado en la categoría Cn
si su salario se encuentra en el intervalo [535.000n, 535.000(n+1)), donde n=1,2,3,…,10. La
cantidad de empleados en cada categoría es:

16. C1 17. C2 18. C3 19. C4 20. C5 21. C6 22. C7 23. C8 24. C9 25. C10
26. 25 27. 35 28. 50 29. 70 30. 70 31. 75 32. 40 33. 40 34. 20 35. 25
0 0 0 0 0 0 0 0 0 0

a) ¿Qué porcentaje de afiliados tiene salarios entre $2.500.000 y $3.500.000?


b) ¿Qué porcentaje de afiliados tiene salarios superiores o iguales a $3.000.000?
c) Elabore un gráfico adecuado para representar la información de la caja de
compensación.
16. Un estudiante contesta al azar las 10 preguntas de un examen, en donde cada pregunta
tiene cuatro opciones de respuesta, pero solo una opción es la respuesta correcta.
Elabore una tabla de frecuencias relativas en donde se clasifiquen todas las posibles
formas de contestar el examen de acuerdo a la variable aleatoria X definida como
“Cantidad de aciertos que puede obtener el estudiante”.
17. En un instituto que cuenta con 12 especialistas (3 fisiólogos, 4 genetistas, 5 inmunólogos)
se seleccionará aleatoriamente un grupo de 4 para realizar una investigación en un
laboratorio extranjero. Elabore una tabla de frecuencias relativas en donde los grupos se
clasifiquen los posibles grupos de acuerdo a la cantidad de fisiólogos que queden en los
grupos.
18. Una moneda que no tiene Cara y Sello sino 2 y 3 se lanza 10 veces. Se anota la sucesión
de los 10 números resultantes (2`s y 3`s) y se suman estos 10 números. Elabore una tabla
de frecuencias relativas en donde se clasifiquen los posibles resultados de acuerdo a la
suma de los 10 números resultantes.
19. Se extraen simultáneamente 5 cartas de una baraja de 52 cartas y se observa la cantidad de
Ases resultantes en la muestra extraída. Elabore una tabla de frecuencias relativas en
donde se clasifiquen las posibles muestras de acuerdo a la cantidad de Ases posibles en
las muestras.
20. En un recipiente se encuentran 5 objetos: 3 buenos y 2 defectuosos. Se extrae una muestra
de dos objetos, uno tras otro sin reemplazo. Sea X el número de objetos defectuosos en la
primera extracción, y Y el número de objetos defectuosos en la segunda extracción.
a) Elabore una tabla de frecuencias absolutas en donde se clasifiquen las posibles
muestras resultantes de acuerdo a las variables X y Y.

- 50 -
b) Elabore una tabla de frecuencias relativas en donde se clasifiquen las posibles
muestras resultantes de acuerdo a las variables X y Y.
21. Una compañía ofrece dos seguros a sus clientes: seguro de automóvil y seguro de
vivienda. Las pólizas para seguro de automóvil son de $ 100, $ 200 y $ 300; mientras que
las pólizas para seguro de vivienda son de $ 50, $ 150 y $ 250. Sea X la cantidad pagada
por la póliza de automóvil, y Y la cantidad pagada por la póliza de vivienda. La siguiente
tabla muestra la cantidad de personas en los diferentes pares de seguros. Hallar la tabla de
frecuencias relativas.

Y
(X,Y)
50 150 250
100 30 40 50
X 200 60 20 20
300 60 40 80

22. Se lanza 5 veces una moneda y se anotan las figuras que resultan (Cara, Sello). Sea X el
número de caras en los dos primeros lanzamientos, y Y el número total de caras en los
cinco lanzamientos. Elabore una tabla de frecuencias relativas en donde se clasifiquen los
posibles resultados en los cinco lanzamientos de acuerdo a las variables X y Y.
23. Un dado balanceado se lanza dos veces y se anotan los números obtenidos. Sea X es el
número de cuatros, y Y es el número de cincos, que se obtienen en dos lanzamientos del
dado. Elabore una tabla de frecuencias relativas en donde se clasifiquen los posibles
resultados en los dos lanzamientos de acuerdo a las variables X y Y.
24. Se quiere conformar una brigada de salud de 10 profesionales para atender una
emergencia en una población que sufrió las inundaciones de dos ríos que la atraviesan. La
secretaría de salud de la región dispone de 12 médicos, 15 enfermeras, 6
gastroenterólogos y 7 epidemiólogos. Se define X como el número de médicos en la
brigada, y Y como el número de enfermeras en la brigada. Elabore una tabla de
frecuencias relativas en donde se clasifiquen las posibles brigadas de acuerdo a las
variables X y Y.
25. Una moneda que no tiene Cara y Sello sino 2 y 4 se lanza cuatro veces. Se anota el
número que resulta a medida que se lanza la moneda. Sea X la suma acumulada en los
dos primeros lanzamientos, y Y la suma acumulada en los cuatro lanzamientos. Elabore
una tabla de frecuencias relativas en donde se clasifiquen los posibles resultados en los
cuatro lanzamientos de acuerdo a las variables X y Y.
26. Un almacén tiene en existencia 30 componentes de cierto tipo, 8 de los cuales fueron
proporcionados por el proveedor 1, 10 por el proveedor 2 y 12 por el proveedor 3. Se va a
seleccionar una muestra de 6 componentes. Sea X el número de componentes
seleccionados del proveedor 1, Y el número de componentes seleccionados del proveedor
2, y Z el número de componentes seleccionados del proveedor 3.

- 51 -
a) Elabore una tabla de frecuencias relativas en donde se clasifiquen las posibles
muestras resultantes de acuerdo a las variables X y Y.
b) Elabore una tabla de frecuencias relativas en donde se clasifiquen las posibles
muestras resultantes de acuerdo a las variables X y Z.
c) Elabore una tabla de frecuencias relativas en donde se clasifiquen las posibles
muestras resultantes de acuerdo a las variables Y y Z.

27. Se seleccionan 4 repuestos para un bolígrafo de una caja que contiene 3 repuestos azules,
4 rojos y 5 negros. Supóngase que X representa el número de repuestos azules en la
muestra seleccionada, y Y el número de repuestos rojos en la muestra seleccionada.
Elabore una tabla de frecuencias relativas en donde se clasifiquen las posibles muestras de
acuerdo a las variables X y Y.

28. En un grupo de 9 ejecutivos de una empresa hay 4 que son casados, 3 solteros y 2
divorciados. Se debe hacer una selección 3 ejecutivos. Sea X el número de ejecutivos
casados en la selección, Y el número de ejecutivos solteros en la selección. Elabore las
tablas de frecuencias absolutas y relativas en donde se clasifiquen las posibles selecciones
de acuerdo a las variables X y Y.

29. Un dado balanceado se lanza 5 veces y se anotan los números obtenidos. Sea X es el
número de cuatros en los tres primeros lanzamientos, y Y es el número de cuatros en los
cinco lanzamientos. Elabore una tabla de frecuencias relativas en donde se clasifiquen los
posibles resultados en los cinco lanzamientos de acuerdo a las variables X y Y.

30. Una urna contiene 6 bolas de colores diferentes: dos numeradas con el número 3 y cuatro
numeradas con el número 6. Se seleccionan dos bolas simultáneamente. Sea X el menor
de los números seleccionados, y Y el mayor de los números seleccionados. Elabore una
tabla de frecuencias relativas en donde se clasifiquen las posibles selecciones de acuerdo
a las variables X y Y.

31. Una urna contiene 5 bolas de colores diferentes: dos numeradas con el número 2 y tres
numeradas con el número 3. Se seleccionan tres bolas simultáneamente. Sea X el menor
de los números seleccionados, y Y el mayor de los números seleccionados. Elabore las
tablas de frecuencias absolutas y relativas en donde se clasifiquen las posibles selecciones
de acuerdo a las variables X y Y.

32. Se lanza cuatro veces un dado y se anota el número que resulta en cada lanzamiento. Sea
X la cantidad de números pares en los dos primeros lanzamientos, y Y la cantidad de
números pares en los cuatro lanzamientos. Elabore las tablas de frecuencias absolutas y
relativas en donde se clasifiquen los posibles resultados de acuerdo a las dos variables
definidas.

- 52 -
33. De una baraja de 52 cartas se extraen 5 cartas, una tras otra sin reposición, y se va
anotando el valor de la carta. Sea X la cantidad de Ases acumulados al finalizar la tercera
extracción, y Y la cantidad de Ases acumulados al finalizar la quinta extracción. Elabore las
tablas de frecuencias absolutas y relativas en donde se clasifiquen los posibles resultados
de las cinco extracciones de acuerdo a las variables X y Y.

34. Se sacan simultáneamente 4 cartas de las 16 cartas de las letras J, Q, K y A, que tiene una
baraja de 52 cartas. Sea X el número de Jotas, y Y el números de Ases que resultan en la
muestra seleccionada. Elabore las tablas de frecuencias absolutas y relativas en donde se
clasifiquen las posibles muestras resultantes de acuerdo a las variables X y Y.

35. De una baraja de 52 cartas se seleccionan simultáneamente 5 cartas, se anota valor y palo
de las cartas seleccionadas, y no se reponen. Luego se seleccionan simultáneamente otras
tres cartas de las 47 cartas restantes, se anota valor y palo de las cartas seleccionadas, y no
se reponen. Sea X la cantidad de cartas de tréboles en la primera selección, y Y la cantidad
de cartas de tréboles en la segunda selección. Elabore las tablas de frecuencias absolutas y
relativas en donde se clasifiquen los posibles resultados de las dos selecciones hechas de
acuerdo a las variables X y Y.

- 53 -
4. MEDIDAS DE CENTRALIZACIÓN Y LOCALIZACIÓN

4.1 Introducción.
La elaboración de tablas de distribución de frecuencias hace parte, como se dijo en el capítulo
anterior, del proceso de reducción de los datos estadísticos. La máxima expresión del
resumen de todos los datos observados, relativos a una variable, se obtiene al elegir un único
valor representativo o típico de la distribución.
Cuando los datos observados corresponden todos a una población de estudio, este valor
representativo o típico, que es fijo para cada población, recibe el nombre de parámetro. Sin
embargo, lo más usual es trabajar con datos de una o varias muestras dicho valor
representativo, que al referirse a una muestra recibe el nombre de estadístico o estadígrafo. Lo
habitual es que el valor de un estadístico varíe de una u otra muestra acercándose más menos
al valor del parámetro. Justamente es la estadística inferencial o inductiva la que establece las
condiciones bajo las cuales el estadístico representa al parámetro que pretende estimar.
En realidad, los resúmenes numéricos o estadísticos, surgen de la necesidad de modelar la
variación estadística en diferentes sentidos: localización, dispersión, forma (asimetría y
curtosis) y concentración. Para ello se suele considerar diferentes tipos de estadísticas o
estadígrafos que concretan cada una de estos conceptos en términos de una medición
estadística.
En este capítulo centraremos la discusión en las medidas de localización y trataremos de
responder a cuestiones como qué son, cuáles son, cómo se definen, qué propiedades,
ventajas e inconvenientes las caracterizan y en qué tipos de problemas o situaciones se
aplican.
Las medidas de localización,
localización también conocidas como medidas de posición, son un conjunto
de estadígrafos con los que se busca identificar un valor que resuma, represente o caracterice
una posición o tendencia particular de un conjunto de datos. Algunos ejemplos de medidas
de localización son: el máximo de los datos, el mínimo de los datos, la media aritmética, los
cuantiles y la moda. El caso particular y más relevante de las medidas de localización lo
constituyen las medidas de tendencia central que buscan identificar un valor intermedio, más
característico o de posición central de los datos. De los ejemplos nombrados antes sólo la
media aritmética y la moda son medidas de tendencia central. Los procedimientos de cálculo
y las características de estas medidas varían de acuerdo al tipo de variables que se quiera
resumir y a la cantidad de información que se trabaje.
En lo que sigue, primero se hará una descripción de las medidas de tendencia central más
conocidas, luego se comentarán otras medidas de localización como los cuartiles y finalmente
se presentará una serie de ejemplos, para ilustrar el cálculo y la elección apropiada de los
diferentes estadísticos de localización.

- 54 -
4.2 Media aritmética.
La media aritmética denotada por X , es quizás la medida de tendencia central más utilizada,
conocida y sencilla de calcular. Además, es una medida de gran estabilidad en el muestreo y
sus fórmulas admiten tratamientos algebraicos. Su principal desventaja es la de ser muy
sensible a cambios que se hagan en alguno de sus valores, como por ejemplo cuando los
valores extremos son valores demasiado grandes o pequeños.
La media aritmética es el número obtenido al dividir la suma de todos los valores de la
variable entre el número total de observaciones, y se puede definir de manera general, a
k
∑ xini
través de la expresión X = i =1
k
.
∑ ni
i =1

En realidad esta expresión usualmente se utiliza cuando se trabaja con datos agrupados en
donde los ni representan las frecuencias absolutas y los xi representan los diferentes valores
que asumen los datos, o bien corresponden a las marcas de clase mi de tablas de variable
continua. Entonces, el número de marcas de clase o de valores diferentes es k y el total de
k
datos es ∑ n i . Cuando no se trabaja con datos agrupados se entiende que ni = 1 para toda i,
i =1

k
que ∑ n i = n el total de datos y la media aritmética simplemente se denota como:
i =1

n
∑ xi
i =1
X=
n

En cuanto a las propiedades que caracterizan a la media aritmética tenemos:


• Si los datos xi se transforman en datos de la forma yi = a + b xi, entonces se tiene que Y = a
+bX
• La suma de las desviaciones de los valores de una variable x, respecto a su media
n
aritmética es cero. Es decir, ∑ (x − x) = 0
i
i = 1

• La suma de las desviaciones al cuadrado es mínima en X, es decir, X es el valor que


minimiza la función
n 2
F(u) = ∑ (x i − u)
i = 1

Respecto a sus ventajas se pueden citar las siguientes:


• Es quizás, la medida más fácil de entender, la más usada y viene expresada en las mismas
unidades que la variable.
• Es un número comprendido entre el menor y el mayor de los valores a los que se aplica.

- 55 -
• En su cálculo intervienen todos los valores de la distribución de datos.
• Representa, en términos físicos, el centro de gravedad de toda la distribución de datos.
• Es única, ya que X sin agrupar se puede ver como una función de Rn en R y de manera
similar para X agrupada.
• Es muy estable en el muestreo de datos.
• Es altamente sensible a cualquier cambio en los datos de la distribución.
• Es adaptable cuando se trata de hacer cálculos matemáticos posteriores con ésta, como en
el caso del promedio ponderado o del promedio de promedios.

En cuanto a sus inconvenientes se tiene que:


• Se ve afectada por los valores extremadamente grandes o pequeños de la distribución de
los datos. Por ello, la inclusión de valores atípicos en la distribución que se esté
estudiando, puede dar una media aritmética que no sea realmente un representante típico
del grupo.
• Cuando una distribución de datos es marcadamente asimétrica, casos donde la media
aritmética, la mediana y la moda difieren en forma apreciable, debe considerarse la
posibilidad de que pueda no ser el único valor representativo de los datos.
• Cuando la distribución de datos tiene forma de U, la media aritmética corresponde a los
valores menos comunes de los datos y por tanto, puede dar una idea irreal de la
distribución.

4.3 Media aritmética ponderada (W).


La media aritmética ponderada, denotada como W, es una variación de la media aritmética
que se emplea en distribuciones de tipo univariado, en las que se introducen unos
coeficientes de ponderación, denominados wi, que son valores positivos que representan el
número de veces que un valor de la variable es más importante que otro.
k
∑ xi wi
i =1
W=
k
∑ wi
i =1

En general la media aritmética ponderada goza de las mismas propiedades, ventajas e


inconvenientes de la media aritmética, ya que se puede equiparar con una media aritmética
agrupada.

4.4 Media geométrica (G).


Para una distribución de frecuencias definida en términos de k parejas (xi, ni), la media
geométrica, que denotaremos como G, se define como la raíz n-ésima del producto de los n
n
valores, es decir G = n x1n1 x 2n 2 x 3 3 ...x n k
k
.

- 56 -
Si se utilizan datos sin agrupar se reduce simplemente a G = n x1 x 2 x 3 ...x n .

El empleo más frecuente de la media geométrica es el de promediar mediciones tales como


porcentajes, tasas, números índices. etc., es decir, en los casos en los que se supone que la
variable presenta variaciones acumulativas.
En cuanto a las ventajas e inconvenientes de la media geométrica se destaca lo siguiente:
• En su cálculo intervienen todos los valores de la distribución.
• Su valor está comprendido entre el menor y el mayor de los datos.
• Ante la presencia de valores extremos tienen menor influencia que en el caso de la media
aritmética.
• Es única, ya que se puede ver como una función de Rn en R
• Su cálculo es más complicado que el de la media aritmética.
• No cambia cuando se reordenan los valores de la variable y cumple la propiedad de
homogeneidad.
• Cuando la variable toma al menos un valor xi = 0 entonces G se anula, y si la variable toma
valores negativos se pueden presentar una gama de casos particulares en los que tampoco
queda determinada debido al problema de las raíces de índice par para números
negativos.

4.5 Media armónica (H).


Hay ocasiones en que los valores de una variable vienen expresados en términos de otra que
es inversamente proporcional o recíproca de la primera como en el caso de la velocidad y el
tiempo o de la demanda de un bien y su precio de mercado. En estos casos se necesita un
promedio que tenga en cuenta la reciprocidad. La media armónica, que se denotará como H,
satisface estos requerimientos y se define así:
N
H=
k 1
∑ ni
x
i =1 i

Para datos sin agrupar la media armónica simplemente será:


n
H=
n
1

x
i =1 i

En cuanto a las ventajas e inconvenientes de la media armónica se mencionan las siguientes:


• Es única y en su cálculo intervienen todos los valores de la distribución.
• Su valor siempre estará comprendida entre el menor y el mayor de los valores de la
variable.
• Su cálculo no tiene sentido cuando algún valor de la variable toma el valor cero.
• Su uso no es recomendable en distribuciones de variables con valores pequeños.

- 57 -
4.6 Error medio cuadrático (Emc).
Esta medida, que se denota como Emc, se usa raramente como medida de tendencia central.
Por ejemplo, se utiliza cuando se quiere dar un estimativo del error cometido en una
medición en donde hay valores negativos y positivos y se quiere prescindir de si estos errores
fueron por exceso o por defecto.

1 k 2
Para datos agrupados se define como Emc = ∑ (x i − x ) n i
n
i =1

1 n 2
Para datos sin agrupar se define como Emc = ∑ (x i − x )
n
i =1

En cuanto a ventajas e inconvenientes cabe señalar los siguientes:


• Es demasiado sensible a la oscilación de valores extremos.
• Es invariante ante una reordenación de los datos.
• Satisface la propiedad de homogeneidad
En el ejemplo 14 de la próxima sección, se comentan más detalles acerca de esta medida, y de
la forma como se define.

4.7 Media potencial (Mp).


Se llama media potencial de grado p de los números x1, x2, …,xn al número Mp definido como
1/p
 x p + x p + ... + x p 
Mp =  1 2 n
 .
 n 
 
En particular:
1/2
 x 2 + x 2 + ... + x 2 
Si p=2, el número M 2 =  1 2 n
 se llama media cuadrática.
cuadrática
 n 
 
−1
 x −1 + x −1 + ... + x −1  n
Si p=-1, el número M −1 = 1 2 n
 = se llama media
 n  1 1 1
  + + ... +
x1 x 2 xn
armónica.
armónica

4.8 Mediana (Me).


Dada una distribución de frecuencias con los valores ordenados de menor a mayor, se llama
mediana y se representa por Me, al valor de la variable, que deja a su izquierda el mismo
número de frecuencias que a su derecha, o en términos más sencillos, la mediana es el valor
que divide al conjunto en dos partes iguales, de tal forma que el número de valores mayor o
igual a la mediana es igual al número de valores menores o igual a ésta. Para el cálculo de la
mediana se contemplan tres casos.

- 58 -
En primer lugar, la determinación del valor de la mediana para variables discretas no
agrupadas de un conjunto de n datos se puede realizar así: primero se ordenan los datos en
una tabla de frecuencias y se calcula n/2, luego se construye la columna de las frecuencias
acumuladas (Ni) y entonces se observa cual es la primera Ni que supera o iguala a n/2
distinguiéndose dos casos:
• Si existe un valor xi tal que Ni-1 < n/2 < Ni, la mediana es Me = xi.
• Si existe un valor xi tal que Ni = n/2, la mediana es Me = (xi + xi+1)/2.
En segundo lugar, cuando no se tiene a la mano una distribución de frecuencias o no se desea
elaborarla, debido por ejemplo, a que hay muy pocos datos, el cálculo de la mediana se
puede realizar así: se ordenan los datos de menor a mayor o viceversa y dependiendo del
número de observaciones se darán dos casos:
• Si el número de datos es impar, la mediana es igual al dato central, es decir al dato número
(n+1)/2.
• Si el número de datos es par, la mediana es igual al promedio aritmético de los datos
centrales o a cualquier valor comprendido entre ellos.
Finalmente, cuando se tiene una variable continua agrupada en una tabla de frecuencias, la
mediana se puede calcular teniendo en cuenta dos casos:
n
• Caso 1: cuando N j−1 = se tiene Me = yj-1
2
n 
n  − N j−1 
• Caso 2: cuando N j−1 < se tiene Me = yj-1 + C  2 
2  nj 
 

Donde n es el número de observaciones, C es la amplitud de la clase, yj-1 es el extremo


inferior de la clase a la cual pertenece la mediana, nj es la frecuencia absoluta de la clase a la
que pertenece la mediana y N j−1 es la frecuencia acumulada correspondiente a la clase
anterior a la que contiene la mediana.
Una propiedad interesante de la mediana es que la suma de los valores absolutos de las
desviaciones tiene su valor mínimo, cuando se consideran las desviaciones con respecto a la
mediana, es decir, el valor que minimiza la función G es la mediana donde
n
G(u) = ∑ x −u
i =1
i

En cuanto a las ventajas e inconvenientes se mencionan los siguientes:


• Es la medida más representativa en el caso de variables que sólo admitan la escala ordinal.
• Es fácil de calcular cuando se tienen pocos datos.
• En su cálculo sólo influyen los valores centrales y es insensible a los valores extremos o
atípicos, lo cual también se puede ver como una desventaja si no hay valores atípicos.
• En su determinación no intervienen todos los valores de la variable, por lo que no
aprovecha toda la información de los datos.

- 59 -
• Tiene menor estabilidad en el muestreo que la media aritmética, pero es más estable que
otras medidas.
• La mediana no se adapta a cálculos posteriores aritméticos, en la medida en que si
obtenemos las medianas de diferentes grupos, no podemos obtener una mediana de los
grupos reunidos.

4.9 Cuantiles.
Los cuantiles se pueden ver como una familia general de estadísticos de localización, ya que
son aquellos valores de la variable, que ordenados de menor a mayor, dividen a la
distribución de datos en partes, de tal manera que cada una de ellas contiene el mismo
número de frecuencias. Los cuantiles más conocidos son los Cuartiles (Qi), los Deciles (Di) y
los Percentiles (Pi). En lo que sigue se dedicará más atención a los cuartiles, pues, como se
reporta en el capítulo anterior, es con base en ellos que se construye e interpreta el Gráfico de
caja.

4.9.1 Cuartiles (Qi).


Con base en estos estadísticos se identifican valores de la variable que dividen la distribución
de datos, previamente ordenada de menor a mayor, en cuatro partes, cada una de las cuales
engloba el 25% de las mismas. Se denotan de la siguiente forma: Q1 es el primer cuartil que
deja a su izquierda el 25 % de los datos; Q2 es el segundo cuartil que deja a su izquierda el
50% de los datos (este cuartil es la misma mediana), y Q3 es el tercer cuartil que deja a su
izquierda el 75% de los datos.
En cuanto al cálculo de los cuartiles es curioso y confuso, ver que hay diferentes criterios para
determinar los cuartiles. Behar y Grima (2004) comentan e ilustran cuatro métodos de los que
se dará cuenta en este apartado: el de Tukey, el de Moore y McCabe, el de Minitab y el de
Excel. Se comienza comentado el método de Tukey.

Método de Tukey
(Para un número impar de datos)
2 4 6 8 10
Q1 = 4 Me = 6 Q3 = 8
Método de Tukey
(Para un número par de datos)
2 4 -- 6 8
Q1 = 3 Me = 5 Q3 = 7
Tabla 1. Ejemplo del método de Tukey para calcular los cuartiles

En la Tabla 1 se distinguen dos casos. Cuando hay un número impar de datos (en el ejemplo
hay cinco datos) los cuartiles Q1 y Q3 coinciden con los valores de los datos ubicados en la
posición segunda y cuarta respectivamente, mientras que cuando hay un número par de
datos, Tukey propone calcular el promedio de los datos primero y segundo para Q1 y de los
datos tercero y cuarto para Q3.

- 60 -
Método de Moore y McCabe
(Para un número impar de datos)
2 4 6 8 10
Q1 = 3 Me = 6 Q3 = 9
Método de Moore y McCabe
(Para un número par de datos es igual a Tukey)
2 4 -- 6 8
Q1 = 3 Me = 5 Q3 = 7
Tabla 2. Ejemplo del método de Moore y McCabe para calcular los cuartiles

Cuando hay un número impar de datos, Moore y McCabe prefieren, como se puede ver en la
Tabla 2, calcular el promedio de los datos primero y segundo para Q1, y de los datos cuarto y
quinto para Q3. Para el caso de un número par de datos, el método de Moore y McCabe
coincide con el de Tukey.

Método de Minitab - Usa “posicionadores” 0,25( n+1) y 0,75( n+1)


Para número par de datos usa como interpoladores
Q1 = x1 + 0,25(x2-x1) y Q3 = x3 + 0,75(x4-x3)
Para número impar de datos usa como interpoladores
Q1 = x1 + 0,5(x2-x1) y Q3 = x3 + 0,5(x5-x4)
2 4 -- 6 8
Q1 = 2,5 Me = 5 Q3 = 7,5

2 4 6 8 10
Q1 = 3 Me = 6 Q3 = 9
Tabla 3. Ejemplo del método de Minitab para calcular los cuartiles

En cuanto a los programas para computadora, como Minitab y Excel, los algoritmos que se
emplean utilizan la idea de posicionadores. En particular, Minitab utiliza las expresiones
0,25(n+1) y 0,75(n+1) para identificar las posiciones de Q1 y Q3 respectivamente. En la Tabla 3,
cuando n = 4 se tiene que 0,25 (n+1) = 1,25, lo que indica que el valor de Q1 estará entre los
dato x1 y x2, de manera que Q1 = x1 + 0,75(x2-x1) = 2,5. En cambio en Excel, como se ve en la
Tabla 4, cuando n = 4 el posicionador da 0,25(n-1) + 1 = 1,75, lo que indica también que el
valor de Q1 estará entre los dato x1 y x2, pero en este caso Q1 = x1 + 0,75(x2-x1) = 3,5.

Método de Excel - Posicionadores: 0,25( n-1) +1 y 0,75( n-1) +1


Para número par de datos usa como interpoladores
Q1 = x1 + 0,75(x2-x1) y Q3 = x3 +0,25(x4-x3)
Para número impar de datos el posicionador da una posición exacta.
2 4 -- 6 8
Q1 = 3,5 Me =5 Q3 = 6,5

2 4 6 8 10
Q1 = 4 Me = 6 Q3 = 8
Tabla 4. Ejemplo del método de Excel para calcular los cuartiles

- 61 -
En la Tabla 5 se presenta un resumen de los valores obtenidos cuando se aplica cada método.

Datos: 2, 4, 6, 8 Datos: 2, 4, 6, 8, 10
Método
Q1 Q3 Q1 Q3
Tukey 3 7 4 8
Moore McCabe 3 7 3 9
Minitab 2,5 7,5 3 9
Excel 3,5 6,5 4 8
Tabla 5. Resumen de los cuatro métodos utilizados para calcular los cuartiles

Entonces la pregunta que surge es ¿cuál es el método más correcto? Para Behar y Grima esto
no importa demasiado en la práctica, ya que cuando se está interesado en conocer el valor de
los cuartiles el conjunto de datos es grande, lo que implica que las diferencias entre los
diferentes métodos serán muy pequeñas.

4.9.2 Deciles (Di) y Percentiles (Pi).


Los deciles son los valores de la variable que dividen a la distribución de datos en partes
iguales, cada una de las cuales engloba el 10 % de los datos; en total habrá 9 deciles. Los
percentiles son los valores que dividen a la distribución de datos en 100 partes iguales, cada
una de las cuales engloba el 1% de las observaciones; en total habrá 99 percentiles.

4.10 Moda (MO).


La moda, que se denotará como Mo, es el valor de la variable que más veces se repite. Cuando
se tienen distribuciones de frecuencias agrupadas en intervalos y se identifica en la columna
de frecuencias el valor de la distribución al que corresponde la mayor frecuencia, el
respectivo intervalo se lo llamará clase modal.
En cuanto al cálculo de la moda, la determinación de la moda no tiene mayor problema si hay
pocos datos y/o no están agrupados. Sin embargo, la situación es un poco más complicada si
los datos vienen agrupados. En este caso, cuando los intervalos son de distinta amplitud, se
define el intervalo modal, y se denota por (Li-1, Li], como aquel que posee mayor densidad de
frecuencia, donde hi = ni/ci, y ni es la frecuencia absoluta y ci la amplitud del intervalo i. Bajo
esta notación se tiene que la moda es dada por:
h i +1
Mo = L + c
i −1 h i −1 + h i +1 i

En el caso de intervalos de igual longitud las densidades de las frecuencias se cambian por las
respectivas frecuencias absolutas. En el caso de esta medida de tendencia central, a veces
aparecen distribuciones de variables con más de una moda −llamadas bimodales, trimodales,
etcétera− o incluso con una moda absoluta y otras relativas.
En cuanto a ventajas y desventajas de la moda se mencionan las siguientes:
• Su determinación es muy sencilla, cuando los datos no están agrupados y es de fácil
interpretación.

- 62 -
• Es la única medida de posición central que puede obtenerse en las variables de tipo
cualitativo de escala nominal.
• En su determinación no intervienen todos los valores de la distribución de datos.

4.11 La relación X > Me > Mo.


Es interesante identificar algunas relaciones que existen entre diferentes medidas de tendencia
central. Por ejemplo, si la distribución de datos es bastante simétrica, los valores de la media
aritmética, la mediana y la moda, tenderán a ser iguales.
Cuando X > Me > Mo, la distribución de los datos tendrá una asimetría positiva, mientras que
si X < Me < Mo la distribución de datos tendrá una asimetría negativa. Además, entre media
aritmética, mediana y moda, la relación ( X − Mo) ≅ 3( X − Me), se puede verificar de manera
empírica, cuando se tiene una distribución de datos convexa y moderadamente asimétrica, ya
que la mediana cae entre la media aritmética y la moda, quedando aproximadamente dos
veces más lejos de esta última que de la primera.

4.12 La relación H < G < X < Q para dos datos.


datos.
Resulta muy interesante y bastante ilustrativo considerar algunas construcciones geométricas
que permiten comparar las medias armónica (H), geométrica (G), aritmética ( X ) y cuadrática
(Q), y concluir la desigualdad Q> X >G>H.
a) Primera ilustración
ilustración. Inicialmente se realizará en el plano coordenado XY la construcción
que se muestra en la siguiente figura, y luego se demostrará la desigualdad para dos
valores positivos a y b.

Figura 1.

- Sobre una recta horizontal se ubican los puntos O, A y B tales que las longitudes de los
segmentos OA y AB son respectivamente a y b.
a+b
- M el punto medio del segmento OB y OM mide .
2

- 63 -
- Se traza una semicircunferencia con centro en M y radio OM.
- Los segmentos CA y DM son perpendiculares al segmento OB. Los puntos C y D son
puntos de la semicircunferencia.
- El segmento AE es perpendicular al segmento CM.
- Los puntos O, C y B son vértices de un triángulo rectángulo. En un triángulo
rectángulo, la altura correspondiente a la hipotenusa es media geométrica de los
segmentos en los cuales la hipotenusa es dividida por dicha altura. Aplicando este
teorema, el segmento CA es media geométrica de los segmentos OA y AB, es decir,
CA= ab .
b−a a+b
- El segmento AM mide y el segmento DM mide . Aplicando el teorema de
2 2
a 2 + b2
Pitágoras en el triángulo AMD se obtiene que el segmento AD mide .
2
a+b
- El segmento CM mide y los triángulos CAM y CEA son semejantes. De la
2
CE CA 2ab
proporción = resulta CE = .
CA CM a+b
2ab
- Hasta aquí se tiene que CE = = H (Media armónica), CA = ab = G (Media
a+b
a+b a 2 + b2
geométrica), CM = DM = = X (Media aritmética) y AD = = Q (Media
2 2
cuadrática).
- Para demostrar la cadena de desigualdades, observe que en el triángulo AEC,
2ab
CE = = H es un cateto y CA = ab = G es la hipotenusa, por lo tanto H<G. En
a+b
a+b
el triángulo MAC, CA = ab = G es un cateto y CM = = X es la hipotenusa,
2
a+b
entonces G< X . En el triángulo AMD, DM = = X es un cateto y
2
a 2 + b2
AD = = Q es la hipotenusa, por lo tanto X <Q. Así queda demostrado que
2
H<G< X <Q.

b) Segunda ilustración.
ilustración Primero se traza una recta OX y sobre ésta se ubican dos puntos A y B
tales que los segmentos OA y AB midan respectivamente a y b, luego se construye la
siguiente figura:

- 64 -
Figura 2.
a+b
- M es el punto medio del segmento AB, es decir, OM mide .
2
b−a
- Se traza una circunferencia CM con centro en M y radio AM= .
2
a+b b−a
- Como OM= y MT=AM= , entonces el cateto OT = ab .
2 2
- Se traza la recta OT, que es tangente a la circunferencia CM. Para obtener esta recta se
halla el punto medio C del segmento OM y se traza la circunferencia CC con centro en C
y radio OC. Los puntos donde se intersecan las circunferencias CM y CC son los puntos
de tangencia.
- Los segmentos DT y FM son perpendiculares a la recta OX, y el segmento MT es
perpendicular a la recta OT por ser el triángulo OTM un triángulo rectángulo.
LT OT
- Los triángulos rectángulos OTM y TLM son semejantes. De la proporción = se
MT OM
b−a
obtiene que LT= ab  .
 b + a 
 
b−a 2ab
- En el triángulo rectángulo OLT, OT = ab y LT= ab   , entonces OL= .
 b + a a + b
 
a+b b−a a 2 + b2
- En el triángulo rectángulo OMT, OM= y FM= , entonces OF= .
2 2 2
2ab
- Para demostrar la cadena de desigualdades, observe que: OL= es una cateto y
a+b
2ab
OT = ab es la hipotenusa del triángulo OLT, por lo tanto < ab . OT = ab es
a+b

- 65 -
a+b a+b
un cateto y OM= es la hipotenusa del triángulo OTM, entonces ab < .
2 2
a+b a 2 + b2
OM= es un cateto y OF= es la hipotenusa del triángulo OMF, por lo
2 2
a+b a 2 + b2 2ab a+b a 2 + b2
tanto < . Así que demostrado que < ab < < .
2 2 a+b 2 2
c) Tercera ilustración.
ilustración Esta ilustración no permite concluir H<G< X <Q, pero permite definir
éstas medias geométricamente con base en un trapecio cuyas bases menor y mayor miden
a y b respectivamente, y cuya altura mide h.
b−a 
- Considérese el trapecio isósceles OABC, en donde O=(0,0), A=  ,h ,
 2 
 
a+b 
B=  , h  y C=(b,0).
 2 
 
2h
- Se trazan las rectas OB y AC, cuyas ecuaciones son f (x) = x y
a+b
−2h
g(x) =
a+b
( x − b ) , respectivamente.
 b bh 
- Las rectas OB y AC se intersecan en el punto P=  , .
 2 a + b 
 
2h
- Se trazan las rectas OA y BC, cuyas ecuaciones son h(x) = x y
b−a
2h
k(x) =
a−b
( x − b ) , respectivamente.
bh
- La recta paralela a las bases y que pasa por P tiene la ecuación m(x)= . Esta recta
a+b
 b  b − a  bh 
se interseca con los lados OA y BC en los puntos M=   ,  y
 2  a + b  a + b 
   
 b  3a + b  bh 
N=  , .
 2  a + b  a + b 
   
2ab
- El segmento MN mide . (Media armónica).
a+b

- 66 -
Figura 3.

- Sean E y F los puntos medios de los segmentos OA y BC, respectivamente. Las


b−a h  3b + a h 
coordenadas de éstos puntos son E =  ,  y F= ,  . El segmento EF
 4 2  4 2 
  
determinado estos puntos medios es la media paralela del trapecio y su longitud es
a+b
EF = . (Media aritmética).
2
- Si se traza un segmento GH paralelo a las bases del trapecio OABC de tal manera que
los trapecios GABH y OGHC sean semejantes, ¿Cuánto mide el segmento GH?. De la
AB GH
proporción = se obtiene que la medida de GH es ab . (Media geométrica).
GH OC
- Si se traza un segmento QR paralelo a las bases del trapecio OABC de tal manera que
resulten dos trapecios de igual área, ¿Cuánto mide el segmento QR?.
- Al igualar las áreas de los trapecios QABR y OQRC, resulta la igualdad
(AB+QR)AT=(QR+OC)TK.
- Al comparar los triángulos rectángulos semejantes QTA y OKA, resulta la igualdad
(QR-AB)AK=(OC-AB)AT.
- Si QR=x, AT=y, AB=a, OC=b y AK=h, entonces las igualdades se transforman en el
(a + x)y = (x + b)(h − y)
sistema de ecuaciones  . De la solución del sistema resulta
(x − a)h = (b − a)y
a 2 + b2
x=QR= . (Media cuadrática)
2
- Ahora pueden definirse las medias (armónica, geométrica, aritmética y cuadrática) con
base en los segmentos construidos anteriormente en el trapecio OABC de bases a y b,
así: La media armónica es la medida del segmento paralelo a las bases que pasa por la
intersección de las diagonales del trapecio. La media geométrica es la medida del
segmento paralelo a las bases que divide al trapecio en dos trapecios semejantes. La

- 67 -
media aritmética es la medida del segmento paralelo medio a las bases. La media
cuadrática es la medida del segmento paralelo a las bases que divide al trapecio en
dos trapecios de igual área.
- Para cualquier par de valores a y b (medidas de las bases del trapecio OABC), se puede
verificar la relación AB<MN<GH<EF<QR<OC, es decir,
2ab a+b a 2 + b2
a< < ab < < <b.
a+b 2 2
d) Cuarta ilustración.
ilustración Sobre un sistema de ejes coordenados se ubican los puntos O=(0,0),
A=(a,0), B=(b,0) y C=(a+b,0). Además se trazan las líneas y=x, xy=ab, x+y=a+b.

Figura 4.

- Los segmentos OA y AP=OB miden respectivamente a y b, por lo tanto, OP mide


a 2 + b2 .
- Se traza la circunferencia con centro en O y radio OP. La ecuación de esta
circunferencia es x2+y2=a2+b2.
- El punto T es la intersección de la circunferencia x2+y2=a2+b2 con la recta y=x.
 a 2 + b2 a 2 + b 2 
T= ,  . Como Q es la proyección de T sobre OC entonces OQ
 2 2 
 
a 2 + b2
mide .
2
- El punto F es la intersección de la recta x+y=a+b con la recta y=x. Como
a+b a+b a+b
F= ,  y X es la proyección de F sobre OC, entonces OX mide .
 2 2  2

- El punto R es la intersección de la línea xy=ab con la recta y=x. Como
R= ( )
ab, ab y G es la proyección de R sobre OC, entonces OG mide ab .

- 68 -
a+b
- Como OX=OU, entonces la ecuación de la recta UF es y = . La intersección de
2
 2ab a + b 
esta recta con la línea xy=ab es el punto V, cuyas coordenadas son  , .
 a + b 2 
 
2ab
- Como H es la proyección de V sobre OC, entonces OH mide .
a+b
- De acuerdo a lo que se muestra en la figura, OA<OH<OG<OX<OQ<OB, con lo que se
2ab a+b a 2 + b2
demuestra a< < ab < < <b.
a+b 2 2

4.13 La relación H < G < X < Q para n datos.


Si x1, x2, …, xn son n números reales positivos entonces se cumple la relación
n x + x 2 + ... + x n x12 + x 22 + ... + x n 2
≤ x1 x 2 ...x n ≤ 1
n ≤ .
1 1 1 n n
+ + ... +
x1 x 2 xn

Para probar esta afirmación se debe tener en cuenta que si x1, x2, … xn son números positivos
tales que x1x2…xn=1, entonces x 1 + x 2 + ... + x n ≥ n .

n x 1 x 2 ...x n x1 x 2 ...x n x1 x 2 x n
Si g = n x 1 x 2 ...x n , entonces 1 = =n =n ... .
g g n
g g g

x1 x 2 x n
Elevando al cuadrado a cada lado de la igualdad se obtiene ... = 1 , entonces
g g g
x1 x 2 x x + x 2 + ... + x n
+ + ... + n ≥ n , es decir, 1 ≥ n.
g g g g
x1 + x 2 + ... + x n x1 + x 2 + ... + x n
De ≥n se obtiene ≥ g , que equivale a tener
g n
x1 + x 2 + ... + x n n n x1 x 2 ...x n g
≥ x1 x 2 ...x n . Ahora, = 1 implica = 1 , lo cual
n g n x1 x 2 ...x n

gn g g g g g g
permite afirmar que n =1⇒ ... =1⇒ + + ... + ≥n. Al
x1 x 2 ...x n x1 x 2 x n x1 x 2 xn
n n
despejar g se tiene g ≥ , es decir n x 1 x 2 ...x n ≥ .
1 1 1 1 1 1
+ + ... + + + ... +
x1 x 2 xn x1 x 2 xn

- 69 -
x 1 + x 2 + ... + x n 2
Sea x= . Como (x − x ) k
≥0 para k=1,2,…,n entonces
n
n n n n n

∑(x − x ) ∑(x − x ) = ∑ x ∑x + ∑x
2 2 2 2
k
≥0 y k
− 2x k k
≥ 0 , por lo tanto,
k =1 k =1 k =1 k =1 k =1
n n n
nx 2 − 2x ∑x + ∑x
k =1
k
k =1
k
2
≥ 0 o nx 2 − 2nx 2 + ∑x k =1
k
2
≥0.

n ∑x k
2

Si se divide por n y se despeja ∑xk =1


k
2
queda k =1
n
≥ x2 .

n n

∑x k
2
∑x k
2

La desigualdad k =1
≥ x2 conduce a la desigualdad k =1
≥ x , es decir,
n n
n

∑x k =1
k
2

x1 + x 2 + ... + x n
≥ .
n n

4.14 Ejemplos.
Para cerrar esta sección se presenta una recopilación de ejemplos con los que se pretende
ilustrar buenos y malos usos de este tipo de estadísticas.

Ejemplo 1. Estimación del peso de un objeto.


Nueve estudiantes pesaron un objeto pequeño con un mismo instrumento en una clase de
ciencias. Los pesos registrados por cada estudiante (en gramos) son: 6.2, 6.0, 6.0, 15.3,
6.1, 6.3, 6.2, 6.15 y 6.2.
Los estudiantes quieren determinar con la mayor precisión posible el peso real del objeto.
¿Cuál de los siguientes métodos recomiendas usar?
a) Usar el número más común, que es 6.2
b) Usar 6.15, puesto que es el peso más preciso
c) Sumar los nueve números y dividir la suma por nueve
d) Desechar el valor 15.3, sumar los otros ocho números y dividir por ocho.
Discusión. Las opciones de respuesta a este ejemplo pretenden ilustrar acerca del concepto
de media como mejor estimador de una cantidad desconocida, en presencia de errores de
medida. En general la mejor estimación de un valor desconocido, en situaciones como la que
se presenta viene dada por la media aritmética. No obstante, su adecuación a un caso
particular debe ser valorada. El ejemplo propuesto introduce un valor atípico (15.3) que es
recomendable descartar antes de proceder al cálculo de la media aritmética, ya que un valor

- 70 -
atípico suele afectar de manera notable el valor del promedio aritmético y por ello puede
generar un sesgo en la estimación. Por lo tanto, este ejemplo pretende discriminar entre el
simple conocimiento algorítmico de la fórmula de cálculo, y la comprensión relacional del
concepto. Entonces la respuesta más correcta es la opción (d).

Ejemplo 2. Promedio de niños por familia.


familia.
El comité escolar de una pequeña ciudad quiso determinar el número promedio de niños por
familia en su ciudad. Dividieron el número total de niños de la ciudad por 50, que es el
número total de familias. ¿Cuál de las siguientes frases debe ser cierta si el número promedio
de niños por familia es 2.2?
a) La mitad de las familias de la ciudad tienen más de 2 niños.
b) En la ciudad hay más familias con 3 niños que con 2 niños.
c) Hay un total de 110 niños en la ciudad.
d) Hay 2.2 niños por adulto en la ciudad.
e) El número más común de niños en una familia es 2.
Discusión.
Discusión. En este ejemplo,, la pregunta propuesta al final del enunciado, sugiere que el valor
de la media de la variable “número de niños por familia” es de 2,2 en un pueblo. Además y
dado que también se conoce el número total de familias, en el ejemplo se presentan una serie
de afirmaciones sobre los estadísticos de la distribución asociada a dicha variable, cuya forma
no se especifica. No obstante, por la experiencia, se sabe que la variable analizada es
asimétrica y está acotada inferiormente por cero. En el ejemplo se aborda el conocimiento de
la relación entre las tres medidas de tendencia central más conocidas (media, mediana y
moda) en distribuciones simétricas y asimétricas. Es conocido que en distribuciones simétricas
los valores de estas medidas coinciden, sin embargo, esto no necesariamente debe ser así para
distribuciones asimétricas. Se considera que la opción (c), es la correcta.

Ejemplo 3. Media de vida en países de habla hispana.


hispana.
En la Tabla 16 se presentan los promedios de vida de diecinueve países de habla hispana.
¿Cuál es la media de vida en países de habla hispana?
País Promedios País Promedios
Cuba 78 Ecuador 71
Chile 77 El Salvador 62
Costa Rica 77 España 65
Argentina 75 Guatemala 63
Uruguay 75 Nicaragua 76
Venezuela 75 Panamá 69
México 74 Paraguay 72
Perú 71 Puerto Rico 77
Bolivia 65 Dominicana (Rep.) 100
Colombia 76

Tabla 16. Media de vida en diecinueve países de habla hispana.

- 71 -
Discusión.
Discusión Un analista de datos con poca experiencia puede pensar que el problema
simplemente se reduce a sumar de todos los datos de las medias de vida y dividir por
diecinueve, que es el total de países, es decir, a calcular la media aritmética de los datos
dados, este cálculo arroja una media de las medias de vida de 73,58. Sin embargo, una mirada
más detallada a los datos sugiere que en República Dominicana, la media de vida es mucho
mayor que en los demás países. De hecho, un gráfico de caja de los datos presentados en la
Tabla 16 es:

El gráfico caja pone en evidencia lo atípico del dato correspondiente a República Dominicana.
En situaciones como ésta, algunos analistas de datos pueden sugerir la exclusión del valor
atípico, lo cual arrojaría una media de 72,11, o bien la consideración del cálculo de la mediana
que nos conduce al valor 75, que sería una estimación incluso mayor que el 73,58 obtenido
cuando ya está incluido el valor atípico. Así pues, encontrar un representante de la media de
vida, no es nada claro.
Quizás sea entonces conveniente buscar otro tipo de información para tener un criterio más
objetivo, en la elección del valor representante en cuestión. Al respecto en la Tabla 17 se
presentan las poblaciones de estos países en el año 2000. Como puede verse hay países con
poblaciones muy pequeñas y otros con poblaciones muy grandes. Así, otra alternativa con
base en esta información es considerar el cálculo de una media ponderada. Se puede tomar
como ponderación para cada país, el total de su población dividido por el total de todas las
poblaciones, es decir, por 328.958 millones de habitantes.

País Habitantes País Habitantes


Cuba 10.603 Ecuador 11.937
Chile 14.625 El Salvador 5.221
Costa Rica 3.303 España 39.730
Argentina 35.671 Guatemala 9.197
Uruguay 3.221 Nicaragua 3.871
Venezuela 22.777 Panamá 2.563
México 81.250 Paraguay 5.088
Perú 24.367 Puerto Rico 3.522
Bolivia 7.774 Rep. Dominicana 7.170
Colombia 37.068 Total 328.958
Tabla 17. Población en millones de habitantes en países de habla hispana en el año 2000.

- 72 -
Al considerar la ponderación sugerida para el cálculo de la media ponderada, se le da más
importancia a países como México, Colombia, España y Argentina, que tienen las poblaciones
más grandes que a los demás países. Desde esta perspectiva la media ponderada arroja un
resultado de 73,13 si se tiene en cuenta los diecinueve países, o de 72,53 cuando se excluye a
República Dominicana y sólo se considera la ponderación de cada país como el total de su
población dividida por 321.778, total de la población si excluye República Dominicana. Por
otra parte, si en lugar de calcular la media ponderada, se calcula la mediana, con base en los
datos de la Tabla 18, el resultado es 74.

En definitiva y a manera de conclusión, no se puede afirmar que alguno de los métodos


sugeridos sea mejor que otro. Quizás lo más importante del ejemplo es notar, la variedad de
criterios que se pueden argumentar detrás de la elección de un buen representante, como la
inclusión o exclusión de un valor atípico o la ponderación de los datos.

Media de Población
País Población
vida acumulada
El Salvador 62 5.221 5.221
Guatemala 63 9.197 14.418
Bolivia 65 7.774 22.192
España 65 39.730 61.922
Panamá 69 2.563 64.485
Perú 71 24.367 88.852
Ecuador 71 11.937 100.789
Paraguay 72 5.088 105.877
México 74 81.250 187.127
Argentina 75 35.671 222.798
Uruguay 75 3.221 226.019
Venezuela 75 22.777 248.796
Colombia 76 37.068 285.864
Nicaragua 76 3.871 289.735
Chile 77 14.625 304.360
Costa Rica 77 3.303 307.663
Puerto Rico 77 3.522 311.185
Cuba 78 10.603 321.788
Rep.
100 7.170 328.958
Dominicana

Tabla 18. Distribución acumulada de las medias de vida cuando se construyen


las frecuencias con base en las poblaciones de cada país.

- 73 -
Ejemplo 4. “Promedios” de bateo en el béisbol.
béisbol.
Los datos de la Tabla 19 muestran el desempeño al bate de jugadores venezolanos de béisbol
que juegan en la liga Nacional y en las grandes ligas del béisbol norteamericano:
a) ¿Cuál es el “promedio” de bateo del jugador Alfonso E?
b) ¿Cuántos hits sencillos tiene que lograr Blanco H. para tener el mismo “promedio” de
bateo que Escobar A?
c) ¿Es posible que Torrealba Y. con diferencia de 3 turnos al bate logre conseguir el mismo
“promedio” de bateo de Pérez T? ¿Cómo?
d) Si Ordoñez M. lograra en su próximo partido conectar 3 hits en 4 turnos al bate, ¿cómo
cambiaría su “promedio”?

Jugador Liga B S D T J BB AVG


Blanco H. Americana 118 11 7 0 3 10 0.194
Escobar A. Americana 124 18 7 1 1 12 0.241
Torrealba Americana 49 4 2 0 1 5 0.159
Y.
Alfonso E. Nacional 157 29 7 0 1 17
Pérez T. Nacional 52 4 3 1 1 3 0.183
Gonzales Nacional 162 16 10 0 3 20 0,204
A.
Ordoñez M. Americana 188 34 7 2 8 25 0,313
Olmedo R. Nacional 1 0 0 0 0 0 0,000

Convenciones utilizadas:
B: Número total de turnos al bate S:
B S Número de hits sencillos.
D: Número de hits dobles. T
D T: Número de hits triples.
JJ: Número de cuadrangulares. AVG
AVG: Promedio de bateo.
BB: Número de concesiones de base por bola.
BB
Tabla 19. Desempeño al bate de jugadores de béisbol de Venezuela
en las ligas Nacional y Americana.

Discusión.
Discusión Para calcular el “promedio” de bateo de un jugador de béisbol no se saca
simplemente la media aritmética del número de hits (sencillos, dobles y triples) y de
cuadrangulares. En realidad más que un “promedio” lo que se saca es un proporción (o
porcentaje) de bateo. La forma en que se calcula ese “promedio” es un ejemplo de cómo dos
razones a b y c d se combinan para formar una nueva razón (a + c) (b + d ) que se halla
entre las dos razones anteriores. Es decir:
a c a a+c c
Si < , entonces < < .
b d b b+d d

- 74 -
Además, se puede dar una interpretación geométrica a esta desigualdad: la pendiente
(a + c) (b + d ) es una intermedia entre las pendientes a b y c d . (ver Figura 33).

a a + c c
Figura 33. Interpretación geométrica de la desigualdad < < .
b b + d d

También es interesante señalar que si a y b son respectivamente mucho mayores que c y d,


entonces a b y (a + c) (b + d ) estarán muy cerca. La pendiente de la hipotenusa del
triángulo con catetos a y b es muy similar a la pendiente de la hipotenusa del triángulo de
catetos a + c y b + d (Figura 34). Este hecho se podrá evidenciar cuando se considere, más
adelante, la solución al literal (d).

a a + c
Figura 34. Comparación de las pendientes y cuando a y b
b b + d

son respectivamente mucho mayores que c y d.

Para responder entonces al literal (a) del ejemplo, se tiene entonces que el promedio de bateo
es la suma el número de hits sencillos, dobles, triples y cuadrangulares, dividido entre el
número de turnos al bate menos el número de bases por bola. Es decir:
29 + 7 + 0 + 1 37
AVG = = = 0, 264
157 − 17 140

Entonces el “promedio” de bateo del jugador Alfonso E. es de 0,264.


En cuanto al literal (b), en este caso hay un valor desconocido, que se encuentra al hallar el
valor de la incógnita.

- 75 -
S+7+0+3
0, 241 =
118 − 10
Al despejar la incógnita, y redondeando el resultado, se obtiene S = 16. Por lo tanto, para
tener el mismo promedio de bateo de Escobar A., Blanco H. debe lograr aproximadamente 16
hits sencillos.
En cuanto al literal (c), se presentan varias posibilidades ya que se pueden lograr hits
sencillos, dobles, triples o cuadrangulares. Para empezar se considera el caso de hits sencillos.
En este caso se plantea:
S+2+0+1
0,183 =
49 + 3 − 5

Al despejar y redondeando el resultado, se obtiene que S = 6, por lo que es imposible con


sólo hits sencillos que Torrealba Y. en 3 turnos al bate logre conseguir el mismo “promedio”
de bateo de Pérez T.
De manera similar, si el asunto se plantea en términos de hits dobles o triples, entonces las
ecuaciones a resolver respectivamente, son:
4 + D+ 0 +1 4 +2+ T +1
0,183 = y 0,183 =
49 + 3 − 5 49 + 3 − 5

Al despejar y redondeando los resultados, se obtiene que D = 4 y T = 2 por lo que tampoco es


posible con sólo hits dobles que Torrealba Y. en 3 turnos al bate logre conseguir el mismo
“promedio” de bateo de Pérez T., pero si lo podrá superar si conecta dos triples. Igualmente,
se puede verificar que si conecta tres cuadrangulares logra superar el “promedio” de Pérez T.
Finalmente, para responder al literal (d), veamos las diferencias en los siguientes cálculos
34 + 7 + 2 + 8 34 + 7 + 2 + 8 + 3
0, 313 = y 0, 323 =
188 − 25 192 − 25
El primero es su “promedio” antes del último partido y el segundo el “promedio” después de
éste. Observe que la variación es muy leve.

Ejemplo 5. Notas en el colegio.


colegio.
En el Colegio Distrital Luis Carlos Galán, al finalizar el año escolar la profesora de español se
dispone a realizar el parcial final, Camilo le pide a la profesora sus notas y ella le muestra el
siguiente reporte:
Actividad Talleres Cuaderno Tareas Parcial 1 Parcial 2 Parcial F
% 30% 10% 10% 15% 15% 20%
NOTA 3,4 2,5 3,0 2,1 3,0

a) ¿Qué nota mínima debe sacar en el parcial final para aprobar la materia?
b) Si la profesora decide no realizar el Parcial Final y cambiar el porcentaje de los Parciales 1
y 2 cada uno al 25%. ¿Con qué nota finaliza el año?

- 76 -
c) Si aprueba español con 3,2. ¿Qué nota sacó en el Parcial Final?

Discusión.
Discusión Para resolver este tipo de problemas el “estudiante ingenuo” suele calcular la
media aritmética, sin tener en cuenta la ponderación de las notas. Incluso puede llegar al
extremo de pensar que si el promedio que tiene acumulado es de 2,8 (resultado de la media
aritmética, sin hacer ponderaciones), lo que necesita para pasar es un 3,2. Es claro que lo que
se requiere aquí es utilizar una media ponderada. Cuando las ponderaciones vienen dadas en
términos de porcentajes, se debe verificar que éstas sumen exactamente el 100%. Además, en
este caso la media ponderada se puede utilizar para determinar en cuanto lleva el 80%, al
plantear el siguiente cálculo
30% × 3, 4 + 10% × 2,5 + 10% × 3, 0 + 15% × 2, 3 + 15% × 3, 0
x= = 2, 95
80%

Entonces, Camilo lleva la nota en 2,95, y para mirar que nota debe sacar para por lo menos
aprobar la materia debe plantear la siguiente ecuación
2, 95 × 80% + x × 20%
x= = 3, 0
100%
Al resolver, se tiene entonces x = 3,2. Observe que aunque el estudiante ingenuo obtuvo el
mismo resultado, lo hizo con un procedimiento errado. En realidad el hecho de que se llegue
a la misma respuesta es una simple coincidencia.
Cuando se cambian las ponderaciones de los parciales 1 y 2, cada uno al 25%, y no hay parcial
final, el estudiante saca
30% × 3, 4 + 10% × 2,5 + 10% × 3, 0 + 25% × 2, 3 + 25% × 3, 0
x= = 2,59
100%

Finalmente, si el estudiante obtiene un 3,2 como nota definitiva, la nota que sacó en el parcial
final se obtiene al resolver

30% × 3, 4 + 10% × 2,5 + 10% × 3, 0 + 15% × 2, 3 + 15% × 3, 0 + 20% × x


x= = 3,2 Al despejar se
100%
llega a x = 3,025.

Ejemplo 6. Sueldos en una empresa.


empresa.
En una empresa de odontología los sueldos correspondientes a los cargos son los siguientes:

Gerente General $ 18000,000 1


Director de DPTO $ 4’000,000 5
Jefe Inmediato $ 3’000,000 5
Analista $ 1’500,000 10
Auxiliares $ 800,000 10
Servicios Generales $ 550,000 2

- 77 -
El analista de nómina dice que el promedio de salario de la empresa es de $1’846,875 ¿Cómo
calculó el analista de nómina el promedio de salario de la empresa?
Discusión.
Discusión Como ya ha sido enfatizado, la media aritmética se puede afectar ante la presencia
de valores atípicos.

Lo atípico del salario del gerente comparado con los demás salarios se evidencia en el gráfico
de caja anterior. En efecto, si se calcula la media aritmética de estos datos, incluyendo el
salario del gerente, se obtiene un valor de $2´315.150, que no corresponde con el valor
calculado por el analista de nómina. Tampoco puede ser la mediana pues, fácilmente se
puede determinar que esta es de $1´500.000. En realidad, para obtener el valor de $1’846,875
lo que hizo el analista fue descartar el salario del gerente y calcular una media aritmética en la
que el número de datos es 32, la cantidad de empleados sin contar el gerente.

Ejemplo 7. ¿Conviene apostar?


Se propone un juego de dados donde el jugador participante debe lanzar tres dados de seis
caras al mismo tiempo. Las reglas del juego son:
• si al lanzar los dados saca en uno de ellos un 6 gana $1.000,
• si el al lanzar los dados saca en dos ellos un 6 gana $2.000,
• si al lanzar los dados saca en los tres dados un 6 gana $3.000 y
• si no obtiene 6 en ningún dado, entonces pierde $1.500.
¿Estaría dispuesto a jugar este juego?

Discusión. Este es un problema clásico de juegos de azar que involucra nociones básicas de
probabilidad. El concepto más relevante que se debe contemplar es el de valor esperado.
Aunque no se entrará en muchos detalles acerca de la asignación de probabilidades a los
cuatro eventos en cuestión (sale un 6, salen dos 6, salen tres 6 y no sale 6) si se pretende
establecer una conexión entre el cálculo del valor esperado de la variable aleatoria,
implícitamente definida, y el cálculo de la media ponderada, asociada a la variable aleatoria
implicada en el juego. Por otra parte, para la asignación de probabilidades se puede asumir
un enfoque frecuencial empírico o a posteriori, o un enfoque clásico a priori.
En primer lugar, se hará explicita la definición de la variable aleatoria involucrada en el juego,
luego se presentarán los dos tipos de asignación de probabilidades mencionados y finalmente
se hará el cálculo del valor esperado que, como veremos, es un caso especial de cálculo de
una media ponderada.

- 78 -
En general, una variable aleatoria es una asignación de valores numéricos a eventos de un
espacio de probabilidades. Para este juego la asignación de valores que tiene sentido es la
que se establece a través de las reglas del juego (las cuatro viñetas presentadas en el
enunciado). En cuanto a la asignación de probabilidades primero se comenta la asignación
clásica que se basa en un recuento de todos los casos posibles de resultados del lanzamiento
de los tres dados (216 en total), y de todos los casos favorables asociados a cada evento (1
caso para “salen tres 6”, 15 casos para “salen dos 6”, 75 casos para “sale un 6”, y 125 casos
para “no sale 6”). En la tabla que sigue se resume toda la información:

Evento Sale un 6 Salen dos 6 Salen tres 6 No sale 6


Valor de x $1.000 $2.000 $3.000 −$1.500
Número de casos
casos 75 15 1 125
Probabilidad 75/216 15/216 1/216 125/216

El valor esperado asociado al juego, de acuerdo con la asignación de probabilidades


presentada, se define como la suma de los productos de los valores de la variable aleatoria
por sus respectivas probabilidades, es decir como:
75 15 1 125
1000 × + 2000 × + 3000 × − 1500 × ≅ − 368
216 216 216 216

Observe que el cálculo realizado coincide con el cálculo de una media ponderada donde las
ponderaciones de los valores son 75, 15, 1 y 125. En cuanto a la interpretación del resultado
se debe tener en cuenta dos asuntos: el primero tiene que ver con el signo y el segundo con el
número de veces que se estaría dispuesto a jugar.

En cuanto al signo del valor esperado, si al calcularlo el valor que da es mayor que cero, es
favorable jugar; si es igual que cero, el juego es equilibrado; y si no es mayor que cero, no es
favorable jugar. Sin embargo, también se debe tener en cuenta el segundo asunto: el valor
esperado es un resultado que tiene sentido interpretar sólo cuando se realiza un número
grande de juegos. La verdad es que cuando sólo se va a realizar un juego no es recomendable
considerarlo como una regla de decisión. Quizás, la discusión del segundo enfoque de
asignación de probabilidades ayude a precisar esta cuestión.

Otra manera de asignar probabilidades a eventos es con base en recopilar un historial de


cuantas veces suceden los eventos en cuestión cuando se repite el lanzamiento de los tres
dados, un número grande de veces, por ejemplo 100 veces, 500 veces o 1000 veces; entre más
veces se pueda repetir, la asignación de probabilidad se hará más estable y según la teoría
estadística, deberá converger a la asignación clásica de probabilidades. Para realizar el
lanzamiento de los tres dados se utilizaron métodos de simulación basados en la generación
de números aleatorios y para ello se usó una hoja electrónica de Excel. Una salida de este tipo
de simulación se presenta en la siguiente tabla.

- 79 -
S1(100) P1 S2(500) P2 S3(1000) P3 P. Teórica
Pierde 1500 58 0,580 302 0,604 590 0,590 0,5787
Gana 1000 29 0,290 154 0,308 328 0,328 0,3472
Gana 2000 11 0,110 41 0,082 77 0,077 0,0694
Gana 3000 2 0,020 3 0,006 5 0,005 0,0046

La tabla anterior contiene en la columnas S1(100), S2(500) y S3(1000) el número de veces que
se perdió o ganó al jugar 100, 500 y 1000 veces respectivamente. Además, en las columnas P1,
P2 y P3 se presenta la asignación de probabilidades a posteriori, es decir, la basada en los
resultados de una simulación. Por otra parte, en la tabla que sigue se presenta el balance de
los juegos con 100, 500 y 1000 simulaciones, la media ponderada correspondiente a cada caso
y la ganancia en teoría.

S1(100) S2(500) S3(1000)


Ganancia total -30000 -208000 -388000
Media ponderada -300 -416 -388
Ganancia en teoría -36800 -184000 -368000

Ejemplo
Ejemplo 8. Salario de un obrero.
obrero.
Un obrero eventual que trabajó ciertos meses cada año, cobró la misma cantidad de dinero
cada año. Si el salario mensual fue de $80.000 en 1989, de $95.000 en 1990 y de $120.000 en
1991. ¿Cuál es el salario medio al mes del obrero?

Discusión.
Discusión De nuevo tenemos un problema cuya solución le puede parecer al “estudiante
ingenuo”, como una simple aplicación de la media aritmética, donde ($80.000 + $95.000 +
$120.000)/3 = $98.333. Sin embargo, la solución anterior es incorrecta. Detrás de una solución
correcta al problema se esconde la aplicación de la media armónica. A continuación se
explicarán los detalles del razonamiento que llevan a esto.
Para empezar suponga que C es la cantidad cobrada cada año. Entonces, el número de meses
trabajados en el primer año es C/80.000, en el segundo C/95.000y en el C/120.000. Como C
designa la cantidad cobrada cada año, el número total de meses trabajados será la suma de los
C C C
relativos a cada año, es decir: + +
80.000 95.000 120.000

Por lo tanto el salario mensual será:


3C 3
S= =
C C C 1 11
+ + + +
80.000 95.000 120.000 80.000 95.000 120.000

Entonces el salario promedio, al resolver la expresión anterior, será de $95.664,34. La forma


final de la expresión anterior también explica por sí misma que se trata del cálculo de una
media armónica.

- 80 -
Ejemplo 9. Velocidad de remado.
remado.
Una persona rema río arriba a una velocidad de 25 km/h y de regreso a 40Km/h. ¿cuál es la
velocidad promedio de todo el recorrido?

Discusión.
Discusión Algunos remadores estiman que si manejan la primera mitad de un recorrido con
una velocidad de 25 km/h, y la segunda mitad de la distancia a 40 km/h., la velocidad media,
o promedio de todo el viaje será de (25 +40)/2 = 32,5 km/h. Ellos se sorprenden al observar
que si se viaja todo el trayecto a una velocidad constante de 32,5 km/h, llegan más tarde de lo
pensado. El tiempo que se requiere para cada una de los viajes, río arriba y río abajo, no es el
mismo, y la velocidad menor se tiene que sopesar más que la velocidad mayor.
Algunas veces los estudiantes tienen dificultad para resolver problemas, como el que se
enuncia, porque no pueden calcular el tiempo total, ya que no se da la distancia. En realidad
lo que aquí es igual son las distancias de ida y regreso y lo que cambian son los tiempos. Por
ejemplo, si la velocidad v1 es dos veces mayor que la otra velocidad v2, para distancias iguales
el conductor pasará el doble del tiempo viajando a la velocidad menor. La velocidad media
deberá estar más cerca de la velocidad menor en una razón de 1 a 2. En general, el tiempo de
viaje a una velocidad será inversamente proporcional a la misma. En otras palabras, al
promediar velocidades sobre distancias iguales, la importancia que debemos dar a cada
velocidad es precisamente el inverso de cada velocidad.
Ahora se mostrarán los detalles del razonamiento. En primer lugar se debe tener claro la
definición de la velocidad como el cociente de la distancia sobre el tiempo, esto es: v = d/t.
Entonces se tiene que la velocidad cuando la persona rema río arriba es v1 = d/t1 y cuando
regresa es v2 = d/t2. Así pues, al despejar los tiempos en cada una de estas expresiones se tiene
que t1 = d1/v1 y t2 = d2/v2 y entonces el tiempo total de viaje será t1 + t2 y la distancia total d1 +
d2, además se sabe que d1 = d2 = d, Por lo tanto, la velocidad media será:

2d 2d 2d 2
v = = = =
t1 + t 2 d d d d 1 1
1 2 + +
+ v v v v
v v 1 2 1 2
1 2

Se concluye entonces que para hallar la velocidad media en cuestión, basta con calcular la
media armónica de las velocidades de cada recorrido. En suma, se tiene como respuesta que
la velocidad media es
2 2
v = = ≅ 33,11
1 1 1 1
+ +
v v 25 40
1 2

Ejemplo 10.
10. Tiempo para realizar una obra de construcción.
construcción.
José puede hacer una obra en cuatro días, Juan en seis días y Andrés en doce días. ¿En cuánto
tiempo pueden hacer la obra los tres juntos?

- 81 -
Discusión.
Discusión Este es otro ejemplo, en el que se puede aplicar la media armónica. Se presenta el
siguiente razonamiento para convencerse de ello. Sea x el número de días que tardarían en
hacer toda la obra trabajando los tres juntos. Si en días los tres juntos hacen toda la obra, en 1
día harán 1/x de la obra. José, trabajando solo, hace la obra en 4 días; luego, en un día hace
1/4 de la obra. Juan, trabajando solo, hace la obra en 6 días; luego, en un día hace 1/6 de la
obra. Andrés, trabajando solo, hace la obra en 12 días; luego, en un día hace 1/12 de la obra.
Luego los tres juntos harán en un día (1/4 + 1/6 + 1/12) de la obra; pero como en un día los
1 1 1 1
tres hacen 1/x de la obra, tenemos + + = .
4 6 12 x

Resolviendo la expresión se debe llegar a x = 2. Se Obtiene entonces que el tiempo que se


gastan los tres obreros en hacer la obra juntos es de 2 días. Nótese que utilizando la formula
3
de la media armónica se llega a la siguiente respuesta: v = =6.
1 1 1
+ +
4 6 12

Lo anterior quiere decir que un solo obrero trabajando a una velocidad equivalente a la media
de los tres obreros se gastaría 6 días. Así pues, si trabajan los tres al tiempo, lo que gastarán
será 6/3 = 2 días.

Ejemplo 11. Crecimiento de un depósito de ahorro.


ahorro.
A continuación se muestra el crecimiento de un depósito de ahorro de $1000 durante cinco
años, de acuerdo a las tasas de interés de 7, 8, 10, 12 y 18 por ciento para los años 1, 2, 3, 4 y 5
respectivamente.

a) ¿Cuál es el factor de crecimiento promedio?


b) ¿A qué tasa de interés corresponde el factor de crecimiento?

Porcentaje de la Factor de Ahorros al final


Año
tasa de interés crecimiento del año ($)
1 7 1.07 1070.00
2 8 1.08 1155.60
3 10 1.10 1271.16
4 12 1.12 1423.69
5 18 1.18 1679.95

Discusión.
Discusión Con este ejemplo, se pasa a contemplar un caso en donde tiene sentido la
aplicación de la media geométrica. Suponga que primero se calcula la media aritmética de las
tasas de interés, es decir (7 + 8 + 10 +12 +18)/5 = 11. Entonces es el factor medio de
crecimiento de los ahorros sería 1,11. Pero si el ahorro creciera de esta forma los cinco años,
no se llegaría al mismo resultado final, como se puede ver en la tabla que sigue.

- 82 -
Porcentaje de la Factor de Ahorros al final
Año
tasa de interés crecimiento del año ($)
1 7 1.11 1110,00
2 8 1.11 1232,10
3 10 1.11 1367,63
4 12 1.11 1518,07
5 18 1.11 1685,06

Por lo tanto la media aritmética no es un buen indicador de la tasa media de crecimiento de


los ahorros. Además, note que el factor de crecimiento promedio correcto debe ser
ligeramente menor a 1.11.
Si los ahorros crecen a una tasa constante i, para que al final del quinto año tenga el mismo
efecto que las tasas del ejemplo, se debe verificar que:
1.000(1+i)(1+i)(1+i)(1+i)(1+i) = 1.000(1+0,07)(1+0,08)(1+0,1)(1+0,12)(1+0,18)

De donde se tiene que:

(1 + i ) = 5 1, 07 ⋅ 1, 08 ⋅ 1,10 ⋅ 1,12 ⋅ 1,18 = 1,10932819

De manera que si se hubiera tenido este factor de crecimiento de la tasa de ahorro (nótese que
lo que se calculó fue la media geométrica), hubiera conducido a un ahorro final exactamente
igual a la que se obtuvo. Es decir, que la tasa media de crecimiento del ahorro ha sido de
10,932819%.

Ejemplo12. Salarios en una compañía de telefonía celular.


celular.
Los salarios mensuales pagados en una compañía de telefonía celular, son los siguientes:

$342.000 30 Obreros
$390.000 3 Técnicos, 1 Asistente
$392.000 35 Obreros
$440.000 1 Técnico, 1 Asistente
$442.000 2 Interventores, 2 Ingenieros
$490.000 5 Técnicos, 40 Obreros
$492.000 20 Obreros
$540.000 3 Asistente, 2 Interventores, 3 Ingenieros
$542.000 4 Interventores, 2 Directores
$590.000 2 Asistentes, 2 Ingenieros
$592.000 2 Interventores, 10 Obreros
$642.000 1 Director, 2 Asistentes

a) ¿Cuál es el salario que mejor representa el sueldo de los empleados de la empresa de


telefonía celular?
b) Organiza los datos en una tabla de datos agrupados, utilizando seis intervalos de clase y
determina para estos datos agrupados, la media aritmética, la mediana y la moda.

- 83 -
c) ¿Cuáles son los salarios medios que mejor representan los salarios de los empleados si se
discriminan por tipo de empleo en la empresa?
d) Determina cual es el salario máximo que tiene el 25% del grupo de empleados con salarios
más bajos, y el salario mínimo que tiene el 25% del grupo de empleados con salarios más
altos.

Discusión.
Discusión En este tipo de problemas sobre salarios de una empresa donde se pide seleccionar
una medida de tendencia central que sea más representativa, generalmente conviene utilizar
un diagrama de caja para revisar si hay valores atípicos e identificar la ubicación de la
mediana y la media aritmética.

En el gráfico se identifica que no hay valores extremos o atípicos; que la media aritmética, que
aparece indicada con un signo más, es menor que la mediana con un valor aproximado es de
$450.000; y que la mediana, que aparece representada un poco más arriba como la línea
negra repisada, prácticamente coincide con el valor del tercer cuartil con un valor aproximado
de $490.000. En realidad se puede verificar a partir de la tabla de frecuencias, que se presenta
más abajo, que la media aritmética es $456.879 y que la mediana es $490.000, coincidiendo
esta última con el valor de la moda.

El hecho de que la mediana coincida con la moda hace tentador proponer el valor de
$490.000 como el mejor representante del salario medio. Sin embargo la media aritmética,
cuyo valor es un poco más bajo, está reflejando el hecho de que haya dos salarios más bajos
que la moda, uno de $342.000 y otro de $392.000, que tienen las siguientes frecuencias más
altas. Entonces, ¿qué medida de tendencia central es más representativa? Quizás, la mejor
respuesta es que las tres, ya que cada una de ellas refleja diferentes aspectos de la distribución
de los datos.
La tabla de frecuencias que se presentó antes resume de manera suficiente la organización de
los datos. En este caso, quizás no es procedente agrupar los datos. No obstante, se realizará la
agrupación de con el objeto de ilustrar la construcción de la tabla y para comparar la precisión
de los resultados de las estimaciones de las medidas de tendencia central con las que se
obtuvieron de manera no agrupada.

- 84 -
Salario
Salario Frecuencia Frecuencia acumulada
342.000 30 30
390.000 4 34
392.000 35 69
440.000 2 71
442.000 4 75
490.000 45 120
492.000 20 140
540.000 8 148
542.000 6 154
590.000 4 158
592.000 12 170
642.000 3 173

La determinación de los intervalos de clase no tiene mayor dificultad, dado que la diferencia
entre el valor máximo y mínimo de los datos, que es 300.000, es divisible por seis. Entonces
el intervalo de clase será de longitud 50.000 y la tabla de frecuencias, incluidas las marcas de
clase y la frecuencia acumulada, es la siguiente:

Intervalos Marca de clase Frecuencia Frec. Acumulada


De $342.000 hasta $392.000 367.000 34 34
De $392.000 hasta $442.000 417.000 37 71
De $442.000 hasta $492.000 467.000 49 120
De $492.000 hasta $542.000 517.000 28 148
De $542.000 hasta $592.000 567.000 10 158
De $592.000 hasta $642.000 617.000 15 173

Se puede calcular la media aritmética sin tener en cuenta los miles de pesos y luego
multiplicar por mil. La expresión a calcular es:
367 × 34 + 417 × 37 + 467 × 49 + 517 × 28 + 567 × 10 + 617 × 15
173

Al realizar la operación, luego multiplicar por mil y redondear las cifras decimales después de
la coma, se obtiene $463.532. Entonces hay una pérdida de precisión al calcular la media de
manera agrupada que causa una sobrestimación de un poco más de $6.000.
Para calcular la mediana agrupada, primero se identifica el intervalo en se ubica la mediana
que corresponde al primer intervalo que supere en su frecuencia acumulada al 50% de los
datos, en este ejemplo corresponde al intervalo que va de $442.000 a $492.000. Entonces la
mediana se obtiene al calcular la expresión:

- 85 -
 173 
 2 − 71 
Me = 442.000 + 50.000  
 49 
 

El resultado redondeando es $457.816 y la pérdida de precisión al agrupar es de ($490.000 −


$457.816) = $32.184, considerablemente mayor que en el caso de la media aritmética. En
cuanto al cálculo de la moda agrupada, primero se identifica el intervalo modal, que
corresponde al que va de $442.000 a $492.000. Como en este caso los intervalos son de igual
longitud, no es necesario determinar densidades de frecuencia y la expresión para la moda se
reduce a
n
i +1
Mo = L +C
i−1 n +n
i−1 i +1

Donde Li-1, es el extremo inferior del intervalo modal, ni la frecuencia absoluta del intervalo
modal y C la amplitud del intervalo. Entonces:
28
Mo = 442.000 + 50.000
37 + 28

Al calcular la expresión y redondear se obtiene $463.538. Entonces hay una pérdida de


precisión de ($490.000-$463.538) = $26.432, que aunque es menor que para el caso de la
mediana también es mucho mayor si se compara con el caso de la media aritmética.

Obr. Tec. Asi. Ing. Int. Dir.


$ 342.000 30
$ 390.000 3 1
$ 392.000 35
$ 440.000 1 1
$ 442.000 2 2
$ 490.000 40 5
$ 492.000 20
$ 540.000 3 3 2
$ 542.000 4 2
$ 590.000 2 2
$ 592.000 10 2
$ 642.000 2 1
Total 135 9 9 7 10 3
Media $439.556 $451.111 $546.000 $526.286 $531.600 $575.333
Mediana $490.000 $490.000 $540.000 $540.000 $542.000 $542.000
Moda $490.000 $490.000 $540.000 $540.000 $542.000 $542.000

La tabla anterior presenta la forma como se distribuyen las frecuencias de los salarios si se
discriminan por tipo de empleo. Se observa la misma estabilidad de las estimaciones de las
medianas y las modas, en el sentido de que conducen a los mismos valores de acuerdo al tipo

- 86 -
de empleo e incluso no evidencian diferencias entre los cargos de obreros y técnicos, entre
asistentes e ingenieros, y entre interventores y directores. En cambio, las estimaciones de la
media aritmética permiten establecer diferencias en los salarios de acuerdo a los cargos, pero
no es consistente con el orden que generan la mediana y la moda respecto a los salarios.
Para finalizar con el ejemplo se hará referencia a la determinación del salario máximo que
tiene el 25% del grupo de empleados con salarios más bajos, y del salario mínimo que tiene el
25% del grupo de empleados con salarios más altos. Al respecto, lo que se requiere es el
cálculo de los cuartiles Q1 y Q3 que se pueden estimar visualmente en el gráfico de caja
presentado al comienzo de la discusión. También es relativamente fácil determinar estos
valores con base en la tabla de frecuencias de los salarios sin agrupar. El primer cuartil se
debe ubicar entre los datos 43 y 44, ya que 173/4 = 43,25, este valor es $392.000. El tercer
cuartil, se debe ubicar entre los datos, 129 y 130, ya que 173*3/4 = 129,75, y este valor
corresponde a $492.000. No debe sorprender el hecho de que la diferencia entre el valor de la
mediana (o la moda) y el del tercer cuartil apenas sea de $2.000, ya que hay una gran cantidad
de salarios, como precisamente lo indica la moda, de $490.000.

Ejemplo13. ¿Cuál es la edad ideal para casarse?


Se realizó una encuesta para indagar sobre la edad en la que a las mujeres les gustaría casarse.
Para ello se les preguntó a 113 mujeres, que fueron a un supermercado de Bogotá a realizar
alguna compra durante el mes pasado, cuál era su opinión al respecto. Las respuestas
obtenidas se organizaron en un gráfico de puntos que se presenta más adelante.
Para facilitar el estudio de los datos obtenidos en la encuesta, primero se pide que se agrupen
los datos que se presentan en el gráfico de puntos, en cinco grupos de edades y con base en
ésta que se responda a las siguientes preguntas:
a) ¿Entre que valores oscila la edad más común para casarse?
b) ¿Cuáles son los dos intervalos de edad que en opinión de las mujeres son apropiados para
casarse?
c) ¿Cuál es el intervalo en el que para las mujeres no es muy común casarse?

Discusión.
Discusión Aunque la edad se supone que es una variable continua, en este ejemplo, la
información se presenta de manera discreta, es decir, no hay valores intermedios entre dos
edades enteras consecutivas como 23 y 24. En estos casos se sugiere presentar los intervalos

- 87 -
de clase con valores extremos que también formen parte del intervalo. Además, como hay un
total de 20 valores diferentes, la agrupación es fácil de definir: simplemente debe incluir 20/5
= 4 valores en cada intervalo. La tabla resultante con los valores de las respectivas frecuencias
es:
Intervalos de edades Frecuencia
De 20 a 23 años 8
De 24 a 27 años 25
De 28 a 31 años 42
De 32 a 35 años 22
De 36 a 39 años 16

Por supuesto, esta información también se puede resumir en un gráfico de puntos


“agrupado”.

Una breve mirada a la tabla, o al gráfico, permite identificar que la edad más común para
casarse es de los 28 a los 31 años. También se puede observar que de los 24 a los 27 años y de
los 28 a los 31 años es la edad más común en que las mujeres les gustaría casarse, es decir de
los 24 a los 31 años. Finalmente, se tiene que la edad menos común para casarse es de los 20
a los 23 años.

Ejemplo 14. Mediciones con un planímetro.


planímetro.
Un planímetro es un instrumento para medir áreas de superficies planas. Con este instrumento
se tomó una muestra de cinco mediciones a las áreas de un lote de baldosas que se utilizarán
en una construcción para realizar un control de calidad. La tabla siguiente muestra este
conjunto de mediciones.
2
Baldosa Área (cm2)
1 402
2 398
3 405
4 406
5 400

a) Determine el error medio cuadrático.

- 88 -
b) De acuerdo al resultado anterior, y suponiendo que la muestra tomada es representativa
de un lote aceptable de producción, ¿sería “extraño” o poco usual encontrar una baldosa
que midiera 412 cm2?

Discusión.
Discusión Antes de abordar el ejemplo propuesto es bueno tener en cuenta algunas
observaciones acerca de lo que se debe entender como error de medición y sobre la
definición misma del error medio cuadrático, ya que existe una medida de resumen
estadístico llamada media cuadrática muy relacionada con el error medio cuadrático.
En primer lugar, las consideraciones estadísticas juegan un papel en relación con las
mediciones físicas, ya que en general cualquier tipo de medición incluye un error. Por esta
razón, es importante tener algunas nociones básicas de cómo se podría trabajar
estadísticamente con errores de medición. En realidad ya desde los tiempos de Gauss y
Laplace se tiene una propuesta sobre teoría de errores, que se basa de manera esencial en el
supuesto de un comportamiento normal de la distribución de los errores de medición. El error
edición también conocido como error de observación, se debe a la naturaleza de las
de medición
medición,
mediciones físicas, a la persona que efectúa la medición, a los instrumentos que se usan en la
medición y al sistema medido, ya que se ven afectados por pequeñas perturbaciones no
predecibles. El error de medición se puede reducir de tamaño, con el uso de mejores métodos
e instrumentos, pero nunca se puede anular por completo.
En algunas ocasiones hay que tener en cuenta cuando se trabaja con errores de medición, que
si se usa un instrumento de medición como un voltímetro que esté mal calibrado, cada
medición se verá afectada de la misma forma. En estos casos el error correspondiente tiene un
componente de error constante o sistemático.
sistemático Cuando se utiliza la teoría de la probabilidad,
este tipo de error no es el que verdaderamente interesa. Lo que realmente importa son los
errores estadísticos de mediciones que son provocados por un gran número de pequeñas
perturbaciones que afectan las mediciones y cuyo efecto no se puede predecir. Sin embargo,
si se puede tener alguna comprensión acerca de su efecto a luz de lo que llamaremos
supuesto de normalidad.
normalidad La idea anterior se puede precisar más de la siguiente manera:
Emc es el error cuadrático medio y que x es la media de las mediciones,
supóngase que Emc,
entonces se espera que alrededor de 2/3 (67%) de los valores de las mediciones se localizará
entre x − Emc y x + Emc y que 19/20 (95%) de los valores se localizará entre x − 2Emc y x
+ 2Emc en una muestra suficientemente grande.
En segundo lugar, en cuanto a la definición del error cuadrático medio hay que señalar que la
definición dada coincide con la de la desviación estándar S, que se comenta con más detalle
en la próxima sección sobre medidas de dispersión. Por ahora sólo se explicitará que
1 n 1 n 2 1 n 1 n 2 1 n 2
(Emc)2 = 2
∑ (x i − x) = ∑ x i − 2 x ∑ x i + ∑ x = ∑ x i − x
2
n i =1 n i =1 n i =1 n i =1 n i =1

1 n 2
Así, el término ∑ x es el cuadrado de la llamada media cuadrática, es decir, de la expresión
n i =1 i
1 n 2
∑ x . Entonces se tiene es que el cuadrado del error medio cuadrático es el cuadrado de
n i =1 i

- 89 -
la media cuadrática menos un “factor de corrección” dado por el cuadrado de la media de la
muestra. En otras palabras, la media cuadrática es una forma de error medio cuadrático que
no contempla el efecto de la media de las mediciones.
Hechas las aclaraciones anteriores, se aborda la solución del ejemplo. Primero se obtiene que
x = 402, 2 cm2 y con este valor se encuentran los errores respecto a la media como se muestra
en la tabla.
2 2
Baldosa Área (cm2) | xj - x | ( xj - x )2
1 402 0,2 0,04
2 398 4,2 17,64
3 405 2,8 7,84
4 406 3,8 14,44
5 400 2,2 4,84
Suma 2011 13,2 44,80

44, 80
Luego Emc = = 2,99. Entonces, suponiendo que hay normalidad en las mediciones
5
realizadas con este instrumento, se puede esperar que entre (402,2 – 2x2,99) cm2 y (402,2 +
2x2,99) cm2 se encuentre el 95% de las mediciones, es decir entre 396,22 cm2 y 408,18 cm2.
Con base en esta información se puede afirmar que una medición que arroje un valor de 412
cm2 es poco probable de encontrar, pues estaría a una distancia de más de 3 veces el valor del
error medio cuadrático.

Ejemplo 15. Interpolación para datos agrupados.


agrupados.
Una fábrica de bombillas realiza un proceso de control de calidad que consiste en instalar 200
bombillas en 200 portalámparas que se encuentran debidamente organizadas en varias mesas,
todas son encendidas al tiempo y se registra en tiempo de duración de cada bombilla.
Supóngase que el registro de las duraciones o vida útil de cada bombilla se presenta en la
tabla que se muestra más adelante. Con base en la tabla se debe determinar la vida media, la
moda, la mediana, los cuartiles, los deciles y los percentiles de la vida útil de las bombillas.

Discusión.
Discusión Para calcular la media, se deben agregar dos columnas, una que contendrá las
marcas de clase de cada intervalo de clase y otra en donde se colocarán los productos de cada
marca de clase con su respectiva frecuencia absoluta.
i =15
Se realizan los productos FiMi y la suma ∑ FiMi ,
i =1
finalmente se calcula

i =15

∑ FiMi 51.500
X= i =1
= = 206 .
i =15 250
∑ Fi
i =1

- 90 -
Duración C antidad de Marca de Clase
Fi x Mi
(Horas) bombillas (Fi) Mi
[10,35) 5 22,5 113
[35,60) 5 47,5 238
[60,85) 10 72,5 725
[85,110) 15 97,5 1463
[110,135) 15 122,5 1838
[135,160) 20 147,5 2950
[160,185) 25 172,5 4313
[185,210) 15 197,5 2963
[210,235) 35 222,5 7788
[235,260) 30 247,5 7425
[260,285) 50 272,5 13625
[285,310) 10 297,5 2975
[310,335) 5 322,5 1613
[335,360] 10 347,5 3475
Total 250 Total 51500

Para estimar el valor de la moda, se realiza un procedimiento geométrico que consiste en:

- Dibujar el histograma, tomar la clase con mayor frecuencia (clase modal) y las dos
clases adyacentes.
- Asignar coordenadas a los puntos A, B C y D de acuerdo a los límites del intervalo de
la clase modal y las frecuencias de las tres clases tomadas. Así, los puntos son
A=(260,30), B=(285,50), C=(260,50) y D=(285,10).
- Hallar las ecuaciones de las rectas que contienen a los segmentos AB y CD,
respectivamente.

60

50

40

30

20

10

0
[10,35) [35,60) [60,85) [85,110) [110,135) [135,160) [160,185) [185,210) [210,235) [235,260) [260,285) [285,310) [310,335) [335,360]

- 91 -
Se halla el punto de intersección de los segmentos AB y CD, es
−4x + 5y = −890
decir, la solución del sistema  , es cual es
8x + 5y = 2330
 805 110 
 , .
 3 3 

Por lo tanto, la moda es aproximadamente Mo=268.33, (la


proyección de la intersección sobre el eje X).

Para calcular la mediana o cualquiera de los cuantiles se elabora una tabla de frecuencias
acumuladas relativas y el diagrama para la tabla.
120%

100%
Frecuencia acumulada

80%

60%

40%

20%

0%
35 60 85 110 135 160 185 210 235 260 285 310 335 360
Duración menor o igual a:

Durac ión C antidad de Bombillas con Frecuen cia Relativa


(H oras) bombillas duració n < o = Porc entual
[10,35) 5 5 2%
[35,60) 5 10 4%
[60,85) 10 20 8%
[85,110) 15 35 14%
[110,135) 15 50 20%
[135,160) 20 70 28%
[160,185) 25 95 38%
[185,210) 15 110 44%
[210,235) 35 145 58%
[235,260) 30 175 70%
[260,285) 50 225 90%
[285,310) 10 235 94%
[310,335) 5 240 96%
[335,360] 10 250 100%
Total 250

- 92 -
Para el cálculo de la mediana Me o cualquiera de los cuantiles, se debe tener en cuenta que:
Hasta la mediana se acumula el 50% de los datos, hasta el primer cuartil se acumula el 25% de
los datos, hasta el octavo decil se acumula el 80% de los datos, y hasta el percentil p se
acumula el p% de los datos registrados. En la tabla, para el caso de la mediana, el porcentaje
50% se encuentra entre los porcentajes 44% y 58%. La duración correspondiente a la mediana
se encuentra entre las duraciones 210 y 235.
Después de organizar la información en una tabla y se realiza una regla de tres.

Duración → Porcentaje Me − 210 235 − 210


=
≤ 50 − 44 58 − 44
210 → 44% Me − 210 25
= ⇒
6 14
Me → 50% 1545
Me = = 220.71
235 → 58% 7

4.15 Ejercicios.
1. Demostrar la fórmula de la mediana para datos agrupados suponiendo que la variable es
continua.
2. Obtener una fórmula para calcular los cuartiles en datos agrupados, suponiendo que la
variable es continua y que los intervalos de clase son de igual longitud.
3. Obtener una fórmula para calcular los deciles en datos agrupados, suponiendo que la
variable es continua y que los intervalos de clase son de igual longitud.
4. La Universidad Nacional tiene organizadas las carreras por edificios, por ejemplo el
edificio de medicina se encuentra a 27.5 m de la entrada principal, el de arte a 29.9 m y el
de psicología a 28.7m. En la siguiente tabla se registra el tiempo que gastan 4 estudiantes
en desplazarse de la entrada a sus respectivos edificios

Estudiante
Estudiante Tiempo (minutos) Distancia(edificio)
1 5 27.5 m
2 8 29.9 m
3 8 28.7 m
4 6 26 m

¿Cuál es el tiempo promedio que gastan las estudiantes en llegar a su respectivo edificio?
5. Verificar los diferentes cálculos de medias, medias ponderadas y medianas que aparecen
reportados en el Ejemplo 3.
6. Explique por qué para obtener la velocidad promedio de un objeto que viaja con dos
velocidades diferentes durante tiempos iguales, la media aritmética de las velocidades es
apropiada.

- 93 -
7. El sábado pasado, Cristian un empleado de un kiosco de bebidas sirvió en total 50 bebidas
durante la mañana de ese día. Vendió 5 bebidas de $250, 15 de $270, otras 15 de $300 y
otras 15 de $350. ¿A cómo vendió en promedio cada bebida ese día?
8. En Miss Universo las cinco finalistas candidatas a la corona obtuvieron los siguientes
puntajes:

Tipo de traje Colombia Venezuela México R. Dominicana Rusia


Baño 9,40 9,20 9,00 8,90 8,85
Gala 9,83 9,40 8,90 8,88 9,00
Típico 9,48 9,60 9,20 9,80 8,50

a) Si se escogiera a la reina teniendo en cuenta el mayor puntaje obtenido. ¿Cuál sería la


Reina?
b) ¿Quiénes serían la Virreina, 1ª Princesa, 2ª Princesa y 3ª Princesa?
9. Considere el siguiente juego con tres dados de seis caras: si la suma de los tres dados es 18
gana $3000, si la suma de los tres dados es 12 gana $2.000, si la suma de los tres dados es
6 gana $1.000, y si la suma es diferente de 6,12 y 18 pierde $500.
a) ¿Es conveniente jugar este juego? Justifique su respuesta en términos de una
ponderación apropiada a los valores de ganancia y pérdida.
b) Construya una simulación en Excel y compare resultados teóricos y de la simulación
para 100, 500 y 1.000 juegos.
10. Un estudiante de Administración de Empresas está cursando el quinto semestre, el
promedio de notas de los semestres anteriores ha sido el siguiente:

Semestre I II III IV
Nota promedio 3,8 3,7 3,9 4,0

Las notas obtenidas en el quinto semestre son las siguientes:

Materia Créditos Nota


Mercadotecnia 3 3,8
Macroeconomía 5 4,5
Matemática Financiera 4 4,2
Presupuestos 3 4,0
Inglés 2 3,5

a) ¿Cuál es el promedio que obtuvo el estudiante en el quinto semestre?


b) ¿Qué promedio lleva el estudiante hasta el momento?
c) ¿Qué promedio debe tener en VI semestre para que su promedio general sea 4,0?
d) ¿Es posible que el promedio total hasta VI semestre sea mayor 4,5?

- 94 -
11. Los siguientes datos corresponden al crecimiento de un parque Automotor en la ciudad de
Bogotá durante 5 años:

Años Número de Matriculas Factor de Crecimiento


2001 1200 1,20
2002 1440 1,25
2003 1800 1,30
2004 2340 1,20
2005 2808 1,25

¿Cuál es la tasa promedio de crecimiento del parque automotor en la ciudad?


12. Una profesora quiere cambiar la colocación de sus alumnos en clase, con la esperanza de
que ello incremente el número de preguntas que hacen. En primer lugar, decide ver
cuántas preguntas hacen los estudiantes con la colocación actual. El registro de número
de preguntas hechas por sus ocho estudiantes durante la clase se muestra a continuación.

Iniciales del alumno.


A.A. R.F. A.G. J.G. C.K. N.K. J.L. A.W.
Nº de preguntas
preguntas 0 5 2 22 3 2 1 3

La profesora quiere representar o resumir con un número la cantidad de preguntas hechas


por estudiante. ¿Cuál de los siguientes procedimientos le recomendarías? Explica porqué.
a) Usar el número más común, que es el 2.
b) Sumar los 8 números y dividir por 8.
c) Descartar el 22, sumar los otros 7 números y dividir por 7.
d) Descartar el 0, sumar los otros 7 números y dividir por 7
e) Otro método ¿Cuál?
13. En los últimos cinco años los suscriptores a telefonía celular han aumentado notoriamente
de tal manera que el 1º de enero del año 1999 había 12.000 suscriptores y al 31 de
diciembre del 2004 había 4.600.000 suscriptores. La siguiente tabla muestra los detalles:

Crecimiento de población de suscriptores


Suscriptores al Tasa de Suscriptores al Factor de
Año
inicio del año Crecimiento
Crecimiento final del año Crecimiento
1999 12.000 36.000
2000 36.000 120.000
2001 120.000 400.000
2002 400.000 900.000
2003 900.000 2.000.000
2004 2.000.000 4.600.000

¿Cuál es la tasa promedio de crecimiento anual y cuál es el factor promedio de


crecimiento?

- 95 -
14. Se sabe que dos obreros A y B gastan, respectivamente, 50 y 40 minutos en remontar un
par de zapatos. ¿Cuál es el tiempo promedio requerido para montar un par de zapatos?
15. Un avión recorre 3000 km. Los 1000 primeros a 700 km/h, los 1000 siguientes a 800 km/h,
y los 1000 restantes a 900 km/h. ¿Cuál ha sido la velocidad media?
16. En el circuito de Indianápolis 5 competidores presentaron las siguientes estadísticas en las
5 primeras y 5 últimas vueltas:

Cinco primeras
primeras Vueltas Cinco últimas vueltas
Vuelta Nº
Velocidad Velocidad
Montoya 288 km/h 312 km/h
Schumacher 300 km/h 310 km/h
Barichelo 320 km/h 290 km/h
Raikonem 290 km/h 280 km/h
Alonso 322 km/h 300 km/h

a) ¿Cuál fue el promedio de las cinco primeras vueltas?


b) ¿Cuál fue el promedio de las cinco últimas vueltas?
c) ¿Qué competidor tuvo el mejor promedio de velocidad teniendo en cuenta el principio
(5 primeras vueltas) y final (5 últimas vueltas) de la carrera?
17. Una población que tenía 10.000 habitantes en el año cero (2000), creció el primer año a
una tasa del 5%, el segundo año creció a una tasa del 20% y el tercer año al 50%. ¿A qué
tasa promedio ha crecido la población en esos tres años?
18. Los datos que se presentan en la tabla corresponden al ingreso percápita, de países de
América del sur. El ingreso percápita es un indicador económico que hace referencia a
todas las entradas económicas que recibe un país (en este caso en millones de dólares)
dividido por el total de su población. Este indicador se considera como el ingreso medio
percápita de los habitantes de cada país.

País 1995 1998


Argentina 9.728 8.030
Bolivia 2.205 1.010
Brasil 6.460 4.630
Chile 8.507 4.990
Colombia 5.861 2.470
Ecuador 3.003 1.520
Paraguay 4.312 1.760
Perú 4.180 2.440
Uruguay 8.541 6.070
Venezuela 5.706 3.530
Guayana 7.504 7.200
Surinam 2.304 5.432

- 96 -
a) ¿Cuál es el promedio del ingreso percápita en millones de dólares de América del sur
en el año de 1995?
b) ¿Cuál es el promedio del ingreso percápita en millones de dólares de América del sur
en el año de 1998?
c) ¿En qué año América del sur tuvo mayor ingreso percápita?
d) ¿Cuál es el promedio de ingreso percápita en millones de dólares en los dos años?
19. La cajera de una tienda va anotando los precios y las cantidades de los productos que ha
adquirido un cliente. En el ticket de compra aparece esta relación:

Producto N° unidades Precio por unidad


Azúcar 4 156
Aceite girasol 10 115
Leche semi-descremada 10 64
Zumo 6 75
Latas de refrescos 12 50
Botella de vino 2 139

¿Cuál será el precio superado por la mitad del precio de los productos?
20. Las tiendas High Fidelity etiquetan su mercancía 35% por encima del costo de su última
adición al inventario. Hasta hace 4 meses, la grabadora de marca Mp3-Dynamic 400S
costaba $300.000. Durante los últimos 4 meses High Fidelity recibió 4 embarques
mensuales de esta grabadora con los siguientes costos unitarios: $275.000, $250.000,
$240.000 y $225.000. ¿A qué tasa promedio mensual ha disminuido el precio de venta de
High Fidelity en estos 4 meses?
21. Los datos contenidos en la siguiente tabla muestran el desempeño de 28 equipos de la
Liga Nacional de fútbol Americano en 1976.

Equipos Juegos ganados Equipos Juegos ganados


Washington 10 Denver 30
Minnesota 11 Detroit 6
New England 11 Green Bay 5
Oakland 13 Houston 5
Pittsburgh 10 Kansas City 5
Baltimore 11 Miami 6
Los Ángeles 10 New Orleans 4
Dallas 11 New York Giants 6
Atlanta 4 New York Jets 6
Buffalo 1 Philadephia 17
Chicago 7 San Francisco 8
Cincinnati 10 Tampa Bay 0
Cleveland 9

¿Cuál es el número que usted escogería para representar el desempeño de los equipos de
fútbol? ¿Por qué?

- 97 -
22. En un zoocriadero destinado a la cría de chigüiros para exportación se ha descuidado la
alimentación de los animales y se ha presentado un desarrollo inesperado en estos. Se han
clasificado los animales en 10 grupos, teniendo en cuenta sus pesos en kilogramos. La
siguiente tabla muestra la cantidad de animales en cada categoría de pesos:

Intervalos de pesos Número de animales


35.00 - 40.00 20
40.10 - 45.00 25
45.10 - 50.00 30
50.10 - 55.00 10
55.10 - 60.00 15
60.10 - 65.00 20
65.10 - 70.00 25
70.10 - 75.00 35
75.10 - 80.00 10
80.10 - 85.00 10

Calcule la media para estos datos agrupados y estime el valor de la mediana para estos
datos agrupados.
23. En el almacén Tornillo Loco llegó un pedido de 25 tornillos de 3 centímetros de largo.
Cuando el dueño del almacén revisó su mercancía encontró 5 tornillos con las siguientes
medidas:

Tornillo Medida (mm)


1 5
2 4
3 6
4 8
5 6

¿Cuál es el error medio cometido, prescindiendo de si este ha sido por exceso o por
defecto?
24. Las siguientes fueron la causas de mortalidad de 100.000 jóvenes de Medellín, Bogotá, Cali
y Barranquilla de 1989 a 1999:

10.000 mueren por tener cáncer y se suicidaron


4.500 mueren por tener enfermedades transmisibles y se suicidaron
13.500 mueren por suicidio
7.500 mueren por enfermedades transmisibles
7.890 mueren en accidentes de tránsito
5.400 mueren en accidentes de tránsito por causa de paro cardiaco
3.500 mueren por homicidios por tener enfermedades transmisibles
4.300 mueren por tumores malignos
5.900 mueren a causa de asma
19.900 mueren por homicidio
110 mueren por bronquitis

- 98 -
10.000 mueren accidentes de tránsito
2.500 mueren por enfermedad cerebro-vasculares de tumor maligno
5.000 mueren debido a enfermedad del sistema urinario

Identifique cuál es la causa más frecuente de mortalidad de los jóvenes de estas ciudades
en las categorías relativas a: homicidios, accidente de transporte terrestre, enfermedad
transmisible, tumores malignos (cáncer, leucemia, tejido linfático, etc.), enfermedad del
aparato respiratorio, enfermedad cerebro vascular, agresiones auto infligidas (suicidios) y
enfermedad del sistema urinario.
25. En el Colegio Cooperativo la maestra pidió a sus alumnos que con ayuda de sus padres
midieran el largo de la terraza. Los miembros de la familia de David miden la longitud de
la terraza en metros y encuentran los resultados que aparecen a continuación: 15.25,
12.32, 16.15, 15.25 y 11.28. ¿Cuál es el error medio cuadrático de estas mediciones?
26. Demuestre que cuando se trabaja con datos agrupados, los cuantiles se pueden
i⋅N
−F
+ s
i −1
calcular aplicando la fórmula Ci (s) = L ⋅ a para i = 1, 2, …, s-1., donde i
i −1 f i
i
representa el i-ésimo cuantil, Li-1, fi y ai designa el límite inferior, la frecuencia absoluta y la
amplitud del intervalo, respectivamente, de la clase a la que pertenece el cuantil y Fi-1 la
frecuencia acumulada absoluta de la clase anterior a ella.
27. El conteo bacterial de cierto cultivo pasó de 1000 a 6000 en 6 días. ¿Cuál fue el promedio
del incremento porcentual por día?
28. Durante cinco años sucesivos un agrónomo compró aceite diesel para sus tractores a los
precios respectivos de $125, $200, $350, $430 y $580 por galón. ¿Cuál fue el promedio del
costo por galón del aceite para el periodo de los 5 años?
29. En promedio, ¿cuántos aciertos se espera que obtenga una persona cuando contesta al
azar las 20 preguntas de un examen en donde cada pregunta tiene 4 opciones de
respuesta, pero solo una opción es correcta?. Justifique su respuesta en términos de una
ponderación apropiada para la cantidad de aciertos posibles.
30. Una caja de compensación ha clasificado a sus afiliados en 10 categorías, de acuerdo a sus
salarios. Un afiliado se ubica en la categoría C(n) si su salario se encuentra en el intervalo
[535.600n, 535.600 (n+1))), donde n=1,2,3,…,10. La tabla muestra la cantidad de
empleados en cada categoría.
C(1) C(2) C(3) C(4) C(5) C(6) C(7) C(8) C(9) C(10)
400 350 500 650 900 800 400 450 300 250

a) Calcule la Moda de la variable Salarios.


b) Grafique el diagrama de Cajas (Box Plot).
c) ¿Cuál es el máximo salario clasificado en el tercer decil?
d) ¿Cuál es el mínimo salario clasificado en el séptimo decil?

- 99 -
31. Un embarque de 15 computadoras similares que se envía a un distribuidor contiene 7
aparatos defectuosos. Una escuela escoge aleatoriamente 10 de estas computadoras y las
compra. Se define la variable aleatoria X como el número de computadoras defectuosas
entre las computadoras compradas. En promedio, ¿Cuántas computadoras defectuosas se
espera que lleve el comprador?.
32. Un juego de apuestas consiste en lanzar seis veces un dado normal y apostar cierta
cantidad de dinero a un resultado, de tal manera que si el número apostado resulta n
veces, entonces gana 500n pesos, y si no resulta pierde 2000 pesos. Un jugador apuesta al
número “6”. Se define la variable aleatoria como el beneficio del jugador en 6
lanzamientos de un dado. Use la media ponderada para determinar la ganancia esperada
del jugador.
33. Un objeto de tiro al blanco está formado por 5 círculos concéntricos de radios 10 cm, 20
cm, 30 cm, 40 cm y 50 cm. Un hombre que dispara al blanco recibe 50 puntos, 40 puntos,
30 puntos, 20 puntos o 10 puntos, según pegue en la zona 1 (círculo pequeño), zona 2,
zona 3, zona 4 o zona 5 (anillos circulares). La probabilidad de que el disparo haga
contacto con cualquiera de las 5 zonas del blanco es 1/3, y la probabilidad de no dar en el
blanco es 2/3. Si X se define como el puntaje en un disparo, ¿Cuál el puntaje esperado?
34. Anatoly recibe 5 cartas de una baraja francesa a la que le faltan 4 cartas de corazones y 4
cartas de diamantes, mientras que Boris recibe 5 cartas de una baraja francesa completa.
¿Quién tiene mayor expectativa de obtener corazones?
35. La empresa Cinascar se ha posicionado en el país por la venta de vehículos a precios
cómodos. La empresa empezó en el 2004 vendiendo 1200 vehículos, en los años
siguientes hasta el 2009, ha vendido 1440, 1800, 2340, 2808 y 3510 vehículos
respectivamente. ¿Cuál es la tasa promedio de crecimiento de las ventas de estos últimos 5
años?
36. Un juego consiste en lanzar 4 dados distinguibles y apostarle a la aparición del número 6.
Si éste número no sale el apostador pierde 100 pesos. Si éste le aparece 1, 2, 3 o 4 veces la
ganancia será de 100, 200, 300 o 400 pesos respectivamente. ¿Cuál es la ganancia media
del jugador, en un lanzamiento de los dados?
37. Use la medida ponderada para determinar la favorabilidad del siguiente juego: Se lanzan
tres dados normales: si la suma de los tres dados es 18 gana $3000, si la suma de los tres
dados es 12 gana $2.000, si la suma de los tres dados es 6 gana $1.000, y si la suma es
diferente de 6,12 y 18 pierde $500. ¿Es conveniente jugar este juego? Justifique su
respuesta en términos de una ponderación apropiada a los valores de ganancia y pérdida.
38. La serie final de un campeonato de béisbol fue disputada por los equipos A y B, cada uno
con 20 jugadores. Al final de la serie se contabilizaron los batazos de hit conectados por
los jugadores titulares de cada equipo y se llegó a la distribución que se muestra en la
tabla, con la cual se puede estimar información más precisa de la variable “Cantidad de
Hits conectados por jugador”.

- 100 -
Hits Jugadores
[100,120) 4
[120,140) 8
[140,160) 12
[160,180) 6
[180,200) 8
[200,220] 2

a) Calcule el promedio de la cantidad de hits conectados por jugador.


b) Calcule la mediana de la cantidad de hits conectados por jugador.
c) Calcule la moda de la cantidad de hits conectados por jugador.
39. El siguiente diagrama representa la distribución de frecuencias de los valores de una
variable continua X.

25

20
20

15
15

10 10 10
10

5 5 5
5

0
[ 00 , 10 ) [ 10 , 20 ) [ 20 , 30 ) [ 30 , 40 ) [ 40 , 50 ) [ 50 , 60 ) [ 60 , 70 ) [ 70 , 80 ]

a) Calcule el promedio aritmético, la mediana y la moda de la variable X.


b) Calcule el cuartil 3, el decil 7 y el percentil 65.
40. Un examen de Cálculo se aplicó a los cuatro grupos de grado 11 de una institución. En la
siguiente tabla se presenta la cantidad de estudiantes con notas en cada rango de notas
para cada uno de los cuatro grupos. Calcular para cada grupo la media, la mediana, la
moda, el cuartel 1 y el decil 7.

- 101 -
41. La siguiente tabla presenta las calificaciones en una prueba específica de Matemáticas de
un grupo de 150 aspirantes que han aprobado previamente una prueba de potencialidad
pedagógica.
5,0 5,3 5,6 5,9 6,2 6,5 6,8 7,1 7,4 7,7 8,0 8,3 8,6 8,9 9,2
17,0 17,5 18,0 18,5 19,0 19,5 20,0 20,5 21,0 21,5 22,0 22,5 23,0 23,5 24,0
25,0 25,6 26,2 26,8 27,4 28,0 28,6 29,2 29,8 30,4 31,0 31,6 32,2 32,8 33,4
35,0 35,7 36,4 37,1 37,8 38,5 39,2 39,9 40,6 41,3 42,0 42,7 43,4 44,1 44,8
45,0 45,8 46,6 47,4 48,2 49,0 49,8 50,6 51,4 52,2 53,0 53,8 54,6 55,4 56,2
57,0 57,9 58,8 59,7 60,6 61,5 62,4 63,3 64,2 65,1 66,0 66,9 67,8 68,7 69,6
70,0 70,2 70,4 70,6 70,8 71,0 71,2 71,4 71,6 71,8 72,0 72,2 72,4 72,6 72,8
73,0 73,1 73,2 73,3 73,4 73,5 73,6 73,7 73,8 73,9 74,0 74,1 74,2 74,3 74,4
75,0 76,0 77,0 78,0 79,0 80,0 81,0 82,0 83,0 84,0 85,0 86,0 87,0 88,0 89,0

a) Los aspirantes cuyas calificaciones se ubiquen en el primer cuartil son retirados del
proceso de admisión. ¿Cuál es la menor calificación entre los estudiantes que siguen
en el proceso?
b) Los estudiantes cuyas calificaciones se encuentren en los dos últimos deciles no
presentan entrevista y ya quedan admitidos. ¿Cuál debe ser la mínima calificación para
quedar en este selecto grupo?

42. En la siguiente tabla se encuentran clasificados los puntajes de la prueba de potencialidad


pedagógica de los aspirantes a un programa de licenciatura de una universidad oficial.

Cantidad de Cantidad de
Calificaciones Calificaciones
Aspirantes Aspirantes
[0.0 – 0.5) 45 [5.0 – 5.5) 45
[0.5 – 1.0) 50 [5.5 – 6.0) 55
[1.0 – 1.5) 20 [6.0 – 6.5) 50
[1.5 – 2.0) 35 [6.5 – 7.0) 35
[2.0 – 2.5) 40 [7.0 – 7.5) 25
[2.5 – 3.0) 20 [7.5 – 8.0) 25
[3.0 – 3.5) 40 [8.0 – 8.5) 40
[3.5 – 4.0) 30 [8.5 – 9.0) 30
[4.0 – 4.5) 15 [9.0 – 9.5) 0
[4.5 – 5.0) 15 [9.5 – 10.) 0

a) Use el método de interpolación lineal en frecuencias acumuladas para calcular los


percentiles P35 y P65, y los deciles D3 y D7.
 kN 
 - Fk-1 
b) Use la fórmula Qk (s) = L k-1 +  s  L , (k=1,2,…,s-1) para calcular los percentiles P35
 fk 
 
 
y P65, y los deciles D3 y D7.
Donde:

- 102 -
k es k-ésimo cuantil;
Lk-1 es Límite inferior de la clase cuantílica;
fk es Frecuencia absoluta de intervalo cuantílico;
Fk-1 es Frecuencia acumulada hasta el intervalo anterior al intervalo cuantílico;
L: Longitud de clases; s= 4 (cuartiles), 10 (deciles), 100 (percentiles).

43. El histograma de la figura representa los pesos en kilogramos de 104 deportistas que
representan a Colombia en unos juegos panamericanos.
a) Calcular la moda de los pesos.
b) Calcular los deciles de los pesos.
22
20 20
20

18

16
14 14
14

12
10 10
10

8
6 6
6
4 4
4
2
0 0
0
[30,37) [37,44) [44,51) [51,58) [58,65) [65,72) [72,79) [79,86) [86,93) [93,100)

44. El polígono de frecuencias de la figura representa los salarios en euros de 100 empleados
de una empresa de correos.
a) Calcular el salario promedio.
b) Calcular la mediana de los salarios.
c) Calcular la moda de los salarios.
d) Calcular los cuartiles de los salarios y grafique el diagrama de cajas.
14

12

10

0
[300,370) [370,440) [440,510) [510,580) [580,650) [650,720) [720,790) [790,860) [860,930) [930,1000)

- 103 -
45. X es una variable continua que toma N valores distribuidos en n intervalos de longitud L,
la frecuencia de la clase modal es fm y las frecuencias de las clases anterior y posterior a la
clase modal son fa y fp respectivamente, los límites de las tres clases consideradas son La,
Li, Ls y Lp. (Ver figura).

a) Demuestre, usando argumentos geométricos, que la moda de datos agrupados de la


 Dp 
variable X es igual a Mo = Li +   L , donde Da=fm-fa y Dp=fm-fp.
 Da + Dp 
b) Demuestre que Mo es la abscisa del vértice de la parábola que pasa por los puntos
 La + Li   Li + Ls   Ls + Lp 
 , fa  ,  , fm  y  , fp  .
 2   2   2 

- 104 -
MEDIDAS DE DISPERSIÓN

5.1 Introducción.
Al estudiar características o variables de una población o muestra, siempre se manifiestan
discrepancias o diferencias en los resultados individuales de las observaciones. La variabilidad
es algo inherente a cada fenómeno aleatorio, y origina en ellos cierta homogeneidad o
heterogeneidad, según que las discrepancias o diferencias sean pequeñas o grandes. A este
grado de variabilidad, de diferencia entre observaciones es a lo que se llama dispersión.

Ocurre entonces, cuando se quiere asignar un número a cada grado de variabilidad, que
surgen diferentes medidas de dispersión. Las definiciones de estas medidas se pueden
establecer entre valores determinados de la muestra de datos o entre todos los valores y un
valor de referencia, que suele ser una medida de tendencia central, como la media aritmética
o la mediana, con el propósito de que la medición se vea poco influenciada por las propias
unidades de medida de los valores cuya dispersión se desea estimar.

Se pueden reconocer al menos dos tipos generales de medidas de dispersión. Por ejemplo,
Fernández y Fuentes (1995) sugieren distinguir entre dos tipos de medidas de dispersión. A
las medidas de dispersión expresadas en términos de la misma unidad de medida que los
datos, se las llaman medidas de dispersión absoluta, y a las que se expresan de manera
adimensional, es decir, de manera independiente a las unidades de medición, las llaman
medidas de dispersión relativa.

El reconocimiento de la existencia de la variabilidad como punto de partida para el estudio de


la aleatoriedad y la construcción de modelos estadísticos, hace que las medidas de dispersión
sean necesarias para efectuar comparaciones significativas entre grupos de observaciones. De
hecho, cuando se mide la dispersión de los valores de una variable respecto a una de sus
medidas de tendencia central, se está midiendo el grado de representatividad que dicha
medida de tendencia central tiene respecto al conjunto de datos que pretende resumir. Así
pues, a mayor dispersión se tendrá una menor representatividad de la medida de posición y
viceversa. Además, la medición con este tipo de medidas debe ser no negativa y consonante
con el nivel de dispersión en el sentido de que valores pequeños del estadígrafo en uso
deben reflejar un nivel bajo de dispersión y viceversa.

Esta cuestión de la representatividad se puede precisar un poco más con un ejemplo.


Suponga que en el estudio de dos grupos de familias A y B, de quince familias cada grupo, la
distribución del número de hijos se tiene como se muestra en la siguiente tabla.

- 105 -
Grupo A Grupo B
Número de hijos Frecuencia Número de hijos Frecuencia
xi fi xi fi
1 2 0 7
2 11 2 1
3 2 4 7
Total 15 Total 15
Tabla 20. Número de hijos en dos grupos de quince familias.

Se puede observar que en ambos grupos la media aritmética del número de hijos es dos.
Entonces a primera vista se puede afirmar que el comportamiento de los dos grupos es el
mismo respecto al número de hijos. Sin embargo, es evidente que el grupo B, presenta los
datos más dispersos que el grupo A. Por lo tanto la media aritmética es más representativa de
lo que sucede en el grupo A, ya que en éste los resultados se apartan menos de la media
aritmética que en el grupo B.
Como se acaba de ver en el ejemplo anterior la media aritmética caracteriza mejor al grupo A
de familias que al B, respecto al número de hijos. En general, para caracterizar una
distribución de frecuencias, las medidas de tendencia central se deben acompañar de una
medida de dispersión que ponga de manifiesto el grado de representatividad del conjunto de
datos.
Algunos ejemplos de medidas de dispersión son el recorrido, la desviación media, la
desviación estándar, el rango medio, la desviación intercuartílica, la varianza y el coeficiente
de variación. En lo que sigue, primero se hará una descripción de las medidas dispersión
absoluta que son más utilizadas, luego se comentará algunas de las principales medidas de
dispersión relativa, y finalmente se presentará una serie de ejemplos, para ilustrar el cálculo y
utilización de las mismas.

5.2 Recorrido (Re).


El recorrido o rango de dispersión (Re), se define como la diferencia entre el valor máximo y
el valor mínimo de los datos. Aunque se considera que es una medida imperfecta, cuando es
razonable suponer que los datos se distribuyen de manera uniforme, entonces se espera que
si, por ejemplo, el mínimo y el máximo están comprendidos entre 3 y 26, los datos
presentarán más alejamiento mutuo que si los mismos datos están comprendidos entre 13 y
19, cuya diferencia es menor.
De todas maneras el rango tiene la ventaja de ser muy fácil de calcular y es recomendable
tenerlo en cuenta cuando hay pocos datos por analizar. Sin embargo, el hecho de depender
exclusivamente del máximo y el mínimo, puede ocasionar el que no refleje de manera
apropiada la dispersión de una distribución de datos, cuando se tiene una buena cantidad de
datos con valores intermedios. Además, no es posible su aplicación en los casos en que
alguno de los valores, máximo o mínimo, como ocurre en ocasiones, quede indeterminado.
Este tipo de inconvenientes ponen de manifiesto la necesidad de considerar otras medidas de
dispersión. Por ejemplo, cuando los valores próximos al máximo y el mínimo de una serie de

- 106 -
datos están excesivamente alejados del resto, la consideración de un recorrido más corto,
prescindiendo de un porcentaje determinado de los datos más alejados, puede dar una idea
de la dispersión del conjunto de datos más acorde con la realidad, que si se emplea la
diferencia entre los valores más extremos. Por ello, alternativas que algunas veces se
contemplan son el intervalo intercuartílico (Q3 − Q1), el interdecílico (D9 − D1) o el
intercentílico (P99 − P1).

5.3 Desviaciones medias.


La suma de todas las desviaciones respecto a la media aritmética de una distribución de
frecuencias, como se señaló en el capítulo anterior, vale cero. Por lo tanto, la media aritmética
de dichas desviaciones no sirve para medir la dispersión de los valores de una variable. Sin
embargo al considerar el valor absoluto de las desviaciones respecto a una medida de
tendencia central como la media aritmética o la mediana, permite definir tres tipos de
desviaciones que se comentan enseguida.

5.4 Desviación media.


La desviación media es la media aritmética de los valores absolutos de las diferencias de los
datos respecto de la media aritmética. Con datos agrupados se puede escribir así:
1 k
D = ∑ x −xf
x Ni =1 i i

Donde se tienen k valores diferentes de los datos o k intervalos de clase, según que la variable
considerada sea discreta o continua, y N es el total de datos. Para datos sin agrupar se
considera que n es el total de datos y se expresa así:
1 n
D = ∑ x −x
x n i
i =1

Respecto a la desviación media es apropiado señalar que al considerar la función D(u)


1 n
= ∑ x − u asociada a los posibles promedios de los valores absolutos de la desviaciones
ni =1 i
respecto a u, se puede demostrar (ver por ejemplo, Cansado (1967)) que el punto en que se
minimiza esta función es en el valor de la mediana. Por ello, si se usan desviaciones medias
para cuantificar la dispersión, quizás sea preferible utilizar el promedio de los valores
absolutos de las desviaciones respecto a la mediana, medida que se pasa a considerar
enseguida.

5.5 Desviación media respecto a la mediana.


La desviación media respecto a la mediana es la media aritmética de los valores absolutos de
las desviaciones de los datos respecto a la mediana y se puede expresar para datos agrupados
como:
1 k
D = ∑ x − Me f
Me Ni =1 i i

- 107 -
Y para datos sin agrupar se expresa como:
1 n
D = ∑ x − Me
Me ni =1 i

Las letras k, N, n, etcétera, tienen la misma interpretación que en el caso de la desviación


media.

5.6
5.6 Desviación mediana.
La desviación mediana se define como la mediana de la distribución cuyos valores son las
desviaciones, en valor absoluto, de los datos respecto a la mediana. Por ejemplo, si los valores
de una variable son 2, 4, 8, 11, 13, 17 y 21, su mediana es Me = 11. De manera que los valores
absolutos de las desviaciones respecto a la mediana son 0, 2, 3, 6, 7, 9 y 10, cuya mediana es
6, por lo tanto la desviación median es 6.
La interpretación que se le puede dar a la desviación mediana es similar a la que se le puede
dar a la desviación intercuartílica (Q3 –Q1), en el sentido de recoger la variación entre el 50%
de los datos intermedios. En realidad, cuando la distribución es simétrica, ambas medidas
coinciden.

5.7 Varianza (S2).


La varianza es una de las medidas de dispersión más mencionadas en la literatura estadística.
En realidad de todas las medidas de dispersión la varianza y la desviación estándar (que se
presenta en el siguiente apartado), son las más importantes para un desarrollo teórico de la
estadística. El propósito de la varianza es medir la mayor o menor dispersión de los valores de
una distribución de datos respecto a la media aritmética. Cuanto mayor sea la varianza mayor
dispersión existirá y por tanto menor representatividad se podrá atribuir a la media aritmética.
En términos agrupados la varianza se define como:
1 k
S2 = 2
∑ (x − x) n
Ni =1 i i

Y para datos sin agrupar, se define así:


1 n
S2 = ∑ (x − x)
2
ni =1 i

Quizás el principal problema con la varianza es que su valor no se exprese en las mismas
unidades que la variable analizada, sino elevada al cuadrado, lo cual dificulta su
interpretación. No obstante, debido a sus propiedades matemáticas la varianza goza de
excelente reputación.
Algunas de las propiedades que se pueden destacar de la varianza son las siguientes:
• Si se considera la función F(u) de variable real definida como
1 k 2
F(u) = ∑ (x − u) n se tiene que valor donde es mínima para u es la media aritmética.
Ni =1 i i

- 108 -
• Por la manera cono está definida, una suma de cuadrados, nunca es negativa y sólo puede
ser nula cuando todos los valores son iguales.
• Además, si yi = k.xi + c entonces S2y = k2S2x
• La siguiente igualdad también se utiliza con frecuencia
1 k 2 1 k 2
∑ (x − u) n = ∑ (x ) n − (x)2
Ni =1 i i Ni =1 i i

5.8 Desviación estándar (S).


Ya se ha dicho que la varianza no viene expresada en las mismas unidades de medida que las
de los datos. Sin embargo, la raíz cuadrada de la varianza nos lleva a la desviación estándar
también conocida como desviación típica. Se define como la raíz cuadrada con signo positivo
de la varianza. En su versión para datos agrupados, se presenta así:
1 k 2
S = + S2 + ∑ (x − x) n
Ni =1 i i

Y para datos sin agrupar así:


1 n 2
S= ∑ (x − x)
n i =1 i

La desviación estándar es la más utilizada entre las medidas de dispersión y satisface las
mismas propiedades que se mencionaron para la varianza. Sin embargo, otra propiedad, no
mencionada antes, que es interesante y relevante mencionar, se deduce a continuación.
Suponga que x1, x2, …, xn, es una colección de valores numéricos de los datos de una
distribución. Entre todas las diferencias (x − x)2 para i =1,2, …, n seleccione todas aquellas
i

diferencias cuyos valores xi verifiquen la desigualdad x i − x ≥ k , donde k designa un número

positivo. Ahora suponga que (x − x)2 , (x − x)2 ,…, (x − x)2 son las p cantidades que
i1 i2 ip

satisfacen la desigualdad. Entonces


1 n 1 p
S2 = ∑ (x − x)
2
≥ ∑ (x − x)
2
n i =1 i n j = 1 ij

2
Por otra parte, como x ij − x ≥ k para j = 1,2, …, p, se tiene entonces que x ij − x ≥ k2 y por lo
p p
tanto ∑ (x − x)2 ≥
2
∑ k = pk , por lo tanto
2
ij
j=1 j=1

1 n 1 p 2 p
S2 = ∑ (x − x)
2

2
∑ (x − x) ≥ k n
ni =1 i nj=1 ij

- 109 -
Nótese que el cociente p/n que aparece al final de la desigualdad representa la frecuencia
relativa de los xi tal que x i − x ≥ k . Si p/n se denota más bien como fr( x i − x ≥ k) , entonces
se tiene que
S2
≥ fr( x i − x ≥ k)
k2

Pero dado que en una distribución de frecuencias se satisface la igualdad fr( x i − x ≥ k) +


fr( x i − x < k) = 1, entonces se llega a:

S2
fr( x i − x < k) ≥ 1 −
k2

Si ahora se elige el valor de k como tS2, la desigualdad anterior se transforma en la siguiente:


1
fr( x i − x < tS2 ) ≥ 1 −
t2

La desigualdad obtenida se puede ver como la interpretación frecuencial de la llamada


desigualdad de Tchevichev utilizada en estadística matemática y teoría de la probabilidad.
Para este caso le da el siguiente sentido a la desviación estándar: la proporción de datos que
caen en el intervalo (x − tS, x + tS) es a lo menos 1 – (1/t2). Por ejemplo, la proporción de datos
incluidos en el intervalo (x − 2S, x + 2S) es al menos 1 – (1/22) = ¾, es decir, del 75% del total;
mientras que los datos que caen en el intervalo (x − 3S, x + 3S) es como mínimo del 1 – (1/32)=
8/9 = 0,88, que equivale al 88%. Se ve pues, que la desviación estándar es una medida
bastante precisa de la dispersión de los datos en torno a la media aritmética de la distribución
y por ello goza de tanta reputación.
Para finalizar, se tiene que la desviación estándar siempre dará un valor mayor o igual al de la
desviación media, puesto que la media cuadrática de las observaciones x i − x es mayor o
igual que la media aritmética de éstas, es decir D ≤ S.
x

5.9 Coeficiente de variación media de Pearson (CV


(CVx).
Todas las anteriores medidas de dispersión que fueran consideradas antes, son medidas de
dispersión absoluta, ya que se expresan en términos de la unidad que se utiliza para hacer
mediciones. Las medidas de dispersión relativa, evaden este problema al considerar cocientes
entre una medida de dispersión absoluta (excepto la varianza) y una medida de tendencia
central.
En este sentido el coeficiente de variación media de Pearson, indica la relación existente entre
S
la desviación típica de una muestra y su media, ya que se define como CVx = .
X
Al dividir la desviación típica por la media se convierte la medición en un valor libre de la
unidad de medida. Así pues, si comparamos la dispersión en varios conjuntos de
observaciones, el que tenga menor dispersión será el que tenga menor coeficiente de
variación.

- 110 -
Este coeficiente es quizás el más importante y fiable de las medidas de dispersión relativa,
entre otras razones por venir expresado en términos de dos estadísticas bien reconocidas que
en general son objetivas y representativas de un conjunto de datos. Además, permite
comparaciones de variación de conjuntos de datos expresados en diferentes unidades de
medida.
El principal inconveniente del coeficiente de variación media de Pearson (y de otros
coeficientes definidos de manera similar), es que al ser un coeficiente inversamente
proporcional a la media aritmética, cuando ésta tome valores cercanos a cero, a menos que se
lleve a cabo un cambio de origen en los datos.

5.10 Otros Coeficientes de dispersión relativa.


Como ya se dijo, los coeficientes de variación relativa se definen como cocientes entre
medidas de dispersión absoluta y una medida de tendencia central. Las medidas de tendencia
central más utilizadas para ello, son la mediana y la media aritmética, mientras que las más
utilizadas como medidas de dispersión absoluta son la desviación estándar o los recorridos
intercuartílicos. A continuación se presentan las definiciones de otros coeficientes de variación
relativa, que se pueden tener en cuenta en la práctica del análisis de datos.

5.11 Coeficiente
Coeficiente de variación mediana.
El coeficiente de variación mediana, VMe, se define como el cociente entre la desviación
estándar y la mediana.
S
V =
Me Me

5.12 Intervalo intercuartílico relativo.


El intervalo intercuartílico relativo también llamado razón intercuartil, IQ, se define como el
cociente entre la desviación estándar y la mediana.
Q3 − Q1
I =
Q Me

5.13 Desviación cuartílica relativa.


La desviación cuartílica relativa, DQ, a diferencia del anterior, en vez de el recorrido
intercuartílico, propone la utilización de la desviación intercuartílica, dividido por la mediana.
Q3 − Q1
D =
Q 2 ⋅ Me

5.14 Coeficiente de variación cuartílica.


El coeficiente de variación cuartílica, VQ, se define como el cociente entre la desviación
cuartílica Q = (Q1 – Q3)/2 y la media aritmética de los cuartiles primero y tercero, (Q1 + Q3)/2.

- 111 -
Q − Q1
V = 3
Q Q3 + Q1

Si se tiene en cuenta que la desviación típica es la más fiable medida de dispersión absoluta,
usualmente resulta preferible el uso del coeficiente de variación mediana, al compararse con
los otros tres coeficientes referidos en este apartado.

5.15 Ejemplos.

Ejemplo 1. Altura de unas palmeras


Las alturas de 5 palmeras son 4 metros, 6 metros, 10 metros, 8 metros y 20 metros. Si las
medidas se cambian a decímetros, ¿cómo cambiará la desviación estándar?
a) Aumentará en 10
b) Disminuirá en 10
c) Aumentará en un factor de 10
d) Disminuirá en un factor de 10
e) No cambiará

Discusión.
Discusión Este ítem pretende valorar si se reconoce la manera como se afecta la desviación
estándar cuando se introduce un cambio en la escala de los datos y en este caso la respuesta
correcta es la opción (c). Los distractores (a) y (b), expresan que el cambio en la escala de los
datos tiene un efecto aditivo., lo cual es falso. La opción (d) aunque sugiere que si hay un
cambio multiplicativo no se reconoce el sentido correcto en que se da. Y por último, la
elección de la opción (e) sugiere que se piensa equivocadamente, en que la desviación
estándar es invariante ante cambios de escala.

Ejemplo 2. Trabajo perdido en una empresa.


empresa.
Durante los últimos veinte días laborables, el número total de horas de trabajo perdidas
diariamente en una empresa de cien obreros viene dada por los datos: 1, 3, 1, 1, 2, 4, 2, 2, 1, 2,
800, 6, 8, 400, 1, 5, 4, 6, 3, 1.
a) Si se supone que la jornada laboral es de ocho horas diarias, ¿qué porcentaje medio de
horas se han perdido en esos días?
b) Encuentre la desviación absoluta media, y la desviación media respecto a la mediana y
con base en esta información valore, entre la media y la mediana, cuál de ellas es más
representativa de la tendencia central de los datos.

Discusión.
Discusión En esta empresa el número de horas diarias de trabajo corresponde a 100 x 8 = 800.
Si se denota con xi el número de horas de trabajo perdidas en un día i, el cociente xi/800
representa la proporción de horas de trabajo en ese día. También se puede expresar xi/800 en
términos porcentuales multiplicando por 100. Así, (100∙xi)/800 = xi/8 %.
En la tabla que sigue se organiza la información de los datos suministrados.

- 112 -
Horas perdidas Frecuencia Porcentaje Porcentaje
por días absoluta por día total
xi fi xi/8 % %
1 6 0,125 0,750
2 4 0,250 1,000
3 2 0,375 0,750
4 2 0,500 1,000
5 1 0,625 0,625
6 2 0,750 1,500
8 1 1,000 1,000
400 1 50,000 50,000
800 1 100,000 100,000
Total N=15 156,625

El porcentaje medio de horas perdidas a lo largo de los veinte días es la media aritmética de
los porcentajes totales (última columna de la tabla). Por lo tanto el porcentaje medio de horas
de trabajo perdidas en términos de la media aritmética es 156,625/20 = 7,831.
Para determinar el valor de la desviación absoluta media respecto a la media aritmética y
respecto a la mediana, se organizan los cálculos intermedios en la siguiente tabla.

xi fi Fi xi∙fi | xi – x |∙fi | xi – Me|


Me|∙fi
1 6 6 6 369,90 9
2 4 10 8 242,60 2
3 2 12 6 119,30 1
4 2 14 8 117,30 3
5 1 15 5 57,65 2,5
6 2 17 12 113,30 7
8 1 18 8 54,65 5,5
400 1 19 400 337,35 397,5
800 1 20 800 737,35 797,5
Total 20 1.253 2.149,40 1.225,0
Medias 62,65 107,50 61,3

La media aritmética de horas diarias de trabajo perdido es x = 1253/20 = 62,65. Entonces la


desviación media respecto a la media aritmética se obtiene del cociente 2149,4/20 = 107,5. La
mediana de horas diarias de trabajo perdido se ubica entre el dato 10 y el 11, por lo que
entonces la mediana es (2+3)/2 = 2,5. Por lo tanto, la desviación absoluta respecto a la
mediana se obtiene del cociente 1255/20 = 61,3.
El tamaño de la desviación absoluta media respecto a la media aritmética sugiere poca
representatividad para la media aritmética. En realidad, la desviación absoluta media respecto
a la media aritmética viene más influenciada por los valores extremos 400 y 800, algo atípicos
dentro de la serie de datos. La mediana, al considerar los datos extremos no por su valor sino
por la posición que ocupan dentro del conjunto ordenado de los datos, refleja de forma más
realista la tendencia central. De hecho el valor de la desviación absoluta media respecto a la

- 113 -
media aritmética, casi duplica el valor de la desviación absoluta media respecto a la mediana.
Las consideraciones anteriores sugieren entonces que la mediana es más representativa que la
media.

Ejemplo 3. Valoración de la gestión del alcalde.


alcalde.
Para conocer la conformidad de los habitantes de Bogotá, acerca de la gestión realizada por el
actual alcalde de la ciudad, durante el periodo en el que ha despeñando sus funciones, se
practicó una encuesta de opinión a 740 personas, en donde se calificaba la gestión del alcalde
en una escala de 0 a 10. Los resultados de la encuesta fueron los que se muestran en la
siguiente tabla.
Calificación de Número de
la gestión encuestados
encuestados
[0, 1) 50
[1, 3) 60
[3, 4) 90
[4, 6) 100
[6, 8) 240
[8, 9) 120
[9, 10] 80

Determine la media aritmética de las calificaciones arrojadas por la encuesta y estime la


representatividad de dicha media.

Discusión.
Discusión Una disposición práctica para exhibir los cálculos que se requieren para hallar la
media y la varianza de la muestra se presentan en la tabla de la página siguiente.
De los datos de la tabla se puede encontrar la media aritmética como 4420/740 = 5,97. La
varianza resulta del cociente 5104, 46/ 740 = 6,9 y entonces la desviación estándar es la raíz
cuadrada de 6,9, es decir, 2,63. También es posible hallar la varianza con la expresión
1 k 2 2
alternativa dada por ∑ (x ) f − (x)2 de donde se obtiene (31.505/740 – (5,97) = 6,9 en
Ni =1 i i
concordancia con la otra manera de calcularla.

Calificación fi xi xi∙fi ( xi – x )2∙fi 2


x i ⋅ fi
[0, 1) 50 0,5 25 1497,67 12,5
[1, 3) 60 2,0 120 947,07 240,0
[3, 4) 90 3,5 315 550,40 1102,5
[4, 6) 100 5,0 500 94,67 2500,0
[6, 8) 240 7,0 1680 253,15 11760,0
[8, 9) 120 8,5 1020 766,30 8670,0
[9, 10] 80 9,5 760 995,19 7220,0
Total 740 4420 5104,46 31505,0

- 114 -
Observe que el valor de la desviación estándar resulta ser menor que una vez el valor de la
media aritmética. Si este hecho se considera como criterio práctico, se tiene que la media es
aceptablemente representativa.

Ejemplo 4. Reacción ante una vacuna para la gripe


Como parte de una investigación para combatir la gripe común, un grupo de 500 personas se
distribuyó en cincuenta grupos de de diez personas cada grupo y se les aplicó una vacuna
experimental. Luego se anotó el número de personas por grupo que presentó reacción ante la
vacuna. Los datos obtenidos se muestran en la siguiente tabla:

Número de personas por grupo


0 1 2 3 4 5 6 7 8 9 10
que reaccionan a la vacuna

Número de grupos 9 9 8 8 5 3 3 2 1 1 1

a) Encuentre la media aritmética y la desviación estándar σ del número de personas por


grupo que tuvieron reacción ante la vacuna.
b) ¿Qué porcentaje de personas reacciona ante la vacuna entre (x − σ, x + σ ) y entre
(x − 2σ, x + 2σ ) ? S es la desviación estándar de la variable X.

Discusión.
Discusión Una disposición práctica para exhibir los cálculos para hallar la media y la
desviación estándar de la muestra se presentan en la siguiente tabla, donde xi denota el
número de personas por grupo con reacción ante la vacuna y fi el número de grupos.
2
xi fi xi∙fi ( xi – x )2∙fi
0 9 0 73,62
1 9 9 31,14
2 8 16 5,92
3 8 24 0,16
4 5 20 6,50
5 3 15 13,74
6 3 18 29,58
7 2 14 34,28
8 1 8 26,42
9 1 9 37,70
10 1 10 50,98
Total 50 143 310,02

Con base en la información de la tabla se tiene que la media aritmética se obtiene como
143/50 = 2,86. Para la varianza se calcula 310,02/50 = 6,2, de donde la desviación estándar, al
sacar la raíz cuadrada, da 2,49.

- 115 -
En cuanto al literal (b,) se tiene que entre (x − S) = 2,86 -2,49 = 0,37 y (x + S) = 2,86 + 2,49 =
5,35, hay 1x9 + 2x8 + 3x8 + 4x5 + 5x3 = 84 personas, mientras que entre ( x − 2 S ) = 2,86 –
2x(2,49) = –2.12 y (x + S) = 2,86 + 2x(2,49) = 7,84, hay 9 + 84 + 6x3 + 7x2 = 125 personas. En
el primer caso el porcentaje de personas a una desviación de la media es de 84/143 = 58,74%
y a dos desviaciones de la media hay 125/143 = 87,41%.
Observe que los resultados son consistentes, con lo que dice la versión frecuencial de la
llamada desigualdad de Tchevichev.

Ejemplo 5. Temperaturas registradas en un observatorio


En un observatorio meteorológico de Canadá se llevó un registro de las temperaturas, en
grados centígrados, durante los primeros 59 días del año 2008 y se anotaron en la tabla que se
muestra a continuación.

Temperatura (ºC) Número de días


[-12, -8) 2
[-8, -5) 4
[-5, -2) 8
[-2, 0) 18
[0, 4) 17
[4, 6) 6
[6, 8) 3
[8, 10] 1

a) Encuentre los coeficientes de variación cuartílica y de variación media de Pearson y


evalué cuál de los dos coeficientes mide de manera más fiable la dispersión relativa de las
temperaturas.
b) Si se transforma la medición de la temperaturas de la escala de grados centígrados a la
escala de grados Fahrenheit (ºF = 32 + 9/5xºC) ¿Cuál coeficiente resulta más fiable?

Discusión.
Discusión Dado que para calcular los coeficientes de variación cuartílica y media de Pearson
se requiere determinar el valor de los cuartiles primero y tercero, la media aritmética y la
desviación estándar, en la tabla de la página siguiente se disponen algunos de los cálculos
requeridos. Para encontrar los cuartiles se debe empezar por determinar las posiciones de los
cuartiles las cuales resultan de calcular N/4 = 59/4 = 14,75 y 3N/4 = (3x59)/4 = 44,25.
Entonces, aplicando la fórmula general dada en el ejercicio 26 del capítulo anterior, para
establecer el valor de un cuantil i, tomando s = 3, es decir:
i⋅N
−F
+ s
i −1
Ci (s) = L ⋅ a para i = 1, 2, …, s-1.
i −1 f i
i

- 116 -
donde Li-1, fi y ai designa el límite inferior, la frecuencia absoluta y la amplitud del intervalo,
respectivamente, de la clase a la que pertenece el cuantil y Fi-1 la frecuencia acumulada
absoluta de la clase anterior a ella. Así se obtiene
14,75 − 14 44,25 − 32
Q = −2 + × 2 = −1,971 y Q = 0 + × 4 = 2,882
1 18 3 17

2
Temperatura (º
(ºC) fi xi Fi xi∙fi ( xi – x )2∙fi
[-12, -8) 2 -10,0 2 -20 201,36
[-8, -5) 4 -6,5 6 -26 170,77
[-5, -2) 8 -3,5 14 -28 99,91
[-2, 0) 18 -1,0 32 -18 19,24
[0, 4) 17 2,0 49 34 65,71
[4, 6) 6 5,0 55 30 147,97
[6, 8) 3 7,0 58 21 145,58
[8, 10] 1 9,0 59 9 80,39
Total 59 2 930,93

La media aritmética de la temperatura es 2/59 = 0,034 ºC, la varianza se obtiene de 930,93/59 =


15,78, y la desviación estándar se obtiene al sacar la raíz cuadrada a este número dando 3,972.
ºC. De lo anterior se llega a que el coeficiente de variación cuartílica es:
Q −Q 2,882 − ( −1,971)
V = 3 1
= = 4,973
Q Q +Q 2,882 + ( −1,971)
3 1
Mientras que el coeficiente de variación de Pearson da:
S 3,972
V = = ≅ 117,17 = 11, 71%
x x 0,034
Como se puede notar, el valor del coeficiente de variación de Pearson resulta muy
distorsionado debido a la proximidad de la media aritmética al valor cero. En este caso resulta
más razonable utilizar el coeficiente de variación cuartílica.
Ahora bien, cuando se cambia la escala de los datos aplicando la relación ºF = 32 + 9/5xºC, se
obtiene la siguiente tabla de frecuencias.

Temperatura (º
(ºF) fi xi Fi xi∙fi ( xi – x )2∙fi
[10,4; 17,6) 2 14,0 2 28,0 652,40
[17,6; 23,0) 4 20,3 6 81,2 553,29
[23,0; 28,4) 8 25,7 14 205,6 323,70
[28,4; 32,0) 18 30,2 32 543,6 62,34
[32,0; 39,2) 17 35,6 49 605,2 212,91
[39,2; 42,8) 6 41,0 55 246 479,43
[42,8; 46,4) 3 44,6 58 133,8 471,68
[46,4; 50,0] 1 48,2 59 48,2 260,47
Total 59 1891,6 3016,22

Ahora los cuartiles inferior y superior vienen dados por

- 117 -
14,75 − 14 44,25 − 32
Q = 28,4 + × 3,6 = 28,55 y Q = 32 + × 7,2 = 37,19
1 18 3 17

Con estos resultados se obtiene el coeficiente de variación cuartílica y el coeficiente de


variación de Pearson así:
37,19 − 28,55
V = = 0,131 = 13,1%
Q 37,19 + 28,55

3016,22
59
V = ≅ 0,223 = 22,3%
x 1891,6
59

En este caso con ambos coeficientes se manifiesta una baja dispersión relativa, siendo el
coeficiente de variación de Pearson más fiable que el de la variación cuartílica, dado que el
primero tiene en cuenta toda la información de los datos, mientras que el segundo solamente
la posición ordenada de los valores de los datos.

Ejemplo 6. Pesos de dos grupos de estudiantes.


estudiantes.
El médico de un colegio tiene registro las medias aritméticas y de las varianzas de los pesos de
dos grupos A y B que se muestran en la siguiente tabla:

Grupo Media Varianza


A 64 kg 1 ,4 kg2
B 68 kg 1,1 kg2

a) Si se sabe que la media aritmética de los dos grupos es 67, ¿en qué proporción están los
tamaños de los dos grupos A y B?
b) ¿Cuál es la varianza conjunta de los dos grupos?

Discusión.
Discusión Suponga que NA y NB son los tamaños de la muestras de los grupos A y B. Como 67
corresponde a la media ponderada de las medias de los grupos A y B, se puede plantear que:
N ⋅ 64 + N ⋅ 68
67 = A B
N +N
A B
De donde se tiene que 67∙( NA + NB) = 64∙NA + 68∙NB, entonces (67 – 64)∙ NA = (68 – 67)∙ NB;
que es lo mismo que 3∙NA = NB. Es decir, NA y NB están en proporción de uno a tres.
Para encontrar la varianza ponderada se requiere realizar un poco de álgebra. Supóngase que
xi, x2, …, xNA, x y S2x son los pesos del grupo A, su media y su varianza, respectivamente, y que
yi, y2, …, yNB, y y S y2 los pesos, la media y la varianza relativas al grupo B. Si z y S2z
representa la media y la varianza del grupo completo se tiene que:

- 118 -
1 N A
N B 
S2z = 

N A + N B  i =1
(x i − z)2 + ∑
(y i − z)2  =

 i =1 

1  NA NB 
= 
N A + NB  ∑ ((x i − x) + (x − z))2 + ∑ ((y i − y) + (y − z))2 

 i =1 i =1 

1  NA NA NA 
= 
N A + NB  ∑ 2
(x i − x) + 2(x − z) ⋅ ∑ (x i − x) + ∑ (x − z)2  +

 i =1 i =1 i =1 

1 N B
NB NA 

∑ (y − y)2 + 2(y − z) ⋅
N A + N B  i =1 i ∑ (y i − y ) + ∑ (y − z)  2

 i =1 i =1 

NA NB

Pero dado que ∑i =1


(x i − x) = ∑ (y − y) = 0, entonces se tiene que:
i =1
i

1  NA  1  NB 
S2z = 
N A + NB  ∑ (x i − x)2 +N A (x − z)2  + 
 NA + NB  ∑ (y i − y)2 +N B (y − z)2 

 i =1   i =1 

NA  1 NA  1  NB
NB 
= 
N A + NB  N A ∑ 2
(x i − x) +(x − z) + 
 N A + NB  NB
2
∑ (y i − y )2 +(y − z)2 

 i =1   i =1 
NA NB
= S2 + (x − z)2  + S2 + (y − z)2 
N A + NB  x  N +N  y
A B

N A S2x + (x − z)2  + N B S2y + (y − z)2 


Por lo tanto S2z =    
NA + NB

Reemplazando los datos de medias y varianzas dados en el enunciado y expresando NB en


términos de NA se obtiene:

N A 1,4 + (64 − 67)2  + 3N A 1,1 + (68 − 67)2 


S2z =     = 4,175
N A + 3N A

Observe que aunque las varianzas de cada grupo son relativamente pequeñas, la del grupo en
conjunto es casi cuatro veces más grande. Esto pone de manifiesto una diferencia significativa
entre los valores de las medias de cada grupo.

Ejemplo 7. Pesos de bebes y estatura de adultos.


adultos.
Como parte de un estudio médico, investigadores de la salud quieren establecer y comparar la
variación de los pesos de una muestra de 500 bebes, respecto de la variación de las estaturas
de una muestra de 500 adultos. Los datos recogidos se presentan en la siguiente tabla.

- 119 -
Peso en kilogramos fi Estatura en centímetros fi
[2,6; 2,8) 5 [130; 140) 3
[2,8; 3,0) 10 [140; 150) 10
[3,0; 3,2) 40 [150; 160) 65
[3,2; 3,4) 55 [160; 170) 170
[3,4; 3,6) 160 [170; 180) 210
[3,6; 3,8) 110 [180; 190) 36
[3,8; 4,0) 90 [190; 200) 5
[4,0; 4,2] 30 [200; 210] 1
Total 500 500

Compare la dispersión relativa de ambas distribuciones y comente sobre la fiabilidad de los


coeficientes considerados.

Discusión.
Discusión Primero se considera la muestra de pesos de los 500 bebes. En la siguiente tabla se
disponen los cálculos requeridos, para estimar diferentes medidas de dispersión.
2
Peso en kilogramos fi xi Fi xi∙fi ( xi – x )2∙fi
[2,6; 2,8) 5 2,7 5 13,5 3,85
[2,8; 3,0) 10 2,9 15 29,0 4,60
[3,0; 3,2) 40 3,1 55 124,0 9,14
[3,2; 3,4) 55 3,3 110 181,5 4,25
[3,4; 3,6) 160 3,5 270 560,0 0,97
[3,6; 3,8) 110 3,7 380 407,0 1,64
[3,8; 4,0) 90 3,9 470 351,0 9,33
[4,0; 4,2] 30 4,1 500 123,0 8,17
Total 500 1789,0 42,0

De los resultados de la tabla anterior tenemos que la media aritmética es 1789/500 = 3,578, la
varianza es 42/500 = 0,0839 de donde la desviación estándar es 0,29.
Para determinar el valor de los cuartiles se utiliza la misma expresión utilizada en el Ejemplo 5
de este capítulo. Entonces:

125 − 110
Q = 3,4 + × 0,2 = 3,418kg
1 160
250 − 110
Q = 3,4 + × 0,2 = 3,575kg
2 160
375 − 270
Q = 3,6 + × 0,2 = 3,791Kg
3 110

Con estos resultados ya se pueden establecer las siguientes medidas de dispersión relativa:
x −x
relativo A = máximo
Recorrido relativo: mínimo = 4,2 − 2,6 = 0,4471
r x 3,578

- 120 -
Q −Q 3,791 − 3, 418
cuartílica V = 3 1 =
Coeficiente de variación cuartílica: = 0,0517
Q Q3 + Q1 3,418 + 3,791

Q3 − Q1 3,791 − 3,418
Intervalo intercuartílico relativo:
relativo I = = = 0,1043
Q Me 3,575

Q3 − Q1 3,791 − 3,418
Desviación cuartílica relativa:
relativa D = = = 0,0521
Q 2 ⋅ Me 2 × 3,575
S 0,29
Coeficiente de variación de Pearson:
Pearson CVx = = = 0,081
X 3,57
S 0,29
Coeficiente de variación mediana:
mediana V = = = 0,0811
Me Me 3,575
Ahora se pasa a considerar las estaturas de los 500 adultos. En la siguiente tabla se presentan
los cálculos preliminares.

2
Estatura en centímetros fi xi Fi xi∙fi ( xi – x )2∙fi
[130; 140) 3 135 3 405 3496,62
[140; 150) 10 145 13 1450 5827,40
[150; 160) 65 155 78 10075 12996,07
[160; 170) 170 165 248 28050 2913,73
[170; 180) 210 175 458 36750 7211,32
[180; 190) 36 185 494 6660 9055,43
[190; 200) 5 195 499 975 3343,70
[200; 210] 1 205 500 205 1285,94
Total 500 84570 46130,20

De los resultados de la tabla anterior tenemos que la media aritmética es 84.570/500 =


3.169,14, la varianza es 46.130,2/500 = 92,26 de donde la desviación estándar es 9,61.
Para determinar el valor de los cuartiles se vuelve a utilizar la fórmula dada en el Ejemplo 5 de
este capítulo. Entonces:

125 − 78
Q = 160 + × 10 = 162,764cm
1 170
250 − 248
Q = 170 + × 10 = 170,095cm
2 210
375 − 248
Q = 170 + × 10 = 176,047cm
3 110

Entonces las medidas de dispersión relativa son:


x −x
relativo A = máximo
Recorrido relativo: mínimo = 210 − 130 = 0,473
r x 169,14
Q −Q 176,05 − 162,76
cuartílica V = 3 1 =
Coeficiente de variación cuartílica: = 0,039
Q Q3 + Q1 176,05 + 162,76

- 121 -
Q3 − Q1 13,283
Intervalo intercuartílico relativo:
relativo I = = = 0,0781
Q Me 170,095
Q3 − Q1 0,0781
Desviación cuartílica relativa:
relativa D = = = 0,039
Q 2 ⋅ Me 2
S 9,67
Coeficiente de variación de Pearson:
Pearson CVx = = = 0,0568
X 169,14
S 0,29
Coeficiente de variación mediana:
mediana V = = = 0,0562
Me Me 3,575

A manera de resumen se organizan todos los resultados en la siguiente tabla:

Medidas de dispersión relativa


relativa Pesos Estaturas
Recorrido relativo 0,447 0,473
Coeficiente de variación cuartílica 0,051 0,039
Intervalo intercuartílico relativo 0,104 0,078
Desviación cuartílica relativa 0,052 0,039
Coeficiente de variación de Pearson 0,081 0,057
Coeficiente de variación mediana 0,081 0,056

En la tabla anterior se puede observar, en términos generales, que hay una dispersión relativa
moderadamente mayor en los datos que corresponden a la columna de los pesos de los
bebes. Por otra parte, la discrepancia del valor del recorrido relativo ejemplifica la escasa
fiabilidad de estas medidas en las comparaciones.

Ejemplo 8. Tiempo de atención en un hospital.


hospital.
En un hospital se ha llevado el registro, sobre el tiempo de espera para ser atendidos, de los
últimos 320 pacientes que han acudido a la unidad de atención de urgencias. Los datos se
presentan en la siguiente tabla:

Tiempo de espera fi
[0; 5) 3
[5;10) 31
[10; 15) 102
[15; 20) 63
[20; 25) 54
[25; 30) 43
[30; 35) 12
[35; 40) 6
[40; 45) 5
[45; 50] 1
Total 320

- 122 -
Determine la media aritmética y la mediana de esta distribución de datos y mida la dispersión
de los datos en torno a estas estimaciones de tendencia central.

Discusión.
Discusión Para empezar vale la pena recordar que la representatividad de la media se debe
evaluar con la desviación estándar, mientras que la de la mediana es preferible evaluarla con
base en la desviación media respecto a la mediana. En la tabla que sigue se presentan los
primeros cálculos para hallar los valores de las estimaciones requeridas.

2
Tiempo de espera fi xi Fi xi∙fi ( xi – x )2∙fi | xi – x |∙fi | xi –Me|
Me|∙fi
[0; 5) 3 2,5 3 7,5 759,03 14,4 43,2
[5;10) 31 7,5 34 232,5 3687,33 9,4 291,4
[10; 15) 102 12,5 136 1275,0 3558,15 4,4 448,8
[15; 20) 63 17,5 199 1102,5 51,74 0,6 37,8
[20; 25) 54 22,5 253 1215,0 904,97 5,6 302,4
[25; 30) 43 27,5 296 1182,5 3555,94 10,6 455,8
[30; 35) 12 32,5 308 390,0 2383,61 15,6 187,2
[35; 40) 6 37,5 314 225,0 2187,43 20,6 123,6
[40; 45) 5 42,5 319 212,5 2902,54 25,6 128,0
[45; 50] 1 47,5 320 47,5 846,45 30,6 30,6
Total 320 5890 20837,19 2048,8

La media aritmética se obtiene como 5890/320 = 18,41 minutos. Para obtener la mediana,
primero ubicamos la posición la calcular N/2 = 320/2 = 160; entonces la mediana es Me =15 +
[(160-136)/63]x5 = 16,9 minutos. Para la obtención de la desviación estándar, se le saca la raíz
cuadrada a la varianza dada por 20.837, 19/2 = 65,11, para obtener 8,06 minutos. Y en cuanto
a la obtención de la desviación media respecto a la mediana resulta de 2.048,8/320 = 6,4
minutos.
El valor de la desviación estándar en relación con el de la media aritmética es 2,28 veces
menor que la media aritmética, mientras que en el caso de la desviación media respecto a la
mediana es de 2,64 veces menor que la mediana. Como hay una diferencia de (2,64-2,28) =
0,36, bajo el criterio mencionado antes, es preferible utilizar la mediana. Sin embargo, el valor
un poco más alto de la media aritmética advierte que hay algunos pocos pacientes que tienen
que esperar tiempos muy grandes.

Ejemplo 9.
9. Variaciones en la crianza de animales.
Se tienen dos zoocriaderos de iguanas, cada uno con 200 iguanas. En el zoocriadero A los
animales son alimentados con una mezcla de sorgo-yerbas-harina de plátano, mientras que
los animales del zoocriadero B son alimentados con una mezcla de maíz-yerbas-harina de
yuca. Estas diferencias en la alimentación han acarreado desarrollos desordenados en las
iguanas. Dos empleados, Anatoly y Boris, son encargados de observar, medir y clasificar los
animales. Anatoly se encargó del zoocriadero A y Boris del zoocriadero B. Los empleados
entregaron las siguientes tablas:

- 123 -
Peso (lb) Cantidad Longitud (cm) Cantidad
[1.5-2.0) 15 [35.5-44.0) 45
[2.0-2.5) 20 [44.0-52.5) 35
[2.5-3.0) 25 [52.5-61.0) 30
[3.0-3.5) 30 [61.0-69.5) 30
[3.5-4.0) 30 [69.5-78.0) 25
[4.0-4.5) 35 [78.0-86.5) 20
[4.5-5.0) 45 [86.5-95.0) 15

De acuerdo al coeficiente de variación, ¿en cuál de los dos zoocriaderos se presenta mayor
desorden en el desarrollo de los animales?

Discusión. Vale aclarar que para comparar la dispersión de dos conjuntos de datos en
donde se manejen diferentes unidades de medidas, se debe usar el coeficiente de
dispersión de Pearson. Como los datos están agrupados y las variables son continuas
se requieren las marcas de clases, las cuales aparecen en las siguientes tablas para los
diferentes intervalos de clases.

Peso (lb) Cantidad Marcas Longitud (cm) Cantidad Marcas


[1.5-2.0) 15 1.75 [35.5-44.0) 45 39.75
[2.0-2.5) 20 2.25 [44.0-52.5) 35 48.25
[2.5-3.0) 25 2.75 [52.5-61.0) 30 56.75
[3.0-3.5) 30 3.25 [61.0-69.5) 30 65.25
[3.5-4.0) 30 3.75 [69.5-78.0) 25 73.75
[4.0-4.5) 35 4.25 [78.0-86.5) 20 82.25
[4.5-5.0) 45 4.75 [86.5-95.0) 15 90.75

Sea P la variable Peso (en libras) y L la variable longitud (en centímetros). Si fk y Mk son las
k=7

∑f M k k
frecuencias absolutas y las marcas de clases, respectivamente, entonces P = k =1
= 3.5625
200
k=7

∑f M k k
y L= k =1
= 59.9375 son las medias aritméticas de las variables P y L.
200

- 124 -
k =7
2

∑ f (M k k
−P )
Las varianzas de las variables P y L son SP2 = k =1
= 0.92109375 y
200
k =7 2

∑ ( fk M k − L )
SL 2 = k =1
= 266.196094 , y las desviaciones estándar son SP=0.9597 y SL=16.3155. Por
200
SP SL
lo tanto, los coeficientes de variación son CVP = = 0.26939 y CVL = = 0.27221 , para las
P L
variables P y L respectivamente.
Como se puede apreciar, los desarrollos han sido muy similares en los dos conjuntos de datos,
presentándose ligeramente mayor variación en el zoocriadero de Boris.

Ejemplo 10. La recta


recta que mejor se ajusta.
Se tienen diez puntos y dos rectas. Los puntos son A(1,4), B(2,2), C(3,5), D(4,3), E(5,6), F(6,4),
G(7,6), H(8,4), J(9,8) y K(10,4). Las ecuaciones de las rectas son -4x+15y=45 y -4x+15y=47.
¿Cuál de las dos rectas se ajusta mejor al conjunto de puntos?
Discusión. Una manera de determinar cuál de las dos rectas se ajusta mejor al conjunto de
puntos es considerar las distancias verticales entre los puntos y cada una de las rectas, y luego
calcular la varianza o desviación estándar de estas distancias para cada recta. Por ejemplo, la
distancia vertical entre un punto P(x1,y1) y una recta con ecuación y=mx+b es mx 1 + b − y1 .
Al conjunto de distancias se le calcula la media aritmética y finalmente se calcula la desviación
estándar. El conjunto de distancias con menor dispersión corresponde a las distancias de la
recta que mejor se ajusta, la cuál es la recta “más cercana” al conjunto de puntos.
45 + 4x 47 + 4x
A continuación se presentan estos cálculos para las rectas y1 = y y2 = .
15 15

- 125 -
k =7

∑ Y1 k
− Yk
La media aritmética de las distancias Y1k − Yk es Y1 = k =1
= 1.333 ;
10
k =7
2

∑ Y1 − Y k
La varianza de las distancias Y1k − Yk es S2 (Y1) = k =1
= 0.293 y la desviación estándar
10
es S(Y1)=0.542.

k =7

∑ Y2 k
− Yk
La media aritmética de las distancias Y2k − Yk es Y2 = k =1
= 1.333 ;
10
k=7
2

∑ Y2 − Y k
La varianza de las distancias Y2k − Yk es S2 (Y2) = k =1
= 0.276 y la desviación estándar
10
es S(Y2)=0.525.

Al comparar las dispersiones se concluye que la recta que mejor se ajusta al conjunto de
puntos es -4x+5y=47.
.
.

- 126 -
5.16 Ejercicios.
1. A continuación se presenta la información dada por diez estudiantes con respecto a la
distancia, medida en cuadras, del lugar en donde ellos viven, al colegio en donde
estudian.

40 50 30 45 45 48 35 60 36 10

a) ¿Con qué medidas estadísticas se puede resumir la distancia que tiene que recorrer un
estudiante para ir de su hogar al colegio? ¿Alguna de esas medidas es más apropiada?
Explique.
b) ¿Con base en qué medida estadística se puede resumir la variabilidad de las distancias
recorridas por los estudiantes? ¿Alguna de esas medidas es más apropiada? Explique.
c) ¿Qué representaciones gráficas se podrían utilizar para ilustrar la situación? ¿Alguna de
esas representaciones gráficas es más apropiada? Explique.
2. La siguiente información presenta los datos en miles de pesos de los salarios de secretarias
que trabajan en cuatro empresas diferentes:

Empresa 1: 350 400 350 2100


Empresa 2: 350 400 350 400 550
Empresa 3: 350 350 350 350 1300
Empresa 4: 300 400 500 600 700 800

¿Con qué medidas estadísticas de tendencia central y de dispersión sería apropiado


resumir el comportamiento de los salarios de las secretarias de cada una de las empresas
anteriores?.
3. Construya un conjunto de diez datos que tenga un promedio de 39.9 y una desviación
estándar de 0.
4. Proponga tres conjuntos, cada uno de 10 datos que satisfagan las siguientes condiciones:
promedio 6 y desviación estándar 1; promedio 10 y desviación estándar 1; promedio 7 y
desviación estándar 2.
5. Construya un conjunto de diez datos con las siguientes características: promedio 39.9; que
todos los datos sean diferentes; y que la distancia entre cualquier par de datos contiguos,
una vez ordenados de manera ascendente o descendente, sea la misma. Con respecto al
valor de la desviación estándar que se obtuvo con los datos iniciales del ejercicio 1, ¿qué
relación de orden espera encontrar entre las desviaciones estándar correspondientes a la
distribución del ejercicio 1 y a la que acaba de construir? ¿qué efecto puede tener sobre la
desviación el aumentar o disminuir la distancia entre los datos?
6. Construya un conjunto de diez datos con las siguientes tres características: promedio de
39.9; que los datos contengan sólo dos valores diferentes, y tal que los dos valores
diferentes ocurran con distinta frecuencia. Bajo las condiciones anteriores, intente
establecer una relación entre los dos valores de frecuencias de los datos y las dos
distancias de los datos al promedio.

- 127 -
7. A continuación se presenta la representación gráfica de un par de distribuciones:

1 2 3 4 1 2 3 4

¿Cuál de las dos distribuciones le parece que es más dispersa? ¿Qué efecto puede tener
sobre los valores de las medidas de dispersión, el que las frecuencias de los valores de las
distribuciones anteriores se cambien pero manteniéndose la misma relación de 3 a 1 que
se insinúa en las gráficas?
8. Construya un conjunto de diez datos con las siguientes tres características: promedio de
39.9; que los datos contengan sólo dos valores diferentes, y tal que los dos valores
diferentes ocurran con igual frecuencia. Luego calcule el rango y la desviación estándar.
Luego, proponga otros conjuntos que satisfagan las mismas condiciones anteriores y trate
de identificar un patrón de relación entre la desviación estándar y el rango.
9. Construya dos nuevos conjuntos de datos U y V, que satisfagan simultáneamente la
siguientes condiciones: la desviación estándar de los elementos de U debe ser mayor que
la desviación estándar de los elementos de V, el rango de los elementos de U debe ser
menor que el rango de los elementos de V.
10. En un zoocriadero destinado a la cría de chigüiros se ha descuidado la alimentación de
estos animales y se ha presentado un desarrollo inesperado. Se han clasificado los
animales en 10 grupos, teniendo en cuenta sus pesos en kilogramos. La siguiente tabla
muestra la cantidad de animales en cada categoría de pesos:

Cantidad de
Pesos
animales
35.00 - 40.00 20
40.10 - 45.00 25
45.10 - 50.00 30
50.10 - 55.00 10
55.10 - 60.00 15
60.10 - 65.00 20
65.10 - 70.00 25
70.10 - 75.00 35
75.10 - 80.00 10
80.10 - 85.00 10

a) Calcule la media y la desviación estándar para estos datos y evalúe la


representatividad de la media como medida de tendencia central, ¿Será preferible la
mediana?

- 128 -
b) Verifique la versión frecuencial de la desigualdad de Tchevichev para los casos de
una desviación respecto a la media y dos desviaciones respecto a la media
11. En un colegio, los estudiantes de grado 10 se repartes en cuatro grupos {A, B, C, D} de
igual cantidad de estudiantes para las asignaturas no deportivas. Se practica el examen
final de física. La siguiente tabla muestra las calificaciones obtenidas por los estudiantes en
cada grupo:

12 56 36 52 52 57 43 35 50 31 38
A 72 67 31 51 66 53 52 61 60 38 63
45 77 24 52 51 35 49 43 90 54 46
52 77 45 49 57 66 67 61 50 68 49
B 64 66 46 68 57 52 63 50 59 47 52
64 46 12 66 79 62 29 50 45 39 73
33 34 49 36 55 60 57 54 45 47 69
C 84 56 39 52 88 36 60 61 54 65 47
52 42 56 25 37 46 57 65 65 63 52
56 70 38 69 57 60 82 66 25 58 58
D 61 53 44 74 73 60 23 50 33 51 55
33 61 62 71 56 77 77 46 57 39 49

a) ¿Qué porcentaje x de las notas de los estudiantes satisface las desigualdades?


(I) x − σ < x < x + σ (II) x − 2σ < x < x + 2σ (III) x − 3σ < x < x + 3σ
b) ¿En cuál de las asignaturas se presenta mayor dispersión?
12. Como parte de un programa de control de calidad en la producción de baterías para usar
en diferentes aparatos eléctricos, se someten a una prueba de duración 64 baterías de tipo
A y 105 baterías de tipo B, provenientes de dos fabricantes diferentes. Los resultados
obtenidos se organizan en la siguiente tabla:

Tiempo de duración Tipo


Tipo A Tipo B
(en días) (frecuencia) (frecuencia)
[90; 120) 6 7
[120; 150) 9 12
[150; 180) 18 31
[180; 210) 21 29
[210; 240) 7 22
[240; 270) 3 4

a) Compare la variabilidad de ambas distribuciones de datos en términos de


coeficientes de dispersión relativa.
b) Comente acerca de la fiabilidad de los coeficientes que fueron considerados en el
literal anterior.
13. Un examen de Cálculo se aplicó a los cuatro grupos de grado 11 de una institución. En la
siguiente tabla se presentan las frecuencias absolutas.

- 129 -
Calcular para cada grupo el Coeficiente de Variación de Pearson y ordénelos de menor a
mayor grado de heterogeneidad.
14. En un zoocriadero destinado a la cría de chigüiros para exportación se ha descuidado la
alimentación de los animales y se ha presentado un desarrollo inesperado en estos. Se han
clasificado los animales en 10 grupos, teniendo en cuenta sus pesos en kilogramos. La
siguiente tabla muestra la cantidad de animales en cada categoría de pesos:

Cantidad de
Pesos
animales
35.00 - 40.00 20
40.10 - 45.00 25
45.10 - 50.00 30
50.10 - 55.00 10
55.10 - 60.00 15
60.10 - 65.00 20
65.10 - 70.00 25
70.10 - 75.00 35
75.10 - 80.00 10
80.10 - 85.00 10

a) Calcule la media y la desviación estándar para estos datos y evalúe la


representatividad de la media como medida de tendencia central, ¿Será preferible la
mediana?
b) Verifique la versión frecuencial de la desigualdad de Tchevichev para los casos de
una desviación respecto a la media y dos desviaciones respecto a la media

- 130 -
15. Se tienen dos zoocriaderos (A y B) de iguanas, cada uno con 200 iguanas. En el
zoocriadero A los animales son alimentados con una mezcla de sorgo-yerbas-harina de
plátano, mientras que los animales del zoocriadero B son alimentados con una mezcla de
maíz-yerbas-harina de yuca. Estas diferencias en la alimentación han producido
desarrollos desordenados en las iguanas. Dos empleados, Anatoly y Boris, son encargados
de observar, medir y clasificar los animales. Anatoly se encargó del zoocriadero A y Boris
del zoocriadero B. Desafortunadamente Anatoly tomó los pesos y Boris tomó la longitud
nariz-cola, y con eso entregaron las siguientes tablas:

De acuerdo al coeficiente de variación, ¿en cuál de los dos zoocriaderos se presenta


mayor desorden en el desarrollo de los animales?
16. El siguiente diagrama representa la distribución de frecuencias de los valores de una
variable continua X. Calcule el coeficiente de variación de Pearson.

25

20
20

15
15

10 10 10
10

5 5 5
5

0
[ 00 , 10 ) [ 10 , 20 ) [ 20 , 30 ) [ 30 , 40 ) [ 40 , 50 ) [ 50 , 60 ) [ 60 , 70 ) [ 70 , 80 ]

17. La serie final de un campeonato de béisbol fue disputada por los equipos A y B, durante la
temporada en cada equipo participaron 40 jugadores. Al final de la serie se contabilizaron
los batazos de hit conectados por los dos equipos y se construyeron las distribuciones que
se muestra en las siguientes tablas:

- 131 -
Equipo A Equipo B
Hits Jugadores Hits Jugadores
100-125 2 125-160 8
125-150 3 161-195 7
151-175 5 196-230 5
176-200 1 231-265 6
201-225 9 266-270 4
226-250 8 271-305 5
251-275 7 306-340 3
275-300 5 341-375 2

¿En cuál de los dos equipos el ritmo de bateo fue más homogéneo durante la temporada?

18. Un juego consiste en lanzar cinco dados, apostar $1000 y ganar $1000 por cada “cinco”
que aparezca, es decir, si le salen n cincos se gana 1000n pesos. Otro juego consiste en
lanzar seis dados, apostar $1250 y ganar $1250 por cada “cinco” que aparezca, es decir, si
le salen n cincos se gana 1250n pesos. En ambos juegos, si al jugador no le sale el número
apostado, entonces pierde el doble del dinero apostado. ¿En cual de los dos juegos varía
en mayor grado la ganancia?
19. En un salón de juegos se encuentran dos objetos (A y B) de tiro al blanco, los cuales están
formados por 5 círculos concéntricos de radios 10 cm, 20 cm, 30 cm, 40 cm y 50 cm. Un
hombre que dispara al blanco en el objeto A recibe 50 puntos, 40 puntos, 30 puntos, 20
puntos o 10 puntos, según pegue en la zona 1 (círculo pequeño), zona 2, zona 3, zona 4 o
zona 5 (anillos circulares). Un hombre que dispara al blanco en el objeto B recibe 45
puntos, 40 puntos, 35 puntos, 30 puntos o 20 puntos, según pegue en la zona 1 (círculo
pequeño), zona 2, zona 3, zona 4 o zona 5 (anillos circulares). La probabilidad de que el
disparo haga contacto con cualquiera de las 5 zonas del blanco es 1/3, y la probabilidad
de no dar en el blanco es 2/3. Si X se define como el puntaje ganado por jugador que
dispara en el objeto A, y Y se define como el puntaje ganado por un jugador que dispara
en el objeto B, ¿En cuál de los dos objetos hay mayor variabilidad en las ganancias
obtenidas??
20. Un embarque de 20 computadoras similares que se envía a un distribuidor contiene 8
aparatos defectuosos. Una escuela escoge aleatoriamente 10 de estas computadoras y las
compra. Se define la variable aleatoria X como el número de computadoras defectuosas
entre las computadoras compradas. ¿Cuál es la varianza de la variable X?

- 132 -

Vous aimerez peut-être aussi