Vous êtes sur la page 1sur 139

Roberto Behar Gutirrez

Mario Yepes Arango






Estadstica
Un Enfoque Descriptivo.

Tercera Edicin



Santiago de Cali, Colombia, Enero de 2007.

Estadstica,UnEnfoqueDescriptivo
ISBN9586700682
RobertoBeharG.1996,2007
MarioYepesA.

Tel:57233349035723212167
FAX5723398462
emailrobehar@univalle.edu.co
robehar@yahoo.com

TalleresGrficos
DeImpresoraFERIVAS.A.
Cali,Colombia





Prlogo

Roberto Behar y Mario Yepes

El gran mrito de la Estadstica como disciplina, es proporcionar las herramientas
necesarias para obtener conclusiones sobre una poblacin, a partir de una observacin de tan slo
una muestra de la misma. La incertidumbre inherente al proceso de generalizacin es estudiada y
medida con base en la teora de la probabilidad la cual permite tener la informacin acerca de la
confianza asociada con las conclusiones resultantes de la inferencia realizada.
Existen varias maneras de adquirir el conocimiento de los instrumentos que proporciona la
inferencia estadstica y la habilidad para su aplicacin; una de ellas, la tradicional consiste en
estudiar en primer lugar, la teora de la probabilidad y enseguida estudiar la inferencia estadstica
propiamente dicha; este es el enfoque que involucran la casi totalidad de los libros que circulan
en nuestro mercado.
Una segunda manera de visualizar el proceso de aprendizaje, consiste en el desarrollo de una fase
exploratoria de los datos que constituyen una muestra o una poblacin si fuera el caso. En esta
fase se trata de definir algunos indicadores de rasgos del conjunto que constituye la muestra y
luego de procesar los datos, obtener ideas sobre sus propiedades y posiblemente establecer
algunas hiptesis sobre el comportamiento de estos rasgos, o sus relaciones en la poblacin.
En esta fase se produce la maduracin de muy buena parte de los conceptos bsicos que es
necesario estudiar con todo el rigor, no slo en la etapa de inferencia estadstica, sino
previamente en el estudio de la teora de la probabilidad; as por ejemplo se trabaja con la funcin
Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

8
emprica de densidad de frecuencia, haciendo clculos con base en datos; la generalizacin de
este concepto constituye la funcin de densidad de probabilidad de una variable aleatoria. Anlo-
gamente se tratan los conceptos de frecuencias condicionales, de funciones empricas de densidad
conjunta, de independencia estadstica, cuya prolongacin conceptual al hacer referencia a la
poblacin, concluye en lo que representan respectivamente, la probabilidad condicional, las
funciones de densidad conjunta de probabilidad y la independencia probabilistica entre variables
aleatorias.
Con lo anterior no se pretende desconocer que la teora de la probabilidad puede desarrollarse
exclusivamente con base a su estructura axiomtica y sin apoyo intuitivo alguno. No obstante, los
autores del presente texto, visualizan la teora de la probabilidad como un instrumento de apoyo
que permite el desarrollo de la Estadstica para su aplicacin; en este sentido, acompaar los tra-
tamientos rigurosos de la probabilidad y la inferencia estadstica con una visin intuitiva basada
en la manipulacin de datos obtenidos de procesos reales, cobra una gran importancia desde el
punto de vista de la aplicabilidad de las herramientas tericas que se estudien. Por tanto esta
primera fase-objeto de este texto constituye un enfoque descriptivo que enriquece los elementos
que permiten interpretaciones intuitivas, que no son un reemplazo del estudio riguroso de las
potentes herramientas estadsticas, pero si constituyen un frtil abono para su desarrollo y
motivado tratamiento.
Como esta primera fase exploratoria no involucra el tratamiento de la incertidumbre que se
genera al inferir, no se requiere del conocimiento de la teora de la probabilidad, lo cual trae la
ventaja adicional de que en caso de no terminar el proceso de estudio completo, la persona que ha
experimentado esta fase descriptiva, adquiere elementos importantes para la comunicacin de
situaciones y problemas en trminos estadsticos de tal forma que se le facilita expresar a quien
puede asesorarle lo que necesita resolver.
Este texto pretende orientar la primera fase mencionada, por tanto puede ser utilizada por algunos
investigadores que deseen hacer acopio de instrumentos de ayuda exploratoria .
Captulo 1 9

Roberto Behar y Mario Yepes
Por el contenido, por la metodologa y por el nivel de prerrequisitos puede ser usado por todos
aquellos estudiantes que vayan a introducirse en la disciplina estadstica. En algunos temas se
requiere el conocimiento de los rudimentos del clculo diferencial, aunque no son indispensables
para el entendimiento de los conceptos bsicos.
En lo que respecta a la metodologa para el logro de objetivos planteados, sta trata en lo posible
de mantener la siguiente estructura: en primer lugar el planteamiento de la situacin problema
que ser resuelta por la herramienta que se pretende presentar enseguida; luego se plantea un
ejemplo, el cual se utiliza para introducir elementos que permitirn definir la notacin simblica
y presentar para el caso concreto del ejemplo, la ilustracin de la solucin al problema general
planteado; por ltimo la presentacin general de la herramienta usando la notacin definida. Al
final de cada captulo se proponen ejercicios con el objeto de que el lector pueda evaluarse y
retomar algunos temas que no hayan quedado suficientemente entendidos.
El contenido del texto es el siguiente: el primer captulo es una introduccin, en la cual se
pretende precisar los alcances y la utilidad de la Estadstica y ubicar la temtica que trata este
trabajo, en el contexto de la metodologa estadstica.
En el segundo captulo se presenta el tratamiento de los datos provenientes de la observacin de
una caracterstica en los elementos de una muestra, definiendo algunos rasgos que pueden ser de
inters. En el tercer captulo se hace tratamiento de datos provenientes de la observacin de dos
caractersticas a cada uno de los elementos de una muestra, con el propsito de estudiar su
distribucin, indicadores de asociacin y se desarrolla el concepto de anlisis de la varianza. En
el cuarto captulo se trata el modelo de regresin simple, su construccin, su interpretacin y sus
limitaciones.
Con respecto al uso del texto en el desarrollo formal de un primer curso de Estadstica, el docente
segn los objetivos y de acuerdo con el grupo especfico de estudiantes, podr omitir o no los
Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

10
desarrollos que impliquen procedimientos matemticos que no estn al alcance de sus alumnos
o no los considere pertinentes, haciendo nfasis en la interpretacin de los resultados.
No obstante que este texto es el producto del desarrollo de nmerosos cursos, damos excusas por
los errores que pudiera presentar y agradecemos las sugerencias o rectificaciones que puedan
hacernos con el propsito de mejorarlo con base en la valiosa retroalimentacin que debe generar
su uso.

Captulo 1 11

Roberto Behar y Mario Yepes


Prlogo a la segunda edicin


Hoy despues de 10 aos de uso masivo de esta obra, que ha servido a
centenares de estudiantes de las mas variadas disciplinas que van desde los propios
estudiantes de la carrera de Estadstica de la Universidad del Valle, estudiantes de
Administracion de Empresas, Contaduria, Matemticas, Ciencias Sociales y
Econmicas y muchas ms, de casi todas las Universidades de la regin, estamos
entregando a usted, esta segunda edicion, en la que se incluyen algunas
modificaciones, resultado de las sugerencias de muchos colegas que han visto en el
texto un buen instrumento para el logro de sus objetivos.

Se han includo algunos temas nuevos, se ha profundizado y ampliado el tratamiento de otros, se
han aumentado el nmero de problemas de final de captulo y se han adicionado explicaciones a
algunos tpicos. Conscientes de la gran variedad de disciplinas que son usuarias del texto hemos
incluido una gran variedad de referencias bibliogrficas.

El gran valor del texto, continua siendo darle vida a los resultados, no quedarse en las frias cifras,
no conformarse con clculos con base en formulas. Se abunda en interpretacin, se enfatiza en
los conceptos, que es lo que garantiza en ultimas el desarrollo de criterios para enfrentar futuros
problemas y situaciones reales.
Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

12

Queremos agradecer las valiosas sugerencias de nuestros queridos colegas que durante todos
estos aos han sido usuarios de esta obra, honrando nuestro esfuerzo, sugerencias que en su
mayoria han quedado plasmadas en esta segunda edicin. Profesores como: Rafael A. Klinger A.,
Francisco A. Quiroga Z., J orge E. Delgado, J avier Olaya, J orge Payn, Robby Nelson Daz,
Hernando Solano H., Guillermo Valds, Libardo Farfn, Oscar Gamboa, J aime E. Prez, Ana
Mara Sanabria, J orge Rodrguez, Gustavo Vargas, Alexander Taborda, Marco Fidel Suarez,
Marco A. Triana, Clara Ines Perea, Antonio Escudero A., Omar Rada B., Huber Ramos, Olga
Arias, Viviana Vargas, Mercedes Andrade, William Snchez, Gabriel Conde, Edwin Rengifo,
Heberth Muriel, Reynaldo Carvajal, Hugo Hurtado, Rodrigo Izquierdo, Luis Eduardo Girn,
entre muchos otros.
Deseamos agradecer de manera muy particular al ingeniero J aime Felipe Mnera quen puso todo
su profesionalismo y su cario en el diseo de la nueva edicin.
Expresamos nuestro reconocimiento a nuestra querida ex alumna Virginia Cabrera, por la labor
de transcripcin y edicin de este libro, la cual desarroll no solo con gran profesionalismo sino
tambin con mucha tesn y gran afecto.
Agradecemos a los cientos de alumnos nuestros, muchos de los cuales son ahora profesionales de
xito, quienes compartieron en forma directa la experiencia de ingresar al mundo de la
estadstica, teniendo en muchas de sus noches este texto como interlocutor y compaero, quienes
en su momento nos hicieron notar algunos errores tipogrficos, algunos clculos errados y en no
pocas veces sesudas sugerencias.

Roberto Behar y Mario Yepes


Prlogo a la tercera edicin

Esta edicin, la tercera, resulta de la intencin de los autores de hacer pblico y disponible en la
web en forma gratuita, este libro. Por esta razn y para hacer ms agradable la lectura hemos
ampliado los espacios entre lneas.
Se ha eliminado la fe de erratas, corrigiendo los errores tipogrficos, o por lo menos
disminuyndolos.
Otro cambio de inters, Aprovechando las sugerencias de algunos colegas, entre ellos Eloina
Mesa y Vctor Gonzlez, hemos adaptado la notacin en lo relativo a la representacin de la
frecuencia relativa, cambiando la h por f , induciendo un cambio a la notacin de la
densidad de frecuencia de h
*
hacia f
*
y anlogamente la frecuencia relativa acumulada de H(x)
hacia F(x)..
Estos cambios estn ms acordes con la notacin de la mayora de los libros, haciendo a los
estudiantes ms fcil la consulta de otros libros y materiales relacionados as como tambin
empalma de manera ms natural con la notacin usada en la teora de la probabilidad para
conceptos equivalentes a los aqu desarrollados.
Tambin por sugerencia de algunos colegas que han usado el libro por muchos aos, hemos
incluido algn desarrollo que ligue el concepto de variable continua en estadstica descriptiva con
el de variable aleatoria en teora de la probabilidad, generando un puente intuitivo entre la
funcin de densidad de frecuencia relativa con la funcin de densidad de probabilidad,
relacionando tambin el rea de los rectngulos de un histograma con le rea bajo una curva y
por supuesto en su definicin operativa, las reas de rectngulos por la integral de la funcin de
14 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

densidad, haciendo natural el paso de la Funcin de Distribucin Emprica acumulada a su
homloga en probabilidad.
En el captulo 1, se ha adicionado el apartado Probabilidad, Estadstica y el Mtodo en
Ingeniera, que corresponde casi textualmente a un articulo que los profesores del rea de
estadstica de la Escuela de Ingeniera Industrial, publicamos en la revista Ingeniera y
Competitividad de la facultad de ingeniera de la Universidad del Valle.












Captulo 1


Roberto Behar y Mario Yepes

INTRODUCCION
1.1 HISTORIA DE LA PALABRA ESTADSTICA
1

En su sentido actual, las palabras estadstica y estadstico (esta ultima como sustantivo o como
adjetivo) tienen menos de un siglo de existencia, pero se emplean desde hace ms tiempo, siendo
interesante estudiar el proceso por el que han llegado a adquirir la significacin que hoy tienen.

1
Yule-Kendall: "Introduccin a la Estadstica". Editorial Aguilar. Edicin 14. 1967. Pags. 6, 7 y 8.
16 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

Las palabras estadista, estadstica, estadstico, parece que derivan ms o menos indirectamente
del latn STATUS, en el sentido adquirido en el latn medioeval, de un estado poltico.
La primera de las tres palabras citadas es mucho ms antigua que las otras dos. La palabra
estadista se encuentra, por ejemplo en "Hamlet" (1602), en "Cimbelino" (1610 1611) y en "El
paraso recobrado" (1617).
Segn parece, la palabra estadstica se emple por primera vez en "Elementos de erudicin
universal" del barn J .F. Von Bielfeld, traducido al ingls por W. Hooper M.D. (vol.3, Londres
1770), uno de sus captulos se titula "estadstica" y en l se define sta como "La ciencia que nos
ensea la situacin poltica de los estados modernos del mundo conocido". La palabra
estadstica aparece de nuevo con una definicin quizs ms amplia, en el prefacio de "Una visin
poltica del estado actual de Europa" por E.A.W. Zimmermann publicada en 1787.
"Hace aproximadamente cuarenta aos -dice Zimmermann- que esta rama del conocimiento
poltico, que tiene por objeto estudiar la potencia real y relativa de los distintos estados
modernos, de la capacidad derivada de sus condiciones naturales, la industria y la civilizacin de
sus habitantes y la sabidura de sus gobernantes, se ha constituido, principalmente por parte de
los escritores alemanes, en una ciencia independiente... por la forma mas conveniente que ahora
ha tomado... esta ciencia conocida por el recin inventado nombre de estadstica, ha llegado a ser
un estudio favorito en Alemania" ; y el adjetivo aparece tambin: "A los diversos artculos
contenidos en esta obra, algunos acreditados escritores estadsticos han aadido un resumen de
las principales pocas de la historia de cada pas".
En pocos aos estos vocablos fueron aceptados por diversos escritores, especialmente por Sir
J ohn Sinclair, el editor y organizador de la primera "Informacin estadstica de Escocia" al cual
se ha atribuido frecuentemente su introduccin. En la carta circular dirigida al clero de la iglesia
de Escocia en mayo de 1790, indica que en Alemania las llamadas "investigaciones estadsticas"
han alcanzado gran extensin, y aade una nota explicativa de la frase "investigaciones
Captulo 1 17
Roberto Behar y Mario Yepes
estadsticas" "investigaciones relativas a la poblacin, a las circunstancias polticas, a la
produccin de un pas y a otros asuntos de inters pblico". En la "Historia del origen y
progreso...", de la obra citada nos dice: "mucha gente se sorprendi al principio de que yo usara
las nuevas palabras estadstica y estadstico, porque suponan que nuestra propia lengua poda
expresar el mismo sentido, con algn otro trmino. Pero en el curso de un largo viaje a travs de
los pases del norte de Europa, que hice en 1786, encontr que en Alemania andaban ocupados en
una especie de investigacin poltica a la que haban dado el nombre de ESTADSTICA y
creyendo que una palabra nueva podra llamar ms la atencin pblica, resolv adoptarla y espero
que est ya completamente naturalizada e incorporada a nuestro idioma.
Esta esperanza estaba ciertamente justificada; pero la significacin de la palabra sufri un rpido
desarrollo durante el medio siglo siguiente a su introduccin.
"estadstica" (Statistik), en el sentido en que el trmino fue empleado por los escritores alemanes
del siglo XVIII, por Zimmermann y por Sir J ohn Sinclair, significaba simplemente la exposicin
de las caractersticas ms notables de un Estado, siendo la forma de exposicin casi inevitable en
aquel tiempo predominantemente verbal. La condicin y el carcter definido de los datos
numricos haban sido reconocidos en poca algo anterior -especialmente por los escritores
ingleses-, pero las cifras fidedignas eran escasas. Sin embargo, despus de comenzar el siglo XIX
fueron aumentando los datos oficiales; y en consecuencia las antiguas descripciones verbales
fueron desplazadas poco a poco por las exposiciones numricas. La Estadstica adquiri casi
insensiblemente una significacin ms estrecha a saber: la exposicin de caractersticas de un
Estado por mtodos numricos. Difcil es fijar la poca en que tal palabra adquiri este
significado cuantitativo; pero segn parece la transicin se realiz slo a medias, an despus de
la fundacin de la Royal Statistical Society en 1834. Los artculos del primer volumen del journal
aparecidos en 1838-39 son en su mayor parte de carcter numrico, pero la declaracin oficial no
hace referencia alguna al mtodo. "Podemos decir, con palabras del programa de esta sociedad,
que Estadstica es la investigacin de los hechos objeto de clculos para poner de manifiesto las
condiciones y perspectivas de la sociedad". Se reconoce sin embargo, que "el estadista prefiere
utilizar cifras y datos numricos".
18 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

Una vez realizado este primer cambio de significacin, siguieron otros. La palabra Estadstica
utilizada primero como el nombre de una ciencia, fue aplicada despus para designar las series de
cifras sobre las que aquellas operaba y as se habl de estadsticas vitales, estadsticas de
beneficencia y otras. La misma palabra se aplic luego a datos numricos similares referentes a
otras ciencias, como la Antropologa y la Meteorologa. A fines del siglo XIX hallamos
"estadsticas de nios clasificados en listos, medianos y torpes", "estadsticas de caracteres
mentales en el hombre" y hasta "un examen estadstico de las caractersticas del hexmetro de
Virgilio.
La evolucin del significado del adjetivo "estadstico" (statistical) y del nombre "estadstico"
(statician) fue naturalmente anloga.
No hace falta multiplicar los ejemplos para hacer ver que la palabra estadstica no est hoy
vinculada en forma principal a las "cosas del estado".
1.2 DIMENSION ACTUAL DE LA ESTADSTICA
La estadstica ha tenido un desarrollo extraordinario, que ha hecho que muchos problemas que
antes no tenan una clara solucin, hoy la tengan.
Para que podamos hacernos a una idea de la diversidad de campos en los que la Estadstica juega
un papel importante, se presentan a continuacin algunas situaciones.
1. Prueba de una vacuna
Se quiere determinar la efectividad de una vacuna; para ello se disea un experimento en el cual
participa un gran conjunto de nios de cierta edad, los cuales son clasificados al azar en 2 grupos.
Al primer grupo se le aplica una vacuna y al segundo grupo no. Se les hace un seguimiento
durante un perodo adecuado de tiempo para comparar la incidencia de la enfermedad problema
en cada grupo. Cul debe ser la diferencia mnima en el nmero de afectados para aceptar que la
vacuna es efectiva?
Captulo 1 19
Roberto Behar y Mario Yepes
2. Determinacin de la etiologa de una enfermedad
Para que una enfermedad se produzca es preciso una combinacin adecuada de las condiciones
de tres elementos que son: el agente, el ambiente y el husped. Al proceso constituido por las
interrelaciones de estos tres elementos que caracteriza y explica la presencia de la enfermedad, se
conoce como "historia natural de la enfermedad". La Epidemiologa se dedica en gran parte a la
determinacin de la historia natural de las enfermedades, ya conociendo sta, es posible de-
terminar cul etapa del desarrollo de la enfermedad es ms factible de interrumpir para evitar la
misma.
No es fcil en la mayora de los casos, determinar la historia natural de una enfermedad, y en ello
la Estadstica juega un papel muy importante al proporcionar herramientas para comparar la
distribucin de la enfermedad en grupos con diversas caractersticas socioeconmicas (sexo,
edad, condiciones geogrficas, raza, hbitos, etc.), con el nimo de ir acotando las condiciones
ambientales y del husped que conduzcan a la explicacin de la historia natural de la enfermedad.
3. Determinacin de la dosis de una droga
Para lanzar una nueva droga al mercado, es necesario superar una serie de etapas y pruebas que
son mas o menos rigurosas dependiendo de las leyes del pas en cuestin. Generalmente el
consumo de una droga puede producir efectos colaterales que pueden ser ms o menos graves.
Por tal razn es necesario disear experimentos para determinar niveles de sensibilidad y la dosis
adecuada que permita atacar la enfermedad y no producir molestias. (Ntese que estos aspectos
varan de persona a persona).
4. Caracterizacin de la demanda por el servicio de urgencia hospitalaria
La demanda por el servicio de urgencia hospitalaria es variable de mes a mes, de semana a
semana, de da a da, e inclusive en horas de un mismo de da.
20 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

El conocimiento de dicha distribucin es de mucho inters para la determinacin de recursos
humanos y materiales y para su programacin. Un acercamiento a la distribucin de la demanda
puede conseguirse recolectando informacin y realizando algunos anlisis estadsticos.
5. Fase de planeacin
La planeacin es en cierta forma "mirar hacia el futuro con los ojos del pasado". En el proceso de
planeacin se requiere disponer la informacin cuantitativa y cualitativamente adecuadas para
tomar decisiones ahora, que tendrn implicaciones en el futuro. Una empresa debe hacer
proyecciones de demanda del artculo que se produce, pues con base en ella, se har la
programacin de la produccin y todo lo que ella trae consigo.
Dicha demanda puede ser estimada a travs de modelos estadsticos de series de tiempo.
6. Control de calidad
La calidad con que se produce un artculo es importante para cada industria. Esta constituye un
factor bsico de competencia en el peor de los casos, por ejemplo en el caso de drogas o
alimentos se trata de la integridad e incluso de la vida de las personas. En la prctica es muy
costoso y a veces imposible inspeccionar el 100% de la produccin o de la materia prima, se
puede en estos casos disear un plan estadstico de muestreo, y unos instrumentos que permitan
tomar decisiones muy confiables sobre la calidad de un lote de produccin a partir de la
observacin de unos pocos artculos, economizando de esta manera dinero y tiempo.
7. Comparacin de la eficiencia de dos procesos
Se desea decidir sobre cul de 2 procedimientos utilizar para la realizacin de una actividad
intermedia en la produccin de un artculo, tomando como criterio de eficiencia. Se disea el
experimento y se realizan observaciones durante corto tiempo con base en las cuales se deber
decidir con cierta confiabilidad cul procedimiento es mejor.
Captulo 1 21
Roberto Behar y Mario Yepes
8. Produccin agrcola
Se van a sembrar grandes reas de terreno con papa china, se requiere por tanto disear un
experimento para determinar entre otras cosas: cul debe ser la distancia entre plntulas?,
cules deben ser los niveles de agua y de nutrientes a usar?, hay o no interaccin entre la
distancia entre las plantas y los niveles de nutrientes? todo ello para conseguir ptima
produccin.
9. Econometra
Determinacin de las principales caractersticas socioeconmicas que generan la inflacin y
cmo influye cada una de ellas, presentado esto a travs de un modelo de regresin.
10. Anlisis actuarial
Una empresa de seguros de vida, desea determinar cuanto debe cobrar al ao por una pliza,
segn la edad. Para ello, debe realizar un estudio estadstico sobre los riesgos y las frecuencias de
muertes por grupos de edad.
El papel de la Probabilidad en Ingeniera.
Cuando hablamos de ingeniera, casi siempre se piensa en matemticas, y ms generalmente en
mtodos para la modelacin, para el anlisis y evaluacin de situaciones en las que se planea
actuar sobre la naturaleza, para transformarla con algn fin, en armona con el medio ambiente y
considerando la optimizacin de los recursos.
En la formacin de ingenieros, la pertinencia de la probabilidad y de la estadstica es bastante
evidente. Si tomamos como referencia a Koen (1985), en su libro El mtodo en Ingeniera,
nos percataremos que inherente a su esencia, la estrategia del ingeniero, est envuelta en una
nube de variabilidad e incertidumbre, en medio de la cual, debe tomar decisiones que lo acerquen
a su objetivo, de una manera heurstica. Veamos algunas expresiones textuales del mencionado
libro, que refuerzan estos planteamientos:
22 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

...Por el mtodo de Ingeniera quiero decir la estrategia para causar el mejor cambio
posible, con los recursos disponibles, en una situacin incierta o pobremente estudiada
Aqu queda implcito que el ingeniero debe tomar decisiones con informacin incompleta, en
ambiente de incertidumbre, asumiendo riesgos, pero no de manera aventurera o irresponsable: lo
har con criterio y guindose por heursticas, muchas de las cuales tienen como propsito hacerse
buenas ideas sobre la magnitud de los riesgos que asume y saber cual es el lado que lo pone
conservadoramente cerca de la seguridad.
El mismo autor, dedica el captulo 3 de su libro a definir algunos heurismos usados por el mtodo
de Ingeniera y los divide en 5 categoras, una de las cuales es:
Algunos heurismos que usan los ingenieros para mantener el riesgo dentro de los
lmites permitidos.
Otras expresiones como:
...nunca ser posible desarrollar del todo algunos problemas complicados, debido a la
incertidumbre inherente al Mtodo de Ingeniera.
Dado que el ingeniero tratar de encontrar la mejor respuesta, an en situaciones
relativamente viables para tomar una decisin, es inevitable que exista algn riesgo.
Esto desde luego no significa que todos los niveles de riesgo sean aceptables. Como
podra esperarse a esta altura de la discusin, lo que es razonable est determinado por
heurismos adicionales que controlan el tamao del riesgo que el ingeniero est
dispuesto a tomar.
Si el sistema que desea cambiar es complejo y poco entendido; si el cambio deseado es
el mejor disponible y si est limitado por la disponibilidad de recursos, entonces usted
Captulo 1 23
Roberto Behar y Mario Yepes
est ante un problema de Ingeniera. Si usted logra el cambio usando el Mtodo de
Ingeniera, entonces usted es un ingeniero..
Basados en Koen (1985), queda claro que el mtodo de ingeniera y la profesin de ingeniero,
estarn limitados en su eficiencia y eficacia, si en un sitio privilegiado de su maletn de
heursticas, no tienen algunas que le permitan resolver y decidir en ambientes de riesgo e
incertidumbre, que constituyen su condicin natural de operacin.
En no pocas ocasiones, el ingeniero deber inferir informacin de otros situaciones que a su
parecer se han producido en circunstancias similares a la de su inters, generndose as posibles
errores, cuyo magnitud deber ser considerada por l, en la toma de decisiones. Por otro lado
muchos problemas en ingeniera involucran procesos y fenmenos naturales que presentan
variabilidad y aleatoriedad inherentes, haciendo que ellos no puedan ser descritos o
caracterizados de manera exacta. Por estas razones los procesos de planeacin y de diseo en
ingeniera deben tomar en consideracin, casi obligatoriamente, estas consideraciones de
aleatoriedad y de incertidumbre.
Cuando Koen se refiere a que no todos los niveles de riesgo son aceptables, est sugiriendo que
el ingeniero en su responsabilidad, deber cuantificar el riesgo para decidir con base en un juicio
sobre la magnitud de incertidumbre razonable. De esta manera la formulacin de decisiones
relacionadas con procesos inciertos, requerirn valoraciones del tipo riesgo-beneficio.
Cul es la naturaleza de aquellas heursticas que le permiten al ingeniero cuantificar el tamao
del riesgo?
Cmo obtener una estimacin de la magnitud de un efecto de particular importancia en un
proyecto, que garantice al ingeniero que acta hacia el lado de la seguridad en cuanto al riesgo,
pero sin perder de vista la racionalidad econmica o prctica?
24 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

La Probabilidad, la Estadstica y el Mtodo de Ingeniera.
La respuesta a los anteriores interrogantes, la tiene la teora de la probabilidad y la estadstica.
En una situacin experimental por ejemplo, en la que se pretende valorar la fatiga de cierto
material, es casi seguro, que experimentos repetidos bajo condiciones similares no generarn el
mismo resultado. Cual debe ser entonces el valor de la fatiga que debe reportarse, asociado a
dicho material, en un proceso de diseo?.
Si el ingeniero se enfrenta al problema del diseo de un canal para aguas de lluvia, cuales deben
ser sus parmetros de diseo si el quisiera que el canal fuera suficiente, para lluvias tan intensas
como aquellas que se presentan en promedio una vez cada diez aos?.
Conociendo la imposibilidad de predecir con certeza de que magnitud sern las mximas lluvias
que ocurrirn en el futuro. Cmo responder la pregunta?
El ingeniero debe cuantificar el riesgo y las heursticas que le permitirn hacerlo, son
competencia de la probabilidad y la Estadstica.
En electrnica, es posible conocer la fiabilidad de cada una de los elementos de un circuito,
como poder, a partir de estas probabilidades individuales, conocer el riesgo de falla del circuito
completo como un sistema?.
En este camino, conocer los elementos bsicos de la teora de la probabilidad, de tal manera que
a partir de la estimacin de la probabilidad de ocurrencia eventos simples, pueda obtenerse
informacin sobre el riesgo de ocurrencia de eventos compuestos y complejos, es una necesidad
para el ingeniero.
Si con un determinado sistema, es posible resolver el problema con un riesgo r, cul sera el
riesgo si se colocaran n sistemas en paralelo? O combinaciones de serie y paralelo?
Captulo 1 25
Roberto Behar y Mario Yepes
En una situacin pobremente estudiada, cmo hacer predicciones del riesgo, usando
informacin incompleta?
Si la magnitud de un factor F, es un insumo clave para la solucin de un problema de ingeniera,
pero solo dispongo de algunos datos sobre F, Cmo puedo estimar la magnitud de F, asumiendo
un riesgo de equivocarme en la estimacin, definido a priori por el ingeniero?
En esta situacin la probabilidad y la estadstica pueden apoyar la formacin del ingeniero
proporcionndole las herramientas adecuadas para la construccin de heursticas, a travs de la
llamada estimacin de cantidades, por medio de intervalos de confianza.
Koen (1985) en su intento por caracterizar el trabajo del ingeniero, expresa cmo el ingeniero
inicia su trabajo saliendo de un punto de partida que corresponde a una situacin de
incertidumbre o pobremente estudiada y que su punto de llegada es incierto. En el camino,
deber ir resolviendo las dificultades y obstculos y tomando decisiones cuando existan varios
caminos alternativos.
Cmo poder hacer comparaciones y tomar decisiones ante diversos cursos alternativos de
decisin, en un ambiente de incertidumbre?
En esta problemtica, la probabilidad y la estadstica se constituyen en una verdadera mina, de la
cual el ingeniero puede dotarse de las heursticas apropiadas para enfrentar con muy buenas
posibilidades de xito la situacin de comparar alternativas, con informacin parcial,
cuantificando el riesgo de tomar una mala decisin. Este yacimiento de heursticas, se conoce en
estadstica como Contraste de hiptesis. Cmo decidir entre varios posibles cursos de accin
en ambiente de incertidumbre?
Koen plantea de manera muy pedaggica la diferencia entre los dominios de la Ciencia y de la
Ingeniera. Uno de los elementos conceptuales que marca esta diferencia, es la restriccin en los
26 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

recursos disponibles. A diferencia de la ciencia, en la ingeniera no se hace referencia a la
solucin, sino a una solucin.
En ingeniera una buena solucin no se puede juzgar, sin el conocimiento de la restriccin
generada por la disponibilidad de recursos.
En ingeniera puede preferirse una solucin que no es la ptima absoluta (utilizando algn
criterio de optimalidad), pero que se aproxima bastante bien a los requerimientos, si sta es
mucho ms rpida y/o barata que la ptima.
Si la recopilacin de la informacin completa requiere de un periodo de tiempo exagerado o
exige una cantidad de recursos muy grande, el ingeniero deber disponer de heursticas que le
permitan saber cul es el punto de equilibrio entre la cantidad de recursos a invertir en obtener
informacin y la magnitud del riesgo de equivocarse y sus consecuencias al tomar decisiones con
dicha cantidad limitada de informacin.
La probabilidad y la estadstica ofrecen un excelente men, para que el ingeniero disponga de
heursticas que le permitan cuantificar el monto de recursos que debe asignar a la inversin en
informacin y la manera de decidir con dicha informacin. Esta carta de navegacin, se conoce
en Estadstica como estimacin del tamao de muestra y puede relacionar un tamao de muestra
a seleccionar con el riesgo de equivocarse al decidir con ella en algn sentido.
Por otro lado ante la incertidumbre o el pobre conocimiento de la situacin, el ingeniero debe
disponer de heursticas que le permitan en algunas ocasiones hacer ensayos en pequea escala,
para predecir el comportamiento de un sistema, anticiparlo tomando las medidas adecuadas,
llenndose de argumentos para favorecer un curso determinado de accin. Este es el caso por
ejemplo, de los cilindros de prueba, que son construidos con la mezcla de concreto que el
ingeniero piensa usar en una obra y que debe someter al laboratorio para verificar su resistencia.
De nuevo, casi con seguridad, los cilindros construidos con la misma mezcla, presentarn
variabilidad en los resultados de resistencia medidos en el laboratorio. Con esta informacin,
Captulo 1 27
Roberto Behar y Mario Yepes
deber tomarse una decisin que ser aplicada a las mezclas que con las mismas especificaciones
se realicen para construir la obra en cuestin. Conociendo la existencia de la mencionada
variabilidad cmo estar seguros de que las mezclas que se produzcan se comportarn de la
misma manera que la muestra estudiada?.
Cmo realizar estos ensayos? Cmo concluir con base en la informacin obtenida en los
ensayos, si se sabe que esa informacin parcial, no es reproducible en forma exacta si se
repitieran los ensayos?.
Cmo puede comparar la resistencia de varios diseos de mezclas?.
En esta situacin, un excelente socavn, rico en las mejores fuentes para producir heursticas, lo
constituye el diseo estadstico de experimentos, el cual no solo plantea muy buenas guas para la
ejecucin de los ensayos, para garantizar la validez de las conclusiones que se obtengan, sino
que permite controlar el riesgo, definiendo a priori, la magnitud de los riesgos que el ingeniero
est dispuesto asumir, en el sentido de tomar decisiones equivocadas. Adems incluye relaciones
esenciales que conectan los recursos a invertir con la calidad de las decisiones. En todo anlisis
de un diseo estadstico de experimentos, arrojar informacin de tipo probabilstico.
Cuando se trata de la valoracin del impacto de alguna medida o poltica gubernamental sobre el
medio ambiente, generalmente se compara la situacin antes y despus de la intervencin.
Cmo saber si las diferencias observadas no se deben tan slo al azar, sino que pueden atribuirse
a la intervencin estudiada?.
Ya se dijo que una condicin inherente al trabajo de un ingeniero, y que por tanto caracteriza el
Mtodo de Ingeniera, es la restriccin en la disponibilidad de recursos. Entre varias heursticas
comparables en su eficiencia, el ingeniero podra escoger aquella que exija menos insumos de
informacin y en general que implique menos recursos.
Proteger los recursos, es una de sus misiones permanentes. En este sentido poder predecir el
estado final resultante de un curso de accin tomando en consideracin caractersticas de su
28 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

punto de partida, le permitir disminuir los riesgos de invertir recursos en rectificaciones por
deficientes predicciones.
Un indicador importante de contaminacin de las aguas con materia orgnica, es la llamada
demanda bioqumica de oxgeno, DBO, cuyo proceso de medicin en el laboratorio, puede tardar
20 das. Para agilizar este proceso de medicin, sera de mucha utilidad asociar medidas ms
tempranas de este mismo parmetro, con las que resultaran al final del proceso, midiendo por
supuesto el riesgo de cometer errores de cierta magnitud. De hecho, este es el sentido del
parmetro DBO5, que representa la medicin de la demanda bioqumica de oxgeno a los cinco
das.
Algo similar ocurre con la resistencia del concreto, que puede alcanzar su valor mximo a los 28
das.
Estos ejemplos de aplicacin, podran generalizarse a situaciones problema donde se requiere el
conocimiento de magnitud de F, para tomar una decisin, pero en lugar de conocer F, se
conocen X, Y, Z y W, que son mucho ms baratas y prcticas de medir que la propia F, surge la
pregunta: Cules heursticas permiten al ingeniero tomar decisiones equivalentes con stas
ltimas en lugar de F? Entre las caractersticas disponibles (X, Y, Z y W), Cul es el
subconjunto mnimo que se requiere y cual es la calidad de las decisiones que se tomen con base
en dicho subconjunto? Cmo predecir el valor F correspondiente a un conjunto de valores
especfico de las caractersticas (X, Y, Z y W)?
En esta problemtica, la Estadstica vuelve a salir a la palestra, poniendo a disposicin del
ingeniero, los modelos para predecir la magnitud de una caracterstica mediante el conocimiento
de otras, a travs de los llamados modelos de regresin, midiendo en todo caso, en trminos de
probabilidad los riesgos de equivocarse en las predicciones o estimaciones.
Captulo 1 29
Roberto Behar y Mario Yepes
Si una de las condiciones del punto de partida del ingeniero es la disponibilidad de informacin
sobre un conjunto de caractersticas relacionadas con la situacin problema, Cmo explorar esta
informacin, para plantear a partir de ella algunas hiptesis que permitan orientar el prximo
curso de accin?
En esta fase la Estadstica entrega en las manos del ingeniero, algunas estrategias para hacer
tiles sus datos, dndoles sentido en el contexto de su problema a travs del llamado Anlisis
Exploratorio de Datos.
En la planeacin de la produccin, por ejemplo, se requiere estimar la demanda por cierto
producto. Si se conoce, el comportamiento aleatorio de la demanda en el pasado, de qu manera
puede usarse esta informacin, para predecir el comportamiento de la demanda del futuro?.
Cmo valorar que tan fiable es esta prediccin?.Cul es el riesgo de que la demanda real que se
presente, sea inferior a un cierto valor crtico D
0
?
Cuando el comportamiento futuro de una caracterstica, es un parmetro de diseo para un
proyecto, se requiere disponer de Heursticas que permitan sacar provecho del conocimiento
sobre cmo se ha comportado dicha variable en el pasado, para hacer pronsticos y estimar su
fiabilidad. En este campo, la probabilidad y la estadstica proveen los elementos necesarios a
travs del llamado anlisis de series de tiempo y pronsticos.
En campos especficos de la ingeniera, en los cuales una caracterstica inherente a la calidad de
un producto es el tiempo que trascurre hasta que el producto falla o la duracin del tiempo entre
fallas, se requiere conocer algunos parmetros que garanticen a priori, la confiabilidad del
producto o servicio o para la definicin de polticas de mantenimiento de equipos, para la
definicin de tiempo de garanta, es muy conveniente disponer de heursticas para la prediccin
de la fiabilidad, campo frtil de la Estadstica a travs de la Teora de la Fiabilidad, que no es
otra cosa, que la aplicacin de la teora de la probabilidad a esta situacin especfica.
30 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

Si se trata de controlar y mejorar la calidad de productos o procesos en ambientes de
incertidumbre y variabilidad, como es la situacin normal en la industria manufacturera y en las
empresas de servicios, las heursticas universalmente usadas corresponden al rea de Mtodos
estadsticos para el control y el mejoramiento de la calidad.
Si se quiere abordar la calidad desde el propio diseo del producto, intentando conocer la
interaccin entre los parmetros de diseo del producto o de la operacin de un proceso, con
caractersticas de preferencias o del ambiente del usuario final, se requiere usar la Estadstica a
travs de los llamados Mtodos estadsticos para el logro de la calidad por diseo.
Citando una vez ms a Koen (1985), al empezar su captulo 1, dice:
El uso del Mtodo de ingeniera, en vez del uso de la razn, es la herencia de la
humanidad ms equitativamente distribuida. Por Mtodo de Ingeniera quiero decir la
estrategia para causar, con los recursos disponibles, el mejor cambio posible en una
situacin incierta o pobremente estudiada. Por Razn, quiero dar a entender la habilidad
para distinguir lo verdadero de lo falso.
Esta distincin, indica que la lgica formal, no ser el instrumento, que usar el ingeniero para
definir sus cursos de accin y para tomar sus decisiones sobre lo que funciona o no funciona,
pues como lo explica el propio Koen en su caracterizacin de heurismos, no se garantiza que la
aplicacin de un heurismo sea siempre vlida. Adems heurismos diferentes disponibles en el
maletn del ingeniero pueden conducir a resultados contradictorios.
En este estado de cosas Cmo decidir sobre la plausibilidad de una heurstica o de alguna
estrategia, en ambiente de incertidumbre, si no es la lgica formal la que nos rige?
Esta situacin se identifica extraordinariamente con lo que se conoce como Pensamiento
Estadstico, el cual da pautas y guas para valorar un conjunto de datos, con base en la naturaleza
Captulo 1 31
Roberto Behar y Mario Yepes
del proceso que los gener, sin comprometerse con la validez categrica de los mismos. Es decir,
que unos datos sern tan buenos como el proceso que les dio origen.
Igualmente cuando se requiere comparar cursos de accin, la Estadstica proporciona unas guas,
que han de seguirse, y hacen plausibles la conclusiones que se obtengan al aplicar unos
procedimientos consistentes con dichas guas, aunque no las garantiza al cien por ciento, siempre
ofrece informacin sobre el riesgo de equivocarse en la magnitud establecida.
El pensamiento estadstico, es una dimensin transversal a toda heurstica que intente obtener
informacin o tomar decisiones en ambientes de variabilidad e incertidumbre.
Para finalizar, podemos plantear la pregunta Cmo comparar la eficiencia de varias heursticas
en ambientes de incertidumbre o en situaciones pobremente estudiadas?
Una posible estrategia para lograr este propsito, como ya lo discutimos anteriormente, puede
darse con base en la simulacin, la cual permite a costos relativamente bajos predecir el
comportamiento de una heurstica, en diferentes ambientes y condiciones de partida. Conociendo
comportamientos aproximados de las componentes de un sistema y de sus complejas relaciones,
puede hacerse uso de las herramientas que proporciona la simulacin para obtener resultados
empricos del comportamiento del sistema completo, pudindose evaluar la sensibilidad o
robustez a ciertas condiciones y ambientes.
La gran conclusin, es que es prcticamente imposible, ignorar el impacto de la variabilidad y de
la incertidumbre, que son rasgos omnipresentes, en el contexto del trabajo de un ingeniero. Es
necesario entonces, conocer los fundamentos de la teora de la probabilidad que nos permita
involucrar en los anlisis la medicin del riesgo.
1.3 VALIDEZ DE UNA INVESTIGACIN
Cuando se hace referencia a investigacin en este contexto, se entiende de la manera ms general,
como un proceso de bsqueda de conocimiento, sin cualificar la naturaleza del conocimiento
32 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

producido, ni su valor en trminos de la trascendencia, puede referirse a un complicado estudio
astronmico, a la exploracin celular en busqueda de la explicacin de algunos procesos
qumicos que tienen lugar en el ncleo de la celula, como tambien a cosas de menos generalidad
y trascendencia, como la investigacin sobre si vale la pena o no aumentar la dosis de abono a un
cierto cultivo, de acuerdo con el incremento en el rendimiento que se observe. Un estudio para
conocer la opinin politica en una zona y en un tiempo determinados.
Notese que en esta parte, no se pretende asociar investigacin con Estadstica. No obstante
cuando se quiere juzgar la validez de un proceso generador de conocimiento, en cualquier campo,
no necesariamente usando la Estadstica, aparecen en forma natural dos elementos a considerar y
a juzgar:
1.3.1 El mecanismo de observacin y la validez externa.
El mecanismo de generacin de los datos bsicos, que han de servir de cimientos o de materia
prima para la elaboracin de informacin. En este primer elemento, la atencin se centra en
valorar si el mecanismo o instrumento usado registra confiablemente los rasgos que se pretenden
observar o medir en el objeto de estudio. Asi pues en el caso del astrnomo, quien pretende
registrar sus datos, usando un sofisticado telescopio, para estimar algunas distancias entre
cuerpos celestes, la pregunta clave es si las distancias registradas por su aparato corresponden a
las verdaderas distancias en la realidad, debera estar razonablemente seguro que atraves de su
instrumento, no se producen desviaciones significativas
2
pues de no ser asi, el astrnomo deber
estimar la magnitud de estas desviaciones o deformaciones, con el propsito de construir ajustes
que corrijan las deficiencias de su instrumento. Es razonable pensar que si lo que mide el
astrnomo no se corresponde con la realidad, sus elaboraciones conceptuales, aunque plausibles,

2
Significativo, en el contexto de la astronoma y de la problematica especfica que se aborda. Esto deber ser
materia de nuevas consideraciones.
Captulo 1 33
Roberto Behar y Mario Yepes
no necesariamente conducirn a afirmaciones confiables. El instrumento de observacin adopta
las variadas formas, desde un aparato fisico, como en el caso del astrnomo, hasta una sofisticada
encuesta que contiene preguntas sesudamente elaboradas con la pretension de obtener la materia
prima para construir categoras sobre complicados conceptos sociolgicos o psicolgicos. En
esta situacin la cuestion seria entre otras
3
: en realidad los items que contiene el formulario y la
manera de relacionarlos para construir las categorias, detectan lo que se quiere detectar?, miden
lo que se quiere medir?, pues de no ser asi, aun cuando los razonamientos que se realicen sean
vlidos, sus conclusiones no son confiables. Cuando una investigacin satisface esta dimensin,
se dice que tiene validez externa.
1.3.2 La lgica del pensamiento y la validez interna.
Una vez se dispone de las observaciones, obtenidas con un proceso o instrumento que posee
validez externa, puede decirse que tenemos materia prima con calidad adecuada, que se tiene un
punto de partida, unas condiciones iniciales, a partir de las cuales se elaborara un nuevo
producto, se generaran afirmaciones simples o muy complejas sobre el objeto de observacin,
que constituyen nuevos hallazgos.
La valoracin de ese nuevo producto, de ese cuerpo de afirmaciones, tiene varias aristas. Una de
ellas es la compatibilidad con el conjunto de proposiciones aceptadas como validas, en el campo
que se trata. Si se encuentran contradicciones, se esta frente a un nuevo problema a resolver: o se
rechazan las nuevas afirmaciones y se buscan razones que justifiquen su invalidez o se replantean
las proposiciones aceptadas y dadas como vlidas hasta ese momento, buscando una explicacin
plausible para ese nuevo comportamiento registrado. La otra arista, no excluyente con la primera,
es juzgar el producto, es decir el nuevo conjunto de afirmaciones generadas, con base en un

3
Entre otras, que mas tarde abordaremos en forma especfica, como lo es la representatividad de la muestra objeto
de la aplicacin del instrumento.
34 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

juicio sobre el proceso de elaboracin, es decir haciendo una valoracin crtica de la logica
4

utilizada, partiendo de las observaciones vlidas, y usando el universo de proposiciones
aceptadas como vlidas.
Cuando el resultado de esta valoracin crtica del proceso de construccin de las conclusiones, es
positivo se dice que el estudio tiene validez interna.
Los conceptos de validez externa y validez interna, adoptan formas muy especiales, cuando la
naturaleza de la investigacin, hace que la observacin se realice con base en muestras de
individuos de una poblacin que tiene variabilidad en cuanto a las caractersticas objeto de la
investigacin y por tal razn las conclusiones son obtenidas mediante un proceso inductivo, en el
cual estn presentes ingredientes como el azar y la incertidumbre.
1.4 LA VALIDEZ EN INVESTIGACIONES QUE USAN
MTODOS ESTADSTICOS
1.4.1 Validez externa y representatividad.
La caracterstica esencial de los estudios que usan mtodos estadsticos, radica en la observacin
con base en muestras probabilsticas
5
y las inferencias de naturaleza probabilstica, que permiten
asociar a sus conclusiones o hallazgos niveles de confianza, como resultado de la componente de
aleatoriedad o azar que involucra.

4
Entiendase en el mas amplio sentido.
5
Muestra probabilstica, para diferenciarla del muestreo intencional, en el que es el juicio del investigador el que
decide sobre los elementos a estudiar y por lo tanto las inferencias no son de naturaleza estadstica. En adelante
siempre que se haga referencia a muestra o a muestreo, entenderemos muestreo probabilstico.
Captulo 1 35
Roberto Behar y Mario Yepes
Se puede ver que en esta situacin una componente adicional al instrumento de observacin
propiamente dicho, es la representatividad de la muestra.
Sobre la representatividad de una muestra, se ha especulado mucho y es motivo de serias
controversias, algunas de las cuales aun tienen vigencia.
Aqui, el criterio para valorar la representatividad de una muestra, tiene dos dimensiones
esenciales: el mecanismo mediante el cual se seleccionan las unidades a incluir en la muestra y
el nmero de elementos a incluir en la misma. En resumen: la forma y la cantidad.
La forma de muestrear, es decir el mecanismo para seleccionar la muestra, debe ser tal que se
procure plausiblemente conservar la estructura de las caractersticas y las relaciones que se
quieren observar, que los alejamientos se deban solamente a la accin del azar. Esta afirmacin, a
veces se operacionaliza con afirmaciones como: ..Todos las unidades de la poblacin deben
tener la misma probabilidad de ser seleccionadas en la muestra algo asi como la democracia en
la seleccin de la muestra. aunque podra funcionar algo mas flexible, como: ..El mecanismo de
seleccin
6
debe ser tal que se conozca la probabilidad que tiene cada unidad de la poblacin de
ser incluida en la muestra.., esta segunda afirmacin, mas general que la primera, exge conocer
los ponderadores o pesos que mas tarde, en el anlisis deber darse a cada una de las unidades de
la muestra para conservar la mencionada estructura de la poblacin.
De hecho cada uno de los llamados modelos de muestreo
7
, tiene asociado el conocimiento de la
probabilidad que cada unidad de la poblacin tiene de ser seleccionada, as por ejemplo en

6
Ntese que la representatividad de una muestra, se juzga ms que por si misma, por el mecanismo que le di
orgen.
7
En las llamadas poblacines finitas, es decir que la poblacin esta conformada por un nmero conocido N de
unidades.
36 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

muestreo aleatorio simple
8
, la probabilidad es igual para todos (1/N). En muestreo
estratificado, es decir cuando la poblacin se ha clasificado en estratos de tamao conocido, por
ejemplo por estratos socioeconmicos, conformando la muestra con las unidades que se
seleccionan al azar de cada uno de los estratos, aqui la ponderacin de una unidad depende del
estrato a que pertenece y esta dada por la proporcin que representa la muestra en ese estrato con
respecto al tamao del estrato. Analogamente en modelos como el muestreo por conglomerados,
por ejemplo, la poblacin puede estar agrupada en barrios o colonias o comunas. Aqui se escogen
algunos barrios al azar. En los barrios seleccionados, se sacan manzanas al azar y luego de las
manzana escogidas se extraen viviendas (muestreo por conglomerados trietapico). Aqui las
ponderaciones se definen de acuerdo al nmero de barrios (unidades primarias), nmero de
manzanas (unidades secundarias) y al nmero de viviendas en cada manzana (unidades
terciarias). Existe otros modelos como el muestreo sistemtico de intensidad K, en el cual se da
un ordenamieno a las unidades de la poblacin, se selecciona la primera al azar y a partir de ese,
se toma una cada K unidades.
Pueden existir mezclas de estos modelos bsicos y adems otros tipos de muestreo que surgen
como resultado de consideraciones de eficiencia o de dificultades prcticas.
En resumen, puede decirse entonces, que el establecimiento de un modelo de muestreo, que tenga
asociadas probabilidades conocidas de seleccin de cada una de la unidades de la poblacin, es
garanta de que la muestra es representativa (por su forma).
La otra dimensin de la representatividad est relacionada con el tamao de la muestra, sobre
el cual existen un gran nmero de mitos y falsas creencias que se van transmitiendo por
generaciones.

8
Todos en un costal y se saca al azar del costal una muestra.
Captulo 1 37
Roberto Behar y Mario Yepes
Existe la falsa creencia de que para que la muestra sea representativa debe contener el 10% de las
unidades de una poblacin, lo cual se contradice con un sencillo ejemplo: para saber el tipo de
sangre de una persona, no es necesario extraerle el 10% de la sangre, basta con una sola gota,
puesto que se sabe que todas las gotas de sangre de su cuerpo son del mismo tipo. Aqui se nota
como el grado de homogeneidad de las unidades toma un papel importante en la definicin del
tamao de la muestra. Podra traerse tambin el caso de la sabia ama de casa que solo prueba una
sola cucharadilla de su rica sopa, para tomar con base en ella la decisin de ponerle o no mas sal,
eso si, asegurndose de antemano en garantizar la homogeneidad al menear con maestria por
todos los rincones de la olla. El tamao de la muestra si se relaciona con el tamao de la
poblacin a muestrear, pero la heterogeneidad, es decir la variabilidad de la caracterstica de
inters, pesa mucho ms en su determinacin, a tal punto que en poblaciones muy grandes
9
, el
tamao de la poblacin no tiene ninguna importancia, es decir que las frmulas para el clculo
del tamao de la muestra no toman en cuenta el tamao de la poblacin,
En todo caso el criterio que define si una muestra de un tamao determinado, puede considerarse
representativa, tiene relacin con el nivel de precisin requerido. Puede intuirse que entre mas
precisin se exija, ms grande se requerir la muestra.
La precisin de una estimacin puede expresarse generalmente a travs de dos elementos: el
error tolerable () y la confianza () o confiabilidad. El error tolerable es la diferencia que
estamos dispuestos a aceptar entre el verdadero valor poblacional ()
10
y el calculado con la

9
En la teora se conocen como poblaciones infinitas.
10
Al verdadero valor poblacional, el cual es una constante se le llama parmetro.
38 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

muestra (

n
)
11
y la confianza es justamente, la probabilidad
12
de que el error tolerable no sea
sobrepasado. De esta manera la ecuacin de donde se despeja el tamao de muestra es :
[ ]
P
n


La relacin entre el tamao n de la muestra y el tamao N de la poblacin, para
una precisin constante especificada, se muestra en la figura 1.1.
Ntese que el tamao de muestra crece muy lento an con grandes incrementos del tamao de la
poblacin, asi por ejemplo para N =300 resulta una muestra de
n=120. Sin embargo si el tamao de la poblacin se duplicar a 600, la muestra sera de 150.
Notese que no se duplica. Es ms, si N =900, el tamao de muestra ser de n =164. Si la
poblacin fuese muy grande, digamos N =1000000, el tamao de muestra sera n =200, el cual
es el valor lmite (tope), como se percibe en la figura, manteniendo en todos los casos el mismo
nivel de precisin requerido.

11
A la expresion para calcular este valor con base en la muestra se le conoce como estadstico y cuando se usa
como instrumento para conocer la magnitud del parametro, se le llama estimador
12
La probabilidad expresada generalmente en porcentaje
Captulo 1 39
Roberto Behar y Mario Yepes


Fig. 1.1. Relacin entre el tamao de la poblacin y el
tamao de una muestra
1.4.2 La validez interna y la comparabilidad.
Cuando en investigaciones que usan la metodologa Estadstica, se hace referencia a la validez
interna, se le esta pidiendo a la lgica de la inferencia estadstica, que garantice la
comparabilidad. Para entender mejor lo esto significa, se presenta una situacin donde se viola
la comparabilidad: se desea comparar el efecto de la edad de corte de la caa de azcar, en el
rendimiento en toneladas por hectrea, para ello se registra para un buen nmero de suertes
13
la
edad de corte (X) y su rendimiento en Ton/Ha (Y), posteriormente se aplican medidas estadsticas
de asociacin, para detectar la fuerza de la relacin entre estas dos caractersticas y resulta una
muy pobre asociacin, se encuentra posteriormente que las suertes tenan diferente nmero de

13
Una suerte es un lote de terreno, que se maneja como una unidad, para la siembra, el arreglo, el corte, etc.
40 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

cortes
14
, lo cual afectaba la comparacin, es decir no podra distinguirse si un efecto se debia a la
edad o al nmero de cortes. Un caso extremo podra presentarse si las caas mas jvenes eran las
de mayor nmero de cortes, pues los dos efectos podrian neutralizarse y hacer aparecer pobre la
asociacin. En este ejemplo la variable nmero de cortes, que aparece afectando diferencialmente
a las unidades observadas se le conoce como factor de confusin.
Podra decirse entonces que la validez interna, la comparabilidad se logra atravs del control de
los factores de confusin. En esta situacin podra encontarse la asociacin de las variables edad
de corte y rendimiento, en cada grupo de suertes que tengan el mismo nmero de cortes, de esta
manera, dentro de cada grupo el nmero de cortes permanece constante y puede lograrse la
comparacin deseada, siempre y cuando no existan otros posibles factores de confusin, como
podran ser la aplicacin de madurantes en forma diferencial en las suertes observadas.
A esta solucin, para lograr validez interna, se le llama construccin de bloques
15
. No obstante
existen otras soluciones para este mismo problema de falta de comparabilidad, como por
ejemplo, la aleatorizacin o involucrar en el modelo de anlisis al factor de confusin como una
variable, que permite hacer las comparaciones para cada nivel del factor, cuando se da este caso,
al factor de confusin en el modelo se le conoce como covariable.
Notese que la identificacin de potenciales factores de confusin, no es tarea de un estadstico,
sino del investigador que conoce el campo de su disciplina especfica.


14
Normalmente el terreno se va empobreciendo con el nmero de siembras (cortes) hasta el punto de que se hace
necesario arreglar (Remover y abonar) el terreno despues de un cierto nmero de cortes, generalmente
cuatro(4).
15
De alli el famoso nombre de diseo de bloques al azar
Captulo 1 41
Roberto Behar y Mario Yepes
1.5 ESTADSTICA Y MEDICION
La materia prima de la Estadstica son los datos, los cuales son el resultado de la "observacin"
de alguna(s) caracterstica(s) de los elementos de inters en cierto estudio. La naturaleza de la
caracterstica y el instrumento que dispone para registrar la misma, definir el tipo de escala de
medicin que se ajuste a la situacin dada.
Escalas de medicin. Cuando se hace referencia a las escalas se trata de asociar nmeros a las
caractersticas con el propsito de manipularlas y obtener nuevo conocimiento sobre las
caractersticas del estudio.
Se consideran generalmente cuatro escalas de medicin: escala nominal, escala ordinal, escala de
intervalo y escala de razn.
La escala nominal, hace uso de los nmeros para dar nombre a los elementos que han sido
clasificados en distintos grupos, clases o categoras de acuerdo con alguna propiedad cualitativa.
El nmero asignado a una clase slo acta como un rtulo o cdigo para diferenciar los
elementos de esa clase con los de otra. Por ejemplo si se clasifica un conjunto de objetos por su
color, las categoras pueden ser: azul, amarillo, rojo, verde, a las cuales podemos asociar res-
pectivamente los nmeros 1,2,3,4 y se hablar de la categora 1 para hacer referencia al grupo de
objetos de color azl o 4 para el verde, pero los nmeros aqu, slo son cdigos para nombrar los
elementos de una clase.
La escala ordinal, hace uso de los nmeros para clasificar los elementos de un conjunto en
categoras en los cuales los nmeros no slo sirven para nombrar sino que son base para
comparaciones de la forma: "mas grande", "igual", "menor", es decir, que el valor numrico de la
medida se usa para indicar el orden que ocupa un elemento al comparar el tamao relativo de sus
medidas, del ms grande al ms pequeo, de all el nombre de escala. Un ejemplo, cuando a una
persona se le pide ordenar de la ms importante a la menos importante, asignando nmeros de 1 a
4, a las siguientes necesidades: empleo, salud, vivienda, servicios pblicos. Aqu el nmero se
usa para representar la prioridad de las necesidades; de esta manera si un individuo asigna el
42 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

nmero 1 a la vivienda y el 4 al empleo, indicar que para l es "ms importante" la vivienda que
el empleo.
La escala de intervalo, considera pertinente informacin no slo sobre el orden relativo de las
necesidades, como en la escala ordinal, sino tambin del tamao del intervalo entre mediciones,
esto es, el tamao de la diferencia (resta) entre dos medidas. La escala de intervalo involucra el
concepto de una unidad de distancia. Por ejemplo la escala con la cual casualmente
representamos la temperatura; un incremento en una unidad (grado) de la temperatura est defi-
nido por cambio particular en el volumen de mercurio en el interior del termmetro, de esta
manera, la diferencia entre dos temperaturas puede ser medida en unidades (grados). El valor
numrico de una temperatura es meramente una comparacin con un punto arbitrario llamado
"cero grados". La escala de intervalo requiere un punto cero, como tambin, una unidad de
distancia, pero no importa cual punto se define como cero ni cual unidad es la unidad de dis-
tancia. La temperatura ha sido medida adecuadamente por mucho tiempo en las escalas
Fahrenheit y centgrada, las cuales tienen diferente temperatura cero y diferentes definiciones de
1 grado o unidad. El principio de la medida de intervalo no es violado por cambios en la escala o
en la localizacin.
La escala de razn, es usada cuando no solamente el orden y el tamao del intervalo ente
medidas son importantes, sino tambin la razn (o cociente) entre dos medidas. Si es razonable
hablar de que una cantidad es "dos veces" otra cantidad, entonces la escala de razn es apropiada
para la medicin, como cuando medimos distancias, pesos, alturas, etc. Realmente la nica
diferencia entre la escala de razn y la escala de intervalo, es que la escala de razn tiene un
punto cero natural, mientras que en la escala de intervalo ste es arbitrario. En ambas escalas la
unidad de distancia es arbitrariamente definida.
Es muy importante tener presente la escala de medicin cuando se realiza un estudio, puesto que
las pruebas estadsticas varan dependiendo de la escala de medicin de la caractersticas en
referencia.
Captulo 1 43
Roberto Behar y Mario Yepes
En general puede decirse que la escala de razn es la que tiene a su disposicin una mayor
cantidad de herramientas estadsticas para su tratamiento.
1.5.1 Variables discretas y variables continuas.
En las escalas de intervalo y de razn algunas veces es necesario establecer la diferenciacin de
las variables por su naturaleza, entonces se habla de variables discretas y variables continuas.
Variable discreta, es aquella cuya naturaleza hace que el conjunto de valores que puede tomar la
variable sea finito o infinito numerable.
Por ejemplo, la variable: nmero de personas por hogar, el conjunto de valores que puede asumir
sta son:
{1, 2, 3, 4, ... , M} donde M es finito
Otros ejemplos son los siguientes: nmero de consultas al mdico durante un ao, nmero de
clientes que llegan a un banco durante una hora, nmero de ensayos realizados hasta obtener el
primer xito.
Variable continua, es aquella, cuya naturaleza hace que exista un intervalo de puntos, los cuales
son valores que puede tomar la variable. Por ejemplo, la estatura de una persona, esta variable
puede tomar cualquier valor en el intervalo (1.50 m, 1.60m). El tiempo entre dos llegadas
consecutivas al servicio de urgencias de un hospital. El rea cultivada de trigo en las fincas del
valle del Ro Cauca .
Esta clasificacin no tiene en cuenta la poblacin en la cual va a ser observada la variable, es
decir, no interesa en la clasificacin, si la poblacin es finita o infinita, puesto que de acuerdo con
la definicin una variable es discreta o continua por si misma. Tampoco juega papel alguno el
instrumento de medicin que se use.
Las definiciones como son presentadas son de utilidad en el tratamiento descriptivo de los datos,
como se ver ms adelante.
44 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

1.6 ALGUNOS TERMINOS USADOS EN ESTADSTICA
Se definen a continuacin algunos trminos que se usarn con frecuencia en el presente escrito.
1.6.1 Poblacin
Se identificar con este nombre al conjunto de elementos de inters en un estudio, sobre los
cuales se desea informacin y hacia los cuales se extendern las conclusiones. El trmino
poblacin no debe asociarse exclusivamente con poblacin humana; tiene sentido hablar de la
poblacin de tornillos que se producen durante un da en una determinada fbrica, o de la
poblacin constituida por todas las fincas de un pas o una regin.
En todo estudio, la poblacin debe estar definida en forma muy precisa, de tal manera que pueda
determinarse en algn momento si un elemento dado pertenece o no a la poblacin. Por ejemplo
supngase que se va a realizar un estudio para determinar el porcentaje de desempleo en Cali a
abril 4 de 1995; algunas reflexiones tendientes a caracterizar a la poblacin que concierne a dicho
estudio son las siguientes:
El estudio hace referencia a los caleos o a los residentes en Cali?.
Que significa ser residente en Cali? una persona que lleg a Cali en abril 3 de 1995, pertenece
a la poblacin? o una persona que se fue de Cali en la misma fecha?
Por la naturaleza del estudio los elementos de inters son las personas que "deberan estar
empleadas" (de la observacin de estas se definir quienes lo estn y quienes no, para determinar
el porcentaje de desempleo), entonces cabe la pregunta: cmo se caracterizan los que "deberan
estar empleados" ? (edad, condiciones de salud, incapacidad, etc.).
Estas reflexiones sugieren definiciones precisas que conducen a una determinacin adecuada de
la poblacin.

Captulo 1 45
Roberto Behar y Mario Yepes
1.6.2 Muestra
En muchas ocasiones se requiere conocer una caracterstica medible de la poblacin, para ello se
puede observar, uno a uno, todos los elementos de la poblacin (Censo), lo cual casi siempre es
impracticable o muy costoso; en estos casos puede "hacerse una idea" sobre la caracterstica
poblacional, observando slo algunos elementos de la poblacin, stos constituyen una muestra
de esa poblacin.
1.6.3 Parmetro
Se llamar parmetro a una caracterstica medible de la poblacin. Por ejemplo, la edad
promedio de los estudiantes de una escuela, el porcentaje de varones; el dimetro promedio de
los tornillos que se producen en una fbrica, la tasa de crecimiento promedio de la tilapia roja, el
tiempo promedio entre fallas de una maquina etc. Un parmetro es una constante para la
poblacin.
1.6.4 Estadstica
Se denominar estadstica a una caracterstica medible en la muestra por ejemplo la edad
promedio de una muestra de estudiantes de una escuela, o el porcentaje de varones en la muestra;
el dimetro promedio de los tornillos de una muestra de la poblacin de una fbrica, etc. En
general una estadstica es una funcin de los datos de una muestra; como puede intuirse el valor
que asume una estadstica depende de la muestra que se haya tomado. Generalmente se usan las
estadsticas para hacerse una idea de los parmetros, cuando esto sucede se llaman estimadores.
Notese que una estadstica en general varia de una muestra a otra, en este sentido puede mirarse
como una variable y drsele el tratamiento que expondremos para las variables.
1.7 ETAPAS DE LA METODOLOGIA ESTADSTICA
A continuacin se presentan las principales actividades que es necesario realizar cuando se hace
un estudio estadstico.
46 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

1.7.1. Definicin del problema
Consiste en la justificacin del estudio, la determinacin de los objetivos del estudio, revisin
bibliogrfica, planteamiento de las hiptesis que se desea probar o rechazar o definicin de los
parmetros que se desea estimar, incluyendo la precisin que se requiere en la estimacin.
1.7.2. Definicin de la poblacin
Definir en forma precisa cul es la poblacin de inters en el estudio, en el sentido presentado en
1.4.
1.7.3. Definicin de la estrategia de Anlisis
En esta etapa se realiza el plan de anlisis, se define una ruta preliminar de ataque al problema.
Se seleccionan, si es del caso, algunas tcnicas estadsticas que podran ayudar a esclarecer
preliminarmente la situacin. Es razonable, que el plan preliminar sufra modificaciones, en la,
medida en que se van valorando los hallazgos. Sin embargo tener un plan permite definir un
camino de accin, una valiosa guia de accin.
1.7.4. Determinacin de las variables de inters
Consiste en la definicin de las caractersticas de la poblacin que proporcionan la informacin
necesaria para el logro de los objetivos del estudio.
1.7.5. Diseo del estudio
Algunos llaman a esta etapa "diseo del experimento" ( o diseo de la muestra) y consiste en
definir si se observar la poblacin completa (censo) o slo parte de ella (muestreo). En este
ltimo caso deber determinarse el tipo de muestreo a utilizar y el tamao de la muestra para
unas especificaciones de precisin deseadas (error tolerable y nivel de confianza), igualmente
debe definirse la logstica de la recoleccin de la informacin.
Captulo 1 47
Roberto Behar y Mario Yepes
1.7.6. Recoleccin de la informacin
Esta es una etapa muy importante, pues de ella depende la calidad de la informacin. Los errores
en este sentido no los miden las herramientas estadsticas, por esta razn la recoleccin de la
informacin requiere mucho control sobre los instrumentos como tambin sobre el proceso de
medicin.
La dificultad para disear un control eficiente sobre la calidad de los datos recogidos, en algunas
ocasiones, hace ms confiable una muestra que un censo, puesto que se requiere controlar un
menor volumen de recursos, garantizando de esta manera una mejor calidad de los datos.
1.7.7. Procesamiento descriptivo de los datos
Esta etapa la constituye la aplicacin de las tcnicas que proporciona la estadstica descriptiva y
que consiste en la organizacin de la informacin en forma til y comprensible, mediante la
elaboracin de cuadros, tablas, grficos y reduciendo los datos recolectados por medio de algunos
indicadores que faciliten su interpretacin; esta etapa es una fase exploratoria, no obstante
constituye un medio para hacerse una idea de los rasgos poblacionales. El anlisis de la muestra,
pocas veces tiene inters en s mismo, siempre se usa la muestra como un instrumento para
conocer la poblacin. Por esa razon la caracterstica de Representatividad de la muestra debe
garantizarse siempre, independientemente de que se realice anlisis exploratorio (descriptivo) o
se utilicen herramientas probabilsticas para hacer inferencia estadstica.
1.7.8. Inferencia estadstica
Se denomina as, al proceso inductivo que permite inferir a toda la poblacin proposiciones,
basadas en las observaciones y resultados proporcionados por una muestra. Como puede intuirse
en este proceso de inferencia, aparece un factor de incertidumbre, y de error, puesto que muestras
distintas pueden arrojar resultados distintos; es precisamente esto lo que hace que la teora de la
probabilidad sea la herramienta bsica de la inferencia estadstica, sta no evita los errores que
por azar se cometen, pero si los cuantifica y les asocia una medida que indica el nivel de
confianza de los resultados obtenidos, lo cual constituye su principal mrito.
48 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes


1.7.9. Conclusiones y planteamientos de nuevas hiptesis
En esta ltima etapa se plantean las conclusiones en forma clara, indicando sus alcances y
limitaciones, igualmente se plantean nuevas hiptesis que pudieran surgir en la propia
exploracin de los datos.
1.8 ESTADSTICA DESCRIPTIVA
Cuando se habla de estadstica descriptiva, da la impresin que es una de las varias "estadsticas"
que existen. En realidad es una etapa de la metodologa estadstica, en la que no se involucra la
teora de la probabilidad como herramienta para realizar inferencias a toda la poblacin, sin
embargo se construyen indicadores, se hacen grficos, se realizan comparaciones, siempre con el
inters de conocer sobre la poblacin de donde fue tomada la muestra.
La estadstica descriptiva permite procesar los datos de una muestra y obtener informacin que
puede ser usada con fines exploratorios, para plantear hiptesis o como materia prima de la etapa
de inferencia estadstica.
La complejidad de las herramientas y el volumen de informacin que se obtenga de una muestra,
depende entre otros factores, del nmero de caractersticas que se observen.
En el prximo captulo se tratar la situacin correspondiente a la observacin de slo una
variable y se har referencia a ella como unidimensional.
En los captulos 3 y 4 se desarrolla la situacin en que se observan en la muestra dos variables y
se hace mencin a ella como bidimensional.









Captulo 2




Roberto Behar y Mario Yepes
DISTRIBUCIONES UNIDIMENSIONALES DE FRECUENCIA
2.1 CASO DE UNA VARIABLE DISCRETA
Para considerar este caso, se introduce el siguiente ejemplo:
Ejemplo 2.1
Se toma informacin sobre el nmero de clientes que llegan a un banco en una hora pico, ob-
servando una muestra de 25 perodos de un minuto se obtuvieron los siguientes resultados: 8, 6,
7, 9, 8, 7, 8, 10, 4, 10, 8, 7, 9, 8, 7, 6, 5, 10, 7, 8, 5, 6, 8, 10, 11.
A esta informacin, que no ha tenido ningn tipo de tratamiento se le llama muestra bruta y se
representa por x
1
, x
2
,...., x
n
donde n es el nmero total de datos.
48 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
Se puede comenzar a organizar la informacin escribiendo los datos distintos de que consta la
muestra y haciendo un conteo para determinar el nmero de veces que aparece cada dato; valor
ste que se denominar frecuencia absoluta. El cuadro 2.1 muestra la situacin del ejemplo.

Como puede observarse, la suma de las frecuencias absolutas de todos los datos, debe
coincidir con el nmero total de datos (tamao de la muestra).
No obstante que la muestra consta de 25 datos, slo hay 8 datos distintos: 4, 5, 6, 7,
8, 9, 10, 11 que es posible representarlos, sin prdida de generalidad, como x
1
, x
2
,...,
x
m
. En nuestro caso n = 25 y m = 8, de esta manera la frecuencia absoluta del dato x
i
,
se denotar por n
i
, as por ejemplo el dato x
3
= 6 aparece 3 veces en la muestra, por tanto
n
3
= 3.
Se puede tambin expresar la frecuencia absoluta como una fraccin o porcentaje del n-
mero de datos y surge as lo que se conoce como frecuencia relativa del dato x
i
que se
denota por f
i
, as pues:
n
n
f
i
i
= ; en el ejemplo 12 . 0
25
3
3
= = f
Captulo 2 49
Roberto Behar y Mario Yepes
que indica que el dato x
3
= 6 representa el 12% de toda la muestra, es decir que de
acuerdo con la muestra, en la hora pico, el 12% de las veces llegan al banco 6 clientes por
minuto.
Tamben se podra calcular el nmero de datos que son menores o iguales que x
i
, que se
denomina frecuencia absoluta acumulada hasta x
i
, y se denota por N
i
; si x
1
, x
2
, ... ,
x
m
estn ordenadas en forma creciente, entonces:
N
i
= n
1
+ n
2
+ ... + n
i

En nuestro ejemplo N
4
es el nmero de datos que son menores o iguales que x
4
= 7, es
decir, N
4
= 11.
Si la frecuencia absoluta acumulada se expresa como una fraccin o porcentaje de toda la
muestra, aparece lo que se conoce como frecuencia relativa acumulada que se
representa por F
i
, de esta manera:
i
i
i
f f f
n
N
F + + + = = ...
2 1

Los conceptos, para nuestro ejemplo se sintetizan en el siguiente cuadro de frecuencias.
CUADRO 2.2
CUADRO DE FRECUENCIAS DEL NUMERO DE CLIENTES QUE LLEGAN A
UN BANCO EN UN MINUTO DE LA HORA PICO

50 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
Un resumen de las principales propiedades de las frecuencias se presenta a continuacin.
Propiedades y relaciones
Si se toma una muestra de n datos, de los cuales hay m distintos, que ordenados en forma
creciente son x
1
, x
2
, ... , x
m
, entonces:
0 n n
i
; i = 1, 2, 3, ..., m
n n n n
m 1 2
+ + + = ... ; es decir n n
i
i
m
=

=
1

; 0 1
i
i i
n
f f
n
=
1 ...
2 1
= + + +
m
f f f ; es decir 1
1
=

=
m
i
i
f

N n n n
j j
= + + +
1 2
... ; es decir N n
j i
i
j
=
=

1

N n
m
=
n N N N n
m 1 1 2
= = ...

j j
f f f F + + + = ...
2 1
; es decir

=
=
j
i
i j
f F
1

1 ...
2 1 1
= =
m
F F F f
En realidad las frecuencias acumuladas pueden definirse como funciones sobre todos los
nmeros reales, as:
Captulo 2 51
Roberto Behar y Mario Yepes
N(x) = nmero de datos que son menores o iguales que x
F(x) = fraccin (o porcentaje) de los datos que son menores o iguales que x.
As pues :
F(4.32) = la fraccin del total de datos que son menores o iguales que 4.28.
= 0.04
N(4.32) = 1
Para el ejemplo planteado, la distribucin N(x), es:

La funcin F(x) es conocida como funcin emprica de distribucin acumulativa, para
sealar que ha sido obtenida con base en una muestra de la poblacin, pretendiendo con
ella lograr un conocimiento aproximado de la distribucin acumulativa que tendra la
poblacin (funcin de distribucin acumulativa de probabilidad). A continuacin se
presenta F(x) para el ejemplo.
52 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

En general las funciones N(x) y F(x) pueden definirse de esta manera:

Anlogamente la funcin emprica de distribucin acumulativa

Las funciones N(x) , F(x) son monotnicas no decrecientes, es decir que
si x
1
< x
2
N(x
1
) N(x
2
) y F(x
1
) F(x
2
).
REPRESENTACIN GRFICA
Cuando se trate de frecuencias absolutas o de frecuencias relativas, se realizar la
representacin por medio del llamado diagrama de frecuencia, que consiste en colocar
en el eje horizontal los valores x
i
, que toma la variable y levantando en cada punto un
segmento vertical de longitud igual a la frecuencia correspondiente.

Captulo 2 53
Roberto Behar y Mario Yepes

Fig. 2.1. Diagrama de frecuencias del nmero de clientes que llegan a un banco en un minuto, en la
hora pico.
El grfico de frecuencias absolutas difiere del grfico de frecuencias relativas slo en la
escala del eje de las ordenadas, por tal razn aparece un solo grfico con dos ejes: en el
eje de la izquierda se leen las frecuencias absolutas y en el de la derecha se leen las
relativas.
Cuando consideramos las frecuencias acumuladas, la representacin grfica consiste en
llevar a un plano cartesiano las funciones N(x) y F(x). Como se aprecia en la Figura 2.2.

Fig. 2.2. Grfico de frecuencias acumuladas para la variable "nmero de clientes que llegan a un
banco en un minuto en la hora pico"
54 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
Como puede notarse el grfico corresponde a una funcin escalonada, lo cual indica que slo hay
datos en los puntos de discontinuidad, cuya frecuencia est representada por el valor del salto
correspondiente.
2.2 CASO DE UNA VARIABLE CONTINUA
Supngase que se tienen observaciones sobre la estatura de las personas que conforman una
muestra de tamao 25 y que el instrumento de medicin usado tiene precisin hasta las
centsimas de milmetro, as pues un valor podra ser 1.74325 metros; si se pretendiera aplicar el
procedimiento que se us para las variables discretas, habra varios problemas, uno de ellos es
que seguramente, todos los datos son distintos, lo cual generara una tabla de frecuencias
absolutas con el mismo nivel de informacin que la muestra bruta; adems, no es de inters
conocer con ese nivel de detalle la informacin, por ejemplo, no es de inters conocer cuntas
personas tienen una estatura de 1.74325 metros.
En estos casos, es ms fcil agrupar la informacin en los llamados intervalos de clase. Para
ilustrar sobre su construccin, se plantea el siguiente ejemplo.
Ejemplo 2.2
Los datos que a continuacin se presentan corresponden a los tiempos de atencin (en minutos)
de pacientes en el "filtro" del servicio de urgencias de un hospital:
13.1, 7.1, 14.8, 19.0, 10.2, 18.0, 19.8, 15.0, 17.3, 10.8, 22.3, 14.5, 17.1, 14.9, 12.0, 14.0, 18.4, 10.2, 15.8,
16.5, 15.0, 17.6, 4.2, 13.4, 21.2, 14.7, 13.8, 21.0, 14.3, 11.1, 18.9, 8.3, 16.6, 11.2, 20.2, 14.4, 13.5, 18.2,
12.4, 17.0, 26.7, 15.5, 22.0, 12.9, 17.9, 7.4, 18.0, 19.8, 16.0, 21.2.
Generalmente se empieza por determinar las observaciones extremas (mnima y mxima), que en
el ejemplo aparecen marcadas: min (x
i
) = 4.2; max (x
i
) = 26.7.
Estos valores extremos definen el rango de la muestra:
rango = max (x
i
) - min (x
i
)
Captulo 2 55
Roberto Behar y Mario Yepes
Se debe determinar los valores L
0
, L
1
, L
2
, ...,L
m
que constituirn los lmites de los m intervalos de
clase que se van a construir, con longitudes C
1
, C
2
, ..., C
m
; de esta manera:
L
1 =
L
0
+ C
1
L
2
= L
1
+ C
2

L
i
= L
i-1
+ C
i
L
m
= L
m-1
+ C
m

El primer lmite inferior, L
0
, debe escogerse de tal manera que sea un poco menor que el dato ms
pequeo; un criterio para definirlo es el siguiente:
Como los datos estn registrados con una cifra decimal, se entiende que el instrumento de
medicin usado tiene una precisin de hasta las dcimas de minuto. Puede decirse que los datos
tienen (3) cifras significativas, lo cual indica que el registro "4.2 minutos" est representando
cualquier valor real en el intervalo: (4.15 , 4.25), de esta manera puede definirse L
0
= 4.15.
Si se quiere que todos los intervalos de clase sean igual longitud, es decir C
1
= C
2
= ... = C
m
=
C , se deber adoptar un valor C, que puede ser arbitrario o estimado con base en el rango de los
datos. En este caso, una aproximacin de C puede lograrse as:
C
m

Rango

Para el ejemplo 2.2 se construirn intervalos de diferente tamao, por ser la situacin ms
general.
Comenzando con L
0
= 4.15 podemos definir los otros lmites como:
L
1
= 7.15, L
2
= 11.15, L
3
= 13.15, L
4
= 16.15, L
5
= 18.15, L
6
= 21.15, L
7
= 27.15, en este
caso las longitudes de los 7 intervalos de clase son respectivamente 3, 4, 2, 3, 2, 3 y 6.
56 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
Para determinar la frecuencia asociada con cada intervalo, deben contarse los datos que
pertenecen a cada uno; las definiciones de las frecuencias dadas anteriormente siguen vigentes
para el caso de variables continuas, lo mismo que sus propiedades.
Se determina el punto medio de cada intervalo, que se denomina marca de clase y se representa
por x'
i
as:
x
L L
i
i i '
=
+
1
2

Este valor se constituye en el "representante" de los que pertenecen al intervalo correspondiente y
ms adelante jugar su papel.
A continuacin se construye un cuadro de frecuencias para el ejemplo 2.2.

OBSERVACIONES
1. Se puede apreciar en el cuadro 2.3. que el lmite superior de un intervalo coincide con el
lmite inferior del siguiente, lo cual podra originar un problema de indefinicin en caso de que
un dato coincidiera con un lmite, no se sabra donde clasificarlo. En el ejemplo no puede existir
Captulo 2 57
Roberto Behar y Mario Yepes
este problema puesto que todos los lmites se han construido con una cifra decimal adicional a la
que tienen los datos; cuando aquella posibilidad exista, se recomienda la convencin: (L
i-1
, L
i
]
que significa que en cualquier intervalo de clase, el lmite inferior no pertenece a l, pero s, su
lmite superior.
2. Cuando los datos se agrupan en intervalos de clase, se produce prdida de informacin,
puesto que no se dispone de los datos en forma individual sino una caracterizacin ms global,
por ejemplo cuando se dice que en el intervalo 4.15 - 7.15 hay 2 datos, con ello no se sabe que
valor tienen los dos datos, por tal razn cuando se reduce el nmero de intervalos se est
globalizando ms los datos y por tanto perdiendo ms informacin. Por otro lado si se construyen
demasiados intervalos se desvirta el objetivo de la estadstica descriptiva, puesto que su
manipulacin se hace compleja y su presentacin poco comprensible. Por tanto se recomienda
que, en caso de que no exista una razn especial, se tome un nmero de intervalos mayor que
cinco (5) y menor que veinte (20).
3. No deben existir intervalos de clase que no contengan datos. Con la distribucin de
frecuencias de la muestra se pretende explorar la distribucin de la poblacin; si existen clases
sin datos se distorsiona esta idea. Cuando esto ocurra debern reagruparse los datos.
4. Cuando sea posible debe procurarse que todos los intervalos sean de igual longitud, lo
cual en ocasiones simplifica algunos clculos y sobre todo facilita la interpretacin, puesto que
comparando directamente las frecuencias, se est comparando la densidad (concentracin) en
cada intervalo.
En algunas veces no es posible construir intervalos de igual longitud, por ejemplo, cuando la
variable "salario" toma un rango amplio de valores, para bajos salarios, clases de $100.000 de
longitud pueden considerarse, por ser esta diferencia importante, pero para altos salarios esta
longitud resulta pequea. En estas situaciones la longitud de los intervalos crece con los valores
de la variable, incluso a veces los intervalos extremos pueden ser abiertos ("los que ganan menos
de $500.000" o los que ganan $1000.000 o ms).
58 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
Cuando los intervalos de clase son de diferente tamao como en el ejemplo presentado, se
dificulta conocer donde hay mayor concentracin de los datos, esta situacin se soluciona
calculando la densidad de frecuencia relativa de cada intervalo, que consiste en expresar el
porcentaje (o fraccin) promedia de datos que hay por cada unidad de intervalo de clase.
As por ejemplo el intervalo 13.15 - 16.15 contiene el 30% de los datos. Como el intervalo tiene
una longitud de 3 minutos, se puede decir que dicho intervalo tiene una densidad promedio de
10% por cada minuto, que es el resultado de plantear: "si el 30% de los datos estn en una
longitud de 3 minutos, en un minuto que porcentaje habr?
De esta manera si se asume que los datos en cada intervalo estn uniformemente distribuidos, se
puede definir la densidad f*
i

en el i-simo intervalo, como:
i
i
i
C
f
f =
*

Si se expresa la densidad como una funcin para cualquier nmero real x, se obtiene la llamada
funcin emprica de densidad, que para el ejemplo 2.2 estar dada por:
0 si x <4.15 x >27.15
0,04 3 1,33% /min si 4.15 < x 7.15
0,10 4 2,5%/min si 7.15 < x 11.15
0,12 2 6%/min si 11.15 < x 13.15
f *(x) = 0,30 3 10%/min si 13.15 < x 16.15
0,18 2 9%/min 16.15 < x 18.


15
5.33% /min si 18.15 < x 21.15
1.66% /min 21.15 < x 27.15


La palabra "emprica" es para resaltar que proviene de una muestra, pero pretende indicar
el comportamiento de la variable en la poblacin (funcin de densidad de probabilidad).
Captulo 2 59
Roberto Behar y Mario Yepes
La expresin general para la funcin emprica de densidad, est dada por:^
( )
0 *
0
x L
f
Li-1 < x Li , i = 1, 2, ..., m
m
i
i
x L
x f
C

>


Como puede apreciarse en la funcin emprica de densidad del ejemplo el intervalo
13.15 - 16.15 tiene la mayor concentracin de datos (10 % /min).
2.2.1 Funcin emprica de densidad, f
*
(x).
Este grfico es conocido con el nombre de histograma y consiste en una serie de rectngulos,
cuya base son los intervalos de clase y su altura la densidad correspondiente.

Fig. 2.3. Histograma: grfico de la funcin emprica de densidad.
Al observar la figura 2.3 se puede apreciar que el rea de uno de los rectngulos, por ejemplo el i-
simo es:
A
i
= base x altura
60 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
= C
i
x f
*
i
como
i
i
i
C
f
f =
*
, entonces :
i
i
i
i i
f
C
f
C A = = x
Lo cual significa que el rea de cada rectngulo es equivalente con su frecuencia relativa; de esta
manera si un rectngulo tiene el doble de rea que otro significa que contiene el doble de datos.
La suma de todas las reas debe dar 100% 1.00.
La funcin emprica de densidad puede usarse para calcular en forma aproximada el porcentaje
de datos que hay en un intervalo cualquiera. Si en el ejemplo 2.2 se deseara estimar el porcentaje
total de consultas que duran 20 minutos o menos, se procede de la siguiente manera:
(
18.15 20 21.15
]

El porcentaje de datos menores o iguales que 20 puede calcularse al sumar el porcentaje de datos
menores iguales a 18.15 (74%) ms el porcentaje de datos que hay entre 18.15 y 20, el cual
puede obtenerse mediante el siguiente razonamiento: "si en el intervalo 18.15 - 21.15 se tiene una
densidad de 5.33 %/min entonces que porcentaje de los datos habr en una longitud de (20 -
18.15) minutos?
533%
20 1815 986%
.
( . ) .
min
min =
As pues que el porcentaje de datos que son menores o iguales que 20 es:
F(20) = F(18.15) + 9.86%
Captulo 2 61
Roberto Behar y Mario Yepes
= 74% + 9.86% = 83.86%
Con el mismo procedimiento se puede construir en forma general, para cualquier x, el porcentaje
(o fraccin) de datos que son menores o iguales que x, que se denota por F(x) y se conoce como
funcin emprica de distribucin acumulativa.
Supngase que x pertenece al intervalo (L
i-1
, L
i
] el cual tiene una longitud C
i
y una frecuencia
relativa f
i
, e interesa conocer la frecuencia relativa acumulada hasta x.

En virtud del supuesto sobre la homogeneidad en la distribucin de los datos en cada intervalo, se
puede plantear la siguiente regla de tres: "si en C
i
unidades hay una frecuencia f
i
, en (x - L
i-1
)
unidades, qu frecuencia habr ?", la respuesta es:
) (
1

i
i
i
L x
C
f

Por lo tanto:
) ( ) ( ) (
1 1
+ =
i
i
i
i
L x
C
f
L F x F
Con esto se puede plantear la funcin emprica de distribucin acumulativa como:

62 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
Si se reemplaza
i
i
i
C
f
f =
*
, se puede escribir:

La funcin de distribucin acumulativa para el ejemplo 2.2, est dada por:
0 si x 4.15

Si se desea estimar el porcentaje de datos que son menores o iguales que 15 minutos, es decir:
) 15 . 13 15 (
3
30 . 0
26 . 0 ) 15 ( + = F
= 0.26 + 0.185 = 0.445
O sea que el 44.5% de los pacientes son atendidos en 15 minutos o menos.
Captulo 2 63
Roberto Behar y Mario Yepes
Si se desea estimar el porcentaje de datos que hay entre "a" y "b", dgase f(a,b) se
puede calcular como:
f(a,b) = F(b) - F(a)
As por ejemplo, el porcentaje de datos que hay entre 15 minutos y 20 minutos puede estimarse
como:
f(15;20) = F(20) - F(15)
= 0.8386 - 0.445
= 0.3936
O sea que aproximadamente el 39.4% de los pacientes son servidos en el "filtro" en un tiempo
entre 15 y 20 minutos.
2.2.2. Funcin emprica distribucin acumulativa, F(x).
De la funcin F(x) en el ejemplo 2.2, se observa que en cada intervalo, F(x), representa un
segmento de la recta, cuya pendiente es la densidad del intervalo respectivo. Esto da origen al
siguiente grfico con el nombre de ojiva.
64 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

Fig. 2.4. Ojiva: Funcin emprica de distribucin acumulativa.
Relacin entre una funcin de densidad emprica y una funcin de densidad de
probabilidad de las llamadas variables aleatorias Continuas.
Estas mismas ideas que se han desarrollado hasta ahora a partir de los datos de una muestra,
tienen sus respectivos homlogos cuando se trabaja con todos los datos de la poblacin
estadstica y las variables continuas con las que trabajamos recibiran el nombre de variables
aleatorias, anlogamente las funciones de densidad empricas f
*
(x) y la Funcin de distribucin
acumulada F(x), reciben los nombres de funcin de densidad de probabilidad y Funcion de
distribucin acumulativa de probabilidad. Aqu intentaremos dar el paso de una manera natural
de los conceptos de las muestras a los conceptos de las poblaciones, es decir, de las frecuencias
relativas a la probabilidad y de las reas de los rectngulos en el histograma a las reas bajo
curvas o funciones y en los clculos pasaremos de las suma de reas de rectngulos al calculo de
intergrales. Ilustraremos este proceso con el siguiente ejemplo.
Ejemplo 2.2 B. (Del Histograma a funcin de densidad de Probabilidad)
Captulo 2 65
Roberto Behar y Mario Yepes
En el sector de la industria metalmecnica, se toma una muestra al azar de 500 obreros y se
determina la antigedad en su trabajo.
Por razones de ndole administrativo, se quiere representar los datos por medio de un histograma
que considere los siguientes intervalos de clase: 0-2 aos, 2-3 aos, 3-5 aos, 5-10 aos, 10-20
aos.
i Intervalo
(Aos de
Antigedad)
Frecuencia
Relativa
% (
i
f )
1 0-2 10%
2 2-3 5%
3 3-5 40%
4 5-10 40%
5 10-20 5%
TOTAL 100%
Cuadro 2B1. Distribucin de frecuencias de la Antigedad en el trabajo.
Los intervalos del cuadro, incluyen el lmite superior, pero no el inferior.
Observe que la frecuencia relativa la hemos denotado por
i
f
Vamos a construir un histograma con los datos agrupados presentados en el cuadro..
Recordando las Bases para la construccin de un histograma.
Un histograma es una serie de rectngulos construidos cada uno de los cuales tiene como base el
intervalo correspondiente y cuya rea representa la frecuencia relativa
i
f de su intervalo
respectivo. De tal manera que un intervalo que contiene el doble de datos que otro, deber estar
representado por rectngulo que tiene el doble del rea. (Ojo que se dice el doble de rea y no de
altura). Observe del cuadro de frecuencias de nuestro ejemplo, que el primer rectngulo, deber
tener el doble de rea que el segundo. El Tercero deber tener la misma rea del cuarto y adems
debe tener 4 veces el rea del primero, pues esa es la relacin de las reas.
Con estos criterios construyamos nuestro histograma.
66 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
Vamos a construir el primer rectngulo de un rea arbitraria, pero las dems reas debern
guardar proporcionalidad de acuerdo con las frecuencias relativas
i
f
.

Si vemos el grfico de la Figura, se aprecia muy claramente la proporcionalidad de las reas de
acuerdo con la frecuencia relativa de cada intervalo. Observe por ejemplo que el primer
rectngulo tiene el doble de rea que el segundo, no obstante que tienen la misma altura. Note
como los intervalos tercero y cuarto tienen rectngulos con la misma rea, no obstante que las
alturas son distintas. Tambin el primero y el ltimo tienen la misma rea, pues en ambos hay el
5% de los datos.
Interpretacindelaaltura
*
i
f delosrectngulosdeunhistograma.
Si el rea representa la frecuencia relativa (% de datos), entonces como se puede interpretar la
altura de un rectngulo? Qu significado tiene el valor de la altura de uno de los rectngulos del
histograma?.

Figura 2.4B. Histograma para la variable Antigedad en el Trabajo
Captulo 2 67
Roberto Behar y Mario Yepes
Por lo pronto denotemos la altura del rectngulo i-esimo, por
*
i
f , observe que le hemos colocado
un (*) para diferenciarlo de
i
f
.

Llamemos
i
C al ancho del intervalo i. De esta manera
1
2 C = ,
2
1 C = ,
3
2 C = ,
4
5 C = ,
5
10 C =
De la definicin de histograma qued establecido que las reas representan las frecuencias
relativas respectivas, es decir que si llamamos
i
A al rea correspondiente, entonces estamos
diciendo que:
i i
A f = , pero como el rea de un rectngulo es base por altura, entonces:
*
* *
i i i i
A f base altura C f = = = , de donde podemos calcular
*
i
f , despejando obtenemos:
* i
i
i
f
f
C
= . Observe que se divide la frecuencia relativa entre el nmero de unidades que tenga el
intervalo correspondiente, entonces las unidades de
*
i
f son (% de datos por cada unidad de la
variable en dicho intervalo). Veamos por ejemplo para el primer intervalo:
1
10% f = y
1
2 C = , as
que la altura del primer rectngulo es:
* 1
1
1
10%
5%/
2
f
f ao
C aos
= = = , que escrito en forma decimal
es 0.05/ao. (vea la Figura.2.4B).
Es intuitivamente claro, que si el primer intervalo tiene el 10% de los datos y estos datos estn
distribuidos en un intervalo que tiene una longitud de dos (2) unidades, pues en promedio hay 5%
por cada unidad (
*
1
5%/ 0.05/ f ao ao = )
El cuarto intervalo, (5; 10], por ejemplo, en sus 5 unidades (5 aos) contiene 40% de los datos.
As que en promedio, hay 8% de los datos en cada unidad o lo que es lo mismo:
* 4
4
4
40%
8%/ 0, 08/
5
f
f ao ao
C aos
= = =
Es decir que las unidades del eje Y en el grfico de la Figura.2.4B, es 1/unidad o %/unidad, por
eso se le conoce como densidad de frecuencia (
*
i
f ).
68 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
i Intervalo
(Aos de
Antigedad)
Frecuencia
Relativa
% (
i
f )
Densidad de
Frecuencia
(
*
i
f )
1 0-2 10% 5%/ao
2 2-3 5% 5%/ao
3 3-5 40% 20%/ao
4 5-10 40% 8%/ao
5 10-20 5% 0,5%/ao
TOTAL 100%
Cuadro 1B2. Densidad de frecuencia para la antigedad en el trabajo.
En general, si queremos estimar el porcentaje de datos que hay en cualquier intervalo de
antigedad, solo deberemos calcular su rea asociada en el histograma. Veamos un ejemplo:
Cul es el porcentaje de obreros que tienen antigedad menor que 4 aos?.
Este porcentaje corresponde al rea sombreada en la figura:

Figura 2.4C. Representacin del porcentaje de trabajadores con antigedad de 4 aos o menos.
Captulo 2 69
Roberto Behar y Mario Yepes
Observe que el rea sombreada se calcula sumando por un lado las reas de los primeros
rectngulos (10%+5%) y por otro lado la parte del tercer rectngulo comprendida entre 3 y 4,
que resulta ser la mitad de 40%, es decir 20%. As que el porcentaje de trabajadores con
antigedad de 4 aos o menos se estima en:
( ) 4 10% 5% 20% 35% 0,35 P X = + + =
Haciendo cuentas usando el concepto de densidad de frecuencia, podramos decir que como en el
tercer intervalo su densidad es de 20%/ao y en entre 3 y 4 aos hay una unidad, entonces habr
el 20%.
Estimemos ahora el porcentaje de trabajadores con antigedad entre 4 y 7,5 aos.

Figura2.4D. Representacin en el Histograma del porcentaje de trabajadores con Antigedad entre 4 y 7,5
aos.
( ) ( )
* *
3 4
4 7, 5 * 5 4 *(7, 5 5) 20%/ *(1 ) 8%/ *(2,5 ) 40% P X f f ao ao ao aos = + = + =
Rec
uerde que el eje Y (altura de los rectngulos) representan la densidad de frecuencia f*
Observe que el rea total del histograma siempre ser 100%.
70 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
Si un valor x
0
se encuentra en el cuarto intervalo, es decir entre 5 y 10. Encuentre el porcentaje
de trabajadores con antigedad menor o igual que x
0
.
De la Figura.2.4E, se puede apreciar al calcular el rea acumulada hasta x
0,
que:
( )
0 0
10% 5% 40% 8%/ *( 5) P X x ao x = + + + =
( )
0 0
55% 8%/ *( 5) P X x ao x = +
Aqu hemos obtenido una frmula para calcular la frecuencia relativa acumulada hasta x
0
, cuando
este valor se encuentra entre 5 y 10 aos de antigedad.

Figura 2.4E. Representacin del porcentaje de Trabajadores con antigedad de x
0
o menos
As pues si x
0
=8 aos, entonces: ( ) 8 55% 8%/ *(8 5) 79% P X ao aos = + = .
Si cada vez cambiamos el intervalo en el cual se encuentra x, podemos obtener la siguiente
funcin F(x), para calcular
( ) P X x .
Captulo 2 71
Roberto Behar y Mario Yepes
( )
( )
0 0
0, 05* 0 2
0,10 0, 05* 2 2 3
( ) 0,15 0, 20*( 3) 3 5
0, 55 0, 08*( 5) 5 10
0, 95 0, 005*( 10) 10 20
1 20
x
x x
x x
F x P X x x x
x x
x x
x

<

+ <

= = + <

+ <

+ <

>


Funcin de Distribucin de Frecuencia Relativa
Acumulada.
Examine la expresin obtenida para F(x)=
( ) P X x y asegrese de saber construirla.
Usando dicha expresin podemos estimar por ejemplo el porcentaje F(4), es decir el porcentaje
de trabajadores con 4 aos de antigedad o menos: Observe que x=4, se encuentra en el intervalo
3 5 x < , por lo tanto:
(4) ( 4) 0,15 0, 20*(4 3) 0, 35 35% F P X = = + =
Ahora imaginemos que disponemos de un nmero muy grande de datos de tal manera que sea
posible construir muchos intervalos de pequea anchura y a tal punto que el conjunto de
rectngulos del histograma se convierte en una curva suave
( )
*
f x como se muestra en la Figura .
El rea sombreada ilustra a F(x)=
( ) P X x .
Note que si ahora conociramos la expresin para
( )
*
f x , el rea sombreada podra calcularse
como:
( ) ( )
*
( ) .
x
F x P X x f x dx

= =

es decir, que el rea ahora podra calcularse como la integral bajo
la curva.
A esta funcin suave
( )
*
f x que se supone ahora describe la poblacin completa y no una muestra
le llamaramos funcin de densidad de probabilidad de la variable aleatoria antigedad.
72 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

Figura 2.4F. Idealizacin de una funcin de densidad de probabilidad
Ahora estamos preparados para la definicin de variable aleatoria continua.
Variable aleatoria continua. Definicin.
Se dice que X es una variable Aleatoria Continua si existe una funcin f(x), llamada funcin
densidad de probabilidad (fdp) de X, que satisface las siguientes condiciones:
a) ( ) 0 f x x

Es razonable que no tome valores
negativos, siendo una funcin de densidad
de probabilidad.

b)
( ). 1 f x dx
+



Ya hemos dicho antes que el rea del
histograma y ahora el rea bajo la funcin
de densidad, debe ser 100%.
c) Para cualquier a, b se tiene que
( ) ( ).
b
a
P a X b f x dx =



El rea atrapada entre los valores a y b es
justamente el porcentaje de datos de la
poblacin que cumple con esas
especificaciones. Mirado como la
experiencia aleatoria de sacar al azar un
valor de X, esta rea puede interpretarse
como probabilidad.


Captulo 2 73
Roberto Behar y Mario Yepes
Ejemplo 2.2C.
El Histograma de una cierta caracterstica continua X, es el que muestra sombreado en la figura.
Se pretende ajustar una funcin densidad y suena
razonable la que aparece ajustada formando un
triangulo equiltero. Encuentre la definicin de dicha
funcin de densidad de probabilidad estimada, f(x).
En primer lugar se observa que el rango de valores
que puede tomar la variable aleatoria X son los puntos en el intervalo que va de cero (0) a
dos(2). Es decir que:
{ } / 0 2
X
x x =
Rango o Recorrido de la variable aleatoria X. algunas
veces se denota por
X

Cual deber ser la ecuacin que defina las dos rectas que conforman el triangulo equiltero y
que definen la funcin de densidad de probabilidad estimada?.
Pues como el rea debe ser igual a la unidad, esto significa que la altura h del triangulo, debe
ser tal que el rea valga 1.
* 2*
1 1
2 2
base altura h
Area = = = =
De donde se deduce que la altura h=1. Por lo tanto la ecuacin de la recta de pendiente positiva
es f(x)=x. la ecuacin de la recta con pendiente negativa ser: f(x)=2 x, as pues:
74 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
( )
0 1
2 1 2
x x
f x
x x
<
=

<



Si se produce una realizacin de la variable aleatoria X, estime la probabilidad de que el valor
resulte entre 0,5 y 1,5?
( ) ( )
1,5
0,5
0, 5 1, 5 . P X f x dx =


( ) ( )
1,0 1,5
0,5 1,0
0, 5 1, 5 . 2 . P X x dx x dx = + =


( ) ( )
1,0 1,5
0,5 1,0
0, 5 1, 5 . 2 . P X x dx x dx = + =


( )
1,5 1,0
2 2
0,5 1,0
0, 5 1, 5 2
2 2
x x
P X x

= + =



( )
3
0, 5 1, 5
4
P X =

Observe que el rea, en este caso, se hubiera podido calcular como el rea de dos trapecios, con
base mayor la altura del triangulo.
Ejemplo 2.2D
El tiempo, en horas, que tarda un autobs urbano en completar su recorrido se puede representar
mediante una variable aleatoria X con la siguiente funcin de densidad:


=
resto ; 0
1 x 0 ; kx
) (x f
Obtener el valor de k para que f(x) sea una funcin de densidad.
Captulo 2 75
Roberto Behar y Mario Yepes
De acuerdo a las propiedades de una funcin de densidad para variables aleatorias continuas se
tiene que: ( ) 0 f x y adems ( ) 1 f x dx


Es decir que
1
0
1 kxdx =

, por lo tanto:
1
1 1
2 2 2
0 0
0
1
(1) (0) (1)
2 2 2 2
k k k
kxdx k xdx k x

= = = = =






Ahora al igualar y despejar k se obtiene que:

2 1
2
= = k
k

Por lo tanto:
2x 0 x 1
( )
0 en otra parte
f x

=


Obtener la funcin de distribucin (Acumulada).
0
( ) ( ) ( )
x
F X P X x f t dt = =


( ) ( ) ( )
2 2 2 2 2
0 0
0
1 1 2
F(x)=P X x 2 2 2 2 (0)
2 2 2
x
x x
tdt tdt t x x x

= = = = = =




( )
2
0 0
F(x)=P X x 0 1
1 1
x
x x
x
<

>


Funcin de Distribucin Acumulativa de Probabilidad
Cul es la probabilidad de que el autobs efecte su recorrido como mucho en 3/4 de
hora? Y la probabilidad de que tarde ms de 3/4 de hora?
La probabilidad de que el autobs efecte su recorrido como mucho en 3/4 de hora se obtiene as:
76 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
( )
2
3 9
(3/ 4) 3/ 4 0.5625
4 16
F P X

= = = =



Lo cual significa que aproximadamente el 56% de las veces el autobs se tarda de hora o
menos.
La probabilidad de que tarde ms de 3/4 de hora es:

4375 . 0 5625 . 0 1 ) 4 / 3 ( 1 = = = X F
Calcular la probabilidad de que el autobs tarde entre 20 minutos (1/3 de hora) y 1 hora
en completar su recorrido.
Observe que ( ) ( ) ( ) ( ) ( ) P a X b P X b P X a F b F a = =
Por lo tanto:
( )
1 1 1
1 1 (1) ( )
3 3 3
P X P X P X F F

= =



( )
2
1 1
(1/ 3) 1/ 3 0.1111
3 9
F P X

= = = =



( ) ( )
2
(1) 1 1 1 F P X = = =
Al hacer la diferencia se obtiene la probabilidad deseada.
(1) (1/ 3) 1 0.1111 0.8888 F F = =
Por lo tanto la probabilidad de que el autobs tarde entre 20 minutos (1/3 de hora) y 1 hora en
completar su recorrido es de 0.8888. Es decir que se espera que aproximadamente el 88,9% de las
veces el autobs tarde un tiempo comprendido entre 20 minutos y una hora.
Ejemplo 2.2E
La duracin de la tramitacin de un expediente administrativo de licencia de obras es una
variable aleatoria con distribucin Exponencial , es decir con funcin de densidad de la forma
f(x) = e
-x
; x > 0. De datos de experiencias anteriores se ha estimado que =1/3.
Captulo 2 77
Roberto Behar y Mario Yepes
Es decir que 0 ;
3
1
) (
3
1
> =

x e x f
x

Cierto constructor trabaja con avales bancarios para cada una de sus obras, de forma que los
intereses que debe pagar empiezan a resultarle muy gravosos cuando las licencias sufren retrasos
superiores a 4 meses. En estos momentos, el constructor tiene en proyecto un total de 12 obras.
Calcule:
a) La probabilidad de que una obra especfica le resulte gravosa.
En realidad lo que se pide es la probabilidad de que el tiempo de tramitacin de una obra sea
superior a 4 meses. P(X>4).
1
3 1
3
4 4
( 4) ( )
x
P X f x dx e dx
+ +

> = =

( ) 2635 . 0 ) 0 (
3
1
3
1
4
3
4
) 4 (
3
1
) (
3
1
4
3
1
4 4
3
1
3
1
= + = + = = = = >



e e e e dx e dx e X P
x x x

Es decir que un poco ms de la cuarta parte de las veces que se hace un trmite de licencia, sta
tarda ms de 4 meses y resulta gravosa para el constructor
Ejemplo 2.2F
El porcentaje de alcohol (100X) en cierto compuesto se puede considerar como una variable
aleatoria donde X, con la siguiente funcin de densidad de probabilidad:
) 1 ( 20 ) (
3
x x x f = ; 0 x 1.
a) Construya la Funcin F(x) de Distribucin Acumulativa de Probabilidad.
( )
0
( ) ( )
x
F x P X x f x dx = =


78 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

Figura 2.4G. Relacin entre la Funcin de densidad de Probabilidad y la funcin de Distribucin
Acumulativa de Probabilidad F(x).


3 4 5
0
0 0
1 1
( ) 20 (1 ) 20 0 1
4 5
1 1
x
x
F x x x dx x x x
x
<


= =

>


( )
4 5
1 1
4 5
0 0
( ) 20 0 1
1 1
x
F x x x x
x
<

>


Captulo 2 79
Roberto Behar y Mario Yepes

Figura2.4H. Funcin de Distribucin Acumulativa de Probabilidad.
Observe que la Funcin de Distribucin Acumulativa de Probabilidad, es no decreciente, lo cual
es razonable, siendo que
( )
0
( ) ( )
x
F x P X x f x dx = =

puesto que entre mayor sea x, mayor


ser el rea bajo la funcin de densidad, o por lo menos no disminuye. Adems note que est
definida para todos los nmeros reales.
b) Calcule la probabilidad de que el compuesto contenga las dos terceras partes o menos de
alcohol.
( ) ( )
4 5
2 2 2 2
3 3 3 3
1 1
( ) ( ) 20
4 5
P X F

= =


=0,469
c) Calcule el contenido mediano de alchol, es decir la mediana de la variable aleatoria X.
Ya sabemos que la mediana es aquel valor x , tal que
( ) 50% P X x = , es decir aquel valor para
el cual
( ) 0, 50 F x = , con lo cual:
80 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
4 5
1 1
20 0, 50
4 5
x x

=




Figura 2.4I. Interpretacin de la mediana de una variable aleatoria
Lo cual significa que la mediana del contenido de alcohol es 0,687, es decir que la mitad de
las veces el compuesto resulta con 68,7% de alcohol o menos.
d) Supngase que el precio de venta del compuesto anterior depende del contenido de
alcohol. Especficamente si 1/3 X 2/3, el compuesto se vende a 50 dlares/galn, de
otro modo se vende a 30 dlares /galn. Si el costo por galn del compuesto es 20
dlares /galn, entonces a la larga, cuanta es en promedio la utilidad por galn?
Definamos una nueva variable aleatoria que represente la Utilidad U, por galn.
1 2
3 3
$ 30
$ 10
Si X
U
En Otro caso

=


Captulo 2 81
Roberto Behar y Mario Yepes
Cul es la distribucin de probabilidad de la variable aleatoria Utilidad?
1 2 2 1
3 3 3 3
( $ 30) ( ) ( ) ( ) P U P X F F = = = =

4 5 4 5
1 2 1 2 1 1 1 1
( $ 30) 20 0, 4156
4 3 5 3 4 3 5 3
P U


= = + =






Por lo tanto la ( $ 10) P U = ser su complemento.
( $ 10) 1 0, 4156 0, 5844 P U = = = . En sntesis la distribucin de probabilidad de la
variable aleatoria Utilidad, U, es:
Utilida
d
U
Probabilida
d

$ 30 0,4156
$ 10 0,5844
TOTAL 1,0000
Cuadro 2. Distribucin de la variable aleatoria Utilidad

Figura 2.4J Distribucin de Probabilidad de la variable Utilidad (U)
82 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes


Camello 1 (trabajo para los estudiantes)
La Duracin en horas de cierto dispositivo electrnico es una variable muy
importante para una industria de productos electrnicos. Por esta razn se llevan
muchos registros sobre la duracin de dispositivos en experimentacin.



Figura 2.4K. Registro de datos sobre la duracin en horas de un dispositivo electrnico.
Con base en este gran conjunto de datos, se construy un histograma que nos permite tener una
estimacin emprica de la funcin densidad, la cual est representada por las alturas de los
rectngulos. Con base en la densidad emprica se ajust el modelo que muestra la Figura que
result ser
2
100
( ) 100 f x x
x
= > .
Captulo 2 83
Roberto Behar y Mario Yepes

Figura 2.4 L. Ilustracin del ajuste de un modelo para funcin de densidad de probabilidad
Con base en dicha funcin de densidad ajustada: a) Verifique que f(x) es una verdadera funcin
de densidad b) Construya la Funcin de distribucin acumulada de probabilidad para la duracin.
c) Estime la probabilidad de que un dispositivo dure menos de 200 horas. d) Estime la
probabilidad de que un dispositivo dure ms de 200 horas, si se sabe que todava funciona
despus de 150 horas. e) De acuerdo con los resultados anteriores, decida si es razonable pensar
que los dos eventos son independientes. f) Si se instalan 3 de estos dispositivos en un sistema y la
duracin de cada dispositivo es independiente de las de los otros, estime la probabilidad de que al
menos uno de ellos dure ms de 150 horas. g) Cul es el nmero mximo n de dispositivos que
debern ponerse en un conjunto de modo que haya una probabilidad 0,50 de que despus de 150
horas todos estn funcionando
Ejemplo 2. 2G.
Si un instrumento electrnico tiene una duracin X (en unidades de 1000 horas) que se considera
una variable aleatoria continua con funcin de densidad de probabilidad.
x
e x f

= ) ( Para valores positivos de x.
84 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
El costo del artculo es $2, sin embargo el fabricante vende el artculo en $5, con la condicin de
que devuelve todo el dinero si el instrumento dura 900 horas o menos , es decir si X 0,900.
a) Cul es la Funcin de distribucin acumulada de probabilidad, F(x), para la
variable aleatoria duracin?
( )
0
( ) ( )
x
F x P X x f x dx = =


( )
0
0
0
0 0
( )
0
x x
x x x
Si x
F x P X x
e dx e dx e dx x


= =

= + >


( )
0 0
( )
1 0
x
Si x
F x P X x
e x


= =

>


Funcin de Distribucin Acumulativa de Probabilidad para
la variable aleatoria duracin, X.

b) Calcule la probabilidad de que el fabricante deba devolver el dinero de la venta de un
instrumento.
En realidad la probabilidad pedida es P(X0,900), es decir F(0,900)
Probabilidad de Devolver el dinero de una venta
( )
0,900
(0,900) 0,900 1 0,5934 F P X e

= = =
Lo cual significa que a la larga, aproximadamente en el 59% de las ventas debe devolverse el
dinero al no cumplir el instrumento con la duracin de ms de 900 horas.
Captulo 2 85
Roberto Behar y Mario Yepes

Figura 2.4M Representacin de la probabilidad del evento Devolver el Dinero

c) Calcule la distribucin de probabilidad para la variable aleatoria Utilidad de un
Instrumento (U)
La variable aleatoria Utilidad U, tiene como espacio Muestral:
{ } $2, $3
U
= es decir cuando le toca devolver el dinero, pierde los $2 del costo y cuando no
devuelve, gana $3.
( ) ( ) $2 0,900 (0,900) 0, 5934 P U P X F = = = =

( ) ( ) $3 1 0, 900 1 (0, 900) 0,4066 P U P X F = = = =

86 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes


Figura 2.4N. Distribucin de Probabilidad de la variable Aleatoria Utilidad en la venta de un Instrumento
2.3 CUARTILES DE UNA DISTRIBUCIN
Unas medidas cada vez mas utilizadas, son los cuartiles, que son tres valores Q
1
, Q
2
, Q
3
que
dividen la muestra ordenada en cuatro partes que contienen aproximadamente el mismo numero
de datos (de all su nombre), es decir que el 25% de los datos son menores que Q
1
, el 50% de los
datos son menores que Q
2
y el 75% de los datos son menores que Q
3
. Estos tres valores producen
una muy buena sntesis de la distribucin de frecuencias.
Ntese que siempre entre los valores Q
1
y Q
3
, se encuentra el 50% central de los datos.
Calculemos los cuartiles para el ejemplo anterior, del tiempo de espera en un servicio de
urgencias.
Primer cuartil Q
1

Note que el primer cuartil Q
1
, se encuentra en el intervalo 11.15 a 13.15, puesto que la frecuencia
acumulada hasta 11.15 es F(11.15)= 14% y F(13.15)=26%. Por lo tanto debe existir un punto
Q
1
, en dicho intervalo, tal que su frecuencia acumulada sea el 25%, es decir:
F (Q
1
)=25%.

Atendiendo a la expresin de F(x) para ese intervalo puede escribirse:
Captulo 2 87
Roberto Behar y Mario Yepes
) 15 . 11
1
(
2
12 . 0
14 . 0 )
1
( 25 . 0 + = = Q Q F


De donde puede despejarse Q
1
, obtenindose el primer cuartil Q
1
= 12.98 minutos. Es decir que el
25% de las personas son atendidas en 12.98 minutos o menos.
Segundo cuartil Q
2
. (Mediana)
Se desea encontrar el tiempo Q
2
, tal que el 50% de las personas son atendidas en ese tiempo o
menos, es decir: F(Q
2
) = 50%.
Al observar el cuadro o la funcin F(x), encontramos que F(13.15)=26% Y F(16.15)=56%, lo
cual nos indica que el segundo cuartil Q
2
, se encuentra entre 13.15 y 16.15, Si revisamos la
funcin F(x) para este intervalo y reemplazamos x por Q
2
, se obtienen
) 15 . 13 2 (
3
30 . 0
26 . 0 ) 2 ( + = Q Q F = 0.50
Despejando Q
2
, resulta Q
2
= 15.55 minutos. Es decir que la mitad de la gente (50%), espera
15.55 minutos o menos.
Tercer cuartil
Siguiendo el proceso anterior, para F(Q
3
) = 75%, se obtiene que
) 15 . 18 3 (
3
16 . 0
74 . 0 ) 3 ( + = Q Q F = 0.75
De donde al despejar resulta Q
3
= 18.35 minutos. Lo cual se interpreta como que el 75% de las
personas esperan 18.35 minutos o menos.

88 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
Los cuartiles proporcionan una muy buena idea de la forma como estn distribuidos los datos,
pues entre un par de cuartiles consecutivos siempre esta el 25% de los datos. Esta interpretacin
de la informacin que se obtiene de los cuartiles se har mas evidente en los diagramas de cajas y
alambres, que se presentar ms adelante.
Ntese que entre los cuartiles Q
1
y Q
3
siempre se encuentra el 50% central de los datos, pues
abajo de Q
1
esta el 25% y arriba de Q
3
esta el 25%.
En el ejemplo anterior diramos que la mitad de las personas esperan entre 12.98 y 18.35
minutos.
A la distancia entre los cuartiles Q
1
y Q
3
, se le llama rango intercuartlico.
Rango intercuartlico (RIC) = Q
3
- Q
1
. Para el ejemplo tendramos que RIC= 5.37 minutos
2.3.1 Diagrama de caja y Alambres
1

Este diagrama constituye una sntesis muy buena de la distribucin de frecuencias y su sencillez
la hace ms til, sobre todo en aquellas situaciones donde se hace necesario comparar dos o ms
distribuciones (poblaciones o tratamientos).
En la figura, se ilustra un diagrama de caja y alambres para el caso del ejemplo de los tiempos de
espera.
Veamos como fue construido y cual es su interpretacin.
Se calculan los siguientes puntos:
Q1, Q2, Q3, Q1 - 1.5 RIC, Q3 + 1.5RIC.

1
Estos grficos son una contribucin del gran estadstico Jhon Tukey.
Captulo 2 89
Roberto Behar y Mario Yepes
: Q1-1.5RIC =12.98 - 1.5(5.37) = 4.92 A este punto se le conoce como: cerco
interno inferior
: Q1 = 12.98 (primer cuartil)
: Q2 = 15.55 (segundo cuartil = mediana)
: Q3 = 18.35 (tercer cuartil)
: Q3 + 1.5RIC = 18.35 + 1.5(5.37) = 26.40 cerco interno superior.
Entre los cercos interiores, generalmente se encuentra un porcentaje alto de los datos, de tal
manera que los puntos que se salen de los cercos, son puntos sospechosos de ser OUTLIERS
2

(Puntos atpicos).

2
Los datos caracterizados como OUTLIERS tienen gran importancia, pues son puntos que tienen magnitudes
raras con respecto al conjunto de datos. Es muy importante sealar que lo raro, supone un criterio de lo que es
normal, de tal manera que se supedita a esa definicin. Un punto puede ser raro, si se supone que la distribucin
de la cual proviene es Gaussiana (campana de Gauss), pero puede no serlo si su poblacin de origen es una
Weibull (forma de baera). El sealar algunos puntos como OUTLIERS obliga a poner especial atencin sobre
ellos, puede ser desde una mala medicin, hasta un verdadero hallazgo. En no pocas ocasiones los OUTLIERS se
convierten en los puntos mas valiosos de una investigacin. Imagnese un perno con una resistencia
extraordinariamente superior a lo corriente.
Cuando se verifica que el dato es vlido (medicin correcta), en necesario definir la manera de involucrarlo en los
anlisis (ponderacin). Un libro que trata de estos aspectos es BARNETT and LEWIS. Outliers in Statistical
data.
90 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

Fig. 2.5. Diagrama de caja y alambres para la distribucin de los tiempos de espera en el servicio de
urgencias de un hospital.
Con esta informacin se procede as: la caja se construye entre los cuartiles Q1 y Q3, con un
ancho arbitrario. Dentro de la caja se marca Q2, con trazo. Los alambres que salen de Q1 y Q3,
van hasta el dato ms prximo al cerco interno (sin cruzar el cerco.). Note que en este caso
dichos puntos son 10.2 (que es el dato mas prximo al cerco interno inferior, que esta en 4.92) y
por arriba esta el punto 22.3 (El dato mas prximo al cerco interno superior que es 26.4). Los
puntos que se salen del cerco son marcados sobre el grfico.
Se marcan (dibujan) los puntos que se han salido del cerco, en este caso son: 4.2 por abajo y el
dato 26.7 que se sali del cerco interno superior.
Captulo 2 91
Roberto Behar y Mario Yepes
Tambin suele definirse un cerco externo ubicado a 3RIC de Q1 y Q3. Los puntos que quedan
fuera de este cerco externo se conocen como OUTLIERS y son puntos que pueden ser atpicos,
comparados con el cuerpo de datos. (En nuestro caso el cerco externo estara entre los puntos -
3.13 y 34.46, fuera de los cuales no se encuentra ningn dato.)
2.3.2 Como calcular los cuartiles, cuando los datos no estn agrupados
Ejemplo 2.3
Los siguientes datos corresponden a las edades de 14 personas seleccionadas al azar, entre cierta
clase de empleados de la poblacin objetivo de un estudio.
25, 38, 29, 42, 39, 54, 23, 33, 45, 45, 26, 34, 30, 31.
Pas #1; Ordenar los datos de menor a mayor:


Observe que cuando los nmeros indican posicin, los colocamos entre parntesis.
Los cuartiles los descubrimos calculando la posicin que ocupan; es conveniente empezar por
el segundo cuartil
Segundo cuartil Q
2
. (Mediana)
Para calcular la posicin que ocupa el segundo cuartil, promediamos las posiciones extremas
ocupa la posicin (14)+(1) / 2 = (7.5). Como existe la posicin 7.5, porque un dato queda en la
posicin 7 o en la 8, entonces que interpretaremos que queda en el medio de los datos que
92 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
estn de 7 y 8 , para evitar esta ria, hacemos el promedio de los dos datos que ocupan esas
posiciones:

Primer Cuartil
3
, Q
1
. El primer cuartil se obtiene considerando solo los datos que quedan
antes de la mediana. Para este grupo de datos se calcula la media .Se trata pues de encontrar la
posicin de la mitad de la mitad.

La posicin que ocupara el primer cuartil ser la mediana de este primer grupo de datos: que es
el que ocupe la posicin
(7) +(1)/2 = (4.)
La Cuarta posicin la ocupa el dato 29. Este es el primer cuartil.

3
Note que si el nmero de datos es impar, el segundo cuartil Q
2
, resultara ser un dato de la muestra. En este caso,
para calcular la ubicacin del primer cuartil Q
1
, se toman en cuenta los datos que quedaron antes del segundo
cuartil, excluyendo el dato que resulto ser el segundo cuartil Q
2
. Anlogamente para el tercer cuartil Q
3
.
Captulo 2 93
Roberto Behar y Mario Yepes
Es decir que el primer cuartil, Q
1
es el dato que ocupa la 4 posicin, o sea que Q
1
= 29 Aos
Si aplicamos este mismo procedimiento a los datos mayores que la mediana, se obtiene el tercer
cuartil
El tercer cuartil Q
3
.

La posicin que ocupara el tercer cuartil ser la mediana de este segundogrupo de datos: que es
el que ocupe la posicin
(8) +(14)/2 = (11.)
La posicin once la ocupa el dato 42. Este es el tercer cuartil.
Q3 = 42 Aos
Para la construccin de un diagrama de caja y alambres, se requiere de algunos clculos
adicionales, basados en los cuartiles ya encontrados:
RANGO INTERCUARTILICO (RIC)
RIC = Q
3
-Q
1
= 42-29= 13 Aos
EDAD MINIMA = 23 Aos
EDAD MAXIMA = 54 Aos

94 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
cerco interno inferior = Q1- 1.5(RIC) = 29-1.5(13) = 9.5
cerco interno superior = Q3 + 1.5(RIC) = 42 + 1.5(13)= 61.5
Construya usted el diagrama para este caso
4
.
Otro ejemplo (Sntesis)


4
Note que en este caso particular, todos los puntos quedaron dentro de los dos (2) cercos, lo cual no ocurre siempre,
por esta razn los puntos interiores mas cercanos al cerco son el mnimo y el mximo de los datos, que definen la
longitud de los alambres que van pegados a la caja.
Captulo 2 95
Roberto Behar y Mario Yepes
En resumen puede decirse que los diagramas de cajas y alambres son tiles, entre otros para los
siguientes propsitos:
1. Para identificar la localizacin de los datos alrededor de la mediana.
2. Para hacerse una muy buena idea de la dispersin de los datos, basndose en la longitud
de la caja (rango intercuartlico), pues siempre la caja, corresponde al 50% de los datos que estn
en la parte central. Adems se aprecia el rango de los datos, el cual corresponde a la distancia
entre las observaciones ms extremas.
3. El diagrama de cajas y alambres, nos permite hacernos una muy buena idea sobre el grado
de asimetra de una distribucin, al comparar la proporcin de la caja que queda a la izquierda de
la mediana, con la que queda a la derecha, igualmente la longitud de los alambres respectivos. En
el ejemplo de la figura, se observa que los datos estan ms concentrados en entre Q1 y Q2 que
entre Q2 y Q3, lo cual es una muestra de cierto grado de asimetra.
4. El diagrama es til para identificar posibles OUTLIERS ( fuera de los cercos internos
pero dentro de los externos) y OUTLIERS (fuera de los cercos externos).
5. Una utilidad grande de los diagramas de caja y alambres, es comparar varias poblaciones,
a travs de sus distribuciones. En este caso se construye un diagrama para cada distribucin y se
dibujan en una misma escala (sobre un mismo plano), lo cual permite muy fcilmente hacerse
una idea de las semejanzas y las diferencias de los rasgos ms importantes de las distribuciones.
Como se ilustrara en un ejemplo ms adelante.
Ejemplo 2.4
En el cultivo de la caa de azcar, se llama una suerte a un lote de terreno, en el cual hay
varias parcelas del cultivo, a las cuales se les da el mismo tratamiento, es decir cuando se
cosecha, se hace en todas las parcelas de la suerte, cuando se arregla el terreno igualmente o
cuando se siembra o se riega. El terreno de una suerte puede llegar a ser usado hasta para cuatro
siembras consecutivas antes de ser acondicionado de nuevo (remover tierra, agregar abono,
96 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
fertilizantes, etc.). Se supone que con cada siembra el terreno se fatiga y que eso se ver reflejado
en la produccin de caa (o en la de azcar).
Se han tomado datos de produccin de varias suertes, que han estado sometidas a diferente
nmero de cortes (o de siembras), que tienen diferente procedencia (caa propia (1) o de
proveedor externo (0), edad de corte (meses). Use un diagrama de cajas para comparar las
distribuciones de frecuencias de los rendimientos para las suertes de acuerdo con los diferentes
criterios, que se menciona en el problema.
PREGUNTA 1: El nmero de cortes que se haya hecho sobre un terreno, desde su ltimo
acondicionamiento, afecta el rendimiento?
Para dar respuesta a esta pregunta, debe compararse las distribuciones del rendimiento para las
poblaciones que tienen distinto nmero de cortes. A continuacin se comparan, a travs de
diagramas de cajas.
Se puede observar en la figura 2.6 en forma contundente que el nmero de cortes afecta
considerablemente el rendimiento, note por ejemplo que la caa sembrada en un terreno con
cuatro cortes, tiene un rendimiento mediano de alrededor de 83 Ton/Fa, mientras la de tres (3)
cortes tiene alrededor de 110 Ton/Fa, la de dos (2) cortes 130 Ton/fa y la de un corte tiene un
rendimiento mediano de aproximadamente 143 Ton/fa.







Captulo 2 97
Roberto Behar y Mario Yepes

Fig. 2.6. Diagrama de cajas
En la Figura 2.7, puede notarse que las distribuciones, para los cortes 1, 2, 3 tienen variabilidad
muy parecida, mientras que la variabilidad de la distribucin del rendimiento para las de cuatro
(4) cortes es mayor.
Ntese tambin que en esta situacin se han considerado en forma conjunta la produccin propia
del ingenio y la de los proveedores externos, por eso surge de manera natural la pregunta
siguiente.
PREGUNTA 2. El comportamiento registrado en la anterior situacin, es vlida
independientemente de si el origen de la caa es ingenio o proveedor?
Para dar respuesta a esta pregunta, deben construirse los diagramas de caja para cada nmero de
cortes, separadamente para caa del ingenio y para proveedores, como se muestra en la
figura 2.7. De esta manera estamos valorando la procedencia como un posible factor de
confusin.
98 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

Fig. 2.7. Diagrama de cajas de la comparacin del rendimiento de acuerdo con el origen de la caa y
el nmero de cortes en la suerte
Observe en la grfica las cajas sombreadas corresponden a las distribuciones del rendimiento,
para caa del ingenio, mientras la blanca corresponde a proveedor externo. Se nota un
comportamiento bastante similar, es decir, no parece existir diferencia en la caa con respecto a
su origen. Los rendimientos medianos, son consistentes con los del primer grfico, al igual que
su variabilidad.
La edad de corte, parece tener bastante importancia, averigemos ahora por su distribucin:
PREGUNTA 3: Cul es la distribucin de la edad de corte, de acuerdo con el origen de la caa y
de su nmero de cortes?
Para dar respuesta a este interrogante, se construyen cajas para la variable edad de corte
(meses), para cada una de las distintas subpoblaciones que resultan de la combinacin de nmero
de cortes y origen (procedencia).

Captulo 2 99
Roberto Behar y Mario Yepes


Fig. 2.8. Comparacin de la edad de Corte segn el numero de cortes que se han practicado en la
suerte
En esta situacin, sera muy conveniente conocer un poco ms sobre el fenmeno, para tener
claridad acerca de cul es la edad ptima de corte, aunque depende de la variedad de caa que se
siembre. Supongamos que para nuestro caso, la edad de corte recomendada est entre 12.5 y 13.5
meses. A medida que la caa envejece va empobreciendo su contenido de sacarosa, que es en
realidad lo que interesa. En estas condiciones podra decirse que en casi todos los casos se corta
despus de 12,5 meses, sin embargo, un porcentaje muy grande de las veces se esta cortando por
encima de los 13.5 meses. Se sugiere averiguar las razones para que esto este ocurriendo.
PREGUNTA 4 .Como afecta la edad de corte, el rendimiento de la caa en cuanto al volumen
de caa cosechado? (Note que aqu no sabremos el impacto en trminos del contenido de
sacarosa, solo del rendimiento en trminos de la cantidad de caa colectada).
Dado que ya conocemos que el nmero de cortes, es una variable importante, debemos
involucrarla en el anlisis, para que no se convierta en un factor de confusin. De esta manera
100 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
debe construirse las cajas para la distribucin del rendimiento, para cada categora de nmero de
cortes y de edad. Aqu, la edad se ha categorizado, en tres grupos: joven, madura y vieja.
Veamos el resultado.
Obsrvese en la figura 2.9, que para cada nmero de cortes hay tres grficos que corresponden
a diferentes grados de madurez de la caa al cortarse, pero sistemticamente, en cada uno de los
grupos de tres grficos, la distribucin de la caa joven, tiene un rendimiento mediano mas alto,
seguido por la madura y por ltimo por la vieja, presentndose diferencias relativamente mas
grandes en la caa de cuatro (4) cortes.
En esta comparacin se ve muy claro el impacto de la edad de corte.
Queda pendiente un estudio, en el que se evale el contenido de sacarosa y podra repetirse el
anlisis, teniendo como variable de respuesta Ton de azcar/Fa.

Fig. 2.9. Distribucin de la Edad de corte segn numero de cortes se la suerte.

Captulo 2 101
Roberto Behar y Mario Yepes
2.4 REDUCCION DE DATOS
Hasta ahora se ha tratado de organizar la informacin, resumindola a travs de los cuadros de
frecuencias y de la representacin grfica, no obstante en ocasiones se requiere de algunas
medidas que en forma muy directa puedan indicar rasgos importantes de la muestra, como su
magnitud, su homogeneidad, su simetra, etc. Al proceso de resumir los datos por medio de
estadgrafos que indiquen sus rasgos, se denomina reduccin de datos.
Se comenzar con la presentacin de algunos indicadores de la magnitud, de los datos de la
muestra que han sido llamados:
2.4.1 Indicadores de tendencia central
Entre los principales indicadores se consideran los siguientes:
Media aritmtica, mediana, moda, y media geomtrica.
2.4.1.1 La media aritmtica
La media aritmtica de una muestra de datos: x
1
, x
2
,..., xn, se define como:
x
x x x
n
x
n
n
x
n
i
i
n
i
i
n
=
+ + +
=
=
=
=

1 2
1
1
1
...

Si los datos corresponden a una variable discreta que est organizada en un cuadro de fre-
cuencias, se puede escribir:

= =
=
= = =
m
i
m
i
i i i
i
m
i
i i
x f x
n
n
n
x n
x
1 1
1

102 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
Ejemplo 2.5
Sean 2, 3, 2, 2, 2, 3, 1, 3, 3, 4, una muestra de tamao n = 10; su media aritmtica ser:
x =
+ + + + + + + + +
=
2 3 2 2 2 3 1 3 3 4
10
2 5 .
Si la muestra se presenta en un cuadro de frecuencias tenemos:
x
i
n
i
f
i

1 1 0.1
2 4 0.4
3 4 0.4
4 1 0.1
y la media puede calcularse como:
x
n x
n
i i
i
m
= =
+ + +
=
=

1
1 1 4 2 3 4 1 4
10
2 5 .
lo que es exactamente lo mismo como
= =

=
m
i
i i
x f x
1
0.1 x 1 + 0.4 x 2 + 0.4 x 3 + 0.1 x 4 = 2.5
Propiedades de la media aritmtica
1. La suma de las desviaciones de los datos con respecto a la media es cero.
* definimos desviacin del dato x
i
con respecto al valor "a" como:
d
i
= x
i
- a
As que la propiedad puede escribirse como:
( ) x x
i
i
n
=
=

0
1

Captulo 2 103
Roberto Behar y Mario Yepes
La verificacin puede hacerse en forma sencilla:
( )
( )
x x x x x nx
x n
x
n
i
i
n
i
i
n
i
n
i
i
n
i
i
n
i
n
= = = =
=


= =
= =
1 1 1 1
1
0

Esta propiedad refuerza la media como indicador de tendencia central. Su significado es el
siguiente:

Como puede apreciarse, las desviaciones de los datos que estn a la izquierda de la media tienen
signo negativo y las de la derecha signo positivo, por esta razn, para que la suma de todas sea
cero, debe suceder que la suma de las distancias a la media de los datos de la izquierda de ella,
debe ser igual a la suma de las distancias a la media de los datos de la derecha, lo cual convierte a
la media en el centro de gravedad.
Si quisiramos visualizar esta propiedad a partir de una distribucin expresada en trminos de su
funcin densidad :
104 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

La interpretacin fsica nos dice que si justo donde se ubica la media aritmtica se colocara un
punto de apoyo y se colgara de los puntos donde se ubican los datos, el mismo peso en cada uno,
entonces el sistema quedara en equilibrio.
2. La media de los cuadrados de las desviaciones de los datos con respecto a un valor "a" es
mnima, cuando a = x . Es decir:
2
1
( )
f(a)= tiene su mnimo en a=
n
i
i
x a
x
n
=


Demostracin:
( ) ( )
2
1
1
f(a)=
n
n
i
i
x x x a
=

+


Desarrollando el cuadrado:
( )
( ) ( )( ) ( )
( ) ( ) ( )
( )
2 2
1
2
2
1 1
1
f a = 2
n
1 1
2
n n
n
i i
i
n n
i i
i i
x x x x x a x a
n x a
x x x a x x
n
=
= =

+ +

= + +



Como
( )
x x
i
i
n
=
=

0
1
(propiedad 1)
Entonces:
Captulo 2 105
Roberto Behar y Mario Yepes
( )
( ) ( ) ( )
( )
2 2 2
2
1 1
f a
n n
i i
i i
x x n x a x x
x a
n n
= =
+
= = +


Como puede apreciarse el primer trmino no depende de "a" y adems n( x - a)
2
0, por tanto
f(a) es mnimo cuando n( x - a)
2
= 0 y esto ocurre cuando a = x .
3. Si x
i
= k, para todo i, o sea que si todos los datos son iguales a k, entonces: x = k.
Veamos:
x
x
n
k
n
nk
n
k
i
i
m
i
n
= = = =
= =

1 1

4. Si todos los datos de una muestra se multiplican por una constante, el promedio de dicha
muestra resulta multiplicando por la misma constante, es decir:
si y
i
= ax
i
, i = 1, 2, ..., n; entonces y = ax
y
y
n
ax
n
a
x
n
ax
i
i
n
i
i
n
i
i
n
= = = =
= = =

1 1 1

5. Si Z
i
= ax
i
+ by
i
, i = 1, 2, ..., n; donde a, b son constantes, entonces
Z ax by = +
Veamos:
( )
1 1
n n
i i i
i i i i
Z ax by
x y
Z a b
n n n n
Z ax by
= =
+

= = = +
= +


106 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
Esta propiedad puede generalizarse a la combinacin lineal de k variables y puede resumirse
diciendo que la media aritmtica es un operador lineal.
Ejemplo 2.6
Se ha tomado una muestra de parejas de casados y se han observado las variables X e Y.
X : Ingreso mensual del esposo
Y : Ingreso mensual de la esposa
Se encontr que el ingreso promedio mensual de los esposos es
X = $100.000 y de las esposas Y = $80.000.
Si se define la variable ingreso familiar Z, como la suma de los ingresos de los esposos, entonces
el ingreso familiar de la pareja i ser: Z
i
= X
i
+ Y
i
y el ingreso familiar promedio ser:
Z X Y = + = $100.000 + $80.000 = $180.000
6. Si una muestra de n elementos, se divide en k submuestras excluyentes y exhaustivas, que
tienen n
1
, n
2
,..., nk, elementos (n
1
+ n
2
+ ... + n
k
= n), con promedios x
1
, x
2
,..., x
k

respectivamente, entonces el promedio de la muestra global estar dado por:
x
n x n x n x
n
k
k
=
+ + +
1
1
2
2 ...

es decir: x
n x
n
i
i
i
k
=
=

1

El promedio x
i
, de los datos del grupo i, est dado por: x
x
n
i
j
G
i
i
=


Captulo 2 107
Roberto Behar y Mario Yepes
por tanto: x n x
j
G
i i
i

=
Por otro lado:
x x x x
n x n x n x
j
j
n
j
G
j
G
j
G
k
k
k
=

= + + +
= + + +
1
1
1
2
2
1 2
...
...

Entonces: x
x
n
n x n x n x
n
j
j
n
k k
= =
+ + +
=

1
1 1 2 2
...

Ejemplo 2.7
Una muestra de 500 trabajadores tienen un salario promedio de $108.000, si el salario promedio
de los hombres es $120.000, y el de las mujeres $100.000, cuntos hombres y mujeres hay?
Si n
1
es el nmero de hombres y n
2
el de mujeres, entonces:
n
1
+ n
2
= 500 (1)
Adems:
$108.
. .
000
120000 100000
500
1 2
=
+ n n
(2)
Resolviendo (1) y (2) se obtiene: n
1
= 200 y n
2
= 300
Clculo de la media aritmtica para los datos agrupados en intervalos de clase.
Se sabe que cuando los datos estn agrupados en clases, se pierde la individualidad de la
informacin, as por ejemplo puede conocerse que en el intervalo (10,20] hay 3 datos, pero no co-
nocemos cul es el valor de cada uno de estos datos; esto plantea una dificultad para el clculo de
la media usando la definicin presentada.
108 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
Se puede calcular en este caso la media, en forma aproximada, usando la propiedad 6 y el
supuesto de que los datos en cada intervalo estn uniformemente distribuidos, puesto que si esto
sucede , la media aritmtica de los datos del intervalo i, coincide con el punto medio del intervalo
(marca de clase), de esta manera se puede considerar la muestra total, dividida en "m"
submuestras constituidas por los datos que pertenecen a cada uno de los intervalos, as aplicando
la propiedad 6, se obtiene que:
x
n x n x n x
n
m
m
=
+ + +
1
1
2
2 ...

Como:
'
; entonces :
i
x x
'
' 1
1
m
i i m
i
i i
i
n x
x h x
n
=
=
= =


Ejemplo 2.8
Dada la siguiente distribucin de frecuencias:

La media aritmtica de esta distribucin ser:
x =
+ + + +
=
12 15 16 30 42 50 25 65 5 85
100
481 .
O en forma equivalente:
Captulo 2 109
Roberto Behar y Mario Yepes
x = 0.12 x 15 + 0.16 x 30 + 0.42 x 50 + 0.25 x 65 + 0.05 x 85
x = 48.1
2.4.1.2 La mediana (Me)
La mediana ya fue tratada cuando tocamos el tema de los cuartiles, pues la mediana corresponde
con el segundo cuartil. En sntesis la definimos de la siguiente manera.
Si
1 2
, ,...,
n
X X X corresponde a una muestra de realizaciones (datos) de una variable X y
ordenamos dichos valores de la forma:
( ) ( ) ( ) 1 2
, ,...,
n
X X X . Ahora hemos colocado los subndices
entre parntesis para indicar las nuevas posiciones de los datos, es decir que el menor de los datos
ahora se llama
( ) 1
X van en secuencia no decreciente, hasta llegar a
( ) n
X que es el mayor de
todos. As las cosas la mediana se halal con la siguiente expresin:
1
2
1
2 2
impar
par
2
n
e
n n
X n
M
X X
n
+

+

=
+


Si quisiramos definir la mediana con solo palabras, deberamos decir que es un valor M
e
, tal que
supera no ms de la mitad de los datos y es superado por no ms de la mitad de los datos. (parece
un trabalenguas, pero es una definicin vlida) A continuacin se presentan algunos ejemplos:
supngase que se tiene la siguiente muestra ordenada en forma no decreciente: 2, 5, 7, 9, 11,
veamos si 5 cumple la definicin: 5 supera un dato (no ms de la mitad de los datos) y es
superado por 3 datos (ms de la mitad), esto implica que 5 no es la mediana.
Probemos con el 7; ste supera dos datos (no ms de la mitad) y es superado por dos datos (no
ms de la mitad), as que M
e
= 7, se puede intuir que siempre que el nmero de datos sea impar,
al ordenar la muestra, existir un valor nico tal que supera y es superado por el mismo nmero
de datos, ste ser la mediana.
110 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
Cuando el nmero de datos es par por ejemplo, sea la muestra 2, 5, 7, 9, 11, 15, ordenada en
forma no decreciente, al aplicar la definicin al valor 7; ste supera a 2 datos (no ms de la
mitad) y es superado por 3 datos (no ms de la mitad) esto implica que 7 es mediana.
Al ensayar con el valor 9; ste supera tres datos (no ms de la mitad) y es superado por dos datos
(no ms de la mitad), es decir que tambin 9 es mediana; ntese adems que cualquier punto de la
recta real, que se encuentre entre 7 y 9, cumple con la definicin, en estos casos cundo el
nmero de datos es par, se ha convenido definir la mediana como el promedio de los dos datos
que son medianos as pues:
M
e
=
+
=
7 9
2
8
Clculo de la mediana cuando los datos estn agrupados en intervalos de clases.
Supngase que se tienen m intervalos: (L
0
, L
1
] , (L
1
, L
2
] , ..., (L
m-1
, L
m
] , la mediana es
el punto cuya frecuencia absoluta acumulada es n/2 la relativa acumulada es 0.50, es
decir la mediana es el valor x tal que:
N(x) =
n
2

o en forma equivalente:
F(x) = 0.50
De acuerdo con esto el intervalo (L
i-1
, L
i
] que contiene la mediana es tal que:
N(L
i-1
) <
n
2
y N(L
i
)
n
2

o lo que es equivalente:
F(L
i-1
) < 0.50 y F(L
i
) 0.50
Captulo 2 111
Roberto Behar y Mario Yepes
Una vez localizado el intervalo que contiene la mediana, se encuentra por interpolacin el valor
M
e
, tal que:
M
e
= N
-1
(
n
2
) = F
-1
(0.50)
y puede procederse con base en la definicin de la funcin de distribucin emprica vista
anteriormente.

F(M
e
) = 0.50 = F(L
i-1
) +
i
i
C
f
(M
e
- L
i-1
)
Despejando M
e
de la anterior expresin tenemos:

( )
i
i
i
i e
C
f
L F
L M

+ =

1
1
50 . 0
(2.7)
donde f
i
es la frecuencia relativa del intervalo de clase que contiene la mediana.
Expresada en trminos de la frecuencia absoluta:
M L
n
N L
n
C
e i
i
i
i
= +


1
1
2
( )
(2.8)


112 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
Ejemplo 2.9

Si se observan las frecuencias acumuladas puede notarse que el 28% de los datos son menores o
iguales que 40 y que el 70% son menores que 60, lo cual implica que debe existir un punto en el
intervalo (40 , 60] tal que el 50% de los datos sean menores o iguales que l; lo cual indica que el
intervalo (40 , 60] contiene la mediana. De acuerdo con la expresin (2.7), se tiene que:
L
i-1
= 40
F(L
i-1
) = 0.28 M
e
= 40
050 028
0 42
20 +


. .
.
= 50.5
f
i
= 0.42
C
i
= 20
Propiedad de la mediana
La suma de las distancias de los datos a un punto "a" es mnima cuando ese punto es la mediana,
es decir:
Si f(a) = x a
i
i
n
=


1
, entonces f(a) tiene un mnimo en
a = M
e
.
Para una mejor interpretacin de esta propiedad, se presenta el siguiente ejemplo:
Captulo 2 113
Roberto Behar y Mario Yepes
Ejemplo 2.10

Figura 2.10.
En la figura 2.10 se muestra la posicin relativa de las poblaciones A, B, C, D y E, si la demanda
de todas las poblaciones por cierto tipo de artculo puede asumirse igual, en cul poblacin debe
colocarse la fbrica de dicho artculo si se quiere minimizar la distancia promedio a recorrer?
La respuesta a dicha pregunta puede darse mediante la siguiente reflexin: si se escoge un origen
arbitrario sobre la carretera para medir los recorridos desde cada poblacin a dicho origen,
podremos notar que el recorrido a la poblacin C es la mediana, lo cual significa de acuerdo con
la propiedad que la suma de las distancias de las dems poblaciones hasta la poblacin C es la
mnima posible y por lo tanto su promedio tambin ser mnimo, de esta manera la fbrica debe
colocarse en la poblacin C si se quieren minimizar los costos de transporte.
Otra propiedad de la mediana se explica a continuacin:
La sensibilidad es una cualidad deseable en un indicador, puesto que ello implica qu cambios
producidos en la muestra pueden ser detectados por el indicador; pero mucha sensibilidad en un
indicador puede ser contraproducente, puesto que cambios irrelevantes en la muestra pueden
producir grandes cambios en el indicador, lo cual puede prestarse para interpretaciones
114 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
equivocadas, esto ocurre con la media aritmtica, cuando la distribucin es asimtrica, es decir
cuando hay unos pocos valores muy grandes o muy pequeos, la media es muy afectada por
ellos.
Ejemplo 2.11
Si los salarios de los empleados de una empresa tienen la siguiente distribucin:

Si se pretende formar una idea de la magnitud de los salarios de dicha empresa, usando la media
aritmtica se tiene:
450 . 18 $
05 . 0 000 . 120 $ 40 . 0 000 . 15 $
25 . 0 000 . 3 $ 10 . 0 000 . 12 $ 20 . 0 000 . 10 $
1
=
+ +
+ + + = =

=
x
f x x
m
i
i i

Como puede apreciarse, un 5% de valores muy grandes influyen tanto en la media, que su valor
$184.500, es superior al 95% de los salarios por esta razn, en este caso, la media aritmtica, mal
podra representar la muestra.
Captulo 2 115
Roberto Behar y Mario Yepes
La mediana en cambio es ms resistente a los valores extremos, en este caso, la mediana
corresponde al valor M
e
= $130.000.
2.4.1.3 La moda
Cuando la variable de inters, es de naturaleza discreta, la moda M
0
corresponde al dato de la
muestra que tiene mayor frecuencia, por ejemplo, en la muestra: 2, 3, 1, 1, 1, 4, 3, 1, 5, 1, 5, 2, la
moda es M
0
= 1 puesto que posee la mayor frecuencia (aparece 5 veces).
Cuando se trata de una variable de naturaleza continua, la moda corresponde al(os) valor(es)
alrededor del(os) cual(es) se produce una mayor concentracin de datos, es decir a los puntos de
mayor densidad de frecuencia. En lenguaje matemtico diramos, refirindonos a la funcin de
densidad de frecuencia o de probabilidad, que la(s) moda(s) corresponden a los cpuntos que son
mximos locales, como muestra la figura 2.11.
Si se conociera la funcin de densidad poblacional (ver Fig.2.11) la moda corresponde a sus
mximos relativos; en la funcin que muestra el grfico se aprecian 3 modas.

Fig. 2.11: Grfico de la funcin de densidad de frecuencia poblacional de alguna variable X.
Los tres puntos que muestra la figura 2.11, son puntos de mxima densidad en sus entornos
respectivos. Si se conociera la funcin de densidad en forma analtica, podramos encontrar la(s)
116 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
moda(s), por derivacin de la funcin f(x); pero como slo se dispone de la funcin de densidad
emprica que se construy a partir de la muestra, se debe definir un procedimiento que permita
acercarse a la determinacin de los mencionados mximos relativos, para ello se hace referencia
a la figura 2.12.

Fig. 2.12: Funcin emprica de densidad. Elementos que intervienen en le clculo de la moda
Se supone que la moda de mayor densidad se encuentra en el intervalo (L
i-1
, L
i
] que posee la
mayor densidad de frecuencia (el rectngulo ms alto). Si las dos clases adyacentes: la anterior y
la siguiente, tienen igual densidad de frecuencias, se puede suponer que la moda (mximo
relativo) se encuentra en el punto medio de la clase que contiene la moda; en caso contrario la
moda estar desplazada un poco hacia la clase adyacente de mayor densidad de frecuencia.
(suena razonable este criterio).
Por esta razn se conviene que la moda corresponde a la proyeccin del punto 0, ver la figura
2.12, observe que con este procedimiento la moda estar siempre ms cerca de la clase adyacente
con mayor densidad de frecuencia.
Con la notacin que aparece en el grfico y sabiendo que los tringulos AOB y DOE son
semejantes, se puede escribir:
M
0
= L
i-1
+ r
Captulo 2 117
Roberto Behar y Mario Yepes
Adems


1
2
1
1 2
= =

=
+

OG
OF
, de donde :
r
C r
r C
i
i

De esta manera
M L C
i i 0 1
1
1 2
= +
+



(*)
Como puede apreciarse del grfico
1
y
2
corresponden a las diferencias de densidad de
frecuencia de la clase (L
i-1
, L
i
] con la anterior y con la siguiente respectivamente, sto es:
1
1
2
1
1
1
+
+

=
=
i
i
i
i
i
i
i
i
C
f
C
f
C
f
C
f

Reemplazando
1
y
2
en la expresin (*) tenemos:
i
i
i
i
i
i
i
i
i
i
i
i
C
C
f
C
f
C
f
C
f
C
f
L M

+ =
+
+

1
1
1
1
1
1
1 0
2

Donde:
(L
i-1
, L
1
] : clase que contiene la moda
f
j
= frecuencia relativa del intervalo (L
j-1
, L
j
]
C
j
= L
j
- L
j-1
longitud del intervalo j-simo
En la siguiente pgina se presenta un ejemplo del clculo de la moda.
118 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
Ejemplo 2.12
Calcular la moda, a partir del siguiente cuadro de frecuencias:

Como puede apreciarse la clase de mayor densidad de frecuencia es (40, 70] as pues que:
M
M
0
0
40
15% 1%
15% 1%) 15% 05%)
30
50
= +

+

=
.
( . ( . .

La moda se usa con mucha frecuencia como indicador de centralidad en caractersticas que tienen
escala nominal dbil, como la escala nominal u ordinal, no obstante tiene grandes aplicaciones en
variables continuas de escala fuerte, por ejemplo en biologa, cuando se quiere asociar por
ejemplo edasd y longitud de peces, seguir el comportamiento de la moda en el tiempo, es una
manera de hacer seguimiento a una cohorte de peces. Una aplicacin extraordinariamente
importante de la moda, la constituye el llamado mtodo de la mxima verosimilitud para
construir estimadores, que es muy usado por sus importantes propiedades asintticas. El
resultado de estos mtodos es el hallazgo de la moda de una funcin de probabilidad o de
densidad, llamada funcin de verosimilitud.
2.4.1.4 La media geomtrica
Para tratar de comprender mejor el sentido de la definicin de la media geomtrica, se presenta el
siguiente ejemplo:
Captulo 2 119
Roberto Behar y Mario Yepes
Ejemplo 2.13
Una poblacin que tena 10.000 habitantes en el ao cero, creci el primer ao a una tasa del 2%,
el segundo ao creci a una tasa del 4% y el tercer ao al 10%. Cul es el factor de expansin
promedio de la poblacin en los 3 aos?
La poblacin al final del primer ao, ser:
P
1
=10.000 +2%. 10.000= 10.000+0.02 (10.000) =10.000(1+0.02)=10.000(1.02), es decir que la
poblacin se ha expandido por un factor multiplicativo f
1
=1.02
Veamos el siguiente esquema:

Lo cual significa que al final del ao 1, la poblacin era de 10.200 habitantes, es decir se
multiplic por el factor de expansin f
1
= (1 + 0.02) = 1.02 , al siguiente ao, los 10.200
crecieron en un 4% para quedar al final del ao 2 una poblacin de 10.608, es decir que los
10.200 se multiplicaron por el factor de expansin f
2
= (1 + 0.04) = 1.04; por ltimo los 10.608
se multiplicaron por el factor de expansin f
3
= (1 + 0.10) = 1.10 para resultar al final del tercer
ao, una poblacin de 11.669 habitantes es decir que:
P
3
= P
0
. f
1
. f
2
. f
3
= 11.669
120 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
El factor f de expansin promedio debe ser tal que comenzando con la misma poblacin P
0
y
expandindose por el mismo factor f todos los aos, al final del tercer ao debe obtenerse la
misma poblacin P
3
que producen los factores f
1
, f
2
, y f
3
.
Veamos como actuara f promedio, en el siguiente esquema:

Es decir que si la poblacin se expandiera cada ao por el mismo factor f, la poblacin al final del
tercer ao ser: P
0
f
3
que debe ser equivalente con la aplicacin de los factores f
1
, f
2
, f
3
, o sea:
P
0
. f
3
= P
0
. f
1
. f
2
. f
3

As que: f f f f =
1 2 3
3

Decimos aqu que f es la media geomtrica, de f
1
, f
2
y f
3

Con los nmeros del ejemplo, la media geomtrica de los factores de expansin: 1.02, 1.04, 1.10
es:
f = = 102 104 110 10527
3
. . . .
Lo cual implica que la tasa de crecimiento promedia de la poblacin fue 5.27%
Captulo 2 121
Roberto Behar y Mario Yepes
Generalizando se dir que la media geomtrica M.G. de los datos x
1
, x
2
, ...,x
n
es:
M. G. =
n
x x x
n 1 2
...
Si la variable x es discreta y se conoce su distribucin de frecuencias, entonces puede escribirse
como:
M.G.
n
= x x x
n n
m
n
m
1 2
1 2
...
Y si los datos estn agrupados en intervalos de clase puede escribirse como:
( ) ( ) ( )
M.G.
n
= x x x
n n
m
n
m
1 2
1 2
' ' '
...
Observe que esta media, por su carcter multiplicativo se denomina geomtrica pues la
media del factor de expansin es una razn de crecimiento geomtrico, si quisiramos ir
generando los trminos de dicha serie bastara con ir multiplicando cada vez por el factor F.
En contraposicin la media aritmtica es un valor x tal que tiene el mismo efecto aditivo
que los datos, de la manera que si reemplazramos cada dato por la media, la suma no se
alterara, es decir que se cumple que :
1 2 3
veces
... ...
n
n
x x x x x x x x nx + + + + = + + + + =


La media geomtrica es perfectamente anloga cambiando el signo + por el de
multiplicacin x.
2.4.2 Indicadores de dispersin
En la seccin anterior se consideraron algunos indicadores de tendencia central, que se pretende
fueran representantes de la magnitud de los datos de la muestra; pero el nivel de representatividad
de estas medidas, depende del grado de homogeneidad o de dispersin de los datos en la muestra,
por tanto se hace necesario estudiar algunos indicadores de dispersin, con el objeto de tener una
medida de confianza en los indicadores de centralidad; considere las siguiente situacin:
122 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
Se tiene dos grupos de datos, el grupo A: 2, 98, 3, 97, y el grupo B: 49, 51, 48, 52; obsrvese
que aunque en ambos grupos el promedio es 50, da la impresin de que este promedio representa
mejor los datos del grupo B que los del grupo A, puesto que los datos del grupo B estn menos
dispersos.
Las medidas de centralidad y las de dispersin devenir siempre juntas. Tomar decisiones solo
con base en la media puede ser muy riesgoso.
Imaginemos tan solo una maquina empacadora de arroz que en promedio produce bolsas de un
kilogramo. Juzgaramos que est bien, con tan solo esta informacin? La respuesta es no. Pues
una maquina que en las bolsas etiquetadas con Un Kg de contenido, la mitad de las veces
empaca 1,5 Kg y la otra mitad de las veces empaca 0,5 Kg, estara empacando exactamente en
promedio un Kilogramo por bolsa, pero sera un desastre pues aunque habr un 50% de clientes
muy contentos, cada vez habr un 50% muy disgustados y hasta demandando a la empresa. Si
conocer la variabilidad es muy difcil tomar buenas decisiones.
En dos oficinas de un banco Ay B, la distribucin de los tiempos que tardan en gestionar una
hipoteca es distinta. El banco A, se tarda en promedio 3 meses, mientras que el banco B, se tarda
en promedio 4 meses. Es preferible el banco A, en cuanto al tiempo de gestin de una hipoteca?.
La respuesta es no necesariamente, observe usted algunos datos:
Banco A 5 1 1 1 7 4 2 Media : 3 meses
Banco B 4 4 4 4 4 3 5 Media: 4 meses
A la Luz de los datos: Cul banco Prefiere?. Cuando en el banco A, cuando uste pregunta.
Cunto se puede tardar mi hipoteca? El banco A, le responde : Un promedio de 3 meses, le
estn diciendo la verdad, pero podr usted hacer planes tranquilo?. no!. La verdad es que mas
del 40% de la veces se tardan ms de 4 meses , y casi el 30% de las veces se tardan 5 meses o
mas. Si usted planea con base en 3 meses, tiene un riesgo lato de fracasar.
Captulo 2 123
Roberto Behar y Mario Yepes
El banco B, se tarda un poco mas. Pero es mucho ms fiable, la afirmacin de banco B: Nos
tardamos un promedio de 4 meses, es ms parecido a lo que le podra ocurrir a usted.
Estudios han demostrado que los clientes perciben ms la variabilidad que la media. El banco B,
tendr mejor prestigio con sus clientes que el banco A, pues este ultimo tendr un porcentaje alto
de clientes que sintieron que el banco no les dijo la verdad.
Por eso, nunca se conforme con la media o con una medida de tendencia central, siempre
pregunte por la variabilidad.
Algunas de las medidas de dispersin o variabilidad ms importantes son las siguientes:
2.4.2.1 El rango. (r)
Est definido por la distancia entre el menor y el mayor de los datos:
r = max(x
i
) - min(x
i
)
Por ejemplo, en la muestra: 2, 4, 3, 1, 7, 1, 11, 2, 3, 94. El rango es r = 94 - 1 = 93
El rango es sencillo de calcular y de muy fcil interpretacin, pero tiene la gran desventaja que es
demasiado sensible a valores extremos, en el ejemplo se observa que todos los datos, excepto el
94, estn entre 1 y 11, sin embargo, un valor extremo (94) hace que el rango sea 93.
2.4.2.2 La desviacin media (D.M)
Es un indicador de dispersin que corresponde a la distancia promedio de los datos a la mediana.
D. M.
Me
=

=

x
n
i
i
n
1

Si se dispone de una distribucin de frecuencias, donde cada x
i
aparece asociado con su fre-
cuencia n
i
, entonces puede escribirse:
124 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

=
=
=

=
m
i
i i
m
i
i i
x x f
n
x x n
1
1
D.M.
Que corresponde a la media de las distancias que se presentan en el grfico que esta a
continuacin:

Si los datos estn agrupados en intervalos de clase, una expresin aproximada para el clculo de
la desviacin media es:

= =
=

=
m
i
i i
m
i
i i
x x f
n
x x n
1
'
1
'
D.M.
Donde x
i
'
es la marca de clase de intervalo i.
En la muestra: 2, 5, 8, 1, 4 cuya mediana es Me = 4, la desviacin media es:
D. M. =
+ + + +
=
2 4 5 4 8 4 1 4 4 4
5
2
Lo cual indica que en promedio los datos estn separados de la mediana M
e
en 2 unidades.
Captulo 2 125
Roberto Behar y Mario Yepes
La desviacin media es un indicador de fcil interpretacin directa, pero su estructura matemtica
(valor absoluto) ha hecho difcil su uso en los desarrollos inferenciales de la estadstica, en
cambio existen otros que superan esta dificultad y por tal razn estn asociados con muchos
procedimientos de la inferencia, como por ejemplo:
2.4.2.3 La varianza (S
2
)
Esta es la medida de dispersin ms usada en estadstica y est definida como:
( )
S
n
x x
i
i
n
2
2
1
1
=
=


Si se dispone de una distribucin de frecuencias {(x
i
,n
i
)}, se pueden calcular como:
( ) ( )

= =
= =
m
i
i i
m
i
i i
x x f x x n
n
S
1
2
1
2 2
1

Si los datos estn agrupados en intervalos de clase, una expresin aproximada para la varianza es:
( ) ( )

= =
= =
m
i
i i
m
i
i i
x x f x x n
n
S
1
2
'
1
2
' 2
1

No obstante que la varianza est dada por una expresin cuadrtica, que ofrece muchas ventajas
en la manipulacin matemtica, tiene algunas desventajas, entre las cuales estn: su no fcil
interpretacin directa y que sus unidades no coinciden con las unidades de la variable en estudio,
as por ejemplo si x est en metros, su varianza estar dada en metros cuadrados. Esta ltima
desventaja se pretende remediar extrayendo la raz cuadrada a la varianza para obtener la que se
conoce como desviacin estndar (S), que ser:
( )
S
n
x x
i
=

1
2

Interpretacin de la desviacin estndar (principio de Tchebychev)
126 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
Una interpretacin de la desviacin estndar puede hacerse a travs del principio de
Tchebychev) que expresa que para cualquier muestra x
1
, x
2
, ...,x
n
se cumple que si se construye
un intervalo con centro en la media y con extremos ubicados a una distancia de k veces la
desviacin estndar S, en dicho intervalo est por lo menos (1 -
1
2
k
) x 100% de los datos; escrito
en smbolos ser:
( )
2
1
1 ,
k
ks x ks x f +
As por ejemplo si k = 2, dice que:
( ) 75 . 0
2
1
1 2 , 2
2
= + s x s x f
Es decir que en el intervalo construido a 2 desviaciones estndar a cada lado de la media est por
lo menos el 75% de los datos. Para k = 3, se dice que est por lo menos el 88.8% de los datos.
Este principio proporciona cotas para la frecuencia, en trminos de la desviacin estndar, lo cual
ayuda a su interpretacin, pero como es muy general, dichas cotas pueden ser muy bajas, se
observa que para k = 1 el principio dice que en el intervalo ( x s x s + , ) hay por los menos el
0% de los datos, lo cual es obvio.
Propiedades de la varianza
Las propiedades que se presentan a continuacin pueden ser heredadas por la desviacin estndar
con las limitaciones que genera la funcin raz cuadrada.
1.
( )
S
x
n
x
i
i
n
2
2
2
=



Captulo 2 127
Roberto Behar y Mario Yepes
Esta, ms que una propiedad es una forma alternativa de calcular la varianza, realizando menos
clculos numricos que con la expresin que proporciona la definicin. Su demostracin es la
siguiente:
( ) ( )
( )
( )
( ) ( )
( )
S
n
x x
n
x xx x
n
x
n
x x
n
x
n
x x
x
n n
n x
n
x x x
S
n
x x
i i i
i
n
i
n
i i
i
n
i
n
i
i
i
n
i
i
2
2
2
2
1 1
2
1 1
2
2 1
2
2
2 2
2 2
2
1 1
2
1 1
2
1
1
2
1
1
2
1
= = +

= +
= +
= +
=
= =
= =
=


S
2
= Promedio de los cuadrados, menos, promedio al cuadrado
2. La varianza es siempre no negativa.
S
2
0, esto se desprende de que la varianza es una suma de cuadrados, multiplicada por la
constante,
1
n
, que siempre es positiva.
3. La varianza de una constante es cero, es decir: si x
i
= C, para todo i, entonces
S
x
2
= 0
( )
S
n
x x
x i
i
n
2
2
1
1
=
=

, pero se sabe que si x


i
= C entonces x C = , de este modo:

128 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
( ) S
n
C C
x
i
n
2
2
1
1
0 = =
=


4. Si y
i
= kx
i
, entonces S k S
y x
2 2 2
= i = 1, 2, ..., n
Es decir: si se tiene una muestra x
1
, x
2
, ...,x
n
, que tiene varianza S
2
x
y cada dato se multiplica por
la constante k, la varianza de esta nueva muestra:
Kx
1
, Kx
2
, ..., Kx
n
, ser k S
x
2 2

lo cual puede demostrarse de la siguiente manera:
( ) ( )
( ) ( )
S
n
y y
n
kx k x
n
K x x K
n
x x
K S
y i
i
n
i
i
n
i i
i
n
x
2
2
1
2
1
2
2
2
2
1
2 2
1 1
1 1
= =
= =
=
= =
=



5. Si y
i
= x
i
+ C, entonces S S
y x
2 2
=
i = 1, 2, ..., n
Es decir: que si todos los datos se trasladan la misma distancia C, la varianza no cambia,
lo cual puede verificarse as:
( )
( )
( )
[ ]
( ) ( )
S
n
y y
n
x C x C
n
x C x C
n
x x
S
y i i
i i
x
2
2 2
2 2
2
1 1
1 1
= = + +
= + =
=



Captulo 2 129
Roberto Behar y Mario Yepes
Ejemplo 2.14
Dada la siguiente distribucin de frecuencias sobre una variable continua x, que se presenta en el
cuadro, en el que se registra: el intervalo de clase ( X
i
'
), las frecuencias absolutas y las frecuencias
relativas.

a) Calcule la desviacin media
D. M. =

=

n x M
n
i i e
i
m
'
1

Se debe calcular primero M
e

( )
i
i
i
i e
C
f
L H
L M

+ =

1
1
50 . 0

M
e
= +

= 40
050 0 45
0 25
30 46
. .
.

Entonces
D. M. =
+ + + + 2015 46 7030 46 5055 46 4075 46 2090 46
200

D.M. 21.15
130 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
Lo cual indica que en promedio los datos estn separados de la mediana en 21.15
unidades
b) Calcule la varianza
Usando la forma simplificada:
S
2
= Promedio de los cuadrados, menos, promedio al cuadrado

( )
( )
( ) ( ) ( )
( )
=

=
+ + +

= =
m
i i
n x
n
x
'
...
.
. , . , ,
2
2
2 2 2
2
20 15 70 30 20 90
200
49 75
3028 7 2 4751 553 7

c) La desviacin estndar
S = = 5537 235 . .
d) Verifique el principio de Tchebycheff para k = 2, es decir se debe verificar que:
( )
( )
( ) 75 . 96 5 . 23 2 75 . 49 2
75 . 2 5 . 23 2 75 . 49 2
% 75 75 . 0
2
1
1 2 , 2
2
= + = +
= =
= > +
s x
s x
s x s x f

Estimando de acuerdo con la tabla de frecuencias qu porcentaje de datos hay en el
intervalo (2.75 , 96.75):
Captulo 2 131
Roberto Behar y Mario Yepes

f(2.75 , 96.75) = 010 035 0 25 0 20
010
20
16 75 . . . .
.
. + + + +
= 0.984 > 0.75
2.4.2.4 El coeficiente de variacin
Por la estructura de la varianza se sabe que cuando aumenta la dispersin el valor de la
varianza aumenta, por esa razn se usa como indicador de dispersin, igualmente la
desviacin estndar; pero, qu se respondera a la pregunta: una desviacin estndar de
200 metros es grande o es pequea ? o de otra manera: una desviacin estndar de 200
metros me indica que hay poca o mucha dispersin ?
La respuesta casi obligada es: depende..., porque si las magnitudes de los datos de la res-
puesta son "grandes", por ejemplo: la distancia recorrida diariamente por un cartero,
registrada durante 30 das. En este caso, una desviacin estndar de 200 metros puede ser
pequea, as como una desviacin estndar de 10 micras podra ser grande si se est
estudiando el dimetro de ciertas clulas o de la magnitud de un virus.
Lo anterior muestra la necesidad de definir un indicador de dispersin que involucre la
magnitud de los datos que se estudian; magnitud sta que puede ser representada por la
media aritmtica, esto da origen al llamado: coeficiente de variacin, que consiste en
expresar la desviacin estndar como un porcentaje de la media aritmtica, as pues:
C.V. =
S
x
100%
Entonces, si una muestra tiene una media aritmtica x = 40.000 metros y una desviacin
estndar S = 500 metros entonces:
C.V. = =
500
40 000
100% 125%
.
.
132 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
que podra indicar una dispersin relativamente pequea.
En realidad el coeficiente de variacin se usa para comparar la variabilidad relativa de una
caracterstica, en poblaciones que tienen distinta media.
No existen topes, que permitan valorar un coeficiente de variacin como grande o pequea.
El juicio sobre su tamao esta siempre ligado al problema especfico que se estudia. Surgen de
esta manera y como resultado de la propia experiencia en un campo especfico, valores de
coeficiente de variacin como limitantes en un proceso de control de calidad. Algunas de las
normas sobre materiales de construccin exigen no slo un promedio de resistencia por encima
de un nivel mnimo, sino tambin control sobre la variabilidad expresado en forma de coeficiente
de variacin.
En el rea de la agricultura, una determinada variedad de maz puede tener asociado (por la
experiencia) como natural, un coeficiente de variacin en su rendimiento por hectrea, el cual es
distinto (generalmente menor) si el cultivo est bajo riego, que si esta bajo temporal.
El coeficiente de variacin, puede ser caracterstica de un fenmeno en especial. Se sabe por
ejemplo que si la funcin de densidad de frecuencia de una caracterstica tiene forma
exponencial, siempre su coeficiente de variacin es de 100%, como consecuencia de que la media
y la desviacin estndar son iguales en esta familia de distribuciones.
EJERCICIOS PROPUESTOS
1. Una entidad encargada del control de contaminacin de cierto ro, lleva registros sobre el
oxgeno disuelto, X, expresado en mg/l; stos se presentan a continuacin:
2.6, 3.6, 3.1, 2.6, 2.7, 3.9, 2.4, 2.7, 2.5, 2.3, 4.0, 3.2, 2.5, 1.7, 0.3, 3.1, 2.6, 1.3, 4.3, 1.5, 2.8,
1.8, 4.2, 3.5, 2.4, 2.2, 3.4, 3.7, 0.8, 2.3, 1.9, 4.5, 1.2, 2.2, 2.2, 3.0, 2.1, 1.8, 2.9, 3.8, 3.5, 1.6,
3.2, 4.4, 1.4, 0.7, 2.8, 3.3, 0.5, 2.3 .
Captulo 2 133
Roberto Behar y Mario Yepes
a) Agrupe la informacin en intervalos de clase y construya un cuadro de frecuencias
completo.
b) Grafique el histograma, y la ojiva.
c) Calcule el porcentaje de registros que son inferiores a 3.1 mg/l.
c.1 Usando la ojiva
c.2 A partir del cuadro de frecuencias
c.3 Por conteo directo de la muestra bruta
Compare los resultados y comente.
d) Estime el porcentaje de registro que son mayores que 1.5 mg/l, pero son menores que 3.5
mg/l.
e) Calcule la media aritmtica, la mediana y la moda.
f) Calcule la desviacin estndar. Le parece grande? Justifique.
g) Qu porcentaje de los registros estn entre x - 2S y x + 2S ? Se cumple aqu el principio
de Tchebycheff ?
h) Construya un diagrama de cajas y alambres e interprete.
2. Dada la informacin que proporciona el siguiente grfico, estime el porcentaje de datos que son
mayores de 27 pero menores que 52.
134 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

3. Si en una muestra de 50 datos, se obtuvo: x = 50 y S
2
= 100 y se recogieron a ultima hora los
siguientes datos adicionales: 32, 84, 36, 51, 23, cul es la nueva media y la nueva varianza?
4. Verifique si:
Z
X X
S
i
i
i
x
=

= ; 1, 2, . . . , n
Entonces: Z S
z
= = 0 1
2
y
5. Decida sobre la VERACIDAD o FALSEDAD de las siguientes proposiciones, justificando
claramente la razn de su decisin:
a) Si las frecuencias absolutas de los datos de una muestra se triplican su media aritmtica
no variara.
b) Si a cada uno de los datos de una muestra se le sumara 3 unidades y su frecuencia abso-
luta se triplicara su desviacin estndar no cambiara.
c) Si a cada uno de los intervalos de clase de una tabla de frecuencias se le agregan tres
datos, la mediana podra cambiar pero la moda no.
d) La media aritmtica de la muestra bruta debe coincidir siempre con la media aritmtica
calculada con base en los datos agrupados.
Captulo 2 135
Roberto Behar y Mario Yepes
e) Si una muestra se divide en 2 subgrupos n
1
y n
2
elementos (n
1
+ n
2
= n), con varianzas
S S
1
2
2
2
y respectivamente, entonces la varianza de la muestra puede expresarse como:
S
n S n S
n n
2 1 1
2
2 2
2
1 2
=
+
+

f) Si a los datos: x
1
, x
2
, ..., x
n
, de una muestra se aplica la transformacin
y
i
= ax
i
+ b, con a > 0 y b > 0, entonces "y" tiene menor dispersin relativa que "x"
(en trminos del coeficiente de variacin).
6. Si P
1
, P
2
, ...,P
n
representa la poblacin (nmero de habitantes) de una regin en los aos 1, 2,
...,n respectivamente usando el concepto de media geomtrica, encuentre una expresin para
estimar la tasa de crecimiento. Obsrvela y comente las ventajas que presenta.
7. En una poblacin del Cauca se tom una muestra de 50 familias para observar el nmero de
personas menores de 12 aos con el propsito de estimar algunos indicadores sobre demanda
potencial de educacin escolar. Esta arroj los siguientes resultados:
4 0 1 2 3 0 2 5 3 1
3 2 1 2 1 3 0 3 0 1
0 2 3 0 1 4 2 1 5 4
2 1 4 2 3 1 2 0 1 3
2 2 5 0 3 3 2 0 1 5
7.1 Con base en la informacin anterior llene la siguiente tabla de frecuencias.
136 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes

7.2 Determine qu porcentaje de las familias tienen 3 personas o menos que son menores
de 12 aos.
7.3 Si la poblacin consta de 1.200 familias estime usted, el nmero de personas menores
de 12 aos.
7.4 Usted est seguro del resultado obtenido en el numeral 7.3 ? qu supuesto est
implcito en la estimacin?
7.5 Construya un grfico para la distribucin emprica de frecuencias acumuladas
relativas.
8. Una compaa constructora resuelve estudiar en un concreto su resistencia a la com-
presin, con el objeto de hacer un control de calidad. Para ello se tomaron 50 cilindros de
prueba de acuerdo con las normas establecidas. Los resultados en kg/cm
2
de presin
obtenidos al cabo de 28 das de curado fueron:

8.1 Llene la siguiente tabla de frecuencias:

Captulo 2 137
Roberto Behar y Mario Yepes

8.2 Especifique la funcin emprica de densidad de frecuencias
8.3 Especifique la funcin emprica de distribucin acumulada relativa.
8.4 Calcule el porcentaje de cilindros que resistieron ms de 235 kg/cm
2
pero menos 264 kg/cm
2
.
8.5 Estime el riesgo, si se usa ese concreto en una obra que exige 240 kg/cm
2
de resistencia a la
compresin. Le parece alto ?
8.6 Calcule con base en los datos agrupados:
a) La media aritmtica
b) La mediana
c) La moda
8.7 Calcule con base en los datos agrupados la desviacin estndar.
8.8 Le parece grande la dispersin? Justifique.
8.9 Si se entera que el equipo de medicin de resistencia tiene un error sistemtico, en el sentido
que muestra una lectura superior en 5 kg/cm
2
al verdadero valor, entonces calcule la media
aritmtica, la mediana, la moda y la desviacin estndar reales, a partir de los puntos 8.6 y
8.7.

138 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
8.10 Si el error sistemtico consistiera en amplificar el valor real en un 10%. Calcule la
media y desviacin estndar reales.
8.11 Si se aumenta la muestra con 10 cilindros ms que se prueban con los siguientes
resultados: 232, 256, 287, 228, 295, 226, 277, 233, 247, 277.
Calcule la nueva media y la nueva varianza, usando los resultados encontrados en 8.6 y 8.7.
8.12 Construya un diagrama de cajas y alambres para los datos originales e Interprete.
9. Si la caracterstica X de una poblacin tiene la siguiente funcin de densidad:

a) Encuentre el valor adecuado para la constante "a".
b) Calcule el porcentaje de datos que cumplen que 0.3 < x 1.1.
c) Si se tomara una muestra al azar de 10.000 elementos de dicha poblacin, Cuntos
de ellos, esperara usted tengan la caracterstica X en el intervalo
(0.3 , 1.1] ?
10. Dada la siguiente informacin sobre el crecimiento de una poblacin:

Captulo 2 139
Roberto Behar y Mario Yepes
a) Estime la tasa promedia de crecimiento
b) Haga una proyeccin de la poblacin para 1988 si se sabe que en 1982 haba 102.800
habitantes.
c) Estime el nmero promedio de aos que deben transcurrir para que dicha poblacin
tenga 500.000 habitantes?
140 Estadstica. Un Enfoque Descriptivo
Roberto Behar y Mario Yepes
CAPITULO 2
DISTRIBUCIONES UNIDIMENSIONALES DE FRECUENCIA ............................................. 47
2.1 CASO DE UNA VARIABLE DISCRETA ....................................................................... 47
Propiedades y relaciones ....................................................................................................... 50
REPRESENTACION GRAFICA ......................................................................................... 52
2.2 CASO DE UNA VARIABLE CONTINUA ....................................................................... 54
OBSERVACIONES .............................................................................................................. 56
2.2.1 Funcin emprica de densidad, f
*
(x). ........................................................................... 59
2.2.2. Funcin emprica distribucin acumulativa, F(x). ..................................................... 63
2.3 CUARTILES DE UNA DISTRIBUCION.......................................................................... 86
2.3.1 Diagrama de caja y Alambres .................................................................................... 88
2.3.2 Como calcular los cuartiles, cuando los datos no estan agrupados ........................... 91
Construya usted el diagrama para este caso. ......................................................................... 94
2.4 REDUCCION DE DATOS ............................................................................................... 101
2.4.1 Indicadores de tendencia central ................................................................................ 101
2.4.2 Indicadores de dispersin ........................................................................................... 121

Vous aimerez peut-être aussi