Académique Documents
Professionnel Documents
Culture Documents
de Datos.
Por Oscar R. Daz 05/08/2017 Captulo 1
A nivel de aplicacin:
A nivel de anlisis
1
POR QU ESTUDIAR ESTADSTICA?
Un estudiante de ingeniera necesita un curso de probabilidad y estadstica entre otras razones por:
1. Como profesional, deber ser capaz de leer y entender estudios estadsticos realizados en
su campo laboral. Para lograr este entendimiento, deber conocer el vocabulario, smbo-
los, conceptos y procedimientos estadsticos usados en dichos estudios.
2. Como profesional tambin deber ser capaz de dirigir investigaciones en su campo labo-
ral, donde los procedimientos estadsticos como el diseo de experimentos, la recoleccin,
la organizacin, el anlisis y el resumen de datos le sern de mucha utilidad para hacer
pronsticos confiables para el futuro. Tambin deber ser capaz de comunicar los resul-
tados del estudio en sus propias palabras.
3. Por ltimo, pero no menos importante, como profesional puede usar los conocimientos en
probabilidad y estadstica para ser un ciudadano con un pensamiento crtico que analice y
tome posturas ante los problemas de la realidad nacional.
2
VARIABILIDAD Y PENSAMIENTO ESTADSTICO.
a variabilidad forma parte de nuestra vida diaria. Por ejemplo, el tiempo que tarda-
5.0
de apoyo tcnico.
5.4 7.1 7.0 5.5
L mos en desplazarnos de nuestra casa a la universidad cambia de un da a otro, nues-
tro peso a lo largo del ao tambin vara, as como nuestros niveles de colesterol.
Esta variabilidad tambin se da en otros mbitos. En ingeniera, por ejemplo, es co-
mn trabajar con datos que provienen de mediciones que han sido tomadas bajo
condiciones controladas con el propsito de tomar alguna decisin. La variabilidad causa que
4.4 5.4 6.6 7.1 4.1 estas mediciones no sean iguales. Por ejemplo, una empresa que se dedica a la venta de equipo
3.0 5.7 6.7 6.8 4.7
7.1 3.2 5.7 5.5 7.9
electrnico utiliza como un indicador importante de calidad en el servicio que presta a sus
2.0 5.4 2.9 5.3 7.4 clientes, el tiempo de respuesta a solicitudes de apoyo tcnico debido a fallas en los equipos.
5.1 6.9 3.2 3.9 5.9 En la tabla de la izquierda se muestran los tiempos de respuesta para los primeros nueve meses
3.6 4.0 2.3 8.9 5.8
del ao. Note como los datos varan de medida en medida. Por lo general, la cantidad de datos
5.8 7.7 3.9 5.8 5.9
1.7 3.2 6.8 7.0 5.4 es voluminosa y sin ningn significado a primera vista. Es decir, Qu informacin puede ex-
4.5 6.5 4.1 7.5 6.8 traer de esta muestra para luego presentarla a una audiencia objetivo? puede obtener con-
4.3 5.9 3.1 8.3 4.7
clusiones, destacar tendencias y proporcionar alguna informacin contextual a partir de esta
6.3 6.0 3.1 4.8 4.2
4.1 7.5 6.4 5.6 5.4 serie de datos? Probablemente no, a pesar de tratarse de una muestra relativamente pequea
de 65 observaciones. Los datos en este estado nos dicen poco y cuando el volumen de los datos
aumenta, el silencio es total. Pero entonces, cmo podemos interpretar cantidades grandes
de datos? qu caractersticas debemos resaltar? cmo debemos resumirlos para nuestra au-
diencia? Le pensamiento estadstico puede darnos una manera til de incorporar esta variabi-
lidad en nuestros procesos de toma de decisiones. Pensar en forma estadstica implica reco-
nocer que esta variabilidad est a nuestro alrededor y presente en todo lo que hacemos y que
por tanto es necesario conocerla, analizarla y entenderla para tomar decisiones.
Esta forma de pensar establece la necesidad de un anlisis adecuado de los datos para asegu-
rarnos que los patrones ms importantes y las tendencias en los datos sean claramente des-
critas y resulten fciles de ver para el usuario, necesitamos traductores que nos permitan
procesar todo este volumen de informacin para que pueda tener un significado en la escala
humana. El enfoque conocido como EDA (Exploratoty Data Analysis) es por hoy la mejor al-
ternativa con la que disponemos. Este enfoque nos permite procesar esta gran cantidad de
datos y dibujar una imagen que nos permite entender cosas acerca de los datos como tenden-
cias, anomalas, es decir, qu es usual y qu no es usual en la serie de datos que estas obser-
vando.
Visualizar es una forma de tratar de empezar a interactuar con la informacin. Una buena vi-
sualizacin de datos permite descubrir algn tipo de relacin, estructura o patrones que seran
difciles de describir a partir de los datos en bruto. En esta primera parte del curso nos centra-
remos en las diferentes tcnicas del EDA que busca organizar y desplegar los datos grfica-
mente de manera que sean evidentes algunos valores distintivos de la serie de datos como:
valores centrales (aquellos valores que parecen ocupar el centro de la serie de datos), valores
extremos (valores que parecen estar muy lejos de los valores centrales), conglomerados (gru-
pos de datos muy cercanos entre s), brechas (separaciones de magnitud considerable entre
conglomerados) y la identificacin de patrones globales (the big picture).
3
Pero antes de iniciar en estas tcnicas, es indispensable conocer algunas definiciones y con-
ceptos. Iniciemos por estudiar el concepto de variable.
Una variable es una caracterstica o atributo que puede asumir diferentes valores. Por ejemplo,
en la siguiente tabla se muestran las mediciones hechas por 12 inspectores de calidad para el
dimetro de una pieza de acero usando un micrmetro y un vernier. En
Inspector Micrmetro Vernier este caso la caracterstica de inters es el dimetro de la pieza.
A pesar de que se est midiendo una sola pieza las lecturas son diferentes
para cada uno de los inspectores y ms an, resultan ser diferentes segn
el tipo de instrumento utilizado. Decimos entonces que el dimetro de la
pieza es una variable.
Las variables continuas pueden asumir un nmero infinito de valores en un intervalo entre dos
valores especficos. Por ejemplo, la temperatura ya que la variable puede asumir un infinito
nmero de valores entre dos temperaturas dadas. Para este tipo de variables el proceso de
medicin est asociado a mediciones.
4
Escalas de medicin.
Adems de clasificarse como cualitativas o cuantitativas, las variables pueden ser clasificadas
por como son categorizadas, contadas o medidas. En 1946 S. S. Steven [1] introdujo un es-
quema muy elaborado para la clasificacin de variables de manera que se definiera las dife-
rentes reglas para la asignacin de nmeros, las propiedades matemticas de las escalas resul-
tantes, y las operaciones estadsticas que pueden aplicarse a las mediciones hechas en cada
escala. Steven propuso que una variable puede ser clasificada en una de cuatro escalas: nomi-
nal, ordinal, de intervalo y de razn. Desde el punto de vista de las propiedades matemticas
y estadsticas, la escala de medicin ms rudimentaria es la nominal y la ms completa la de
razn.
Escala Nominal: En esta categora la caracterstica o variable de inters consiste en clases ex-
cluyentes segn determinada propiedad. Adems, no existe un orden lgico particular para las
distintas clasificaciones o categoras que permita, por ejemplo, ordenarlas; es decir que los
nmeros en esta escala slo se usan como identificadores o nombres. Por ejemplo, si nuestro
estudio incluye la variable sexo, codificamos femenino como 1 y masculino como 2. Pero los
nmeros 1 y 2 representan categoras de datos: son simples identificadores de una cualidad
que se est midiendo y son completamente arbitrarios ya que puede usarse F o M o cualquier
otra alternativa, para la codificacin. A este nivel la operacin matemtica permitida es el con-
teo.
Escala Ordinal: Posee todas las caractersticas de la escala nominal, pero adems los datos o
mediciones en una escala ordinal pueden ser colocados en categoras que pueden ordenarse
de manera que reflejen diferentes grados o cantidades de la caracterstica bajo estudio. Los
nmeros representan una cualidad que se est midiendo, y expresan si una observacin tiene
ms de la cualidad medida que otra. Por ejemplo, un estudiante de ingls puede ser clasificado
como bsico, intermedio o avanzado que codificamos con 1, 2 y 3 respectivamente. En
este caso 3 indica que una persona est ms avanzada que un 2 o que un 1. Sin embargo, note
como en esta escala por la falta de una unidad de medida comn no se puede distinguir
las diferencias entre las categoras. Es la diferencia entre bsico e intermedio la misma
que entre intermedio y avanzado? No se puede saber, hay un cierto orden, pero no una
cantidad mensurable. Adems del conteo, en esta categora se pueden ordenar los datos.
Escala de Intervalo: Esta posee todas las caractersticas de las escalas ordinal y nominal, con
la propiedad adicional de que las mediciones son generalmente nmeros y la diferencia entre
un par de ellos da un resultado significativo debido a la existencia de una unidad de medida
comn y constante. Una limitante de esta escala es que carece de un punto inicial o de refe-
rencia natural que indique la ausencia de atributo. Por ejemplo, en el caso de un termmetro
cuyas lecturas son medidas en grados Celsius, el cero de esta escala (0C) es arbitrariamente
fijado al punto al cual el agua se congela (a nivel del mar). En contraste, la ausencia de calor (la
temperatura a la cual la actividad molecular cesa) es aproximadamente -273 C. Como conse-
cuencia, no podemos decir que 0 C indique la ausencia de calor. Esta falta de un cero natural
impide establecer que un da con 30 C sea tres veces ms caliente que uno con 10 C, pero si
podemos decir que la distancia entre 25 y 30 es la misma que la existente entre 20 y 25. En
5
esta escala las diferencias y las sumas de datos tienen un significado numrico racional, pero
no la multiplicacin y divisin.
Escala de Razn: esta escala tiene todas las caractersticas de la escala de intervalo, pero ade-
ms, tiene un punto cero natural que indica la ausencia de atributo. Esto tiene como conse-
cuencia que adems de las operaciones lgicas de ordenacin y comparacin, las diferencias y
las sumas, la divisin y multiplicacin de datos tenga un sentido numrico racional. Por ejem-
plo, el salario. Cero salario, indica la ausencia de la caracterstica medida (no hay dinero). Por
consiguiente, si alguien gana mensualmente $ 1000 podemos decir que gana el doble de al-
guien que gana $ 500 en el mismo periodo.
Por qu es importante conocer las escalas de medicin? Para entender y usar apropiada-
mente las diferentes tcnicas del anlisis estadstico, es necesario identificar previamente la
escala de medicin correspondiente, ya que cada escala tiene sus propiedades matemticas,
que determinan el anlisis estadstico apropiado en cada caso, de manera que los datos se
puedan explorar convenientemente, organizarlos, resumirlos y presentarlos. La tabla 1 resume
las principales caractersticas de las escalas.
Tabla 1.
Principales caractersticas y Propiedades de las Escalas de Medicin
Ahora que estamos familiarizados con las variables y sus diferentes escalas de medicin, esta-
mos listos para iniciarnos en las diferentes tcnicas para la representacin de datos. La ms
simple de estas tcnicas consiste en resumir la informacin en una tabla. En la siguiente pgina
se muestra una serie de buenas prcticas a tener en cuenta cuando elaboremos una tabla.
6
La tcnica ms sencilla de resumir una serie de datos
es por medio de una tabla. Las tablas debern ser
usadas para presentar nmeros de una manera
El redondeo ayuda a la Bordes: la finalidad de los
Redondeo
Presentando nmeros para comparaciones
Formato
Si esta invitando a que el lector
clara y sistemtica. compare nmeros, asegrese comparacin, ya que vuelve las bordes es separar las diferentes
que esos nmeros estn cantidades ms fciles de leer y partes de una tabla, agrupar
fsicamente cerca. recordar. tems relacionados, indicar
Tipos de tablas Si muestra series de datos, es Para la toma de decisiones dnde inicia y termina el
ms fcil hacer la comparacin usualmente nos enfocamos en cuerpo de la tabla, para separar
e intuir algn patrn si las los dgitos ms significativos. El los encabezados y agrupar las
presentar muchos detalles columnas donde se muestran
Existen dos tipos bsicos de tablas: series se colocan en columnas.
los datos o para indicar que
Use el mismo nivel de precisin. podemos volver las cosas ms
difciles. algunas columnas se refieren a
Use comas para separar las
De demostracin: se usan para resaltar algn punto de inte- unidades de millar. Considere siempre que el cambios en la variable.
rs que deseamos comunicar al pblico objetivo tales como: redonde reduce la precisin. Fuentes: diferentes tipos de
Las fracciones decimales fuentes pueden servir para
Esto usualmente se traduce en
menores que uno debern agrupar tems relacionados.
que la suma de las partes no es
Cuando deseamos que el lector compare valores in- siempre iniciar con un cero.
igual al total reportado. Espacios en blanco: pueden
Las tablas de demostracin servir tanto para separar
dividuales. grupos como para asociar tems
debern contener nmeros
Si se quiere incluir tanto los valores obtenidos como redondeados segn lo que se juntos de manera continua.
desee resaltar, las de referencia Ordenar categorias: ordenar las
alguna medida derivada como algn ndice o por- deben consevar la precisin (es categoras puede ayudar a una
centaje. decir una mayor cantidad de mejor interpretacin de los
decimales, de manera que el datos.
Si quiere incluir totales. usuario decida segn sus Rellenos: en las tablas de
necesidades el reondeo que demostracn puede ser usado
De referencia: cuando queremos que la informacin sirva usar. para resaltar el punto de
inters
como una referencia futura.
Recuerde que, para En esta seccin veremos cmo las distribuciones de frecuencia y los grficos de barra pueden
las variables categ- ser usados para resumir datos categricos. Usaremos estos tipos de grficos cuando el prop-
ricas, la nica opera- sito sea mostrar la distribucin de los datos, es decir cmo se distribuyen los datos a travs de
cin permitida es el las diferentes categoras que pueden observarse, o comparar visualmente dos o ms series de
conteo. Entonces el datos segn alguna variable de inters.
nico resumen esta- Para construir la distribucin de frecuencias y el grfico de barras, siga los siguientes pasos:
dstico que podre-
mos dar es la fre- 1. Liste las categoras que componen las variables. Para evitar algn tipo de sesgo, lste-
cuencia con la que las alfabticamente, o en orden descendente de frecuencia.
ocurre cada catego- 2. Registre la frecuencia asociada f con cada categora y, si lo desea, su correspon-
ra. diente frecuencia relativa. Incluya adems el nmero total de datos, , al final de la
tabla. No se olvide de considerar las recomendaciones dadas en la gua rpida de bue-
nas prcticas para tablas.
3. Construya el grfico con la informacin del paso 2.
A B B AB O
O O B AB B
B B O A O
A O O O AB
AB A O B A
Construya una distribucin de frecuencias y un grfico de barras para los datos. Comente sus
principales caractersticas.
Solucin:
Como los datos son categricos, debemos usar clases discretas. De los datos identificamos que
hay cuatro tipos sanguneos: A, B, AB y O que pueden ser utilizados como las clases para la
distribucin de frecuencias. El procedimiento se muestra a continuacin.
8
Paso 4: Calcule la frecuencia relativa para cada una de las categoras usando la siguiente fr-
mula:
f
fr 100%
n
Paso 5: Calcule los totales para las columnas de frecuencia y frecuencia relativa.
Con la informacin de las frecuencias podemos elaborar fcilmente el grfico de barras, que
no es ms que una forma de mostrar grficamente variables categricas. Cada categora es
representada por un rectngulo o barra, de manera que la altura de cada barra sea proporcio-
nal a la frecuencia o frecuencia relativa correspondiente. En las figuras 1 y 2 se muestran stos
grficos.
Porcentaje
30
6
20
4
2 10
0 0
A AB B O A AB B O
Grupo Sanguneo Grupo Sanguneo
Figura 1 Figura 2
Entonces qu podemos concluir a partir de nuestros grficos? Del grfico resulta fcil ver que
el tipo de sangre O ocurre con mayor frecuencia en los datos, ms del doble que el tipo AB que
es el que ocurre con menor frecuencia. El tipo B es el segundo con mayor ocurrencia entre los
estudiantes.
9
GRFICO DE BARRAS COMPARATIVOS.
Los grficos de barras tambin pueden ser usados para comparar visualmente dos o ms gru-
pos. Esto se logra construyendo dos o ms grficos de barras usando el mismo par de ejes
horizontal y vertical.
Ejemplo 2: El artculo 2009 College Hopes & Worries Survey Findings incluye un resumen
de cmo 12,715 estudiantes de secundaria respondieron a la pregunta Idealmente, Qu tan
lejos de su casa le gustara que estuviera la Universidad a la que asistir? Los estudiantes
respondieron seleccionando una de cuatro alternativas posibles para la distancia. El artculo
tambin incluye las respuestas de 3007 padres de familia a la pregunta Qu tan lejos de casa
le gustara que estuviera la Universidad a la que asistirn sus hijos? La informacin se muestra
en la siguiente tabla.
Figura 3: Grfico de Barras Comparativo para la Figura 4: Grfico de Barras Comparativo para la
Distancia Ideal desde Casa. Distancia Ideal desde Casa
60.00 100.00
Frecuecia Relativa (%)
50.00 80.00
40.00
60.00
30.00
40.00
20.00
10.00 20.00
0.00 0.00
Menos de 250 De 250 a 500 De 500 a 1000 Ms de 1000 Menos de De 250 a De 500 a Ms de
millas millas millas millas 250 millas 500 millas 1000 millas 1000 millas
10
De los grficos resulta fcil ver las diferencias entre estudiantes y padres de familia. Un alto
porcentaje de padres de familia prefieren que la Universidad est cerca de casa, y un buen
porcentaje de estudiantes cree que la distancia ideal de casa es de ms de 500 millas.
Nota adicional: para ver por qu es importante usar las frecuencias relativas en lugar de las
absolutas cuando se hacen comparaciones, considere el siguiente diagrama incorrecto en el cual
se han usado las frecuencias absolutas para comparar grupos de diferentes tamaos.
Frecuencia
3000
2000
1000
0
Menos de De 250 a De 500 a Ms de
250 millas 500 millas 1000 millas 1000 millas
Estudaintes Padres
Debido a que hay ms estudiantes que padres de familia participando en la encuesta (12,715
estudiantes y 3,007 padres de familia) el diagrama nos llevara a conclusiones muy diferentes y
errneas en cuanto a las preferencias de estudiantes y padre de familia. Es decir, ya no parece
que un alto porcentaje de los padres de familia prefieran que la universidad est cerca de casa.
Paso 1: Encuentre el mayor y el menor de los valores en la serie de datos. Para nuestro ejemplo
estos valores son 99 y 51 respectivamente.
11
Paso 2: Calcule el Rango de los valores restando el menor valor del mayor.
= = 99 51 = 48
Paso 3: calcule el nmero de clases que usar. La cantidad 2k n se usa a menudo para estimar
el nmero de clases conociendo el total de datos disponibles en nuestra muestra. Entonces
2k 50 . Con k 5 obtenemos 32 y con k 6 obtenemos 64. Seleccionamos ste ltimo valor
por estar ms cerca de 50. Entonces usaremos 6 clases.
Paso 4: determine el ancho de clases por medio de = . As que el ancho de
cada una de las clases ser c 48 / 6 8 . Para asegurarnos de que las clases incluyan a todos
los datos este resultado lo aproximaremos siempre al entero siguiente, por lo que el ancho de
clase que usaremos ser de 9.
Paso 5: Construya el primer intervalo sumando al valor menor (51) el ancho de clase (9). En-
tonces, nuestro primer intervalo ir desde 51 hasta 60. El segundo intervalo corresponde a
valores desde 60 hasta 69 y as sucesivamente hasta el ltimo intervalo que va desde 96 hasta
104. Finalmente, contamos cuantos de los datos corresponden a cada uno de los intervalos y
anotamos el resultado en la columna de frecuencias absolutas () y construimos una tabla
como la de abajo en donde tambin se ha incluido la frecuencia relativa ( ) y las marcas de
clase que es el punto medio de cada una de las clases. Por ejemplo, la marca de clase para la
78+86
cuarta clase es 2
= 82. Las marcas de clase suelen emplearse como valores representati-
vos de los datos comprendidos en las clases. Por ejemplo, podemos decir que un valor repre-
sentativo de los 20 datos comprendidos en la cuarta clase es 82.
12
Es importante mencionar que en este panorama general que nos hacemos con la tabla de fre-
cuencia los datos individuales se pierden, no estn disponibles ms para el usuario de la infor-
macin.
Iniciamos introduciendo el concepto de limites reales de clase. stos se obtienen restando 0.5
Los lmites reales tienen la a los lmites inferiores de clase y sumando 0.5 a los superiores, tal como se muestra en la tabla
ventaja de representar 6.
como un solo intervalo el es-
Tabla 6: Lmites de clase y lmites reales de clase
pacio donde se localizan las
observaciones; es decir to- Lmites de clase Lmites reales de clase f
dos nuestros datos estn 51 59 50.5 59.5 2
comprendidos en el inter- 60 68 59.5 68.5 5
valo [50.5, 104.5], a diferen- 69 77 68.5 77.5 11
cia de los lmites de clases 78 86 77.5 86.5 20
que son una serie de inter- 87 95 86.5 95.5 10
valos separados entre s: 96 104 95.5 104.5 2
[51,59]; [60,68];; [96,104].
A partir de esta tabla construimos el histograma siguiente
De esta manera, si conside-
ramos las puntuaciones 86,
87 y 88, una puntuacin en Figura 5: Histograma de frecuencias para las notas de la primera
particular, por ejemplo 87, evaluacin de Probabilidad y Estadstica.
indica un nivel de conoci-
miento ms cercano a 87
20
que a 86 u 88. As que la
puntuacin 87 puede ser
considerada como si se ex-
15
tendiera desde 86.5 hasta
87.5, como lo indica la si-
guiente figura.
10
0
50.5 50.5 59.5 59.5 68.5 68.5 77.5 77.5 86.5 86.5 95.5 95.5104.5
La nota ms frecuente est entre 7.8 y 8.6 y un valor representativo de esta nota ms
frecuente es 8.2. Del histograma, es la barra con mayor altura, pero no olvide usar los
13
lmites de clase en lugar de los reales (sino diramos que la nota ms frecuente est entre
7.75 y 8.65, lo cual sera incorrecto ya que las notas no estn reportadas hasta la cent-
sima).
Hay dos estudiantes con notas sobresalientes entre 9.6 y 10.0, casi el doble de la nota que
obtuvieron los dos alumnos con menor nota, pero solo representan un 4% de los estudian-
tes. En el histograma esto se ve en la ltima barra, aunque a menudo, como en este caso,
la lectura en el eje y resulta un poco difcil a simple vista, por lo que es una buena prctica
incluir en cada barra su correspondiente frecuencia. Sin embargo, esto no representa una
limitacin del grfico, ya que una informacin tan detallada por lo general no es necesaria,
bastar con decir que hay muy pocos estudiantes con notas sobresalientes.
Si consideramos que 6.0 es la nota requerida para aprobar el examen, podemos decir que
la mayora de estudiantes (48) aprobaron el examen, lo cual representa un 96% de apro-
bados. Del histograma a lo mejor no logramos tanta precisin, as que esta informacin
podra quedar como: Si consideramos que 6.0 es la nota requerida para aprobar el examen,
podemos decir que la mayora de estudiantes aprobaron el examen (lo cual resulta evi-
dente porque hay mayor cantidad de rea a la derecha de 6.0).
Entonces, del histograma podemos obtener la misma informacin que de una distribucin de
frecuencias, pero a lo mejor con menos detalle. Sin embargo, hay un aspecto muy importante
que revela el histograma: la forma o perfil de distribucin, la cual nos proporciona un elemento
ms de anlisis de una distribucin de frecuencias. En los captulos siguientes veremos que la
forma de la distribucin determina el mtodo estadstico apropiado que debe usarse para ana-
lizar los datos.
Una distribucin puede tener muchas formas, pero para nuestros propsitos nos bastarn al-
gunas de ellas y nos centraremos principalmente en:
El nmero de picos o modas: Un histograma puede ser unimodal, si tiene un pico (a),
bimodal, si tiene dos picos (b) y multimodal si tiene ms de dos picos (c).
14
La simetra: Un histograma es simtrico si existe una lnea vertical tal que la porcin
del histograma a la izquierda de esta lnea es similar a la porcin que est a la derecha
Una distribucin bimo-
(a). Si esta lnea no existe, entonces el histograma tendr un sesgo a la derecha (b) o
dal se podra dar
a la izquierda (c).
cuando los datos con
los que disponemos
provienen de dos po-
blaciones bastante dife-
rentes. Imagine dispo-
nemos de una gran
cantidad de datos que La variabilidad: se agrupan los datos alrededor de su valor representativo o se dis-
representan los tiem- persan a lo largo del eje x? estas preguntas tienen que ver con la variabilidad de los
pos de viaje desde So-
datos en una distribucin, que en el histograma se ve en el ancho que ste tiene.
yapango hasta San Sal-
En (a) se muestran dos distribuciones que difieren en su valor central o tpico pero
vador, para usuarios
del SITRAMS y usua-
tienen la misma variabilidad. En (b) se muestran dos distribuciones con diferente va-
rios del sistema de riabilidad.
transporte publico nor-
mal. Si construimos un
histograma para estos
datos combinados, po-
siblemente sea bimodal
si los tiempos en el re-
corrido son significati-
vamente diferentes en- Entonces, qu otra informacin podemos incluir para el histograma del ejemplo?
tre ambos sistemas.
Figura 7
15
USO DE TECNOLOGA.
Existen numerosas herramientas que nos permitirn elaborar los grficos que hasta este momento he-
mos estudiado. En Excel disponemos de tres alternativas para elaborar un histograma:
Una primera opcin es hacer todo el procedimiento descrito anteriormente utilizando algunas de las
funciones de Excel e insertar un diagrama de barras utilizando el asistente para grficos (a).
Otra alternativa es disponer todos los datos en una columna e insertar un histograma directamente (b).
Finalmente, podemos utilizar el complemento Anlisis de Datos para generar el histograma (c)
(a)
20
15
10
5
0
50.5 50.559.5 59.5 68.5 68.5 77.5 77.5 86.5 86.595.5 95.5
104.5
(c)
25
20
Frecuencia
15
10
Note como los histogramas no son exactamente iguales, pero conservan las propiedades que
hemos descrito anteriormente. Por lo general no se especifican los lmites para las clases en el
eje , a menos que sea estrictamente necesario, ya que son generados automticamente por
Excel.
16
USO DE HISTOGRAMAS PARA COMPARAR DOS SERIES DE DATOS.
Si deseamos comparar dos grupos de datos, tenga en mente lo siguiente
Siempre use las frecuencias relativas para construir el histograma, ya que el nmero
de observaciones en cada grupo podran ser diferentes.
Use las mismas escalas en ambos ejes para hacer que las comparaciones se vuelvan
ms fciles.
Ejemplo 4: El artculo Early Televisin Exposure and Subsequent Attention Problems in Chil-
dren (Pediatrics, April 2004) investiga los hbitos televisivos de los nios de EU. Los datos
fueron obtenidos en un estudio a nivel nacional. En la siguiente tabla se muestran las frecuen-
cias relativas aproximadas para el nmero de horas frente a la TV por da para nios de uno y
tres aos. Construya un histograma para cada variable y comente sus caractersticas ms im-
portantes.
Figura 8 Figura 9
17
Y SI TENEMOS POCOS DATOS?
En ocasiones slo podremos medir pocos datos (10, 20 o menos de 30). En estas situaciones
no tiene mucho sentido construir un histograma. Seguramente la forma de la distribucin de
datos ser engaosa con tan pocas clases. Una alternativa es construir un diagrama de tallo y
hojas.
Un diagrama de tallo y hojas es una manera efectiva de resumir una serie pequea de datos.
Cada nmero en el conjunto de datos se descompone en dos partes: el tallo y las hojas. El tallo
es el primer dgito del nmero y la hoja el dgito final. Por ejemplo, el nmero 6.2 puede des-
componerse como un 6 para el tallo y un 2 para la hoja. Al realizar este procedimiento para
cada observacin y teniendo en cuenta que el tallo debe ordenarse de manera descendente,
obtenemos el siguiente diagrama:
Por lo general, cuando hay pocos datos no es una buena idea usar un histograma.
18
Buenas Prcticas La siguiente tabla muestra qu tipo de grfico seleccionar segn la informacin que desee presentar. En el
caso de los diagramas de pastel o circulares vemos que slo nos permite visualizar relaciones de parte a todo,
para Grficos. pero eso tambin lo hacen los diagramas de barras. As que considere jams usar un diagrama de pastel.
20
GRFICOS A EVITAR.
Esta seccin se basa en una charla dictada por Karl W. Broman titulada How to Display Data
Badly, inspirada en el paper de 1984 de H. Wainer: How to Display Data Badly. Wainer fue
el primero en hablar de los principios de la mala presentacin de datos que, segn Karl, con el
uso creciente de Excel ha experimentado notables avances en los ltimos aos.
Principios Generales.
Algunos ejemplos de stos y otros errores se muestran en la siguiente top list, que se hace con
el objetivo de que el lector nunca los imite.
21
22
Referencias.
23