Vous êtes sur la page 1sur 23

Introduccin al Anlisis Exploratorio

de Datos.
Por Oscar R. Daz 05/08/2017 Captulo 1

Objetivos de aprendizaje: Contenidos:


Despus de completar este captulo usted debera ser capaz de: 1. Introduccin.
A nivel de conocimiento: 2. Estadstica Descriptiva e Inferencial.
3. Variables y sus medidas.
1. Definir la estadstica descriptiva y la estadstica inferencial.
2. Definir una variable. 4. Escalas de Medicin.
3. Definir qu es una medicin. 5. Distribuciones de frecuencia y grficos
4. Definir variables cualitativas y variables cuantitativas. para variables cualitativas.
5. Definir variables discretas y continuas.
6. Identificar las escalas de medicin nominal, ordinal, de es-
6. Distribuciones de frecuencia y grficos
cala y de razn. para variables cuantitativas.
A nivel de comprensin:

7. Organizar datos usando una distribucin de frecuencias.


8. Seleccionar el grfico adecuado para una serie dada de da-
tos.

A nivel de aplicacin:

9. Construir diagramas de barras y diagramas de barras com-


parativos.
10. Construir histogramas.
11. Aplicar buenas prcticas

A nivel de anlisis

12. Distinguir las principales caractersticas de una distribucin


de datos a partir de la distribucin de frecuencias.
13. Distinguir las principales caractersticas de una distribucin
de datos a partir de un diagrama de barras.
14. Distinguir las principales caractersticas de una distribucin
de datos a partir de un histograma.
15. Usar diagramas de barras o histogramas para comparar dos
o ms series de datos.

A judicious man looks at statistics, not to get knowledge but to save


himself from having ignorance foisted on him. (Thomas Carlyle)

1
POR QU ESTUDIAR ESTADSTICA?

Un estudiante de ingeniera necesita un curso de probabilidad y estadstica entre otras razones por:

1. Como profesional, deber ser capaz de leer y entender estudios estadsticos realizados en
su campo laboral. Para lograr este entendimiento, deber conocer el vocabulario, smbo-
los, conceptos y procedimientos estadsticos usados en dichos estudios.

2. Como profesional tambin deber ser capaz de dirigir investigaciones en su campo labo-
ral, donde los procedimientos estadsticos como el diseo de experimentos, la recoleccin,
la organizacin, el anlisis y el resumen de datos le sern de mucha utilidad para hacer
pronsticos confiables para el futuro. Tambin deber ser capaz de comunicar los resul-
tados del estudio en sus propias palabras.

3. Por ltimo, pero no menos importante, como profesional puede usar los conocimientos en
probabilidad y estadstica para ser un ciudadano con un pensamiento crtico que analice y
tome posturas ante los problemas de la realidad nacional.

2
VARIABILIDAD Y PENSAMIENTO ESTADSTICO.

a variabilidad forma parte de nuestra vida diaria. Por ejemplo, el tiempo que tarda-

Tiempo de Respuesta a Solicitudes

5.0
de apoyo tcnico.
5.4 7.1 7.0 5.5
L mos en desplazarnos de nuestra casa a la universidad cambia de un da a otro, nues-
tro peso a lo largo del ao tambin vara, as como nuestros niveles de colesterol.
Esta variabilidad tambin se da en otros mbitos. En ingeniera, por ejemplo, es co-
mn trabajar con datos que provienen de mediciones que han sido tomadas bajo
condiciones controladas con el propsito de tomar alguna decisin. La variabilidad causa que
4.4 5.4 6.6 7.1 4.1 estas mediciones no sean iguales. Por ejemplo, una empresa que se dedica a la venta de equipo
3.0 5.7 6.7 6.8 4.7
7.1 3.2 5.7 5.5 7.9
electrnico utiliza como un indicador importante de calidad en el servicio que presta a sus
2.0 5.4 2.9 5.3 7.4 clientes, el tiempo de respuesta a solicitudes de apoyo tcnico debido a fallas en los equipos.
5.1 6.9 3.2 3.9 5.9 En la tabla de la izquierda se muestran los tiempos de respuesta para los primeros nueve meses
3.6 4.0 2.3 8.9 5.8
del ao. Note como los datos varan de medida en medida. Por lo general, la cantidad de datos
5.8 7.7 3.9 5.8 5.9
1.7 3.2 6.8 7.0 5.4 es voluminosa y sin ningn significado a primera vista. Es decir, Qu informacin puede ex-
4.5 6.5 4.1 7.5 6.8 traer de esta muestra para luego presentarla a una audiencia objetivo? puede obtener con-
4.3 5.9 3.1 8.3 4.7
clusiones, destacar tendencias y proporcionar alguna informacin contextual a partir de esta
6.3 6.0 3.1 4.8 4.2
4.1 7.5 6.4 5.6 5.4 serie de datos? Probablemente no, a pesar de tratarse de una muestra relativamente pequea
de 65 observaciones. Los datos en este estado nos dicen poco y cuando el volumen de los datos
aumenta, el silencio es total. Pero entonces, cmo podemos interpretar cantidades grandes
de datos? qu caractersticas debemos resaltar? cmo debemos resumirlos para nuestra au-
diencia? Le pensamiento estadstico puede darnos una manera til de incorporar esta variabi-
lidad en nuestros procesos de toma de decisiones. Pensar en forma estadstica implica reco-
nocer que esta variabilidad est a nuestro alrededor y presente en todo lo que hacemos y que
por tanto es necesario conocerla, analizarla y entenderla para tomar decisiones.

Esta forma de pensar establece la necesidad de un anlisis adecuado de los datos para asegu-
rarnos que los patrones ms importantes y las tendencias en los datos sean claramente des-
critas y resulten fciles de ver para el usuario, necesitamos traductores que nos permitan
procesar todo este volumen de informacin para que pueda tener un significado en la escala
humana. El enfoque conocido como EDA (Exploratoty Data Analysis) es por hoy la mejor al-
ternativa con la que disponemos. Este enfoque nos permite procesar esta gran cantidad de
datos y dibujar una imagen que nos permite entender cosas acerca de los datos como tenden-
cias, anomalas, es decir, qu es usual y qu no es usual en la serie de datos que estas obser-
vando.

Visualizar es una forma de tratar de empezar a interactuar con la informacin. Una buena vi-
sualizacin de datos permite descubrir algn tipo de relacin, estructura o patrones que seran
difciles de describir a partir de los datos en bruto. En esta primera parte del curso nos centra-
remos en las diferentes tcnicas del EDA que busca organizar y desplegar los datos grfica-
mente de manera que sean evidentes algunos valores distintivos de la serie de datos como:
valores centrales (aquellos valores que parecen ocupar el centro de la serie de datos), valores
extremos (valores que parecen estar muy lejos de los valores centrales), conglomerados (gru-
pos de datos muy cercanos entre s), brechas (separaciones de magnitud considerable entre
conglomerados) y la identificacin de patrones globales (the big picture).

3
Pero antes de iniciar en estas tcnicas, es indispensable conocer algunas definiciones y con-
ceptos. Iniciemos por estudiar el concepto de variable.

VARIABLES Y SUS MEDIDAS.


En general, el EDA trata de describirnos una situacin. Esta situacin se describe por medio de
variables. En esta seccin estudiaremos la naturaleza de las variables y los tipos de datos. Ini-
ciamos definiendo el concepto de variable.

Una variable es una caracterstica o atributo que puede asumir diferentes valores. Por ejemplo,
en la siguiente tabla se muestran las mediciones hechas por 12 inspectores de calidad para el
dimetro de una pieza de acero usando un micrmetro y un vernier. En
Inspector Micrmetro Vernier este caso la caracterstica de inters es el dimetro de la pieza.

A pesar de que se est midiendo una sola pieza las lecturas son diferentes
para cada uno de los inspectores y ms an, resultan ser diferentes segn
el tipo de instrumento utilizado. Decimos entonces que el dimetro de la
pieza es una variable.

En este experimento est explcito que, existe un proceso de medicin, que


es el proceso por medio del cual se le asigna un nmero a la caracterstica
que se desea estudiar.

Clasificacin de las Variables.


Las variables se pueden clasificar como cualitativas o cuantitativas. En las
variables cualitativas (tambin conocidas como categricas) la medicin
describe un elemento colocndolo en una categora o grupo de acuerdo a alguna caracterstica
Los valores de las varia-
o atributo. Por ejemplo, si clasificamos personas de acuerdo al sexo (masculino o femenino)
bles cualitativas y cuanti-
tativas difieren en el tipo
entonces, la variable gnero es cualitativa. Otros ejemplos de estas variables seran la prefe-
ms que en la cantidad. El rencia religiosa, el estado civil, la afiliacin poltica, la etnia y la localizacin geogrfica.
sexo es un buen ejemplo.
A pesar de que hombres y En el caso de las variables cuantitativas, las mediciones resultan en valores numricos que po-
mujeres son claramente demos ordenar y realizar operaciones aritmticas con ellos. Por ejemplo, la variable edad es
diferentes en la funcin numrica y las personas pueden ser ordenadas de acuerdo a su edad. Otros ejemplos de este
reproductiva (una distin- tipo de variables son el peso de la persona, la altura y la temperatura corporal.
cin cualitativa), esto no
implica que un gnero sea Las variables cuantitativas pueden ser clasificadas en dos grupos: discretas y continuas. las
mayor que o menor variables discretas pueden asumir valores como 0, 1, 2, 3 y se dice que son contables. Por
que el otro (una distin-
ejemplo, el nmero de nios de una familia, el nmero de estudiantes en el saln de clase y el
cin cuantitativa)
nmero de llamadas que recibe un operador cada da durante un mes. En este caso el proceso
de medicin est asociado a conteos.

Las variables continuas pueden asumir un nmero infinito de valores en un intervalo entre dos
valores especficos. Por ejemplo, la temperatura ya que la variable puede asumir un infinito
nmero de valores entre dos temperaturas dadas. Para este tipo de variables el proceso de
medicin est asociado a mediciones.

4
Escalas de medicin.
Adems de clasificarse como cualitativas o cuantitativas, las variables pueden ser clasificadas
por como son categorizadas, contadas o medidas. En 1946 S. S. Steven [1] introdujo un es-
quema muy elaborado para la clasificacin de variables de manera que se definiera las dife-
rentes reglas para la asignacin de nmeros, las propiedades matemticas de las escalas resul-
tantes, y las operaciones estadsticas que pueden aplicarse a las mediciones hechas en cada
escala. Steven propuso que una variable puede ser clasificada en una de cuatro escalas: nomi-
nal, ordinal, de intervalo y de razn. Desde el punto de vista de las propiedades matemticas
y estadsticas, la escala de medicin ms rudimentaria es la nominal y la ms completa la de
razn.
Escala Nominal: En esta categora la caracterstica o variable de inters consiste en clases ex-
cluyentes segn determinada propiedad. Adems, no existe un orden lgico particular para las
distintas clasificaciones o categoras que permita, por ejemplo, ordenarlas; es decir que los
nmeros en esta escala slo se usan como identificadores o nombres. Por ejemplo, si nuestro
estudio incluye la variable sexo, codificamos femenino como 1 y masculino como 2. Pero los
nmeros 1 y 2 representan categoras de datos: son simples identificadores de una cualidad
que se est midiendo y son completamente arbitrarios ya que puede usarse F o M o cualquier
otra alternativa, para la codificacin. A este nivel la operacin matemtica permitida es el con-
teo.
Escala Ordinal: Posee todas las caractersticas de la escala nominal, pero adems los datos o
mediciones en una escala ordinal pueden ser colocados en categoras que pueden ordenarse
de manera que reflejen diferentes grados o cantidades de la caracterstica bajo estudio. Los
nmeros representan una cualidad que se est midiendo, y expresan si una observacin tiene
ms de la cualidad medida que otra. Por ejemplo, un estudiante de ingls puede ser clasificado
como bsico, intermedio o avanzado que codificamos con 1, 2 y 3 respectivamente. En
este caso 3 indica que una persona est ms avanzada que un 2 o que un 1. Sin embargo, note
como en esta escala por la falta de una unidad de medida comn no se puede distinguir
las diferencias entre las categoras. Es la diferencia entre bsico e intermedio la misma
que entre intermedio y avanzado? No se puede saber, hay un cierto orden, pero no una
cantidad mensurable. Adems del conteo, en esta categora se pueden ordenar los datos.
Escala de Intervalo: Esta posee todas las caractersticas de las escalas ordinal y nominal, con
la propiedad adicional de que las mediciones son generalmente nmeros y la diferencia entre
un par de ellos da un resultado significativo debido a la existencia de una unidad de medida
comn y constante. Una limitante de esta escala es que carece de un punto inicial o de refe-
rencia natural que indique la ausencia de atributo. Por ejemplo, en el caso de un termmetro
cuyas lecturas son medidas en grados Celsius, el cero de esta escala (0C) es arbitrariamente
fijado al punto al cual el agua se congela (a nivel del mar). En contraste, la ausencia de calor (la
temperatura a la cual la actividad molecular cesa) es aproximadamente -273 C. Como conse-
cuencia, no podemos decir que 0 C indique la ausencia de calor. Esta falta de un cero natural
impide establecer que un da con 30 C sea tres veces ms caliente que uno con 10 C, pero si
podemos decir que la distancia entre 25 y 30 es la misma que la existente entre 20 y 25. En

5
esta escala las diferencias y las sumas de datos tienen un significado numrico racional, pero
no la multiplicacin y divisin.

Escala de Razn: esta escala tiene todas las caractersticas de la escala de intervalo, pero ade-
ms, tiene un punto cero natural que indica la ausencia de atributo. Esto tiene como conse-
cuencia que adems de las operaciones lgicas de ordenacin y comparacin, las diferencias y
las sumas, la divisin y multiplicacin de datos tenga un sentido numrico racional. Por ejem-
plo, el salario. Cero salario, indica la ausencia de la caracterstica medida (no hay dinero). Por
consiguiente, si alguien gana mensualmente $ 1000 podemos decir que gana el doble de al-
guien que gana $ 500 en el mismo periodo.

Por qu es importante conocer las escalas de medicin? Para entender y usar apropiada-
mente las diferentes tcnicas del anlisis estadstico, es necesario identificar previamente la
escala de medicin correspondiente, ya que cada escala tiene sus propiedades matemticas,
que determinan el anlisis estadstico apropiado en cada caso, de manera que los datos se
puedan explorar convenientemente, organizarlos, resumirlos y presentarlos. La tabla 1 resume
las principales caractersticas de las escalas.

Tabla 1.
Principales caractersticas y Propiedades de las Escalas de Medicin

Escala de medicin. Propiedad del sistema nu-Operacin matemtica Ejemplos


mrico. permitida.
Nominal Identidad Conteo Sexo
Ordinal Magnitud Ordenar Nivel educativo
Intervalo Distancia Suma y resta Temperaturas
Razn Cero absoluto Multiplicacin y divisin. Peso
Nota: las propiedades y operaciones de una escala incluye las de la escala anterior.

Ahora que estamos familiarizados con las variables y sus diferentes escalas de medicin, esta-
mos listos para iniciarnos en las diferentes tcnicas para la representacin de datos. La ms
simple de estas tcnicas consiste en resumir la informacin en una tabla. En la siguiente pgina
se muestra una serie de buenas prcticas a tener en cuenta cuando elaboremos una tabla.

6
La tcnica ms sencilla de resumir una serie de datos
es por medio de una tabla. Las tablas debern ser
usadas para presentar nmeros de una manera
El redondeo ayuda a la Bordes: la finalidad de los

Redondeo
Presentando nmeros para comparaciones

Formato
Si esta invitando a que el lector
clara y sistemtica. compare nmeros, asegrese comparacin, ya que vuelve las bordes es separar las diferentes
que esos nmeros estn cantidades ms fciles de leer y partes de una tabla, agrupar
fsicamente cerca. recordar. tems relacionados, indicar
Tipos de tablas Si muestra series de datos, es Para la toma de decisiones dnde inicia y termina el
ms fcil hacer la comparacin usualmente nos enfocamos en cuerpo de la tabla, para separar
e intuir algn patrn si las los dgitos ms significativos. El los encabezados y agrupar las
presentar muchos detalles columnas donde se muestran
Existen dos tipos bsicos de tablas: series se colocan en columnas.
los datos o para indicar que
Use el mismo nivel de precisin. podemos volver las cosas ms
difciles. algunas columnas se refieren a
Use comas para separar las
De demostracin: se usan para resaltar algn punto de inte- unidades de millar. Considere siempre que el cambios en la variable.
rs que deseamos comunicar al pblico objetivo tales como: redonde reduce la precisin. Fuentes: diferentes tipos de
Las fracciones decimales fuentes pueden servir para
Esto usualmente se traduce en
menores que uno debern agrupar tems relacionados.
que la suma de las partes no es
Cuando deseamos que el lector compare valores in- siempre iniciar con un cero.
igual al total reportado. Espacios en blanco: pueden
Las tablas de demostracin servir tanto para separar
dividuales. grupos como para asociar tems
debern contener nmeros
Si se quiere incluir tanto los valores obtenidos como redondeados segn lo que se juntos de manera continua.
desee resaltar, las de referencia Ordenar categorias: ordenar las
alguna medida derivada como algn ndice o por- deben consevar la precisin (es categoras puede ayudar a una
centaje. decir una mayor cantidad de mejor interpretacin de los
decimales, de manera que el datos.
Si quiere incluir totales. usuario decida segn sus Rellenos: en las tablas de
necesidades el reondeo que demostracn puede ser usado
De referencia: cuando queremos que la informacin sirva usar. para resaltar el punto de
inters
como una referencia futura.

Ejemplo de una buena tabla.

Cuando disee una tabla no olvide incluir los guientes


elementos:
La unidad de estudio (personas, dueos de casas,
empresas, etc.)
El tipo de estadsticos que se presentan (medias, totales,
razones, etc.)

Ttulos y Unidades (miles de dlares, km, etc.)


La clasificacin usada para categorizar.
Cobertura geogrfica o sector.
Etiquetas Perodos de tiempo
La fuente de los datos
Dnde se puede consultar ms informacin.

Adaptado de (Good Practice Team


Goverment Statistical, 2014) 7
DISTRIBUCIONES DE FRECUENCIA Y GRFICOS PARA VARIABLES CUALITATIVAS.

Recuerde que, para En esta seccin veremos cmo las distribuciones de frecuencia y los grficos de barra pueden
las variables categ- ser usados para resumir datos categricos. Usaremos estos tipos de grficos cuando el prop-
ricas, la nica opera- sito sea mostrar la distribucin de los datos, es decir cmo se distribuyen los datos a travs de
cin permitida es el las diferentes categoras que pueden observarse, o comparar visualmente dos o ms series de
conteo. Entonces el datos segn alguna variable de inters.
nico resumen esta- Para construir la distribucin de frecuencias y el grfico de barras, siga los siguientes pasos:
dstico que podre-
mos dar es la fre- 1. Liste las categoras que componen las variables. Para evitar algn tipo de sesgo, lste-
cuencia con la que las alfabticamente, o en orden descendente de frecuencia.
ocurre cada catego- 2. Registre la frecuencia asociada f con cada categora y, si lo desea, su correspon-
ra. diente frecuencia relativa. Incluya adems el nmero total de datos, , al final de la
tabla. No se olvide de considerar las recomendaciones dadas en la gua rpida de bue-
nas prcticas para tablas.
3. Construya el grfico con la informacin del paso 2.

Ejemplo 1: 25 estudiantes de ingeniera se sometieron a una prueba para determinar su


grupo sanguneo. Los resultados fueron los siguientes:

A B B AB O
O O B AB B
B B O A O
A O O O AB
AB A O B A
Construya una distribucin de frecuencias y un grfico de barras para los datos. Comente sus
principales caractersticas.

Solucin:

Como los datos son categricos, debemos usar clases discretas. De los datos identificamos que
hay cuatro tipos sanguneos: A, B, AB y O que pueden ser utilizados como las clases para la
distribucin de frecuencias. El procedimiento se muestra a continuacin.

Paso 1: Construya una tabla como la siguiente


Tabla 2: Distribucin de Frecuencias para los grupos sanguneos de los estudiantes de inge-
niera de la Universidad de El Salvador.
Clases Conteo Frecuencia f Frecuencia relativa f r
A
AB
B
O
Total
Paso 2: Cuente los datos y coloque los resultados en la segunda columna (conteo)

Paso 3: Traslade en forma numrica stos resultados a la tercera columna (frecuencia)

8
Paso 4: Calcule la frecuencia relativa para cada una de las categoras usando la siguiente fr-
mula:

f
fr 100%
n

Paso 5: Calcule los totales para las columnas de frecuencia y frecuencia relativa.

La tabla completa se muestra a continuacin.


Tabla 3: Distribucin de Frecuencias para la Variable Grupos Sanguneos
Nota: las frecuencias relati- Clases Conteo Frecuencia f Frecuencia relativa (%) f r
vas pueden escribirse tanto
en valor decimal como en
A IIII 5 20
porcentaje, dependiendo de AB IIII 4 16
qu informacin quiera mos- B IIII II 7 28
trar. O IIII IIII 9 36
Total n=25 100

Con la informacin de las frecuencias podemos elaborar fcilmente el grfico de barras, que
no es ms que una forma de mostrar grficamente variables categricas. Cada categora es
representada por un rectngulo o barra, de manera que la altura de cada barra sea proporcio-
nal a la frecuencia o frecuencia relativa correspondiente. En las figuras 1 y 2 se muestran stos
grficos.

Figura 1: Grfico de barras para la Figura 2: Grfico de barras porcentual


variable Grupo Sanguneo para la variable Grupo Sanguneo.
10 40
8
Frecuencia

Porcentaje

30
6
20
4
2 10
0 0
A AB B O A AB B O
Grupo Sanguneo Grupo Sanguneo

Figura 1 Figura 2

Un aspecto muy importante a considerar cuando mostramos grficamente el comportamiento


de una variable es el propsito del grfico. Para datos con una sola variable (univariados) ge-
neralmente el propsito es mostrar la distribucin de datos. Para datos categricos, como se
menciona al inicio de esta seccin, esto significa mostrar cmo las observaciones se distribuyen
a travs de las distintas categoras posibles para la variable.

Entonces qu podemos concluir a partir de nuestros grficos? Del grfico resulta fcil ver que
el tipo de sangre O ocurre con mayor frecuencia en los datos, ms del doble que el tipo AB que
es el que ocurre con menor frecuencia. El tipo B es el segundo con mayor ocurrencia entre los
estudiantes.

9
GRFICO DE BARRAS COMPARATIVOS.
Los grficos de barras tambin pueden ser usados para comparar visualmente dos o ms gru-
pos. Esto se logra construyendo dos o ms grficos de barras usando el mismo par de ejes
horizontal y vertical.

Ejemplo 2: El artculo 2009 College Hopes & Worries Survey Findings incluye un resumen
de cmo 12,715 estudiantes de secundaria respondieron a la pregunta Idealmente, Qu tan
lejos de su casa le gustara que estuviera la Universidad a la que asistir? Los estudiantes
respondieron seleccionando una de cuatro alternativas posibles para la distancia. El artculo
tambin incluye las respuestas de 3007 padres de familia a la pregunta Qu tan lejos de casa
le gustara que estuviera la Universidad a la que asistirn sus hijos? La informacin se muestra
en la siguiente tabla.

Frecuencia Frecuencia Relativa (%)


Estudiantes Padres Estudiantes Padres
Menos de 250 millas 4450 1594 35.00 53.01
De 250 a 500 millas 3942 902 31.00 30.00
De 500 a 1000 millas 2416 331 19.00 11.01
Ms de 1000 millas 1907 180 15.00 5.99
Total: 12715 3007 100% 100%
Construya un diagrama de barras comparativo para la distancia ideal desde casa para estudian-
tes y padres de familia y comente sus aspectos ms importantes.

Cuando se construye un grfico de barras comparativo, usaremos las frecuencias relativas en


lugar de las frecuencias absolutas para construir la escala del eje vertical ya que esto nos per-
mitir hacer comparaciones que tengan sentido, aunque los tamaos de muestra sean dife-
rentes. En la figura 3 se muestra un posible arreglo conocido como grfica de barras agrupado,
y en la figura 4 un arreglo conocido como grafico de barras apilado.

Figura 3: Grfico de Barras Comparativo para la Figura 4: Grfico de Barras Comparativo para la
Distancia Ideal desde Casa. Distancia Ideal desde Casa
60.00 100.00
Frecuecia Relativa (%)

Frecuencia Relativa (%)

50.00 80.00
40.00
60.00
30.00
40.00
20.00
10.00 20.00
0.00 0.00
Menos de 250 De 250 a 500 De 500 a 1000 Ms de 1000 Menos de De 250 a De 500 a Ms de
millas millas millas millas 250 millas 500 millas 1000 millas 1000 millas

Estudiantes Padres Estudiantes Padres

10
De los grficos resulta fcil ver las diferencias entre estudiantes y padres de familia. Un alto
porcentaje de padres de familia prefieren que la Universidad est cerca de casa, y un buen
porcentaje de estudiantes cree que la distancia ideal de casa es de ms de 500 millas.

Nota adicional: para ver por qu es importante usar las frecuencias relativas en lugar de las
absolutas cuando se hacen comparaciones, considere el siguiente diagrama incorrecto en el cual
se han usado las frecuencias absolutas para comparar grupos de diferentes tamaos.

Figura 5: Distancia ideal desde casa.


5000
4000

Frecuencia
3000
2000
1000
0
Menos de De 250 a De 500 a Ms de
250 millas 500 millas 1000 millas 1000 millas

Estudaintes Padres

Debido a que hay ms estudiantes que padres de familia participando en la encuesta (12,715
estudiantes y 3,007 padres de familia) el diagrama nos llevara a conclusiones muy diferentes y
errneas en cuanto a las preferencias de estudiantes y padre de familia. Es decir, ya no parece
que un alto porcentaje de los padres de familia prefieran que la universidad est cerca de casa.

DISTRIBUCIONES DE FRECUENCIA Y GRFICOS PARA VARIABLES CUANTITATIVAS.


Una distribucin de frecuencia es un arreglo de los datos por orden de magnitud. En ella se
muestran los diferentes valores de un conjunto de datos y la frecuencia asociado con cada uno
de ellos. Mostraremos como construir una distribucin de frecuencia para variables cuantita-
tivas. El procedimiento se muestra en el siguiente ejemplo.

Ejemplo 3: en la siguiente tabla se muestran las notas de 50 alumnos de Probabilidad y Esta-


dstica correspondientes a la primera evaluacin. Construya una distribucin de frecuencia
para la nota de los estudiantes. Las notas se han multiplicado por 10 por facilidad.

Paso 1: Encuentre el mayor y el menor de los valores en la serie de datos. Para nuestro ejemplo
estos valores son 99 y 51 respectivamente.

11
Paso 2: Calcule el Rango de los valores restando el menor valor del mayor.
= = 99 51 = 48

Paso 3: calcule el nmero de clases que usar. La cantidad 2k n se usa a menudo para estimar
el nmero de clases conociendo el total de datos disponibles en nuestra muestra. Entonces
2k 50 . Con k 5 obtenemos 32 y con k 6 obtenemos 64. Seleccionamos ste ltimo valor
por estar ms cerca de 50. Entonces usaremos 6 clases.

Paso 4: determine el ancho de clases por medio de = . As que el ancho de
cada una de las clases ser c 48 / 6 8 . Para asegurarnos de que las clases incluyan a todos
los datos este resultado lo aproximaremos siempre al entero siguiente, por lo que el ancho de
clase que usaremos ser de 9.

Paso 5: Construya el primer intervalo sumando al valor menor (51) el ancho de clase (9). En-
tonces, nuestro primer intervalo ir desde 51 hasta 60. El segundo intervalo corresponde a
valores desde 60 hasta 69 y as sucesivamente hasta el ltimo intervalo que va desde 96 hasta
104. Finalmente, contamos cuantos de los datos corresponden a cada uno de los intervalos y
anotamos el resultado en la columna de frecuencias absolutas () y construimos una tabla
como la de abajo en donde tambin se ha incluido la frecuencia relativa ( ) y las marcas de
clase que es el punto medio de cada una de las clases. Por ejemplo, la marca de clase para la
78+86
cuarta clase es 2
= 82. Las marcas de clase suelen emplearse como valores representati-
vos de los datos comprendidos en las clases. Por ejemplo, podemos decir que un valor repre-
sentativo de los 20 datos comprendidos en la cuarta clase es 82.

Tabla 5: Distribucin de frecuencia para las notas de la primera evaluacin


de Probabilidad y Estadstica.
Lmites de clase f f r (en %) Marcas de clase x
51 59 2 4 55
60 68 5 22 64
69 77 11 10 73
78 86 20 40 82
87 95 10 20 91
96 104 2 4 100
Total 50 100%

Qu informacin nos proporciona una distribucin de frecuencias? Organizar los datos de


esta manera nos permite hacernos una idea general e inmediata del comportamiento de las
notas de los alumnos. Por ejemplo, la nota ms frecuente est entre 7.8 y 8.6 y un valor repre-
sentativo de esta nota ms frecuente es 8.2 que es la marca de clase. Hay dos estudiantes con
notas sobresalientes entre 9.6 y 10.0, casi el doble de la nota que obtuvieron los dos alumnos
con menor nota, pero solo representan un 4% de los estudiantes. Si consideramos que 6.0 es
la nota requerida para aprobar el examen, podemos decir que la mayora de estudiantes (48)
aprobaron el examen, lo cual representa un 96% de aprobados. (recuerde que al inicio hemos
multiplicado por 10 los datos, por lo que hay que tener en cuenta eso a la hora de obtener
conclusiones).

12
Es importante mencionar que en este panorama general que nos hacemos con la tabla de fre-
cuencia los datos individuales se pierden, no estn disponibles ms para el usuario de la infor-
macin.

REPRESENTACIN GRFICA DE UNA DISTRIBUCIN DE FRECUENCIAS.


Para representar grficamente una distribucin de frecuencias usaremos el histograma de fre-
cuencias, un grfico muy parecido al grfico de barras que construimos en la seccin anterior.
La diferencia ms importante es que en el histograma, ambos ejes poseen escala ya que vamos
a representar variables cuantitativas.

Iniciamos introduciendo el concepto de limites reales de clase. stos se obtienen restando 0.5
Los lmites reales tienen la a los lmites inferiores de clase y sumando 0.5 a los superiores, tal como se muestra en la tabla
ventaja de representar 6.
como un solo intervalo el es-
Tabla 6: Lmites de clase y lmites reales de clase
pacio donde se localizan las
observaciones; es decir to- Lmites de clase Lmites reales de clase f
dos nuestros datos estn 51 59 50.5 59.5 2
comprendidos en el inter- 60 68 59.5 68.5 5
valo [50.5, 104.5], a diferen- 69 77 68.5 77.5 11
cia de los lmites de clases 78 86 77.5 86.5 20
que son una serie de inter- 87 95 86.5 95.5 10
valos separados entre s: 96 104 95.5 104.5 2
[51,59]; [60,68];; [96,104].
A partir de esta tabla construimos el histograma siguiente
De esta manera, si conside-
ramos las puntuaciones 86,
87 y 88, una puntuacin en Figura 5: Histograma de frecuencias para las notas de la primera
particular, por ejemplo 87, evaluacin de Probabilidad y Estadstica.
indica un nivel de conoci-
miento ms cercano a 87
20
que a 86 u 88. As que la
puntuacin 87 puede ser
considerada como si se ex-
15
tendiera desde 86.5 hasta
87.5, como lo indica la si-
guiente figura.
10

0
50.5 50.5 59.5 59.5 68.5 68.5 77.5 77.5 86.5 86.5 95.5 95.5104.5

Qu informacin nos proporciona el histograma? Podemos obtener las mismas conclusiones


que ya hemos mencionado anteriormente a partir de la distribucin de frecuencias pero de
otra manera. Retomemos las ideas principales y explicaremos como obtenerlas a partir del
grfico:

La nota ms frecuente est entre 7.8 y 8.6 y un valor representativo de esta nota ms
frecuente es 8.2. Del histograma, es la barra con mayor altura, pero no olvide usar los

13
lmites de clase en lugar de los reales (sino diramos que la nota ms frecuente est entre
7.75 y 8.65, lo cual sera incorrecto ya que las notas no estn reportadas hasta la cent-
sima).
Hay dos estudiantes con notas sobresalientes entre 9.6 y 10.0, casi el doble de la nota que
obtuvieron los dos alumnos con menor nota, pero solo representan un 4% de los estudian-
tes. En el histograma esto se ve en la ltima barra, aunque a menudo, como en este caso,
la lectura en el eje y resulta un poco difcil a simple vista, por lo que es una buena prctica
incluir en cada barra su correspondiente frecuencia. Sin embargo, esto no representa una
limitacin del grfico, ya que una informacin tan detallada por lo general no es necesaria,
bastar con decir que hay muy pocos estudiantes con notas sobresalientes.
Si consideramos que 6.0 es la nota requerida para aprobar el examen, podemos decir que
la mayora de estudiantes (48) aprobaron el examen, lo cual representa un 96% de apro-
bados. Del histograma a lo mejor no logramos tanta precisin, as que esta informacin
podra quedar como: Si consideramos que 6.0 es la nota requerida para aprobar el examen,
podemos decir que la mayora de estudiantes aprobaron el examen (lo cual resulta evi-
dente porque hay mayor cantidad de rea a la derecha de 6.0).

Entonces, del histograma podemos obtener la misma informacin que de una distribucin de
frecuencias, pero a lo mejor con menos detalle. Sin embargo, hay un aspecto muy importante
que revela el histograma: la forma o perfil de distribucin, la cual nos proporciona un elemento
ms de anlisis de una distribucin de frecuencias. En los captulos siguientes veremos que la
forma de la distribucin determina el mtodo estadstico apropiado que debe usarse para ana-
lizar los datos.

La forma general es una caracterstica importante de un histograma. Al describir la forma re-


sulta conveniente aproximar el histograma por una curva suavizada, tal como la muestra la
siguiente figura
Figura 6: Histograma suavizado

Una distribucin puede tener muchas formas, pero para nuestros propsitos nos bastarn al-
gunas de ellas y nos centraremos principalmente en:

El nmero de picos o modas: Un histograma puede ser unimodal, si tiene un pico (a),
bimodal, si tiene dos picos (b) y multimodal si tiene ms de dos picos (c).

14
La simetra: Un histograma es simtrico si existe una lnea vertical tal que la porcin
del histograma a la izquierda de esta lnea es similar a la porcin que est a la derecha
Una distribucin bimo-
(a). Si esta lnea no existe, entonces el histograma tendr un sesgo a la derecha (b) o
dal se podra dar
a la izquierda (c).
cuando los datos con
los que disponemos
provienen de dos po-
blaciones bastante dife-
rentes. Imagine dispo-
nemos de una gran
cantidad de datos que La variabilidad: se agrupan los datos alrededor de su valor representativo o se dis-
representan los tiem- persan a lo largo del eje x? estas preguntas tienen que ver con la variabilidad de los
pos de viaje desde So-
datos en una distribucin, que en el histograma se ve en el ancho que ste tiene.
yapango hasta San Sal-
En (a) se muestran dos distribuciones que difieren en su valor central o tpico pero
vador, para usuarios
del SITRAMS y usua-
tienen la misma variabilidad. En (b) se muestran dos distribuciones con diferente va-
rios del sistema de riabilidad.
transporte publico nor-
mal. Si construimos un
histograma para estos
datos combinados, po-
siblemente sea bimodal
si los tiempos en el re-
corrido son significati-
vamente diferentes en- Entonces, qu otra informacin podemos incluir para el histograma del ejemplo?
tre ambos sistemas.

Histograma de frecuencias para las notas de la El grfico es unimodal,


primera evaluacin de Probabilidad y Estadstica. con una moda de 8.2 y
sesgado a la izquierda, lo
20
cual indica que la mayo-
15
ra de puntuaciones fue-
ron altas.
10 Nota: recuerde que estas con-
sideraciones las hacemos a
5 partir del grfico, ya no conta-
mos ms con los valores indivi-
0 duales, sino con las frecuen-
50.5 50.5 59.5 59.5 68.5 68.5 77.5 77.5 86.5 86.5 95.5 95.5104.5 cias.

Figura 7

15
USO DE TECNOLOGA.

Existen numerosas herramientas que nos permitirn elaborar los grficos que hasta este momento he-
mos estudiado. En Excel disponemos de tres alternativas para elaborar un histograma:

Una primera opcin es hacer todo el procedimiento descrito anteriormente utilizando algunas de las
funciones de Excel e insertar un diagrama de barras utilizando el asistente para grficos (a).

Otra alternativa es disponer todos los datos en una columna e insertar un histograma directamente (b).

Finalmente, podemos utilizar el complemento Anlisis de Datos para generar el histograma (c)

(a)

20
15
10
5
0
50.5 50.559.5 59.5 68.5 68.5 77.5 77.5 86.5 86.595.5 95.5
104.5

(c)
25

20
Frecuencia

15

10

Note como los histogramas no son exactamente iguales, pero conservan las propiedades que
hemos descrito anteriormente. Por lo general no se especifican los lmites para las clases en el
eje , a menos que sea estrictamente necesario, ya que son generados automticamente por
Excel.

16
USO DE HISTOGRAMAS PARA COMPARAR DOS SERIES DE DATOS.
Si deseamos comparar dos grupos de datos, tenga en mente lo siguiente

Siempre use las frecuencias relativas para construir el histograma, ya que el nmero
de observaciones en cada grupo podran ser diferentes.
Use las mismas escalas en ambos ejes para hacer que las comparaciones se vuelvan
ms fciles.

Ejemplo 4: El artculo Early Televisin Exposure and Subsequent Attention Problems in Chil-
dren (Pediatrics, April 2004) investiga los hbitos televisivos de los nios de EU. Los datos
fueron obtenidos en un estudio a nivel nacional. En la siguiente tabla se muestran las frecuen-
cias relativas aproximadas para el nmero de horas frente a la TV por da para nios de uno y
tres aos. Construya un histograma para cada variable y comente sus caractersticas ms im-
portantes.

Teniendo en mente las recomendaciones dadas se genera-


ron en Excel los histogramas de las figuras 8 y 9. De inme-
diato notamos que ambos histogramas tienen solamente un
pico, con la mayora de nios en ambos grupos de edades
concentrados en pequeos intervalos frente a la TV. Por otra
parte, ambos histogramas son sesgados a la derecha indi-
cando un pequeo grupo de nios que ven mucha TV. La
gran diferencia entre ambos grficos est en el extremo iz-
quierdo de ambos grficos. En esta parte vemos que hay una
mayor proporcin de nios de tres aos en el intervalo de 0
a 2 horas que de un ao. Un valor tpico o representativo del
nmero de horas frente a la TV para los nios de un ao se ubica en el intervalo de 2 a 4 horas,
mientras que para los nios de tres aos este valor se ubica en el intervalo de 0 a 2 horas.

Horas frente a la TV para nios de 1 ao Horas frente a la TV para nios de 3 aos


0.700 0.700
0.600 0.600
0.500 0.500
0.400 0.400
0.300 0.300
0.200 0.200
0.100 0.100
0.000 0.000
[0,2] [2,4] [4,6] [6,8] [8,10] [10,12][12,14][14,16] [0,2] [2,4] [4,6] [6,8] [8,10] [10,12][12,14][14,16]

Figura 8 Figura 9

17
Y SI TENEMOS POCOS DATOS?
En ocasiones slo podremos medir pocos datos (10, 20 o menos de 30). En estas situaciones
no tiene mucho sentido construir un histograma. Seguramente la forma de la distribucin de
datos ser engaosa con tan pocas clases. Una alternativa es construir un diagrama de tallo y
hojas.

Ejemplo 5: A continuacin, se presentan los 12 mayores terremotos de la historia en la escala


de Richter: 7.0, 6.2, 7.7, 8.0, 6.4, 6.2, 7.2, 5.4, 6.4, 6.5, 7.2, 5.4. Construya un diagrama de tallo
y hojas y comente sus principales caractersticas.

Un diagrama de tallo y hojas es una manera efectiva de resumir una serie pequea de datos.
Cada nmero en el conjunto de datos se descompone en dos partes: el tallo y las hojas. El tallo
es el primer dgito del nmero y la hoja el dgito final. Por ejemplo, el nmero 6.2 puede des-
componerse como un 6 para el tallo y un 2 para la hoja. Al realizar este procedimiento para
cada observacin y teniendo en cuenta que el tallo debe ordenarse de manera descendente,
obtenemos el siguiente diagrama:

en el diagrama podemos notar que es aproximadamente simtrico y que un valor representa-


tivo est en la segunda rama (donde hay ms hojas).

Vea como este comportamiento no aparece en el histograma

Por lo general, cuando hay pocos datos no es una buena idea usar un histograma.

18
Buenas Prcticas La siguiente tabla muestra qu tipo de grfico seleccionar segn la informacin que desee presentar. En el
caso de los diagramas de pastel o circulares vemos que slo nos permite visualizar relaciones de parte a todo,

para Grficos. pero eso tambin lo hacen los diagramas de barras. As que considere jams usar un diagrama de pastel.

Cuando usar un grfico.


Los grficos son una excelente manera de
contar una historia o de resumir algo que nos
resulte complejo. Adems, pueden revelar in-
formacin importante que de otra manera
(presentndola en una tabla, por ejemplo) per-
manecera oculta.

Use un grfico cuando quiera mostrar patro-


nes, tendencias y relaciones en las variables de
inters.

Escoja el grfico adecuado segn la


historia que quiera contar. Otras Recomendaciones.
Las relaciones estadsticas que estara intere- Fije el escenario: Asegrese que su grfico siempre tenga sen-
sado en representar podran ser: tido. ste puede ser copiado y reutilizado por otros y su repu-
Comparacin de tamaos: comparacin tacin estar en juego.
del tamao de diferentes grupos. Siempre incluya:
Series de tiempo: precio de la gasolina a lo o Ttulo y las fuentes de los datos: de manera que el
largo de un ao. usuario de la informacin sepa qu muestra.
Ranking: gastos por dependencias de es- o Ejes con sus respectivas etiquetas.
tado ordenadas de menor a mayor. o Notas adicionales: slo considere agregar notas si son
De Parte a Total: produccin econmica estrictamente necesarias para la historia que est con-
por sector industrial. tando.
Desviacin: rendimiento de un departa- Enfquese en la historia: Es tentador colocar mucha informa-
mento de una empresa comparado con el cin en el grfico. En la mayora de los casos slo lograr dis-
objetivo. traer al lector. Alguna informacin chatarra incluye:
Distribucin: ingresos por estratos sociales o Leyendas
o Fondos sombreados
Correlacin: relacin entre ingreso y nivel
o Bordes
de educacin.
o Patrones, texturas y sombras
o Formas en 3D 19
o
RESUMEN
Si bien una distribucin de frecuencias resulta de mucha ayuda para averiguar algunas de las
caractersticas ms importantes de una serie de datos, una representacin grfica hace esta tarea
ms sencilla. El grfico de barras es una manera muy popular de representar variables cualitati-
vas, as como el histograma lo es para representar variables cuantitativas.
En el grfico de barras, la frecuencia para cada categora se representa por la altura de una barra
construida sobre la categora. De manera similar, en el histograma, las frecuencias para cada
una de los intervalos de clase se representan por la altura de una barra que se construye sobre
cada intervalo de valores.
Los datos generalmente se representan en el eje horizontal y las frecuencias (o frecuencias rela-
tivas) a lo largo del eje vertical. Las escalas debern de ser seleccionadas de manera que el
diagrama sea ms ancho que alto, los ejes debern tener sus respectivos rtulos que los identifi-
quen y deber incluirse un ttulo informativo principal.
Se pueden obtener diferentes formas en los grficos al agrupar los datos de diferente manera y
usando diferentes escalas en ambos ejes. Por estas razones los grficos llevan a interpretaciones
incorrectas de los datos (de manera intencional o no). Su tarea ser ser siempre objetivo al co-
municar los datos de manera clara, precisa e imparcial.
Finalmente, nos resultar de mucha ayuda describir una distribucin de frecuencias y su repre-
sentacin grfica en trmino de las caractersticas siguientes:

Centro o valor tpico


La variabilidad o extensin en el eje horizontal
La forma general
Localizacin y nmero de picos
La presencia de huecos

20
GRFICOS A EVITAR.
Esta seccin se basa en una charla dictada por Karl W. Broman titulada How to Display Data
Badly, inspirada en el paper de 1984 de H. Wainer: How to Display Data Badly. Wainer fue
el primero en hablar de los principios de la mala presentacin de datos que, segn Karl, con el
uso creciente de Excel ha experimentado notables avances en los ltimos aos.

Principios Generales.

El objetivo de un buen grfico es presentar la informacin de manera precisa y clara. Algunas


reglas para hacer un mal grfico son las siguientes:

Muestre la menor cantidad de informacin que le sea posible.


Oculte lo que quiere mostrar (si es con basura grfica mejor!).
Use grficos en pseudo-3D y colorelos generosamente.
Haga un diagrama de pastel (de preferencia en 3D y a colores).
Use una escala inadecuada.
Ignore las cifras significativas

Algunos ejemplos de stos y otros errores se muestran en la siguiente top list, que se hace con
el objetivo de que el lector nunca los imite.

21
22
Referencias.

1. Roxy Peck. (2015), Statistics: Learning From Data


2. Coladarsi Theodore, et al. (2011). Fundamentals of Statistical Reasoning in Education. 3rd ed.
3. Bluman, Allan G. (2009). Elementary Statistics: A Step by Step Approach. 7th ed.
4. Service, G. P. (2014). Effective Tables and Graphs in Official Statistics. Guiandance for Producers. Goverment
Statistical Service.
5. Stevens, S. S. (7 de Jun. de 1946). On the Theory of Scales of Measurement. Science, New Series, Vol. 103,
No. 2684. . Science, New Series, 103(2684), 677-680.

23

Vous aimerez peut-être aussi