Prof. M. en G. Alberto Porras Velázquez
Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
Presentación de los datos por medio de gráficas
Introducción
Una forma básica de presentar los datos implica el uso de una tabla, cuyas
columnas contienen la descripción de los atributos de una muestra y cada renglón
representa una observación. Sin embargo, una tabla revela muy poco sobre sus
características y comportamiento.
En cambio, la representación gráfica ofrece más facilidades para explorar los
datos, de tal forma que se pueden revelar patrones a partir de los cuales se
generan o prueban hipótesis.
A continuación mostraremos las diferentes herramientas para presentar y analizar
los datos.
Tablas de frecuencias e histogramas
Este instrumento muestra la frecuencia con la cual son observados los datos
dentro de un cierto intervalo o clase.
Las tablas de frecuencias se representan gráficamente con un histograma,
requieren la definición del número de clases y la selección de los intervalos.
Por convención, la longitud para los intervalos de las clases debe ser la misma,
además es necesario establecer los puntos medios y los límites inferior y superior
de cada clase.
Es importante señalar que existen dos tipos de representaciones para una tabla de
frecuencias: el histograma de frecuencias absolutas y el de frecuencias relativas.
Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
En el primero. Col. se marcan las clases sobre el eje de las abscisas y sobre cada clase se levanta un rectángulo con la misma altura que la frecuencia absoluta de las observaciones para cada clase. A. CP 14240. Contoy 137 Esq. CDMX . Lomas de Padierna. la tabla 1 muestra los resultados de 50 experimentos. Delegación Tlalpan. México. Observa que la suma de las frecuencias debe ser 50. Tabla 1. la frecuencia (el número de ensayos del experimento que dieron el mismo resultado). en los cuales se lanzaron dos dados y se sumó el número de puntos obtenidos en cada experimento. En la primera columna está el resultado de la suma y en la columna siguiente.C. Por ejemplo. igual al número de ensayos realizados. Tabla de frecuencias absolutas para el experimento de lanzar 50 veces dos dados y sumar los puntos obtenidos. En el caso del histograma de frecuencias relativas. se levanta un rectángulo cuya altura corresponde a la proporción del total de las observaciones que representan las frecuencias absolutas de cada clase. Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial. Chemax.
6.8. 15. 10. Histograma de frecuencias absolutas. Chemax. es decir.El histograma de frecuencias absolutas se obtiene al graficar las clases en el eje x (el conjunto de resultados que se puede obtener al lanzar dos dados). 6. 20. 19.4 Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial.7. 15. En el eje y (eje vertical).8.3. 13. CDMX .7. 17. 19.3. 12. 4.1.3. 5.4.5. Delegación Tlalpan.6. 24. CP 14240. 20. 10. Lomas de Padierna.0. 9. 25.4.6. 9.7. 19.4. 20.9.3.1. 35. 17.1. 11.1.8. hay una muestra con cincuenta observaciones (separadas una de otra a dos metros) del porcentaje de concentración de zinc (%Zn) a lo largo de una línea recta en el terreno de una mina.4. 27.6.C. 15. 14.9.2. 9.1. 13.1.2. 11.4.6. 12. 14.2.4.8. A. Contoy 137 Esq. 9.9. 29. 13.5. Ilustración 1. 11. En este caso tan solo hay 11 resultados posibles.1. 8. 13.5. 15. 7. Col. 7.8. 12.4. 14. 8.6.9. 21. al total de veces que se obtuvo un resultado determinado (ilustración 1).1. 12. México.3. 11.8. Polígono de frecuencias En el ejemplo. 27. la altura de la barra corresponde a la frecuencia absoluta. 12. 24.1. 30.
3. En este caso. CP 14240.23).1.4 y la mínima es de 4. En la tercera columna. se toma como valor representativo de la clase el punto medio de cada intervalo ((valor mínimo del intervalo + valor máximo del intervalo)/2). mientras ‘]’ refiere que 7. Lomas de Padierna.7. A. En la segunda columna. CDMX . Col. están las frecuencias obtenidas para cada clase.C.1 (el mínimo de la muestra) y el máximo del intervalo será 4. Chemax.23. Delegación Tlalpan. aunque el valor exacto 7. la diferencia entre ambas es de 31.23 es el límite superior de la clase.Para construir el polígono de frecuencias absolutas. el intervalo queda como [4. Esto se hace para que cada valor esté bien definido dentro de una sola clase. El símbolo ‘[‘del intervalo indica que el 4.1 + 3.23.13 = 7. la concentración máxima es de 35. México. primero es necesario encontrar el rango de valores que abarcan los datos.1 . Por lo anterior. Las diez clases obtenidas se muestran en la primera columna de la tabla 2. Contoy 137 Esq. lo cual implica que en esta clase permanecerán todas las observaciones en donde la concentración de zinc va de 4.13. Es decir. Como se observa.1 está dentro de la clase. Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial. se dice que el intervalo es cerrado por la izquierda y abierto por la derecha.23 ya no está dentro de ella. El histograma se realizará con diez clases.1 a 7. para la primera clase el valor mínimo será 4.3 / 10 = 3. es decir. por lo que cada una tendrá una amplitud de 31. la suma total de frecuencias debe ser igual al tamaño de la muestra (50).
Tabla 2. A. Chemax. los valores de las clases no se representan con barras. Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial. CP 14240. Contoy 137 Esq. antes de la más baja y que termina en el punto medio de la clase inmediata después de la más alta (frecuencia 0 en ambos casos). Tabla de frecuencias absolutas para las mediciones de concentración de zinc. El polígono de frecuencias es muy similar a un histograma: en el eje x contiene los puntos medios de cada clase y en el eje y la frecuencia de clase. Observa que la curva comienza en el punto medio de la clase inmediata. Delegación Tlalpan. A diferencia del histograma.C. sino como puntos que se unen mediante una línea (ilustración 2). La curva se construye considerando que las observaciones de cada clase están distribuidas de modo uniforme a lo largo de la clase. Col. CDMX . Lomas de Padierna. México.
Por ejemplo. Curva acumulativa En ocasiones. también se puede obtener el histograma. Chemax. las clases estarían centradas en los puntos graficados en el polígono de frecuencias y la amplitud de cada clase estaría determinada por sus valores mínimos y máximos. Polígono de frecuencias absolutas para las mediciones de concentración de zinc. Ilustración 2.C. A. México. CDMX . Lomas de Padierna. los grados de concentración bajo los cuales la explotación de un metal no es rentable en una mina o la proporción de datos cuyos valores de concentración se encuentran sobre la norma. Contoy 137 Esq. La altura (frecuencia absoluta de la clase) sería 3. Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial. CP 14240.23. la primera clase tendría una amplitud que va de 4. es importante conocer el número o la proporción de los datos que se encuentran bajo un valor determinado. Col. A partir de la información de la tabla 2. Delegación Tlalpan. En este caso.1 a 7. Por ejemplo.
existen tres observaciones en donde la concentración de zinc es mayor o igual a 4. Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial. pero la última incluye una columna extra para la frecuencia acumulada.3. la frecuencia acumulada es de 3. es decir.36). Col. mostrando la frecuencia total de aparición de los datos menores o iguales a él. los datos son ordenados en forma ascendente.23. Lomas de Padierna. lo que da 3 + 8 = 11 y nos dice que hay once observaciones cuyo valor de concentración de zinc va de 4. CDMX . llamada curva (u ojiva) de frecuencias acumuladas. Delegación Tlalpan.C. México. utilizaremos los mismos datos descritos en el ejemplo de la construcción del polígono de frecuencias (datos de concentración de zinc). Como ejemplo. En la primera clase. 10. A. CP 14240. a la frecuencia de la misma clase (8) se le suman las frecuencias acumuladas anteriormente (3 en este caso).36. Para la segunda clase [7.Esta información se puede obtener a partir de una tabla de frecuencias acumuladas o de su forma gráfica. Contoy 137 Esq. que es el total de observaciones. La última clase tendrá una frecuencia acumulada de 3 + 8 + 13 + 9 + 5 + 4 + 3 + 3 + 1 + 1 = 50. Chemax. Las tablas 2 y 3 son las mismas.1 a 10.1 y menor a 7. Para realizar la tabla de frecuencias acumuladas.
A. Contoy 137 Esq. Ilustración 3. Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial. Tabla 3. Curva acumulativa de frecuencias absolutas para las mediciones de concentración de zinc (datos agrupados en clases). Frecuencias acumuladas para los datos de concentración de zinc. CDMX . CP 14240.C. La curva acumulativa se muestra a continuación. El eje x corresponde a los intervalos de clase (cada punto está en el valor representativo) y en el eje y se grafica la frecuencia acumulada. Lomas de Padierna. Col. Chemax. México. Delegación Tlalpan.
Los valores del eje x coinciden con los niveles de concentración del zinc de cada observación. México.Mediante un proceso similar. Ilustración 4. Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial. En la gráfica de la ilustración 4. Chemax. Delegación Tlalpan. Los datos se ordenan por los valores de concentración en forma ascendente. se puede obtener la curva acumulativa para los datos crudos (no divididos en clases). Por otra parte. la frecuencia para cada observación consiste en el número de observaciones de una concentración menor o igual a la del valor del punto en x. Tablas de frecuencias relativas y gráficas con frecuencias relativas Muchas veces es más útil expresar las frecuencias en términos del porcentaje total de la muestra. cada punto corresponde a una observación. Contoy 137 Esq. Col. Lomas de Padierna. Curva acumulativa de frecuencias absolutas para las mediciones de concentración de zinc (datos crudos). CDMX . En ésta.C. los valores del eje y representan la frecuencia absoluta acumulada. A. CP 14240.
Tabla 4. A. sólo cambia la escala del eje vertical. México. Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial. CP 14240.C. se obtienen histogramas de frecuencias relativas.La frecuencia relativa de una clase es la proporción del total de observaciones dentro de ella. A partir de estas tablas. Los datos de estas columnas se obtienen al dividir entre 50 (tamaño de la muestra) cada frecuencia absoluta y cada frecuencia absoluta acumulada. polígonos de frecuencias relativas o curvas acumulativas de frecuencias relativas. En la tabla 4 se agregaron dos columnas a los datos del zinc. Col. una para las frecuencias relativas y otra para las frecuencias relativas acumuladas. Datos con frecuencias relativas y frecuencias relativas acumuladas. CDMX . Posteriormente se muestran las gráficas correspondientes al histograma de frecuencias relativas y a la curva acumulativa de frecuencias relativas (ilustraciones 5 y 6). La forma de la gráfica no se modifica ante estas transformaciones. Lomas de Padierna. Contoy 137 Esq. Delegación Tlalpan. La suma de todas las frecuencias relativas debe dar un total de uno. Chemax. Se obtiene dividiendo la frecuencia absoluta de la clase entre el número total de observaciones.
CDMX .C. Curva acumulativa de frecuencias relativas. México. Lomas de Padierna. Chemax. Diagramas de caja Otra forma de observar la distribución de un conjunto de datos es mediante los diagramas de caja. según su magnitud. Delegación Tlalpan. se requiere conocer los valores mínimo y máximo de las muestras. A. La mediana M es el valor central de un conjunto de observaciones ordenadas. Contoy 137 Esq. Histograma de frecuencias relativas. CP 14240. del primer y tercer cuartil. Ilustración 6. Col. Ilustración 5. Para realizar este diagrama. La mitad de las observaciones tiene un valor menor o igual a Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial. el valor de la mediana. también conocidos como diagrama de bigotes.
Contoy 137 Esq.10}.8. Como el número de observaciones es impar (11). que dividen a un conjunto de datos en cuatro partes iguales.1. que en este caso es ½ * ( 7 + 8 ) = ½ * ( 15 ) = 7. Col.8. Chemax. Si el número de observaciones (n) es par. Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial. CP 14240.6. el mínimo es 1 y el máximo es 10. A. El cuartil Q1 es el valor antes del cual quedará una cuarta parte de todas las mediciones.C. la mediana será X ( 11 + 1 ) / 2 = X6.5.5. Lomas de Padierna. CDMX .1.4.7. ½ * (Xn / 2 + X ( n / 2 ) + 1 ) si n es par X ( n + 1 ) / 2 si n es impar Se definen tres cuartiles. para el siguiente conjunto de números a={0. Q2 y Q3.M.9. En este caso el subconjunto tiene un número par de elementos (6). El tercer cuartil será igual a la mediana del subconjunto {5. Es muy importante que no olvide ordenar los valores de las observaciones de forma ascendente para calcular la mediana.6.5.9.10}.7. México. Q2=mediana. que corresponde al valor 5. Delegación Tlalpan. la mediana de 0.3. Q1. Por ejemplo.2. generalmente se considera como mediana al promedio de los dos valores centrales y si n es impar se considera como el valor de la observación que queda en medio de la muestra ordenada.5.3.4. El primer cuartil será la mediana de los datos menores o iguales a la mediana. por lo cual la mediana del subconjunto es ½ * ( X6 /2 + X ( 6 / 2) +1 ) = ½ * ( X3 + X4 ) = ½ * ( 2 + 3 ) = ½*(5 ) = 2. Es decir.2.
En este caso se dice que el histograma tiene un sesgo positivo. aprenderás a caracterizar un conjunto de datos a través del comportamiento de las gráficas y de un grupo de medidas que describen los valores en torno a los que se da su mayor agrupamiento (medidas de tendencia central). Contoy 137 Esq. plana o picuda (medidas de la forma). Col. ya sea simétrica. México. Chemax. su variabilidad (medidas de dispersión) y su distribución. Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial. ubicada al lado derecho de las clases con el mayor agrupamiento de frecuencias (ilustración 9).C. CP 14240. Por ejemplo. A. Esto es evidente por la presencia de una cola prolongada de clases con poca frecuencia relativa. CDMX . el histograma de frecuencias relativas de la ilustración 5 tiene una distribución asimétrica. Ilustración 7. Delegación Tlalpan. Diagrama de caja Identificación de valores extremos En lecciones posteriores de este módulo. Lomas de Padierna.
Ilustración 8. Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial. CP 14240. Lomas de Padierna. cercano a la ciudad de Stein en Holanda. A. Contoy 137 Esq. En la fase de análisis exploratorio. en algunos casos. es recomendable identificar si existen valores extremos en la distribución de los datos. Por ejemplo. La asimetría es una característica natural en la distribución de los valores que puede tomar una variable para muchos tipos de fenómenos.C. en inglés). en otros casos. sin embargo. México. Delegación Tlalpan. Chemax. Distribución asimétrica. Col. en la ilustración 10 se muestra el histograma de frecuencias relativas para las mediciones de concentración de zinc en la llanura de inundación del río Meuse. esta asimetría puede deberse o acentuarse a causa de los llamados valores extremos (outliers. En algunas ocasiones estos valores son inherentes al fenómeno de estudio. pueden ser indicativos de errores de medición en campo o de que la variable tiene un comportamiento heterogéneo en el espacio. CDMX .
México.Ilustración 9. el problema radica en identificar en esta cola de valores.5 ppm Máximo = 1839.0 ppm Primer cuartil = 198. Contoy 137 Esq. Histograma de frecuencias relativas para la concentración de zinc en la llanura de inundación del Río Meuse. Lomas de Padierna. Delegación Tlalpan. CP 14240.0 ppm Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial. El diagrama de caja es una herramienta que ayuda a identificarlos. En este punto. aquellos que se pueden constituir en valores extremos. CDMX .0 ppm Mediana = 326. lo cual indica que hay clases con poca frecuencia relativa y con valores de zinc muy altos en comparación con los valores de las clases con mayor frecuencia relativa. Col. En el histograma se aprecia que la distribución de los datos tiene una cola del lado derecho (sesgo positivo). Los datos necesarios para construir el diagrama de caja en el caso del río Meuse son los siguientes: Mínimo = 113.0 ppm Tercer cuartil = 674.C. Chemax. A.
5*( 476.5 ppm. Contoy 137 Esq. Por ello. CP 14240. el primer bigote iría del valor mínimo al primer cuartil (de 113. el segundo bigote tendrá una extensión máxima que va del valor del tercer cuartil (674.5 veces el rango intercuartil.25 ppm se grafican como puntos fuera de los bigotes y constituyen valores extremos (ilustración 11).0 = 85 ppm. en un diagrama de caja típico. Delegación Tlalpan. Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial.0 ppm y no se identificarán valores extremos en la cola inferior del diagrama. las observaciones que quedan fuera de los bigotes pueden considerarse valores extremos. A.5 veces el rango intercuartil (714.0 = 476.5 – 198.0).75 ppm).5 veces el rango intercuartil (la magnitud de la diferencia entre el tercer cuartil y el primer cuartil). el segundo bigote. la longitud máxima de cada bigote será 1. En este caso el rango intercuartil es 674. magnitud mucho menor a 1.75 ppm. Tomando en cuenta que en la caja del diagrama (la cual representa el rango de observaciones del primer al tercer cuartil) se encuentra el 50 por ciento de todas las observaciones. el primer bigote irá de 113.0 ppm a 198. Chemax.25 ppm.5 + 714.C. del tercer cuartil al máximo (674. La diferencia entre el primer cuartil y el valor mínimo es 198. En este caso.0 a 198. Col. Dado que el criterio es 1.75 = 1389. Bajo el mismo criterio.5 a 1839. CDMX . todos los valores observados mayores a 1389.5 ) = 714.0). De esta manera. Lomas de Padierna.0 -113.5 ppm) a un valor máximo de 674. México. entonces se utiliza como criterio para identificar valores extremos una longitud máxima de los bigotes con magnitud igual a 1.Como se vio anteriormente.
es decir. se identifica un patrón: las mediciones de concentraciones de zinc son más altas en los bancos del río Meuse. CP 14240. Delegación Tlalpan. En el diagrama de caja. México. Chemax.5 veces el rango intercuartil para la longitud de los bigotes. Diagrama de caja de la distribución del zinc para los datos Meuse con criterio de 1. En este caso. Col. se identifican seis observaciones con valores extremos. En la ilustración 11 se muestra este elemento para las mediciones de zinc. Contoy 137 Esq. por tanto. Lomas de Padierna. el agrupamiento de valores extremos en una región determinada indica que el fenómeno de estudio tiene un comportamiento diferente y. De acuerdo con la imagen. el diámetro de los círculos es proporcional a la concentración medida del metal. Asimismo. CDMX . por lo que no existen argumentos para eliminarlos de la muestra. a una menor magnitud de la distancia de separación entre la observación y el río. Ilustración 10.C. entonces las seis observaciones se pueden eliminar de la muestra. Si se encuentra que estos valores son producto de errores de medición. En ocasiones. suele corresponderle una medición de alta concentración de zinc. A. Otro elemento de análisis es la distribución espacial de los datos. los valores extremos no son producto del error. Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial.
Esto suele suceder cuando hay accidentes geográficos. para los datos Meuse. Distribución espacial de las mediciones del zinc para los datos Meuse. A. En otros casos se puede encontrar una función matemática que describa y caracterice el comportamiento de la variable en el área de estudio. la concentración de zinc en función del inverso de la distancia de separación entre la observación y el río. Ilustración 11. Lomas de Padierna. Chemax. Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial.la muestra debe ser partida y los datos de cada región analizados por separado.C. Col. CP 14240. Contoy 137 Esq. México. Delegación Tlalpan. CDMX .
(2013). Applied Spatial Data Analysis with R. R. México: Pearson Educación. Lomas de Padierna. E. Myers. y Gómez-Rubio. Delegación Tlalpan. México. H.S. Contoy 137 Esq. Introducción a la estadística. (2006). R. A. México: Cecsa. L. Walpole.C. CP 14240. Chao. Probabilidad y estadística para ingeniería y ciencias. Myers. (2007).. S.Bibliografía Bivand.. L. V. Pebesma. Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial. CDMX . y Ye. Chemax. R. Unites States: Springer. E.. K. L. Col.