Académique Documents
Professionnel Documents
Culture Documents
Introduccin al uso y
representacin de
informacin geoespacial.
Derechos Reservados Centro de Investigacin en Geografa y eomtica "Ing. Jorge L. Tamayo", A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegacin Tlalpan, CP 14240, Mxico D.F.
Presentacin de los datos por medio de grficas
Introduccin
Una forma bsica de presentar los datos implica el uso de una tabla, cuyas columnas
contienen la descripcin de los atributos de una muestra y cada rengln representa una
observacin. Sin embargo, una tabla revela muy poco sobre sus caractersticas y
comportamiento.
En cambio, la representacin grfica ofrece ms facilidades para explorar los datos, de tal
forma que se pueden revelar patrones a partir de los cuales se generan o prueban hiptesis.
A continuacin mostraremos las diferentes herramientas para presentar y analizar los datos.
Este instrumento muestra la frecuencia con la cual son observados los datos dentro de un
cierto intervalo o clase.
Por convencin, la longitud para los intervalos de las clases debe ser la misma, adems es
necesario establecer los puntos medios y los lmites inferior y superior de cada clase.
Es importante sealar que existen dos tipos de representaciones para una tabla de
frecuencias: el histograma de frecuencias absolutas y el de frecuencias relativas.
En el primero se marcan las clases sobre el eje de las abscisas y sobre cada clase se levanta
un rectngulo con la misma altura que la frecuencia absoluta de las observaciones para cada
clase.
Derechos Reservados Centro de Investigacin en Geografa y eomtica "Ing. Jorge L. Tamayo", A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegacin Tlalpan, CP 14240, Mxico D.F.
En el caso del histograma de frecuencias relativas, se levanta un rectngulo cuya altura
corresponde a la proporcin del total de las observaciones que representan las frecuencias
absolutas de cada clase.
Ejemplo. La tabla 1 muestra los resultados de 50 experimentos, en los cuales se lanzaron dos
dados y se sum el nmero de puntos obtenidos en cada experimento.
Observa que la suma de las frecuencias debe ser 50, igual al nmero de ensayos realizados.
Derechos Reservados Centro de Investigacin en Geografa y eomtica "Ing. Jorge L. Tamayo", A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegacin Tlalpan, CP 14240, Mxico D.F.
En el eje y (eje vertical), la altura de la barra corresponde a la frecuencia absoluta, es decir, al
total de veces que se obtuvo un resultado determinado (ilustracin 1).
Histograma de frecuencias
absolutas
10
0
2 3 4 5 6 7 8 9 10 11 12
Polgono de frecuencias
En el ejemplo hay una muestra con 50 observaciones (separadas una de otra a dos metros)
del porcentaje de concentracin de zinc (%Zn) a lo largo de una lnea recta en el terreno de
una mina. 17.7, 17.8, 9.5, 5.2, 4.1, 19.2, 12.4, 15.8, 20.8, 24.1, 14.7,
21.6, 12.8, 11.9, 35.4, 12.3, 14.9, 19.6, 10.6, 15.1, 15.6, 9.3, 8.1,
13.5, 30.2, 29.1, 7.4, 12.3, 13.6, 9.5, 13.1, 27.4, 8.8, 11.4, 6.4,
11, 11.4, 14.1, 20.9, 10.6, 15.3, 24, 12.3, 7.8, 9.9, 20.7, 25.0,
19.1, 13.1, 27.4
Derechos Reservados Centro de Investigacin en Geografa y eomtica "Ing. Jorge L. Tamayo", A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegacin Tlalpan, CP 14240, Mxico D.F.
El histograma se realizar con 10 clases, por lo que cada una tendr una amplitud de 31.3/10
= 3.13. Las 10 clases obtenidas se muestran en la primera columna de la tabla 2.
Como se observa, para la primera clase el valor mnimo ser 4.1 (el mnimo de la muestra) y
el mximo del intervalo ser 4.1+3.13= 7.23. Es decir, el intervalo queda como [4.1 ,7.23), lo
cual implica que en esta clase permanecern todas las observaciones en donde la
concentracin de zinc va de 4.1 a 7.23.
El smbolo [del intervalo indica que el 4.1 est dentro de la clase, mientras ) refiere que
7.23 es el lmite superior de la clase, aunque el valor exacto 7.23 ya no est dentro de ella.
Por lo anterior, se dice que el intervalo es cerrado por la izquierda y abierto por la derecha.
Esto se hace para que cada valor est bien definido dentro de una sola clase.
En la tercera columna estn las frecuencias obtenidas para cada clase, la suma total de
frecuencias debe ser igual al tamao de la muestra (50). En la segunda columna, se toma
como valor representativo de la clase el punto medio de cada intervalo ((valor mnimo del
intervalo + valor mximo del intervalo)/2).
Derechos Reservados Centro de Investigacin en Geografa y eomtica "Ing. Jorge L. Tamayo", A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegacin Tlalpan, CP 14240, Mxico D.F.
El polgono de frecuencias es muy similar a un histograma, en el eje x contiene los puntos
medios de cada clase y en el eje y la frecuencia de clase. A diferencia del histograma, los
valores de las clases no se representan con barras, sino como puntos que se unen mediante
una lnea (ilustracin 2).
La curva se construye considerando que las observaciones de cada clase estn distribuidas
de modo uniforme a lo largo de la clase.
14
12
10
0
0 5 10 15 20 25 30 35 40
Derechos Reservados Centro de Investigacin en Geografa y eomtica "Ing. Jorge L. Tamayo", A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegacin Tlalpan, CP 14240, Mxico D.F.
Por ejemplo, la primera clase tendra una amplitud que va de 4.1 a 7.23. La altura (frecuencia
absoluta de la clase) sera 3.
Curva acumulativa
Para realizar la tabla de frecuencias acumuladas los datos son ordenados en forma
ascendente, mostrando la frecuencia total de aparicin de los datos menores o iguales a l.
Como ejemplo utilizaremos los mismos datos descritos en el ejemplo de la construccin del
polgono de frecuencias (datos de concentracin de zinc).
La tabla 2 y 3 es la misma, pero la ltima incluye una columna extra para la frecuencia
acumulada. En la primera clase, la frecuencia acumulada es de 3, es decir, existen tres
observaciones en donde la concentracin de zinc es mayor o igual a 4.1 y menor a 7.3.
Para la segunda clase [7.23, 10.36), a la frecuencia de la misma clase (8) se le suman las
frecuencias acumuladas anteriormente (3 en este caso), lo que da 3+8 =11 y nos dice que
hay 11 observaciones cuyo valor de concentracin de zinc va de 4.1 a 10.36. La ltima clase
tendr una frecuencia acumulada de 3+8+13+9+5+4+3+3+1+1=50, que es el total de
observaciones.
Derechos Reservados Centro de Investigacin en Geografa y eomtica "Ing. Jorge L. Tamayo", A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegacin Tlalpan, CP 14240, Mxico D.F.
Tabla 3. Frecuencias acumuladas para los datos de concentracin de zinc.
Punto medio de la Frecuencia absoluta
Intervalo Frecuencia
clase acumulada
[4.1, 7.23) 5.7 3 3
[7.23, 10.36) 8.8 8 11
[10.36,13.49) 11.9 13 24
[13.49, 16.62) 15.1 9 33
[16.62,19.75) 18.2 5 38
[19.75, 22.88) 21.3 4 42
[22.88, 26.01) 24.4 3 45
[26.01, 29.14) 27.6 3 48
[29.14, 32.27) 30.7 1 49
[32.27, 35.4] 33.8 1 50
50
40
30
20
10
0
0.0 5.0 10.0 15.0 20.0 25.0 30.0 35.0 40.0
Derechos Reservados Centro de Investigacin en Geografa y eomtica "Ing. Jorge L. Tamayo", A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegacin Tlalpan, CP 14240, Mxico D.F.
Mediante un proceso similar se puede obtener la curva acumulativa para los datos crudos (no
divididos en clases). Los datos se ordenan por los valores de concentracin en forma
ascendente.
En la grfica de la ilustracin 4 cada punto corresponde a una observacin. Los valores del
eje x coinciden con los niveles de concentracin del zinc de cada observacin.
Por otra parte, los valores del eje y representan la frecuencia absoluta acumulada. En sta, la
frecuencia para cada observacin consiste en el nmero de observaciones de una
concentracin menor o igual a la del valor del punto en x.
60
50
40
30
20
10
0
0 5 10 15 20 25 30 35 40
Muchas veces es ms til expresar las frecuencias en trminos del porcentaje total de la
muestra.
Derechos Reservados Centro de Investigacin en Geografa y eomtica "Ing. Jorge L. Tamayo", A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegacin Tlalpan, CP 14240, Mxico D.F.
La frecuencia relativa de una clase es la proporcin del total de observaciones dentro de ella.
Se obtiene dividiendo la frecuencia absoluta de la clase entre el nmero total de
observaciones. La suma de todas las frecuencias relativas debe dar un total de uno.
En la tabla 4 se agregaron dos columnas a los datos del zinc, una para las frecuencias
relativas y otra para las frecuencias relativas acumuladas. Los datos de estas columnas se
obtienen al dividir entre 50 (tamao de la muestra) cada frecuencia absoluta y cada
frecuencia absoluta acumulada. Posteriormente se muestran las grficas correspondientes al
histograma de frecuencias relativas y a la curva acumulativa de frecuencias relativas
(ilustraciones 5 y 6). La forma de la grfica no se modifica ante estas transformaciones, slo
cambia la escala del eje vertical.
Punto Frecuencia
Frecuencia Frecuencia absoluta
Intervalo medio de la Frecuencia relativa
relativa acumulada
clase acumulada
Derechos Reservados Centro de Investigacin en Geografa y eomtica "Ing. Jorge L. Tamayo", A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegacin Tlalpan, CP 14240, Mxico D.F.
0.3
0.25
0.2
0.15
0.1
0.05
0
5.7 8.8 11.9 15.1 18.2 21.3 24.4 27.6 30.7 33.8
0.8
0.6
0.4
0.2
0
0.0 10.0 20.0 30.0 40.0
Diagramas de caja
Derechos Reservados Centro de Investigacin en Geografa y eomtica "Ing. Jorge L. Tamayo", A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegacin Tlalpan, CP 14240, Mxico D.F.
Para realizar este diagrama se requiere conocer los valores mnimo y mximo de las
muestras, el valor de la mediana, del primer y tercer cuartil.
X(n+1)/2 si n es impar
Se definen tres cuartiles, Q1, Q2 y Q3, que dividen a un conjunto de datos en cuatro partes
iguales. El cuartil Q1 es el valor antes del cual quedar una cuarta parte de todas las
mediciones. Q2=mediana. .
El primer cuartil ser la mediana de los datos menores o iguales a la mediana. Es decir, la
mediana de 0,1,2,3,4,5. En este caso el subconjunto tiene un nmero par de elementos (6),
por lo cual la mediana del subconjunto es *(X6/2 + X(6/2)+1)= *(X3 + X4)= *(2 + 3)= *(5) =
2.5.
El tercer cuartil ser igual a la mediana del subconjunto {5,6,7,8,9,10}, que en este caso es
*(7 + 8)= *(15) = 7.5.
Es muy importante que no olvides ordenar los valores de las observaciones de forma
ascendente para calcular la mediana.
Derechos Reservados Centro de Investigacin en Geografa y eomtica "Ing. Jorge L. Tamayo", A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegacin Tlalpan, CP 14240, Mxico D.F.
Ilustracin 7. Diagrama de caja
Derechos Reservados Centro de Investigacin en Geografa y eomtica "Ing. Jorge L. Tamayo", A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegacin Tlalpan, CP 14240, Mxico D.F.
Ilustracin 8. Distribucin asimtrica.
La asimetra es una caracterstica natural en la distribucin de los valores que puede tomar
una variable para muchos tipos de fenmenos; sin embargo, en algunos casos, esta
asimetra puede deberse o acentuarse a causa de los llamados valores extremos (outliers, en
ingls).
Derechos Reservados Centro de Investigacin en Geografa y eomtica "Ing. Jorge L. Tamayo", A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegacin Tlalpan, CP 14240, Mxico D.F.
Ilustracin 9. Histograma de frecuencias relativas para la concentracin de zinc en la
llanura de inundacin del Ro Meuse.
En el histograma se aprecia que la distribucin de los datos tiene una cola del lado derecho
(sesgo positivo), lo cual indica que hay clases con poca frecuencia relativa y con valores de
zinc muy altos en comparacin con los valores de las clases con mayor frecuencia relativa.
En este punto el problema radica en identificar en esta cola de valores, aquellos que se
pueden constituir en valores extremos. El diagrama de caja es una herramienta que ayuda a
identificarlos.
Los datos necesarios para construir el diagrama de caja en el caso del ro Meuse son los
siguientes:
Derechos Reservados Centro de Investigacin en Geografa y eomtica "Ing. Jorge L. Tamayo", A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegacin Tlalpan, CP 14240, Mxico D.F.
Tercer cuartil = 674.5 ppm
Mximo = 1839.0 ppm
Como se vio anteriormente, en un diagrama de caja tpico, el primer bigote ira del valor
mnimo al primer cuartil (de 113.0 a 198.0); el segundo bigote, del tercer cuartil al mximo
(674.5 a 1839.0).
Tomando en cuenta que en la caja del diagrama (la cual representa el rango de
observaciones del primer al tercer cuartil) se encuentra el 50 por ciento de todas las
observaciones, entonces se utiliza como criterio para identificar valores extremos una longitud
mxima de los bigotes con magnitud igual a 1.5 veces el rango intercuartil (la magnitud de la
diferencia entre el tercer cuartil y el primer cuartil).
De esta manera, las observaciones que quedan fuera de los bigotes pueden considerarse
valores extremos.
En este caso el rango intercuartil es 674.5 198.0 = 476.5 ppm. Dado que el criterio es 1.5
veces el rango intercuartil, la longitud mxima de cada bigote ser 1.5*(476.5) = 714.75 ppm.
La diferencia entre el primer cuartil y el valor mnimo es 198.0 -113.0 = 85 ppm, magnitud
mucho menor a 1.5 veces el rango intercuartil (714.75 ppm). Por ello, el primer bigote ir de
113.0 ppm a 198.0 ppm y no se identificarn valores extremos en la cola inferior del
diagrama.
Bajo el mismo criterio, el segundo bigote tendr una extensin mxima que va del valor del
tercer cuartil (674.5 ppm) a un valor mximo de 674.5 + 714.75 = 1389.25 ppm.
En este caso, todos los valores observados mayores a 1389.25 ppm se grafican como puntos
fuera de los bigotes y constituyen valores extremos (ilustracin 10).
Derechos Reservados Centro de Investigacin en Geografa y eomtica "Ing. Jorge L. Tamayo", A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegacin Tlalpan, CP 14240, Mxico D.F.
Ilustracin 10. Diagrama de caja de la distribucin del zinc para los datos Meuse con criterio
de 1.5 veces el rango intercuartil para la longitud de los bigotes.
En este caso los valores extremos no son producto del error, por lo que no existen
argumentos para eliminarlos de la muestra.
Derechos Reservados Centro de Investigacin en Geografa y eomtica "Ing. Jorge L. Tamayo", A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegacin Tlalpan, CP 14240, Mxico D.F.
En ocasiones, el agrupamiento de valores extremos en una regin determinada indica que el
fenmeno de estudio tiene un comportamiento diferente y, por lo tanto, la muestra debe ser
partida y los datos de cada regin analizados por separado. Esto suele suceder cuando hay
accidentes geogrficos.
En otros casos se puede encontrar una funcin matemtica que describa y caracterice el
comportamiento de la variable en el rea de estudio; para los datos Meuse, la concentracin
de zinc en funcin del inverso de la distancia de separacin entre la observacin y el ro.
Ilustracin 11. Distribucin espacial de las mediciones del zinc para los datos Meuse.
Derechos Reservados Centro de Investigacin en Geografa y eomtica "Ing. Jorge L. Tamayo", A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegacin Tlalpan, CP 14240, Mxico D.F.
Referencias
Derechos Reservados Centro de Investigacin en Geografa y eomtica "Ing. Jorge L. Tamayo", A.C.
Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegacin Tlalpan, CP 14240, Mxico D.F.