Vous êtes sur la page 1sur 11

Geografa y Sistemas de Informacin Geogrfica (GEOSIG).

Revista digital del Grupo de Estudios sobre Geografa y Anlisis Espacial con Sistemas de Informacin Geogrfica (GESIG). Programa de Estudios Geogrficos (PROEG). Universidad Nacional de Lujn, Argentina. http://www.gesig-proeg.com.ar (ISSN 1852-8031) LUJN, AO 1, NMERO 1, 2009, SECCIN SOFTWARE Y METODOLOGA: III PP. 1-11.

ANLISIS EXPLORATORIO DE DATOS ESPACIALES


Gustavo D. Buzai Claudia A. Baxendale Grupo de Estudios sobre Geografa y Anlisis Espacial Con Sistemas de Informacin Geogrfica (GESIG), Programa de Estudios Geogrficos (PROEG) Universidad Nacional de Lujn buzai@uolsinectis.com.ar Introduccin El anlisis exploratorio de datos (EDA, Exploratory Data Analysis) se considera un instrumento indispensable al momento de realizar las primeras aproximaciones al estudio de la estructura de la informacin socio-espacial en una determinada rea de estudio. Actualmente estas tcnicas se potencian al contar con las posibilidades de vinculacin entre las representaciones cartogrficas digitales y las bases de datos asociadas en el ambiente de los Sistemas de Informacin Geogrfica (SIG) (Haining et al., 1998) y los Sistemas de Ayuda a la Decisin Espacial (SADE) (Anselin, 2003), avanzando en los caminos que propone la Visualizacin Geogrfica (GVis, Geographical Visualization) como nuevo campo de desarrollo temtico. Esta presentacin tiene como objetivo abordar las posibilidades tcnico-metodolgicas del Anlisis Exploratorio de Datos Espaciales (ESDA, Exploratory Spatial Data Analysis) mostrando algunos ejemplos de resultados obtenidos a partir de aplicaciones exploratorias especfica. El Anlisis Exploratorio de Datos Espaciales segn Fotheringham et al. (2000), constituye una tendencia importante del desarrollo metodolgico cuantitativo actual, potenciada por los nuevos desarrollos digitales en materia de representacin. Anlisis Exploratorio de datos espaciales A partir del trabajo de Tukey (1977) se han comenzado a afianzar y difundir las tcnicas del anlisis exploratorio de datos como herramientas que permiten realizar un estudio inicial de los mismos en aproximaciones grficas previas a la realizacin de
1

procedimientos estadsticos de mayor complejidad, como, por ejemplo, el anlisis multivariado o el anlisis de regresin mltiple. La variedad de tcnicas posibles se encuentran bien desarrolladas en una serie de obras actuales: Agresti y Finlay (1994), Bosque Sendra y Moreno Jimnez (1994), Hair et al. (1999), Buzai y Baxendale (2006) y Chasco Yrigoyen y Fernndez-Avils Caldern (2009). Las aplicaciones incluidas en el Anlisis Exploratorio de Datos Espaciales tienen por objetivo que el investigador cuente con informacin estructural del comportamiento de cada variable (univariado), como as tambin de las relaciones existentes entre dos (bivariado) y tres (trivariado) variables. Aplicacin que adems de este comportamiento estructural, permite descubrir errores en la codificacin de los datos, determinar los casos anmalos (outliers) y la posibilidad de comprobar supuestos necesarios para la aplicacin de la mayora de los test estadsticos. Focalizando la atencin en el anlisis de datos censales, un primer paso es la confeccin de una matriz de datos originales o matriz de datos ndice, en la cual las filas (registros) corresponden a las unidades espaciales y las columnas (campos) a las variables (Buzai, 2003) y a partir de all aplicar los diferentes procedimientos a datos cuantitativos de naturaleza continua medidos en escala de intervalo o de razn. En el nivel univariado, de acuerdo con Bosque Sendra (1994) son tres las medidas que se deben realizar: (a) centralidad, valor de mayor representatividad, (b) dispersin, variabilidad respecto de la centralidad, y (c) distribucin de cada dato en el continuo numrico. Estas bsquedas, en la estadstica bsica, llevan a resultados a partir de la aplicacin de procedimientos aritmticos, mientras que a travs del anlisis exploratorio de datos estas caractersticas se hacen evidentes de forma visual mediante la realizacin de grficos especficos, los cuales permiten hacer resaltar sus principales cualidades. Se considera generalmente que en la escala de medida nominal son de utilidad los diagramas de barra, lnea y sectores; para la ordinal el box-plot (posibilidad cartogrfica del box-map), mientras que para la escala de medida de intervalos se utilizan los histogramas y polgonos de frecuencia. El nivel bivariado (2D) y trivariado (3D) se basa en procedimientos comparativos del comportamiento de variables, tcnica que se apoya en los denominados diagramas de dispersin con dos y tres ejes de coordenadas respectivamente, a partir de los cuales las nubes de puntos formadas por las mediciones individuales muestran una aproximacin al tipo, tendencia e intensidad de la relacin. A los fines prcticos se considera inicialmente que las relaciones se producen de forma lineal (lnea que mejor representa el ajuste a la configuracin de la nube). Con esto, el grfico de dispersin 2D permite verificar las otras dos caractersticas esenciales: (a) el sentido de la relacin, y (b) su intensidad. Aspectos que se hacen evidentes fcilmente a partir de la configuracin grfica.
2

Los niveles de relacin 2D y 3D son los que permiten realizar las aplicaciones del presente captulo a partir de la definicin de diferentes espacios de correspondencia entre las unidades espaciales. Las posibilidades tecnolgicas actuales del anlisis exploratorio de datos como tcnicas de uso interactivo grficos intermedios entre las bases de datos alfanumricas y la cartografa digital- amplan sus posibilidades de manera notable (Anselin, 1998), principalmente al incorporar una dimensionalidad espacial que la lleva a un anlisis exploratorio de datos espaciales de gran potencialidad. Dos ejemplos didcticos Se presentan algunos ejemplos de Anlisis Exploratorio de Datos Espaciales a partir de la utilizacin del software GeoDa (www.csiss.org), considerado un Sistema de Ayuda a la Decisin Espacial (SADE) focalizado en esta serie de procedimientos. Las aplicaciones didcticas han sido tomadas del material didctico sistematizado por los autores y que se han realizado para su utilizacin en diversos cursos de anlisis espacial. Ejercicio 1 Anlisis Exploratorio de Datos Espaciales mediante cartografa temtica Procedimientos en GeoDa 1. Abrir la capa temtica lujan-do-di.shp donde se encuentra la informacin bsica que se utilizar en este ejercicio. (esta base de datos se puede obtener en www.gesig-proeg.com.ar / bases de datos) 2. Tomando para el anlisis la variable NBI_POB_I realice cuatro mapas utilizando los siguientes mtodos: Cuantiles (quantile), Percentiles (percentile), Mapa de caja (boxmap) y Desvos Estndar (Std Dev). 3. Realizacin de la cartografa: Map / Quantile (Seleccionar la variable y mapear con intervalos por defecto = 4, cuartiles)

Abrir otra capa temtica: Edit / Duplicate Map (se abre una nueva ventana en la cual se debe realizar el siguiente mapa) Map / Percentile

Abrir otra capa temtica Map / Box-Map (hinge = 1.5)

Abrir otra capa temtica Map / Std Dev

5. Visualizar conjuntamente los cuatro mapas realizados: Windows / Tile Vertical (aparecern 4 cuadrantes con cada uno de los mapas)
5

6. Analizar para responder los siguientes aspectos: a) Describir el comportamiento espacial-estructural de la variable analizada teniendo en cuenta el modelo de mapa social de las ciudades de Amrica Latina. El Anlisis Exploratorio de Datos Espaciales permite responder las siguientes preguntas: b) Qu tipo de representacin le permite visualizar con mayor facilidad la estructura espacial general? Considerando que el mapa automticamente lo hace con 4 intervalos (cuartiles): cuntas unidades espaciales quedan incluidas en cada rea? c) Qu tipo de representacin le permite conocer dnde se ubican la mayora de las unidades espaciales que tienen un valor de NBI_I por debajo de la media? d) Qu tipo de representacin le permite discriminar cual unidad espacial tiene el mayor y el menor NBI_I? Incluir el nombre de las unidades espaciales y sus correspondientes valores. e) Conocer cuales son las unidades espaciales consideradas extremos (outliers)

Ejercicio 2 Anlisis Exploratorio de Datos Espaciales mediante grficos asociados dinmicamente Procedimientos en GeoDa 1. Abrir la capa temtica lujan-do-di.shp donde se encuentra la informacin bsica que se utilizar en este ejercicio. (esta base de datos se puede obtener en www.gesig-proeg.com.ar / bases de datos) 2. Tomando diferentes variables se realizarn a continuacin diferentes grficos en ventanas interactivas. 3. Realizacin del HISTOGRAMA: Explore / Histogram (seleccionar la variable AGUA_RED_I (Porcentaje de poblacin que cuenta con agua corriente en la unidad espacial) Options / Interval (para cambiar el nmero de intervalos, aunque dejaremos la cantidad de 7 intervalos que el programa brinda automticamente)

Responder: Describir el histograma Verificar la distribucin espacial de las unidades espaciales incluidas en las barras extremas (las de menores y mayores valores).

4. Realizacin del GRFICO DE DISPERSIN:


7

Explore / Scatter Plot (Seleccionar las dos variables a relacionar: AGUA_RED_I y TER_COM_I (Porcentaje de poblacin que cuenta con mximo nivel educativo alcanzado terciario o universitario completo). Ambas son variables de beneficio. Options / Scatter Plot / Standardized Data (para llevarlo a puntajes z y obtener el valor de correlacin)

Responder: Cual es el sentido de la relacin entre ambas variables Que intensidad tiene la relacin Cual cuadrante presenta la mejor situacin y donde se ubican las unidades espaciales incluidas Cual cuadrante presenta la peor situacin y donde se ubican las unidades espaciales incluidas

Replicar la aplicacin a partir de la relacin entre AGUA_RED_I y HAB_RANC_I (Porcentaje de poblacin que vive en tipo de vivienda ranchos). Una variable de beneficio y una variable de costo.

Responder a las mismas preguntas de la aplicacin anterior. Un ejemplo de interaccin Adems del anlisis cartogrfico y del anlisis de las salidas grficas que hemos presentado en los dos puntos anteriores, las capacidad de interaccin entre ambos componentes se presenta como una posibilidad metodolgica de gran utilidad. De esta manera avanzar hacia la exploracin de la estructura espacial de los datos. En el siguiente ejemplo se han comparado dos variables de costo, las cuales indican situaciones desfavorables en sus valores mayores y que en el grfico de dispersin presenta su mayor desfavorabilidad en el cuadrante superior derecho (superior a la media en ambas variables). El ejemplo muestra la seleccin de puntos (color amarillo) en el interior del diagrama y esta seleccin permite ver la distribucin espacial en el mapa del rea de estudio. En este caso la ciudad de Lujn presenta sus mayores desfavorabilidades en la periferia urbana.

Sntesis final Los procedimientos de Anlisis Exploratorio de Datos Espaciales resultan ser de suma utilidad al momento de encarar la posibilidad de determinar situaciones contextuales en base a un pequeo nmero de variables. Con la utilizacin de pocas variables se pueden obtener resultados muy significativos. A partir de los dos ejercicios prcticos y del ejemplo presentado claro que adems del anlisis cartogrfico y del anlisis de las salidas grficas, las posibilidades de interaccin entre ambos componentes se presenta como una posibilidad metodolgica de gran utilidad para la exploracin y el conocimiento de diferentes tipos de distribuciones espaciales. En este sentido, los grficos interactivos generan interesantes posibilidades de interaccin y exploracin, las cuales se hacen necesarias para verificar el comportamiento estructural de los datos, conocer caractersticas especficas del rea de estudio, para luego avanzar de manera ms firme en la aplicacin de procedimientos estadsticos de anlisis multivariado. Bibliografa AGRESTI, A.; FINLAY, B. 1997. Statistical Methods for the Social Sciences. Prentice Hall. New Jersey. ANSELIN, L. 1998. Interactive techniques and exploratory spatial data analysis. En: P.A. Longley; M.F.Goodchild; D.J.Maguire; D.W.Rhind (eds.) Geographical Information
10

Systems: Principles, Techniques, Management and Applications. John Wiley. New York. pp. 251-264. ANSELIN, L. 2003. Exploratory Spatial Data Analysis and GeoDa. Center for Spatially Integrated Social Science. Spatial Analysis Laboratory. University of Illinois. UrbanaChampaign. http://sal.agecon.uiuc.edu BOSQUE SENDRA, J. 1994. Anlisis exploratorio de datos. En: J. Bosque Sendra y A. Moreno Jimnez. Anlisis exploratorio y multivariante de datos. Oikos-tau. Barcelona. BOSQUE SENDRA, J.; MORENO JIMNEZ, A. 1994. Anlisis exploratorio y multivariante de datos. Oikos-tau. Barcelona. BUZAI, G.D. 2003. Mapas Sociales Urbanos. Lugar Editorial. Buenos Aires. BUZAI, G.D.; BAXENDALE, C. 2006. Anlisis Socioespacial con Sistemas de Informacin Geogrfica. Lugar Editorial. Buenos Aires. CHASCO YRIGOYEN, C.; FERNNDEZ-AVILS CALDERN, G. 2009. Anlisis de datos espacio-temporales para la Economa y el Geomarketing. Netlibro. Oleiros. FOTHERINGHAM, S.; BRUNSDON, C.; CHARLTON, M. 2000. Quantitative Geography. Perspectives on Spatial Data Analysis. SAGE. London. HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L.; BLACK, W.C. 1999. Anlisis multivariante. Prentice Hall Iberia. Madrid. HAINING, R.; WISE, R.; MA, J. 1998. Exploratory spatial data analysis in a geographic information system environment. The Statistician. 47(3):457-469. TUKEY, J.W. 1977. Exploratory Data Analysis. Addison-Wesley. Reading.

Gustavo D. Buzai y Claudia A. Baxendale

Buzai, G.D.; Baxendale, C.A. 2009. Anlisis Exploratorio de Datos Espaciales. Geografa y Sistemas de Informacin Geogrfica. (GESIG-UNLU, Lujn). Ao 1, N 1, Seccin III:1-11. On-line: www.gesig-proeg.com.ar

Recibido: 10 de octubre de 2009 Aprobado: 30 de octubre de 2009


11

Vous aimerez peut-être aussi