Académique Documents
Professionnel Documents
Culture Documents
GEOMARKETING1
ABSTRACT:
El anlisis exploratorio de datos espaciales (AEDE) es una disciplina del
anlisis exploratorio de datos, tambin denominado data mining, que ha sido
diseada para el tratamiento especfico de los datos espaciales o geogrficos. Este
anlisis se utiliza para identificar relaciones sistemticas entre variables cuando no
existen expectativas claras sobre la naturaleza de estas relaciones. Esto ltimo
resulta muy habitual en el mbito de los estudios del mercado geogrfico
(geomarketing), donde se suele trabajar con grandes bases datos cuya estructura no
siempre es bien conocida. En esta ponencia se presentan las principales tcnicas
del AEDE, que combinan el anlisis estadstico con el grfico, haciendo posible el
estudio de las distribuciones espaciales y sus valores atpicos, esquemas de
asociacin espacial, agrupamientos espaciales y puntos calientes/fros de negocio
(hot spots). En los ltimos aos, los esfuerzos desarrollados por la investigacin en
este campo se han venido centrando en la conexin de los GIS disponibles en el
mercado con paquetes estadsticos tradicionales o especficos de AEDE.
Actualmente, existe en el mercado un nuevo programa informtico, GeoDa,
concebido como un producto autosuficiente que no requiere de un sistema
especfico de GIS y funciona en cualquiera de los sistemas operativos de Windows y
Mac. GeoDa ha sido desarrollado por el Profesor Luc Anselin de la Universidad de
Illinois, y tiene la ventaja de ser, hasta el momento, un producto opersource, es
decir, de libre acceso en Internet.
Palabras clave: Anlisis exploratorio de datos espaciales, autocorrelacin espacial,
GIS, geomarketing, GeoDa.
1. INTRODUCCIN
Este artculo pretende llamar la atencin de los investigadores sociales sobre
la importancia de llevar a cabo un adecuado anlisis estadstico de los datos
geogrficos. En efecto, aunque la investigacin de mercados suele trabajar con
informacin de carcter espacial (referida a unidades geogrficas), en pocas
ocasiones estos datos suelen ser tratados de forma especfica y diferente del
anlisis de series temporales, utilizando tcnicas adecuadas para el anlisis
estadstico-grfico-cartogrfico. Estas herramientas han sido bautizadas con el
nombre de anlisis exploratorio de datos espaciales (AEDE) y se conciden como una
disciplina dentro del ms general anlisis exploratorio de datos (AED), tambin
denominado data mining, que ha sido diseado para el tratamiento especfico de
los datos espaciales o geogrficos. El AEDE se utiliza para identificar relaciones
sistemticas entre variables cuando no existen expectativas claras sobre la
naturaleza de estas relaciones. Esto ltimo resulta muy habitual en el mbito de los
estudios del mercado geogrfico (geomarketing), donde se suele trabajar con
grandes bases datos cuya estructura no siempre es bien conocida.
Por esto, en este artculo se presentan las principales tcnicas del AEDE, que
es considerado como una tcnica novedosa que supone la unin de dos tecnologas
informticas muy poderosas: los GIS (sistemas de informacin geogrfica) y los
paquetes estadsticos propios del anlisis de datos espaciales. Es decir, las
herramientas del AEDE combinan el anlisis estadstico con el grfico, haciendo
posible el estudio de las distribuciones espaciales y sus valores atpicos, esquemas
de asociacin espacial, agrupamientos espaciales y puntos calientes/fros de
negocio (hot spots).
En los ltimos aos, los esfuerzos desarrollados por la investigacin en este
campo se han venido centrando en la conexin de los GIS disponibles en el
mercado con paquetes estadsticos tradicionales o especficos de AEDE.
Actualmente, existe en el mercado un nuevo programa informtico, GeoDa,
concebido como un producto autosuficiente que no requiere de un sistema
especfico de GIS y funciona en cualquiera de los sistemas operativos de Windows y
Macintosh. GeoDa ha sido desarrollado por el Profesor Luc Anselin de la
Universidad de Illinois y tiene la ventaja de ser, hasta el momento, un producto
opersource, es decir, de libre acceso en Internet.
Tras esta introduccin, en el Apartado 2, se define el concepto ms general
del AED, en concreto, aquellas funcionalidades que mantiene en comn con el
AEDE, que se define ms ampliamente en el Apartado 3. En el Apartado 4, se
presentan algunas de las tcnicas ms importantes del AEDE, ilustradas con
ejemplos que permiten exponer con mayor claridad el inters de estas herramientas
dentro del anlisis socioeconmico y, en particular, de la investigacin de mercados.
Un Apartado 5 de conclusiones y la bibliografa cierran esta exposin.
Empresa/autor
Pgina web
Jason Dykes
www.geog.le.ac.uk/jad7/cdv/
ClusterSeer
Terraseer
http://www.terraseer.com/products/
clusterseer.html
CrimeStat Spatial
Statistics Program
http://www.icpsr.umich.edu/
NACJD/crimestat.html
Flow Mapper
GeoDa
SAS/GIS
STARS, Space Time
Analysis of Regional
Systems
STIS, Space Time
Intelligence System
WinGslib, Geostatistical
Software Library
Fuente: Elaboracin propia.
http://csiss.ncgia.ucsb.edu/
http://stars-py.sourceforge.net/
Terraseer
http://www.terraseer.com/products/
stis/stis_features.html
Statios, LLC
http://www.statios.com/WinGslib/
AED general
AEDE reticular
Tendencia espacial
Histograma de frecuencias
Diagrama de dispersin
Grfico de coordenadas
paralelas
Grfico de dispersin en 3D
Mapas temticos
Mapa dinmico
Grficos condicionales
Diagrama de dispersin de
Moran
Diagrama de dispersin de
Moran multivariante
Atpicos espaciales
Diagrama de caja
Mapa de caja
Mapa de percentiles
Cartograma
Grficos LISA
Grficos LISA multivariantes
Un anlisis ms detallado de algunas de estas tcnicas se encuentra en Anselin (2003, 2004) y Anselin et al.
(2004A, 2004B).
mtodos generales del AED o mtodos explcitos del AEDE reticular. En ambos
casos, se presentarn no slo tcnicas univariantes, sino tambin multivariantes.
4.1.1. Histograma de frecuencias
El histograma de frecuencias es un grfico estadstico clsico en el AED.
GeoDa calcula histogramas de frecuencias de las variable geogrficas para distintas
clasificaciones, aunque el nmero por defecto es 7. Cada una de las barras del
histograma tiene un color y es posible realizar una seleccin en el histograma para
ver sobre el mapa las observaciones a las que corresponde. Esto es lo que sucede
en la Figura 3, en donde se han seleccionado las 4 barras del histograma de
frecuencias con mayor tasa de extranjera en 2003 (en amarillo), de forma que
quedan destacados en el mapa los barrios de Madrid a los que corresponde (barrios
del interior del municipio, por lo general).
Figura 3
Grfico de dispersin en 3D
La exploracin de informacin espacial multivariante puede tambin llevarse a
cabo mediante el grfico de dispersin en 3 dimensiones, que permite movimentos
de rotacin, traslacin y acercamiento/alejamiento (zooming). Tambin permite las
habituales funciones de enlace y cepillado (linking y brushing). En la Figura 5, se
han representado los valores de las variables de tasa de paro, tasa de instruccin
superior e ndice de infancia correspondientes a los barrios del municipio de Madrid.
Figura 8
Figura 9
4.2.3. Cartograma
El cartograma es un mapa en el que los valores de la variable que representa
no se diferencian con diferentes colores, sino mediante el tamao de la superficie de
las unidades geogrficas (pases, regiones, barrios). Las representacin grfica de
las unidades geogrficas a travs de polgonos irregulares es reemplazada por un
crculo, que estar situado en la misma localizacin y cuyo tamao ser mayor o
menor segn sea el valor de la variable. Aunque en GeoDa el color por defecto para
los crculos es el verde, existen otros colores para destacar determinados valores,
como los negativos (negro), ceros (blanco) y valores atpicamente altos (rojos) o
bajos (azul).
Los valores atpicos son identificados por el cartograma del mismo modo que
en los grficos de caja, a partir de cotas definidas por encima o por debajo del valor
medio, como proporciones del recorrido intercuartlico (1,5 y 3). As, en la Figura 11
se muestra el cartograma de la variable ndice de vejez, para el que se ha aplicado
el criterio de deteccin de puntos atpicos menos exigente. Como puede observarse,
el cartograma destaca los mismos dos barrios con valores atpicamente altos que el
mapa de percentiles: El Goloso y Helln (San Blas), mientras que, tambin como el
El parntesis cuadrado indica que ese extremo se incluye en el intervalo y el curvo indica que no se incluye.
citado mapa, slo un barrio tiene un valor inferior a la media menos 1,5 veces el
recorrido intercuartlico: Horcajo (Moratalaz).
4.2.4. Anlisis exploratorio de la dependencia espacial local
El estadstico I de Moran y el grfico de dispersin de Moran son mtodos que
permiten analizar el fenmeno de dependencia o autocorrelacin espacial desde un
punto de vista global. Es decir, no son capaces de detectar la presencia de bolsas
significativas de no-estacionariedad (zonas calientes/fras) que se desvan de la
tendencia general de una variable. Es cierto que el diagrama de dispersin de Moran
es capaz de detectar ciertos aspectos locales de una distribucin sealando aquellos
puntos especialmente alejados de la media (superiores al valor 2). Pero no puede
determinar sobre la existencia de especiales concentraciones o ausencia de
concentracin de valores altos/bajos de dicha variable. Para ello, se han diseado
los grficos LISA de dependencia espacial local que ofrecen una indicacin del
grado de concentracin de valores similares (altos o bajos) en torno a cada unidad
geogrfica.
Mapa LISA
Las letras LISA significan Local Indicator of Spatial Asociation. El mapa LISA
es un mapa en el que se representan las localizaciones con valores significativos en
determinados indicadores estadsticos de asociacin espacial local (Getis y Ord,
1992; Anselin, 1995; Ord y Getis, 1995; Unwin, 1996). En concreto, los grficos LISA
incluidos en GeoDa se basan en el estadstico I de Moran de asociacin local. Se
trata de un estadstico que, a diferencia del estadstico I de Moran anteriormente
expuesto, no se calcula de forma global para todas las observaciones del mapa, sino
que adquiere un valor diferente para todas y cada una de ellas. Efectivamente, este
estadstico mide el grado de concentracin de valores altos/bajos de una variable en
el entorno geogrfico de cada una de las observaciones de la muestra. Para cada
valor del estadstico es posible realizar una inferencia para evaluar el nivel de
significatividad estadstica de rechazo de la hiptesis nula de ausencia de similitud o
disimilitud de valores en una localizacin geogrfica. De este modo, se pone de
manifiesto la presencia de puntos calientes (hot spots) o atpicos espaciales, cuya
mayor o menor intensidad depender de la significatividad asociada de los citados
estadsticos.
En la Figura 12, se ha representado el mapa LISA de agrupamientos
espaciales (spatial clusters) de la tasa de extranjera. Como puede observarse, a
travs de una gradacin de colores, este mapa representa las zonas calientes de
concentraciones de barrios con alto valor (color rojo) y bajo valor (azul) en la tasa de
extranjera. La zona caliente de barrios con una significativa concentracin de tasas
altas de extranjera est formada por los 6 barrios del distrito Centro de Madrid, as
como en los barrios cntricos de Chopera, Palos de Moguer, Recoletos, Trafalgar,
Almagro y Moscard. En el extremo opuesto, la concentracin de bajas tasas de
extranjera se produce, en general, en barrios de los distritos perifricos de
Fuencarral-El Pardo, Hortaleza, San Blas, Viclvaro, Moratalaz, Puente de Vallecas
y Pacfico. El mapa destaca tambin aquellos barrios en los que se producen
discontinuidades significativas en los valores de la variable. Por ejemplo, el caso de
San Fermn y La Piovera, en los que la tasa de extranjera es especialmente alta,
pero se encuentran rodeados por barrios con tasas especialmente bajas o el caso de
los barrios de Imperial, Acacias, Atocha, Jernimos y Vallehermoso que, con tasas
de extranjera especialmente bajas, se encuentran rodeados por barrios con tasas
especialmente altas.
Figura 12 Grficos LISA: mapa (izda.) y diagrama de caja (dcha.)
destaca pocos casos de asociacin local positiva: alta concentracin de valores altos
de ambas variables (Sol y Legazpi) y de valores bajos (Bellas Vistas y El Pardo). Sin
embargo, predominan las concentraciones de valores disimilares en ambas variables
como es el caso de alta instruccin en vecinos/baja tasa de paro que se produce en
gran parte de los barrios de los distritos del centro-norte (Salamanca, Chamartn,
Moncloa-Aravaca). Sin embargo, la mayor parte de los casos contrarios de
significativa concentracin de valores diferentes (baja instruccin en vecinos/alta
tasa de paro) se producen en barrios de los distritos del sur (Puente de Vallecas,
Usera, Villaverde) y centro este (San Blas) de la capital.
Figura 13 Grficos LISA bivariantes: mapa (izda.) y diagrama de caja (dcha.)
5. CONCLUSIN
El AEDE debe constituir la etapa previa a todo anlisis modelizador y decisor
en el campo de la investigacin socioeconmica. En este artculo se han presentado
las principales tcnicas del AEDE, que combinan el anlisis estadstico con el
grfico, haciendo posible el estudio de las distribuciones espaciales y sus valores
atpicos, esquemas de asociacin espacial, agrupamientos espaciales y puntos
calientes/fros (hot spots). Para ello, se ha utilizado un nuevo programa informtico,
GeoDa, que tiene como grandes ventajas el haber sido concebido como un producto
autosuficiente, que no supone para el usuario el conocimiento de un sistema
especfico de GIS, funciona en cualquiera de los sistemas operativos de Windows y
Mac y es actualmente un producto de libre acceso en Internet.
Efectivamente, el anlisis de las series geogrficas requiere de herramientas
propias, que van ms all de las convencionales tcnicas del AED o minera de
datos y, por tanto, de un software especfico. Estas herramientas deben estar
dirigidas al anlisis de 2 elementos fundamentales: tendencia espacial y puntos
atpicos, entendiendo esto ltimo no slo como la determinacin de valores
significativamente altos/bajos de una variable, sino como concentracin de valores
similares o disimilares en torno a una unidad geogrfica (dependencia espacial).
GeoDa es un programa que combina tcnicas del AED convencional con las ms
novedosas herramientas del AEDE, en un entorno dinmico que permite conexiones
y arrastrado (linking y brushing) entre diferentes vistas.
6. BIBLIOGRAFA
. ANSELIN, L. (1995), Local Indicators of Spatial Association-LISA. Geographical Analysis,
vol. 27(2); pp. 93-115.
. ANSELIN, L. (1999), The future of spatial analysis in the social sciences. Geographic
Information Sciences, 5 (2); pp. 67-76.
. ANSELIN, L. (2003), GeoDaTM 0.9 users guide. Pgina web del Spatial Analysis
Laboratory: http://sal.agecon.uiuc.edu/stuff_main.php#tutorials .
. ANSELIN, L. (2003), GeoDaTM 0.9.5-i release notes. Pgina web del Spatial Analysis
Laboratory: http://sal.agecon.uiuc.edu/stuff_main.php#tutorials .
. ANSELIN, L., Y.W. KIM e I. SYABRI (2004A), Web-based analytical tools for the
exploration of spatial data. Journal of Geographical Systems (prxima publicacin).
. ANSELIN, L, I. SYABRI y Y. KHO (2004B), GeoDa: An introduction to spatial data
analysis. Geographical Analysis (prxima publicacin).
. BAO, S., L. ANSELIN, D. MARTIN y D. STRALBERG (2000), Seamless integration of
spatial statistics and GIS: the S-Plus for ArcView and the S+Grassland links. Journal of
Geographical Systems 2 (3), pp. 287306.
. CHASCO, C. (2003), Econometra espacial aplicada a la prediccin-extrapolacin de datos
microterritoriales. Consejera de Economa e Innovacin Tecnolgica de la Comunidad de
Madrid.
. CRESSIE, N. (1993), Statistics for spatial data..Revised edition. New York: Wiley.
. GETIS, A. y J. ORD (1992), The analysis of spatial association by use of distance
statistics. Geographical Analysis, 24; pp. 189-206.
. HAINING, R., S. WISE y P. SIGNORETTA (2000),Providing scientific visualization for
spatial data analysis: Criteria and an assessment of SAGE. Journal of Geographical
Systems, 2; pp.121-140.
. MORENO, R. y E. VAY (2000), Tcnicas economtricas para el tratamiento de datos
espaciales: la econometra espacial. Edicions Universitat de Barcelona, colecci UB 44,
manuals.
. ORD, J.K. y A. GETIS (1995), Local spatial autocorrelation statistics: distributional issues
and an application. Geographical Analysis, 27.4; pp. 286-306.
. STATSOFT Inc. (2000), Electronic Text Book Statsoft. www.statsoft.com
. TUKEY, J.W. (1977), Exploratory Data Analysis. Reading: Addison-Wesley.
. UNWIN, A. (1996), Exploratory spatial analysis and local statistics. Computational
Statistics, 11; pp. 387-400.
. UNWIN, A. (2000), Using your eyes- making statistics more visible with computers.
Computational Statistics & Data Analysis, 32; pp. 303-312.