Académique Documents
Professionnel Documents
Culture Documents
Introduccin:
La correlacin entre dos variables, y la autocorrelacin espacial de una variable consigo misma
pero con un desplazamiento en el espacio, pueden ser representadas de forma grfica mediante
Diagrama de dispersin del Calcio y Potasio un diagrama de dispersin
1.2
(Figura 1), o pueden ser medidas
y = 0.0208x + 0.1487
R = 0.5697 mediante ndices de correlacin
1
o autocorrelacin numricos,
0.8 tales como R de Pearson o I de
Moran. Cabe preguntarse: Hay
Potasio
0.6
K (X3) forma de predecir el valor de
Lineal (K (X3))
0.4
una variable a partir del
conocimiento de otra variable
0.2 con la que est correlacionada?.
0
0 5 10 15 20 25 30 35 40
La respuesta es s; para ello lo
Calcio que se hace es ajustar un modelo
Figura 1. Regresin bivariada entre el Potasio (regresando), y el Calcio de regresin entre las dos
(regresor). variables. El tipo ms comn y
simple es una regresin lineal
AGCS de tipo:
70.0
60.0 Y = a0 + a1X +
y = -6.616ln(x) + 62.67
50.0
R = 0.5266
Donde: Y es conocida como la
40.0
variable dependiente o
AGCS
30.0
"regresando"; X es la variable
independiente o regresor;
20.0
10.0
representa los residuos de la
0.0
0.00 5000.00 10000.00 15000.00 20000.00 25000.00
regresin. Adems, a0 y a1 son
-10.0
Densidad coeficientes que deben ser
calculados.
Figura 2. Regresin logartmica entre las variables AGCS (regresando) y la
variable Densidad (Regresor).
1
Ph.D. Rafael Arce M., Escuela de Geografa, UCR. 25/04/2016.
Debe indicarse desde ya que no siempre el modelo lineal es el que mejor describe la relacin entre
dos variables, existiendo otros modelos simples, como: regresiones polinmicas, regresin
logstica; regresin logartmica, regresin exponencial; regresin potencial, etc. La figura 2 ilustra
un caso de ajuste mediante una regresin logartmica. Claramente la relacin no es lineal y, con
regresin logartmica se logra ajustar el modelo regresivo pero se debe tener cuidado al escoger el
modelo, pues en este caso lleva a estimaciones negativas del ndice AGCS, lo cual no es posible.!
Regresin lineal mltiple ordinaria por mnimos cuadrados (OLS: Ordinary Least Squared):
De manera anloga a lo ilustrado para dos variables (Figura 2), es posible fijar una regresin lineal
con mltiples variables independientes y una sola variable dependiente. A menudo esto es
necesario porque en la naturaleza todo est relacionado con todo, de modo que casi cualquier
evento de inters ser el resultado de numerosos otros eventos subyacentes que actan como sus
variables causales.
Note que 0 es la interseccin del plano matemtico de la variable (Z) sobre el plano definido por
las variables (XY) en la ubicacin (X0,Y0); 1 y 2 pueden ser vistas en un modelo geomtrico como
las pendientes del plano matemtico (Z) a lo largo de los ejes (XY) o de forma ms general, como
una medida de la fortaleza y tipo de relacin. Si 1 o 2 se hacen cero, esto indica que el valor de
(Z) no es sensible a dicha variable y por tanto dicha variable no debe ser utilizada en la prediccin
2
Ph.D. Rafael Arce M., Escuela de Geografa, UCR. 25/04/2016.
de (Z). En la situacin particular cuando 1 y 2 tienen valor cero, Z = f(X,Y) toma el valor constante
0.
En la figura 3 se representan tambin los residuos () como lneas que conectan cada punto
P(xi,yi,zi) con el plano (Z), los cuales representan las diferencias entre el valor observado (Zi) en
cada localidad del espacio (XYZ) y el valor predicho para dicha localidad por el modelo Z = f(XY).
Fuente: https://onlinecourses.science.psu.edu/stat501/node/382
i = (XT X)-1 XT z
3
Ph.D. Rafael Arce M., Escuela de Geografa, UCR. 25/04/2016.
yi = Xi *
Como alternativa, existen modelos de regresin anlogos que son localizados (locales, no
globales), que toman en cuenta de forma explcita la localizacin de los datos en el proceso de
anlisis. Dichos modelos de regresin son conocidos como Modelos de Regresin Ponderados por
la Geografa.
Donde (si) se refiere a la localizacin de los elementos de la muestra que ser utilizada para
calibrar la ecuacin de regresin.
4
Ph.D. Rafael Arce M., Escuela de Geografa, UCR. 25/04/2016.
figura 4.
La aplicacin iterativa para calcular un modelo de regresin local para cada elemento del mapa o
cada punto de una malla sistemtica requiere un mecanismo para asignar un peso diferenciado a
cada elemento del vecindario, ya sea como funcin de la distancia (dij) punto-objeto o como una
funcin del orden de vecindad (primero, segundo, tercero, etc.). Dentro de las tcnicas que
permiten definir lo local (el vecindario), se hallan aquellas basadas en un radio de bsqueda
(kernel) que puede ser de ancho fijo o variable. Otra estrategia consiste en definir un ancho de
banda optimizado, definido a partir del criterio del AIC o del criterio de Validacin Cruzada (CV).
Para asignar los pesos a cada punto de apoyo existen diversos algoritmos; uno de ellos toma en
cuenta la razn de distancia punto-objeto y el ancho de banda usado para la seleccin de los
puntos (elementos del vecindario):
Donde: dij es la distancia entre cada elemento del vecindario y el objeto cuya ecuacin de
regresin se est calibrando; b es el ancho de banda utilizado. En este caso, si la distancia dij hasta
un elemento del mapa es superior al ancho de banda b se considerar que dicho elemento no es
parte del vecindario para efectos del ajuste del modelo de regresin y su influencia o peso es
cero.
Cuando el ancho de banda b tiende a infinito, el peso de las observaciones tiende a uno para todos
los puntos del vecindario de modo que el parmetro estimado se vuelve uniforme y GWR se hace
equivalente a OLS. Contrariamente, si b es pequeo la estimacin de los parmetros depender
crecientemente de los vecinos ms prximos a la localidad (i) y se tendr una mayor varianza. El
problema es por lo tanto, cmo seleccionar un apropiado ancho de banda o funcin de
decaimiento de la distancia para el modelo GWR. Figura 5.
5
Ph.D. Rafael Arce M., Escuela de Geografa, UCR. 25/04/2016.
Figura 5. Efecto del ancho de banda y la ecuacin considerada en la asignacin de pesos a los puntos del vecindario.
En nuestro ejercicio prctico (TP5) nicamente hicimos variar el parmetro ancho de banda (b)
para observar los cambios en los parmetros , pero no llegamos a optimizar b. Para ello se debe
utilizar una tcnica conocida como validacin cruzada (CV) que no se discute ac pero se puede
consultar en Fotheringhan et al.,2002:60, ec. 2.31. La figura 6 ilustra dos posibles soluciones
para anchos de banda b de 700 m y 561 m (distacia promedio punto-objeto).
0 16.2813 0 2.3232
1 0.5834 1 0.7885
2 -0.8513 2 -0.7616
3 -0.4539 3 -0.7953
4 -0.8140 4 -0.8003
Figura 6. Coeficientes obtenidos con anchos de banda de 700 m (izquierda) y 561 m (derecha), durante la
realizacin del TP5 (Curso anlisis espacial, 2016).
Donde:
6
Ph.D. Rafael Arce M., Escuela de Geografa, UCR. 25/04/2016.
z(Si) = X0 (si)*
Determinar una funcin de regresin lineal global (OLS) o mltiples funciones de regresin lineal
local (GWR) es solo una parte pequea de la tarea general de definir un buen modelo de
regresin. Para esto ltimo hay que conocer los diversos tipos de problemas que puede tener un
modelo de regresin mltiple, que pueden afectar su credibilidad; tambin se requiere evaluar la
calidad del modelo mediante el uso de variados ndices que han sido definidos dentro de la ciencia
Estadstica y estn disponibles en todos los paquetes estadsticos.
Los tipos de problemas que frecuentemente presentan los modelos OLS y GWR son:
La omisin de variables explicativas relevantes tiene por consecuencia que no se pueda confiar en
los valores de probabilidad P, ni en los coeficientes . Para solucionar esta situacin se debe
recordar que el proceso de definir un modelo de regresin robusto es iterativo y es vlido probar
nuevas variables explicativas, as como abandonar el uso de aquellas que resulten irrelevantes. En
algunas ocasiones resulta valioso realizar anlisis de autocorrelacin (hot spot) para determinar si
hay agrupamientos de autocorrelacin y con base en estas concentraciones tratar de descubrir
cules son las variables locales que estn afectando.
7
Ph.D. Rafael Arce M., Escuela de Geografa, UCR. 25/04/2016.
8
Ph.D. Rafael Arce M., Escuela de Geografa, UCR. 25/04/2016.
La condicin de no estacionaridad de la relacin (Figura 10) hace que el error estndar del modelo
OLS se incremente artificialmente. Si la prueba Koenker es estadsticamente significativa (p0.05)
se tiene una variacin regional estadsticamente significativa de la relacin y debe consultar las
probabilidades robustas (Robust Pr) para determinar si una variable es estadsticamente
significativa o no. Bajo esta condicin por lo general se tienen mejores resultados si se construye
un modelo de regresin usando GWR que OLS.
magnitudes de los valores observados (Figura 11). A Figura 11. Heterocedasticidad de los residuos.
esta condicin se le llama heterocedasticidad y en tal caso se debe utilizar la tabla de los errores
estndar robustos y la tabla de probabilidad slida, para valorar la validez del modelo.
9
Ph.D. Rafael Arce M., Escuela de Geografa, UCR. 25/04/2016.
Revisin del informe OLS generado por la herramienta Spatial statistics tool de ArcGIS
El orden de revisin sugerido por ESRI se muestra en la figura 13 y se resume al final de la misma:
1. Determine el rendimiento (performance) del modelo usando la lnea del R2 mltiple o el R2
mltiple ajustado. Este ltimo se usa cuando la prueba BP de Koenker sea estadsticamente
significativa.
2. Analice cada variable explicativa mediante la tabla resumen de los resultados OLS.
3. Evale la significancia global del modelo mediante los estadsticos Joint F y Wald. Si aparecen
con (*) indican significancia global del modelo con p < 0.05. Si la prueba Koenker (BP) es
estadsticamente significativa use estrictamente el estadstico Wald en vez de Joint F para
determinar la significancia global del modelo.
10
Ph.D. Rafael Arce M., Escuela de Geografa, UCR. 25/04/2016.
Tabla 1. Resumen de resultados y elementos diagnsticos de la calidad y fiabilidad del modelo de regresin OLS.
4. Analice la condicin de estacionaridad del modelo mediante la prueba Koenker (BP). Cuando
este estadstico es significativo (p<0.05), las relaciones modeladas nos son consistentes ya sea por
no estacionaridad, por heterocedasticidad o por ambas.
6. Use una prueba I de Moran global para verificar que los residuos no estn espacialmente
correlacionados.
Siguiendo las recomendaciones se analiza ahora el resultado de la regresin ordinaria (OLS) para el
archivo Muestra2000SR25, que contiene 25 objetos del centro de San Ramn extrados de forma
ms o menos arbitraria del archivo Censo2000SR, que contiene 173 objetos.
El modelo de regresin OLS se estableci entre cinco variables: SERVET, SEV, COM, SERVP, SERVPE,
la primera de las cuales fue definida como la variable dependiente o regresando, y las otras cuatro
se asumieron como variables independientes (explicativos o regresores). La expresin matemtica
sera entonces:
11
Ph.D. Rafael Arce M., Escuela de Geografa, UCR. 25/04/2016.
El anlisis de rendimiento del modelo (paso 1) usando R2 mltiple indica que 90% de la variacin
de SERVET es explicada por las variables SEV, COM, SERVP y SERVPE. En este caso la prueba (BP)
de Koenker no fue estadsticamente significativa, por lo que es innecesario utilizar R2 ajustado.
Este rendimiento se considera muy bueno.
El resumen de los resultados OLS se muestra en la tabla 2. Del anlisis de cada una de las variables
explicativas (paso 2) se obtiene la siguiente informacin:
Tabla 2. Resumen de resultados OLS para las diversas variables del modelo.
La ecuacin especfica OLS calibrada con la muestra de 24 objetos (se excluy de la calibracin el
objeto SEC_ID 16803 con el propsito de usarlo como elemento de control) queda como sigue
(para abreviar se usan solo dos decimales):
Es decir, el valor de la variable SERVET es 3.23 cuando las variables SEV, COM, SERVP y SERVPE
asumen valor cero.
Los valores i resultaron bastante alejados de cero y son estadsticamente significantes (columnas
Probability y Robust_Pr(obability), de modo que las cuatro variables independientes hacen
aportes valiosos a la estimacin de SERVET.
El aporte de las variables al Factor de Inflacin de la Varianza (VIF) en ningn caso supera el lmite
establecido VIF 7.5, por lo que se concluye que no existe colinearidad (correlacin) significativa
entre las variables explicativas.
12
Ph.D. Rafael Arce M., Escuela de Geografa, UCR. 25/04/2016.
El estadstico de Wald result significativo (marcado con *), paso 3, a ms de un 95% de confianza
(p<0.05), por lo el modelo OLS fijado es muy confiable.
La regresin GWR s fue realizado en clase. El mapa de residuos estandarizados del modelo GWR,
clasificado segn niveles de significancia se muestra en la figura 14.
13
Ph.D. Rafael Arce M., Escuela de Geografa, UCR. 25/04/2016.
En color verde limn se muestran los polgonos en cuyo entorno no se detecta una organizacin
local espacialmente autocorrelacionada de los residuos de la regresin ponderada
geogrficamente (GWR).
Los dems colores muestran polgonos en cuyo entorno existe autocorrelacin espacial de los
residuos de la regresin GWR a niveles de significancia de 0.1, 0.5, 0.01 y menos en ambas colas
de la distribucin normal de probabilidad.
El software ArcGIS devuelve una tabla (un registro por cada elemento del mapa) con los
coeficientes i resultantes de la regresin, adems de los residuos, errores estndar y residuos
estndar (Figura 15).
El polgono seleccionado, para el cual se muestran los datos en la lnea en color cyan, es el
analizado con Excel en el TP5 (SEC_ID 16803), dando la siguiente ecuacin:
El valor R2 local es 0.91 y el residuo estandarizado es 0.08, lo que indica que el modelo de
regresin GWR ajusta muy bien los valores locales y que el residuo no es estadsticamente
significativo.
14
Ph.D. Rafael Arce M., Escuela de Geografa, UCR. 25/04/2016.
Figura 15. Mapa y registro de resultados de la regresin GWR en el entorno del elemento SEC_ID 16803.
Con relacin al modelo de regresin global OLS, el modelo de regresin local GWR en el entorno
del objeto SEC_ID 16803, los coeficientes i mantienen signos equivalentes; la variable SEV est
positivamente relacionada con SERVET, mientras las variables COM, SERVP y SERVPE estn
relacionadas de forma inversa con la variable SERVET.
Figura 16. Imgenes de los coeficientes 0, 1, 2, 3 , 4 del modelo GWR para la variable SERVET, usando Censo2000SR.
15
Ph.D. Rafael Arce M., Escuela de Geografa, UCR. 25/04/2016.
Para poder obtener una imagen de valores de regresin espacialmente ponderados, conocidos los
coeficientes 0, 1, 2, 3 , 4 hace falta nicamente generar imgenes de igual cobertura y
resolucin de las variables independientes SEV, COM, SERVP y SERVPE, lo cual se puede hacer
utilizando un algoritmo de interpolacin espacial adecuado. Finalmente se hace:
Para finalizar este tema diremos que el algoritmo GWR de ArcGIS no genera una tabla resumen de
resultados ni una tabla de elementos diagnsticos, como s hace para el OLS. Esto puede deberse a
que el anlisis pierda un poco su sentido cuando se trata de una regresin local (por ejemplo,
porque la muestra suele ser pequea), o porque es mucho ms laborioso, pues habra que generar
un documento por cada polgono del
mapa. Otra razn podra ser puramente
terica al tener que adaptar los
estadsticos a las consideraciones
particulares de la regresin espacial.
16