Vous êtes sur la page 1sur 25

Anlise Espacial de Dados Geogrficos

4-1

4
ANLISE ESPACIAL DE SUPERFCIES: O ENFOQUE DA
GEOESTATSTICA POR INDICAO
Car los Alber t o Felgueir as
Suzana Dr uck
Ant nio Miguel Vieir a Mont eir o
4.1 Introduo
Os procedimentos de krigagem ordinria apresentados no captulo anterior
(vide Seo 3.4) buscavam predies timas da varivel em estudo, em locais no
observados, minimizando a varincia do erro associado a essa estimativa. Neste
captulo, o foco ser na anlise de modelos de incerteza, ou seja, na inferncia das
distribuies de probabilidade para cada posio do espao considerado,
representadas pelos vetores x. Os novos procedimentos vo permitir a definio de
estimadores obtidos segundo a minimizao de outras funes de erro inferencial, e
no, como efetuado pela krigagem linear (vide Seo 3.5), um estimador baseado
apenas na minimizao da varincia do erro. Situaes em que a anlise da incerteza
relevante podem ser ilustradas na aplicao da krigagem nos estudos de reposio
de nutrientes nos solos. Neste caso, o que se deseja determinar a quantidade de
nutrientes que deve ser reposta nos solos de uma regio de maneira a maximizar a
produo e tornar mnimo os custos. O processo inferencial tem como objetivo
evidenciar os locais em que um determinado fator dos solos, Z(x), deficiente, ou
seja, os locais em que o valor estimado, ( ) x Z

, seja igual ou abaixo de um valor


crtico,
lim
z , isto , quando ( )
lim
z Z

x . Assim, o que interessa no inferir


exatamente um determinado valor, mas definir reas com maior probabilidade que
o evento ocorra, ou seja, reas onde a probabilidade do valor estimado ( ) x Z

ser
menor ou igual a um limite
lim
z , definida por ( ) { }
lim
z Z

Prob x , tem um valor


determinado.
Por outro lado, os erros inferenciais, que so a subestimao (estimar um valor
menor do que seria o valor real) ou, a sobre-estimao (estimar um valor maior do
que seria o valor real) vo produzir efeitos diferentes no processo produtivo.
Enquanto a subestimao pode levar a repor nutrientes onde no necessrio, e
contaminar os solos, a sobre-estimao pode conduzir a no repor nutrientes onde
necessrio e prejudicar a produtividade. Dessa forma, esses erros inferenciais no
podem ser tratados como se tivessem o mesmo impacto, e a minimizao de um, ou
de outro, ou de ambos, vai depender dos objetivos impostos pelo trabalho a ser
executado. Neste contexto, o estimador de krigagem linear obtido pela
Anlise Espacial de Dados Geogrficos
4-2
minimizao da varincia (vide Seo 3.5), que considera equivalentes e simtricos
os impactos de subestimar ou sobre-estimar, seria insuficiente para apoiar as
decises necessrias a melhor soluo do problema.
Este captulo apresenta um conjunto de tcnicas que procura construir o
modelo de incerteza associado a uma determinada posio do espao, representada
pelo vetor x. O modelo a ser produzido condicionado a um conjunto de dados
geogrficos, coletados previamente a partir de suportes amostrais pontuais. Os
exemplos, utilizados para ilustrar os conceitos deste captulo, referem-se a
conjuntos amostrais obtidos no levantamento de solos executado na regio de
Canchim (vide Seo 3.4, Figura 4-1 e Tabela 4-1). No que segue, admite-se que o
leitor esteja familiarizado com os conceitos de krigagem apresentados no captulo 3
(Seo 3.4 a Seo 3.7).
4.2 Incertezas locais
A geoestatstica considera os valores de um atributo para cada posio A x
(uma regio da superfcie terrestre) como uma realizao de uma varivel aleatria
(VA), descrita como ( ) x Z . Isto significa que, na posio x, ( ) x Z pode assumir
diferentes valores para o atributo considerado, cada valor com uma probabilidade
de ocorrncia associada a ele. Uma VA ( ) x Z ordenada, contnua ou discreta,
caracterizada pela sua funo de distribuio de probabilidade acumulada, fdpa,
univariada, ( ) z , F x , definida como:
( ) ( ) { } z Z Prob z F = x x; (4.1)
Os procedimentos por indicao (tambm conhecidos por funes indicatriz)
esto interessados na modelagem da funo de distribuio univariada acumulada
condicionada (fdpac), isto , a funo de distribuio que pode ser construda
condicionada aos n dados amostrados, ( ) ( ) n | z F ; x , que dada por:
( ) ( ) ( ) ( ) { } n | z Z Prob | z F = x x n ; (4.2)
A ( ) ( ) n | z F ; x modela a incerteza da V.A. Z no local x , e uma vez estimada
essa funo de distribuio de probabilidade ela pode ser utilizada para:
produzir uma estimativa de valores do atributo em posies no
conhecidas;
modelar a incerteza dos valores para o atributo nas posies estimadas;
O enfoque tradicional, oferecido pela krigagem linear, para modelar a incerteza
em locais no amostrados , consiste em computar estimativas do valor desconhecido
( ) x z e de sua respectiva varincia ( ) x
2
, e

construir um intervalo de confiana do
tipo gaussiano, centrado em ( ) x z ,
Anlise Espacial de Dados Geogrficos
4-3
( ) ( ) ( ) ( ) ( ) [ ] { } x x x x x z , z Z Prob 2 2 + (4.3)
A construo deste tipo de intervalo de confiana fundamenta-se nas hipteses:
os erros locais de estimao tm distribuio gaussiana;
o intervalo de confiana pode ser construdo atravs da varincia
destes erros.
Essas hipteses so fortemente restritivas, uma vez que a distribuio local dos
erros pode apresentar severas assimetrias, principalmente quando o histograma das
amostras apresenta-se assimtrico, no se adequando a hiptese gaussiana sendo
implicitamente considerada. Por outro lado, a varincia obtida atravs da krigagem
linear depende unicamente da configurao geomtrica dos dados, e no do valor
de seu atributo naquela posio, e uma varincia com essas caractersticas pode no
ser adequada para representar as incertezas na estimativa de valor para o atributo,
principalmente em regies onde amostras prximas apresentam valores para seu
atributo, medido ou observado, muito discrepantes.
Um outro enfoque possvel considerar que primeiro necessrio modelar a
incerteza, ou seja inferir as distribuies de probabilidades locais, as distribuies
para cada ponto do espao a ser estudado, representado pelo vetor x. Uma vez
estabelecidas as funes, ( ) ( ) n | z F ; x , e s ento deduzir as estimativas timas para
cada ponto. Observe que o procedimento tradicional primeiro calcula a estimativa,
os valores estimados para os pontos no observados, e depois acrescenta o intervalo
de confiana, com base na varincia dos erros produzidos pelo estimador. A
modelagem da incerteza, sendo construda diretamente atravs da fdpac,
( ) ( ) n | z F ; x , condiciona, por construo, essa fdpac aos dados amostrais, e produz
ento um modelo que independente de uma particular estimativa ( ) x z , obtida
com base em um particular estimador, no nosso caso o estimador por krigeagem
linear. Ficamos agora com o problema da inferncia desta funo de distribuio de
probabilidade acumulada condicionada para cada ponto do espao, da ( ) ( ) n | z F ; x .
Vamos abordar dois enfoques, mais presentes na literatura :
O multigaussiano, que estabelece o modelo de distribuio a ser
considerado priori;
O enfoque por indicao, que no estabelece nenhum modelo de
distribuio para os dados. A fdpac modelada de forma
aproximada pela sua discretizao numa srie de K cortes
k ,.... 1 , = k z
k
.
O primeiro enfoque, o multigaussiano, o mais fcil de ser utilizado, mas
apresenta algumas restries importantes:
Anlise Espacial de Dados Geogrficos
4-4
1. estabelece a hiptese multigaussiana para a distribuio multivariada que
no pode ser inteiramente verificada;
2. inadequada para fenmenos que apresentam uma expressiva
correlao em valores extremos da distribuio.
O enfoque por indicao pode ser considerado mais geral. No restringe o
fenmeno em estudo a ser representado por uma distribuio especfica. Deve ser
utilizado quando os dados no se ajustam a uma distribuio multigaussiana, ou
quando os valores extremos da distribuio das amostras apresentam significante
conectividade. Esse captulo, por essas razes, focaliza esse procedimento.
4.3 O Enfoque por Indicao
O enfoque por indicao est fundamentado na interpretao da probabilidade
condicional ( ) ( ) ( ) ( ) ( ) [ ] { } x x x x x z , z Z Prob 2 2 + como uma esperana
condicional de uma varivel aleatria por indicao, ( ) ( ) n z , I
k
x , considerada a
informao disponvel nas (n) amostras, isto :
( ) ( ) ( ) ( ) { } K ,..., k n | z , I E n | z F
k k
1 ; = = x x (4.4)
onde ( ) ( ) ( )
k k
z Z se z , I = 1 n x x e ( ) ( ) ( )
k k
z Z se z , I > = 0 n x x
A estimativa de krigagem de uma varivel por indicao, ( ) ( ) n z , I
k
x , tambm
uma estimativa de sua esperana condicional. Portanto, as estimativas de
( ) ( ) K .., 1, , . k para n z , F

k
= x , podem ser calculadas estimando-se o valor
( ) ( ) n z , i

k
x , que utiliza para sua estimativa os dados transformados para dados por
indicao, com valores 1 e 0.
Dessa forma, os procedimentos por indicao iniciam-se por uma
transformao no linear, chamada de codificao por indicao, que transforma
cada valor do conjunto amostral, ( ) x z , em valores por indicao, ( )
k
z , i x .
A codificao por indicao dos dados amostrais
Na distribuio de um conjunto de dados amostrais, um determinado nmero
de cortes K e seus respectivos valores de cortes k ,.... 1 , = k z
k
, so definidos. A
codificao por indicao, se processa para cada valor de corte
k
z , e gera um
conjunto amostral por indicao ( )
k
z , i x do tipo:
Anlise Espacial de Dados Geogrficos
4-5
( )

>

=
k
k
z z ,
z z ,
i
) ( se 0
) ( se 1
z ;
k
x
x
x
(4.5)
A codificao por indicao aplicada sobre todo conjunto amostral criando,
para cada valor de corte, um conjunto cujos valores so 0 ou 1. Os K valores de
corte, so definidos em funo do nmero de amostras e devem ser escolhidos de
tal forma que os 1 K + cortes contenham aproximadamente as mesmas frequncias.
Entretanto, existem algumas critrios para a escolha de K:
1. Os valores de k , devem ser representativos de toda a gama de valores
apresentados pelos dados.
2. Os valores de k devem destacar os pontos importantes da distribuio.
3. O nmero de cortes K no deve ser muito grande, o que demandaria grande
esforo computacional, mas principalmente no deve ser muito pequeno,
pois pode resumir aspectos relevantes da distribuio. Uma regra razovel
considerar que o valor de K no deve ser menor que cinco (5), nem maior
que quinze (15).
Se para um determinado conjunto de dados cujos valores variam no intervalo
[ ] 43 , 5 podemos definir 39 30 20 z
k
, , = correspondentes respectivamente a trs
quantis de sua distribuio ( 75 0 50 0 25 0 p . , . , . = ). A codificao associar a cada
valor amostral um vetor com 3 dados por indicao com valores 0 ou 1. Por
exemplo, se o valor amostral ( ) 2 25. u z
j
= , ento o valor por indicao ( ) 0 20 , =
j
u i e
representa a probabilidade de ( )
j
u Z assumir valores menores ou iguais a 20, dado
que o valor de ( ) 2 25, u z
j
= , ( ) ( ) [ ] 2 . 25 20 =
j j
u z u Z Prob . Considerando os trs
valores de
k
z , o vetor por indicao seria representado como abaixo descrito:
( )
( )
( )
( ) ( ) { }
( ) ( ) { }
( ) ( ) { }
(
(
(
(

=
=
=

(
(
(

=
(
(
(

2 25 39
2 25 30
2 25 20
39
30
20
1
1
0
. z Z Prob
. z Z Prob
. z Z Prob
, i
, i
, i
j j
j j
j j
J
j
j
x x
x x
x x
x
x
x

4.3.2 A variografia por indicao
A anlise de variografia se processa de forma semelhante a realizada na
krigeagem linear (vide Seo 3.5), considerando-se separadamente o conjunto de
valores por indicao para cada valor de corte,
k
z . Dessa forma, para cada valor de
corte
k
z um modelo de variograma deve ser estabelecido, o que corresponderia, no
exemplo anterior, ao ajuste de 3 modelos de semivariogramas a partir de 3
variogramas experimentais computados como:
Anlise Espacial de Dados Geogrficos
4-6
( )
( )
( ) ( ) [ ]
( )

=
+ =
h N
k k k I
z ; i z ; i
N
z ,
1
2
2
1


h h h
h
h (4.6)
Como os valores das variveis por indicao so 0 e 1, o variograma por
indicao , usualmente, bem comportado e resistente a valores extremos
("outliers"). Tambm as amostras de ( )
k
z u i , para cada
k
z so considerados como
amostras de uma distribuio Bernouilli cuja varincia mxima 0.25. Dessa forma
o efeito pepita somado ao patamar, que so aproximadamente iguais ao valor da
varincia, ter como valor mximo 0.25. Calcular os variogramas relativamente
simples, sendo a nica dificuldade prtica o nmero de variogramas a ser
modelados.
4.3.3 A estimao dos valores por indicao
Como mencionado anteriormente para cada valor de corte k ,.... 1 , = k z
k
, a
( ) ( ) n z , F

k
x pode ser estimada atravs da combinao linear dos dados por
indicao ( )
k
z , i x . O estimador linear expresso em termos de VAs por indicao.
( )
( ) ( )
( )
( ) ( )
k k
n
k k
n
k
z ; I z z I z n | z F

x x x x x
u u
(

+ =

= =
; 1 ; ; )) ( ; (
1 1

(4.7)
onde ( )
k
z ; x

o peso assinalado a cada dado convertido interpretado como uma


realizao de uma varivel aleatria por indicao. Se a mdia por indicao,
[ ( ) ]
k
z ; I E x , considerada constante dentro da rea em estudo dois procedimentos
podem ser considerados, descritos a seguir.
Krigeagem por Indicao Simples
Neste caso a mdia por indicao conhecida e constante, isto :
( ) { } ( )
k k
z F z ; I E = x (4.8)
e o preditor linear (4.6) ento rescrito,
( )
( ) ( )
( )
( ) ( )
k k
n
KS
k k
n
KS
k KS
z F z z I z n | z F

+ =

= =
; 1 ; ; )) ( ; (
1 1
x x x x
x u

(4.9)
onde os pesos ( )
k
KS
z , x

so determinados atravs do sistema de krigeagem


simples.
( )
( ) ( ) ( ) ( ) x h h x
u
n ,..., , z C z C z
k I k I k
n
KS
2 1 ; ; ;
1
= =

(4.10)
onde

h o vetor de separao definido pelas posies

x e

x ,

h o vetor
definido entre as posies

x , e a posio a ser estimada


0
x
,
) (
k I
z ; C

h a
Anlise Espacial de Dados Geogrficos
4-7
autocovarincia definida por

h e ) (
k I
z ; C

h a autocovarincia definida por

h em
k
z z = . As autocovarincias so determinadas pelo modelo de variografia
terico definido pelo conjunto I para
k
z z = .
Krigeagem por Indicao Ordinria
A krigeagem por indicao ordinria permite considerar flutuaes locais da
mdia limitando seu domnio de estacionariedade a vizinhana local ( ) x W
( ) { }=
k
z ; I E x constante mas desconhecida para ( ) x x W
( ) { } ( )
k k
z ; F

z ; I E x x = estimado no domnio ( ) x W
O estimador de krigeagem por indicao ordinria tem a seguinte expresso:
( )
( ) ( )
( )
( ) ( )
k k
n
KS
k k
n
KS
k KS
z ; F

z z I z n | z F

x x x x x
x x
(

+ =

= =
; 1 ; ; )) ( ; (
1 1

(4.11)
sendo que os pesos ( )
k
KS
z , x

so obtidos pela soluo do seguinte sistema de


equaes de krigagem por indicao ordinria:
( )
( ) ( ) ( ) ( ) ( )
( )
( )

=
= = +

=
=
1 ;
2 1 ; ; ; ;
1
1
k
n
KO
k I k k I k
n
KO
z
n ,..., , z C z z C z
x
h x h x
x
x


(4.12)
onde ( )
k
z x;

o multiplicador de Lagrange.
A krigagem por indicao, simples ou ordinria, fornece, para cada valor de
corte
k
z , a melhor estimativa da esperana condicional da VA ( )
k
z , I x , ( )
k
z , I

x .
Utilizando esta propriedade, e o teorema que estabelece que ( ) ( )
k k
z , F

z , I

x x =
pode-se calcular estimativas dos valores da fdpac de ( ) x Z para vrios valores de
k
z z = , pertencentes ao domnio de ( ) x Z . O conjunto dos valores das fdpacs,
estimados nos valores de corte, considerado uma aproximao discretizada da
fdpac real de ( ) x Z . Quanto maior a quantidade de valores de corte, melhor a
aproximao. A aproximao complementada pela definio de uma funo de
ajuste para a distribuio, que deve ser utilizada para se inferir a fdpac para valores
diferentes dos valores de corte. Um ajuste linear o mais simples de se definir,
porm funes de maior grau podem ser usadas.
Anlise Espacial de Dados Geogrficos
4-8
4.3.4 Correo dos Desvios de Ordem
A aproximao da funo de distribuio apresenta alguns problemas,
conhecidos como desvios de relao de ordem, que devem ser corrigidos
automaticamente pelo procedimento. Os valores de probabilidades acumuladas
condicionadas, para cada valor de corte, so inferidos independentemente. Para que
esses valores de probabilidade constituam uma distribuio legtima, eles devem
verificar as seguintes relaes de ordem:
1. Os valores inferidos de ( ) ( ) n z , F

k
x devem satisfazer a seguinte relao
( ) ( ) K ,..., k z n | z F
k k
*
1 , 1 ; 0 = x
2. O valor estimado de ( ) ( ) n z , F

k
x no deve ser maior do que a ( ) ( ) n z ; F

k 1 +
x
quando
1 +

k k
z z , ou seja ( ) ( ) ( ) ( )
1 1
; ;
+ +

k k k k
z z se n | z F

n | z F

x x
A primeira condio pode ser garantida quando todos os pesos do estimador
so positivos e somam 1. A krigeagem no garante que os pesos sejam todos
positivos. Por isso possvel a inferncia de valores da fdpac fora do intervalo [0,1].
A soluo para este problema ajustar os valores estimados para as bordas, ou seja,
valores negativos so mapeados para 0 e valores maiores que 1, para 1. A segunda
condio garantida com o uso de ponderadores positivos que somam 1, e com a
utilizao dos mesmos pesos de estimao para todos os valores de corte, o que no
pode ser garantido pela krigeagem por indicao. Portanto, estas inconsistncias
podem ocorrer e devem ser corrigidas. Um procedimento simples de correo
verificar pares de fdacs estimadas, em valores sucessivos de cortes, e ajust-los para
o valor mdio das duas, sempre que a relao de ordem,
( ) ( ) ( ) ( )
1 1
; ;
+ +

k k k k
z z se n | z F

n | z F

x x , no for satisfeita. A Figura 4-2 ilustra


os problemas e as solues das 2 condies acima descritas.


Figura 4-2 Correo dos desvios de relao de ordem

Anlise Espacial de Dados Geogrficos
4-9
A Figura 4-3 e a Figura 4-4 que seguem buscam ilustrar as etapas descritas para
a obteno do modelo de incerteza para um conjunto amostral tomado
conceitualmente como variveis aleatrias.


Figura 4-3 Primeira etapa do processo de krigagem por Indicao

Figura 4-4 Segunda etapa do processo de krigagem por Indicao
Anlise Espacial de Dados Geogrficos
4-10
4.4 Estimativa de incertezas locais
O conhecimento da fdpac, ( ) ( ) n z ; F
k
x , em uma localizao x, possibilita a
estimativa direta da incerteza, sobre o valor no conhecido ( ) x
k
z , independente da
escolha de um estimador para ( ) x
k
z . Vamos ver agora como a incerteza pode ser
estimada quando adotamos o enfoque por indicao aqui apresentado.
Intervalos de probabilidade
A incerteza pode ser estimada atravs de intervalos de valores do atributo. A
probabilidade de um valor ( ) x
k
z estar dentro de um intervalo ( ] b a, qualquer,
chamado intervalo de probabilidade, computado como a diferena entre os valores
da fdpac para os limiares b e a, ou seja:
( ] ( ) { } ( ) ( ) ( ) ( ) n | a ; F n | b ; F n | b a, Z Prob x x x = ) ( (4.13)
Um intervalo de probabilidade dado por ( ] ( ) { } 7 0 ) ( . n | b a, Z Prob = x , significa
que ( ) x z tem 70% de chance de estar dentro e, portanto, 30% de chance de estar
fora do intervalo (a, b]. Quando = b obtm-se a probabilidade de se exceder um
limiar a, ou seja:
( ] ( ) { } ( ) ( ) { } ( ) ( ) n | a ; F | a Z Prob n | a, Z Prob x n x x = > = + 1 ) ( (4.14)
Esta probabilidade particularmente importante em aplicaes ambientais
focadas em medir os riscos de se exceder limites regulatrios. Para exemplificar a
utilizao dessas medidas de incerteza, numa situao real, considere o conjunto
amostral de altimetria de Canchim, apresentado na Figura 4-5. Esse conjunto
amostral foi utilizado como entrada para produo do mapa temtico de altimetria
e do mapa de incertezas apresentados na Figura 4-6 (a) e (b), respectivamente.
A classificao apresentada no mapa da Figura 4-6(a) foi obtida a partir dos
modelos de distribuio probabilstica inferidos pelo procedimento de krigeagem
por indicao condicionado s amostras de altimetria. Neste caso, foram definidas 3
faixas distintas de valores de altimetria, 3 classes, e para cada ponto desse mapa, as
probabilidades de pertinncia a cada um dos intervalos de valores, definidos para as
classes, foram calculadas pela formulao apresentada na equao 4.13. Para
classificao de cada ponto do mapa temtico de altimetria, utilizou-se o critrio de
mxima probabilidade, ou seja, atribuiu-se, a cada ponto do mapa, a classe de maior
probabilidade de ocorrncia nesse local. Os valores de incerteza apresentados na
Figura 4-6(b), mapa da direita, foram calculados a partir do valor da probabilidade
da classe que foi associada a cada ponto do mapa temtico de altimetria gerado.
Assim, calculou-se a incerteza como:
( ) ( ) ( ) { } 3 ou 2 1, k , s z Prob nc I
k
= = x x x 1 (4.15)
onde ( ) x
k
s a classe atribuda a localizao ( ) x .
Anlise Espacial de Dados Geogrficos
4-11

Figura 4-5 Distribuio espacial das amostras de altimetria na regio de Canchim
Figura 4-6 Mapa temtico de altimetria (a) e respectivas medidas de incerteza (b)

0.0
0.5
E~ F E F
Anlise Espacial de Dados Geogrficos
4-12
Distncia interquantil
Uma medida mais robusta de espalhamento um intervalo interquantil. Por
exemplo, o intervalo interquartil, ( ) x
R
q definido por:
( ) ( ) ( ) ( ) ( ) ( ) ( ) n | . F n | . F q q q
. .
25 0 ; 75 0 ;
1 1
25 0 75 0 R
x x x x x

= = (4.16)
Para distribuies altamente assimtricas, uma medida mais robusta o
intervalo interquantil, que definido como a diferena entre dois quantis,
simtricos em relao a mediana. A partir da funo de distribuio acumulada
condicionada inferida, ( ) ( ) n z ; F

x , pode-se derivar vrios intervalos de


probabilidade tais como o intervalo 95%, [ ]
0.975 0.025
q ; q , tal que:
[ ] ( ) { } 0.95 ; ) (
0.975 0.025
= n | q q Z Prob x (4.17)
com
0.025
q e
0.975
q

sendo os quantis relativos aos valores de probabilidade da fdpac
2,5% e 97.5%, ou seja, ( ( ) ) 0.025 n q ; F =

0.025
x , e ( ( ) 0.975 ) n q ; F =

0.975
x . Os
valores do atributo, referentes aos quantis, so estimados a partir da funo de
ajuste e dos valores de corte usados na krigeagem por indicao. Um mapa de
incertezas obtido pelos valores de uma grade de intervalos interquartis, diferena
entre o primeiro e o terceiro quartil de altimetria, e estimados segundo a equao
4.16, est apresentado na Figura 4-7.
Figura 4-7 Mapa de incertezas locais obtido a partir dos quartis, primeiro e terceiro, dos
modelos de distribuio probabilstica locais inferidos pela krigagem por indicao
5.05
100.
Anlise Espacial de Dados Geogrficos
4-13
Varincia condicional
Uma medida importante de espalhamento de uma distribuio a varincia
condicional que mede os desvios da fdpac em torno da mdia da distribuio,
( ) u z
k
z
. Diferente das medidas de incerteza anteriormente descritas, esta necessita
da estimao da mdia da distribuio, isto , da definio desse estimador.
possvel obter-se uma estimativa da varincia da distribuio condicionada, ( ) x
2
,
pela seguinte formulao:
( )( ) ( ) [ ] ( ) ( )
( ) [ ] ( ) ( ) ( ) ( ) [ ] n | z F

n | z F

z z
n | z dF z z
1 k k
K
k
Z
'
k
Z
k
k

+
=

; ;
;
1
1
2
2 2
u x x
x x x
(4.18)
onde
k
z
z o valor da mdia da classe ( ]
k k
z z ,
1
.
A Figura 4-8 apresenta um mapa de varincias para os valores de altimetria, da
regio de Canchim, obtidas pela equao 4.18.

Figura 4-8 Mapa de incertezas locais obtido a partir das varincias inferidas dos modelos de
distribuio probabilstica construdos pela krigeagem por indicao.
7.8
99.0
Anlise Espacial de Dados Geogrficos
4-14
Entropia de Shannon
Uma medida de incerteza local, no relacionada a qualquer intervalo ( ] b a , ,
dada pela medida de entropia da funo de densidade de probabilidade local. Essa
medida definida como:
( ) ( ) ( ) [ ] ( ) ( )


= dz n z ; f n z ; f ln H x x x (4.19)
onde ( ) ( ) ( ) ( ) z n z ; F n z ; f = x x a funo de distribuio de probabilidade. Na
prtica a amplitude de variao de z discretizada em K classes, que no se
interceptam, ( ]
k k
z z ,
1
, computando-se a probabilidade desses K intervalos como:
( ) ( ) ( ) ( ) ( ) [ ] n | z F

n | z F

p
1 k k k
= ; ; x x x (4.20)
A entropia para a distribuio condicional em x computada como:
( ) ( ) ( ) [ ] ( ) 0 0
1


=
k k
K
k
k
p , p p ln H x x x
(4.21)
4.5 Estimadores timos para as Superfcies Interpoladas
O processo inferencial visa calcular uma estimativa do valor de ( ) x z atravs de
um estimador que caracterizado por uma determinada funo dos dados. Esse
estimador, no que concerne aos objetivos do processo inferencial, deve minimizar
algum tipo de erro que se deseja evitar, maximizando os acertos de interesse. Por
essa razo, um estimador dito timo quando minimiza perdas, isto , uma
particular funo dos erros inferenciais, ( ) L , onde ( ) ( ) x x z z = . Entretanto,
minimizar ( ) L significa conhecer ( ) x z , que desconhecido. Portanto, a idia
utilizar o modelo de incerteza definido para determinar a perda esperada, ( ) [ ] L E .
( ) [ ] ( ) ( )( ) { }
( ) ( ) ( )

+

=
=
n z , dF ) ( L
n L E L E
x x
x


(4.22)
Na prtica, a seguinte aproximao utilizada
( ) [ ] ( ) ( ) ( ) ( ) ( ) ( ) [ ]

+
=


1
1
1
K
k
k k k
n z , F

n z , F

z z L L E x x x (4.23)
Assim sendo a determinao de estimativas timas se processa em duas etapas:
1. A incerteza sobre o valor desconhecido ( ) x z inicialmente modelada pela
sua fdpac ( ) ( ) n z , F

k
x ;
Anlise Espacial de Dados Geogrficos
4-15
2. Desse modelo uma estimativa de ( ) x z obtida tal que minimiza ( ) [ ] L E .
Estimativa do valor esperado
A estimativa do valor esperado para cada valor espacial da distribuio
realizada a partir do de mnimos quadrados onde ( ) [ ] ( ) [ ]
2
u u L = . Mostra-se que
essa funo minimizada quando z o valor esperado, ( ) ( ) x x
E
z z = . A estimativa
do valor esperado, ( ) ( ) { } x x Z E z
E
= onde:
( ) [ ] ( ) ( ) ( ) ( )



= = n | z ; dF z dz n | z ; f z Z E x x x (4.24)
obtida pela funo de densidade de probabilidade condicionada as n amostras,
( ) ( ) n z , f
k
x , e a partir dos K valores de corte,
k
z , pela aproximao:
( ) [ ] ( ) ( ) ( ) ( ) ( ) ( ) [ ] n z ; F

n z ; F

z n | z ; dF z Z E
k k
K
k
k 1
1
1

+
=

x x x x (4.25)
A estimativa do valor esperado como definida em (4.25) e aquela obtida por
krigagem linear so ambas timas no sentido de minimizar varincias inferenciais,
entretanto produzem resultados diferentes. So diferentes porque, no caso do
enfoque aqui adotado, derivam de uma fdpac que depende dos valores dos dados.
Estimativa da mediana
O estimador de mnimos quadrados no a nica funo de otimizao de
erros possvel. Uma outra funo ( ) ( ) x L pode tambm ser considerada. Podemos
tom-la como sendo dada pelo valor absoluto dos erros estimados ( ) ( ) ( )| L x x = .
Mostra-se que o valor de z que minimiza [ ( ) ( ) ] x L E , quando ( ) ( ) x L o
modulo de ( ) x , a mediana da distribuio ( ) x
0.5
q , definida como:
( ) ( ) ( ) n | . F q
.
5 0 ;
1
5 0
x x

= (4.26)
A mediana inferida aplicando-se a funo de ajuste da distribuio sobre os
valores de corte com probabilidades acumuladas vizinhas ao valor 0.5. Para
distribuies com alto grau de assimetria, a mediana um estimador mais robusto
do que a mdia. Os mapas de mdia e mediana, dos dados de altimetria de
Canchim, esto mostrados na Figura 4-9.
Anlise Espacial de Dados Geogrficos
4-16
Estimativa de quantis
A funo de perda considerada nos dois estimadores anteriormente definidos
no discriminava as diferenas de impacto dos erros de sub-estimao ou sobre-
estimao. Entretanto, existem situaes, como a descrita no incio desse captulo
(vide Seo 4.1), em que cada um desses erros produz diferentes impactos, e essas
diferenas devem ser tambm consideradas no processo inferencial. Assim, funes
de perdas assimtricas devem ser utilizadas
( ) [ ]
( ) ( )
( ) ) ( )

<

=
o subestimad se w
do sobrestima se w
L
0
0
2
1
x x
x x
x


(4.27)
onde
1
w e
2
w so parmetros no negativos, e medem o relativo impacto de sub
ou sobre estimar. O estimador que minimiza essa funo ( ) ( ) x L chamado de p-
quantil, e definido como:
( ) ( ) ( ) x x
p q
q n p ; F z = =
1
(4.28)
onde
2 1
2
w w
w
p
+
=

Figura 4-9 Mapas de mdia (a) e mediana (b) inferidos pelo procedimento por indicao,
para os dados de altimetria da regio de Canchim.

695.6
894.0
695.6
894.0
Anlise Espacial de Dados Geogrficos
4-17
Considerando o exemplo de aplicao apresentado na introduo desse
captulo, seja
1
w o impacto de sobre-estimar um determinado nutriente no solo, e
2
w o impacto de subestimar este mesmo nutriente. Vamos supor que se deseja
estimar ( ) x z de forma a reduzir o risco de comprometimento da produo, que
motivado pelos erros de sobre-estimao. Dessa forma,
2 1
w w > e 5 0 p . < , ou seja,
um estimador timo seria um quantil menor do que a mediana, onde 5 0 p . = . Ou
ainda, se 9 0 w
1
. = e 1 0 w
2
. = , 1 0 p . = . A estimativa tima seria considerando o
quantil de 10%.
4.6 Incertezas locais para atributos Categricos
O enfoque por indicao, semelhante quele aplicado aos dados com atributos
numricos, pode ser tambm aplicado a dados com atributos categricos, tambm
chamados dados temticos. O dado categrico aqui considerado como o dado
cujo atributo discreto e sem ordenao, para o qual no possvel um clculo de
distribuies acumuladas, a menos que se defina uma ordenao para os mesmos.
Um exemplo tpico de dados categricos o atributo textura do solo, cujas classes
so derivadas de atributos granulomtricos do solo. Outros exemplos podem ser:
tipos de rochas, classes de solo, etc. A metodologia geoestatstica, aqui apresentada,
utilizada para espacializao de dados categricos, baseia-se na krigeagem por
indicao e, equivale a um processo de classificao de dados categricos a partir de
amostras individuais. Os principais conceitos abordados aqui so exemplificados a
partir do mesmo conjunto de dados coletados na regio de Canchim (vide Seo
3.4, Figura 4-10 e Tabela 4-2).
O Enfoque por Indicao para Atributos Categricos
Considere-se um dado espacial cujo atributo categrico, podendo assumir K
classes, ou estados diferentes, . K ,..., k , s
k
1 = Para cada posio ( ) x do espao, o
dado categrico pode ser representado por uma varivel aleatria ( ) x S que pode
assumir
k
s estados, cada um associado a uma probabilidade de ocorrncia. Os
procedimentos por indicao para atributos categricos baseiam-se na modelagem
da funo de distribuio de probabilidade condicionada, (fdpc), isto , a
modelagem da distribuio condicionada aos n dados amostrados, ( ) ( ) n | s p
k
; x ,
que definida como:
( ) ( ) ( ) ( ) { } n | s S Prob n | s p
k k
= = x x; (4.29)
A ( ) ( ) n | s p
k
; x modela a incerteza da varivel aleatria S no ponto ( ) x e, uma
vez estimada, essa funo de distribuio de probabilidade pode ser utilizada para:
classificar o atributo em posies no conhecidas;
Anlise Espacial de Dados Geogrficos
4-18
modelar a incerteza das classificaes efetuadas.
Pela metodologia por indicao, a definio da fdpc depende, inicialmente, da
definio de um conjunto de valores de cortes para a varivel em questo. Para um
conjunto de amostras de uma varivel aleatria categrica qualquer, o nmero de
cortes K definido pela quantidade de classes que essa varivel pode assumir no seu
domnio. Neste caso, a codificao por indicao, se processa em valor de cortes
,
k
s e gera um conjunto amostral por indicao ( )
k
s i ; x do tipo:

=
=
k
k
k
s s ,
s s ,
s i
) ( se 0
) ( se 1
) ; (
x
x
x (4.30)
A codificao por indicao aplicada sobre todo conjunto amostral criando,
para cada corte ,
k
s um conjunto amostral por indicao, ( ) ( ) n | s I
k
; x , cujos valores
so 0 ou 1. Cada probabilidade condicional ( ) ( ) n | s p
k
; x , tambm, a esperana
condicional da varivel aleatria por indicao ( ) ( ) n | s I
k
; x , a saber:
( ) ( ) ( ) ( ) { } n s ; I E n | s p
k k
x x = ; (4.31)
onde ( ) 1 ; =
k
s I x se ( ) , s S
k
= x e 0 (zero) caso contrrio .
Assim, a fdpc da varivel categrica ( ) x S pode ser modelada usando-se um
enfoque por indicao, semelhante quele aplicado s variveis de natureza
contnua. Para cada um dos K conjuntos ( ) ( ) n | s I
k
; x , define-se um variograma
experimental, ajustado a posteriori por um modelo terico, que busca representar a
variabilidade espacial do conjunto de dados codificados por indicao sendo
considerados. Cada modelo de variograma terico, em conjunto com as amostras,
codificadas por indicao, usado para se estimar o valor da probabilidade
condicional ( ) ( ) [ ]* n | s p
k
; x . O conjunto dessas probabilidades estimadas,
considerando-se os K valores de corte, determina uma aproximao discreta da fdpc
de ( ) x S . Essa fdpc deve, ainda, sofrer uma correo dos desvios de relao de
ordem para se garantir as relaes:
( ) ( ) [ ] [ ] K ,..., k , * n | s p
k
1 1 0 ; = x (4.32)
( ) ( ) [ ] 1 * n | ;
1
=

=
K
k
k
s p u (4.33)
ou seja, cada valor deve estar no intervalo [0,1] e a soma total desses valores deve
ser igual a1.
Anlise Espacial de Dados Geogrficos
4-19
4.7 Classificadores para Atributos Categricos
No enfoque por indicao, os classificadores locais para atributos categricos
so definidos a partir da distribuio de probabilidade inferida para cada uma das
k
s classes de ( ) x S . Em geral, esse classificador implementado segundo um
estimador de moda, que determina o valor de ( ) x S como sendo a classe com a
maior probabilidade inferida em ( ) x , ou seja:
( ) ( ) ( ) ( ) ( ) [ ] ( ) ( ) [ ] i k K ,..., i n | s ; p n | s ; p sse s s S
i k k max k
= > = =

e 1 x x x x x
(4.34)
Uma variante do classificador de moda considera tambm a reproduo das
propores globais definidas a priori. O mapa da Figura 4-11 mostra o resultado de
uma classificao, pelo estimador de moda, a partir de um conjunto de amostras do
atributo textura do solo.
4.8 Medidas de incerteza para atributos Categricos
Apresentam-se, a seguir, dois procedimentos de medida de incertezas para
atributos categricos, a incerteza do classificador de moda e a incerteza por
entropia de Shannon.
A Incerteza do classificador de moda
A incerteza local ( ) x Inc pode ser definida como 1(um) menos a maior
probabilidade condicional, estimada em x para as diversas classes de corte
k
s :

( ) ( ) ( ) ( ) [ ]

= n | s ; p Inc
max k
x x x 1
(4.35)
A Figura 4-12 mostra o mapa de incertezas locais do classificador de moda usado
na gerao do mapa da Figura 4-11. Analisando-se a classificao apresentada na
Figura 4-11 e o mapa de incertezas da Figura 4-12, observa-se que este ltimo mostra
um campo com variao proporcional ao comportamento do atributo na regio.
Nas regies de transio entre as classes, os valores de incerteza por moda
aumentam, com os valores mais baixos longe das transies, como ocorre
naturalmente com muitas propriedades naturais nas proximidades de zonas de
fronteira.
Anlise Espacial de Dados Geogrficos
4-20
Figura 4-11 Mapa de valores de textura do solo inferidos, pelo valor de moda, a partir do
procedimento de krigeagem por indicao
Figura 4-12 Mapa de incerteza por moda estimado a partir do procedimento de krigeagem por
indicao usado para inferir o mapa da Figura 4-11
0.0
0.71
Arenoso
Mdio
Argiloso
Muito
Anlise Espacial de Dados Geogrficos
4-21
Incerteza por entropia de Shannon
Outra medida da incerteza local Inc(x) a entropia de Shannon das
probabilidades condicionais das diversas classes de corte
k
s
,
definida como:
( ) ( ) ( ) ( ) [ ] ( ) ( ) [ ] 0
1
=

=

K
k
k k
n | s ; p n | s ; p ln H Inc x x x x (4.36)
A entropia de Shannon maximizada para distribuies uniformes, ou seja,
quando as probabilidades de ocorrncia das classes se igualam. Assim, os valores de
incerteza por entropia de Shannon so maiores onde existe uma confuso maior
entre as classes consideradas. Isto pode ser observado no mapa de incertezas da
Figura 4-13.
Figura 4-13 Mapa de incerteza por entropia de Shannon estimado a partir do procedimento
de krigeagem por indicao usado para inferir o mapa da Figura 4-11

Comparando-se os mapas das Figura 4-12 e Figura 4-13, pode-se analisar as
diferenas existentes entre o mapa de incertezas por moda e o mapa de incertezas
por entropia. As diferenas so mais aparentes nas regies onde vrias classes se
confundem. Este um resultado esperado, uma vez que, nestas regies a
0.0
1.38
Anlise Espacial de Dados Geogrficos
4-22
distribuio de probabilidade das variveis aleatrias est mais prxima de uma
distribuio uniforme, quando ento a incerteza medida pela entropia tem seus
valores maximizados. A incerteza por moda mostra um crescimento a partir da
parte central de uma classe em direo as zonas de transio. Os valores mximos
de incerteza por moda aparecem nas bordas entre as classes e, no tm influncia do
nmero de classes prximos as bordas. Dependendo da aplicao, o especialista
responsvel por decidir sobre qual medida de incerteza estar trabalhando. Quando
a confuso entre classes importante deve-se optar pela incerteza por entropia.
Caso o interesse seja somente nas transies entre as classes, a incerteza por moda
deve ser priorizada.
Concluses
Apresentamos neste captulo a formalizao do procedimentos geoestatsticos
da krigagem por indicao. Estes procedimentos servem no apenas para produzir
uma predio de valores sobre uma superfcie, mas essencialmente como uma
poderosa ferramenta para produzir modelos de incertezas locais para dados
geogrficos que compartilham uma base de informaes Estes dados so sempre
usados em conjunto com outros para produzir novas informaes, atravs de
operaes e transformaes. Os procedimentos da geoestatstica, em seu enfoque
por indicao, nos permitem produzir informaes espaciais qualificadas por uma
mtrica de confiana nas informaes representadas naqueles suportes, os mapas.
Temos a possibilidade concreta de produzir e operar com os mapas e suas barras
de erro. Podemos ainda ressaltar as seguintes caractersticas, especficas do
procedimento de krigagem por indicao:
a krigagem por indicao no paramtrica. No considera nenhum tipo de
distribuio de probabilidade a priori para a varivel aleatria. Ao invs disso,
ela possibilita a construo de uma aproximao discretizada da fdpac. Os
valores de probabilidades discretizados podem ser usados diretamente para se
estimar valores caractersticos da distribuio, tais como: quantis, valor
esperado e varincia. Portanto, ela no se restringe a modelagem de atributos
com distribuies simtricas como, por exemplo, a gaussiana;
a krigagem por indicao fornece uma metodologia nica para espacializao,
com estimativa de incertezas, para atributos espaciais tanto de natureza temtica
quanto numrica;
diferentemente da krigagem linear, que estima a varincia do erro de estimao
em funo do estimador e da distribuio geomtrica das amostras, a krigagem
por indicao possibilita a estimativa de incertezas, utilizando a funo de
distribuio acumulada condicionada da VA que representa o atributo,
independentemente do estimador;
Anlise Espacial de Dados Geogrficos
4-23
a krigagem por indicao pode ser usada para modelar atributos com alta
variabilidade espacial sem a necessidade de se filtrar amostras cujos valores
esto muito distantes de uma tendncia (outliers);
a krigagem por indicao permite melhorar a qualidade de estimao com o uso
de amostras indiretas, retiradas de fontes auxiliares, que so acrescidas ao
conjunto amostral do atributo, as amostras diretas.
No entanto, os procedimentos de krigagem por indicao apresentam tambm
alguns problemas, alm das probabilidades negativas e funes acumuladas invlidas
j mencionados. Este procedimento requer, do especialista, um alto grau de
interatividade para a definio da quantidade e dos valores de corte a serem
utilizados. Tambm, exige que seja definido um variograma para cada valor de
corte considerado.
A ferramenta geoestatstica de krigagem utilizada para inferir valores de
atributos, em posies no observadas, e tambm incertezas associadas aos valores
inferidos. Mostrou-se que a krigagem por indicao tem aplicao mais geral,
principalmente porque no supe nenhum tipo de distribuio de probabilidade a
priori e pode ser usado com atributos numricos e temticos. Por exemplo, a
krigagem por indicao permite a inferncia de valores temticos e, portanto, pode
ser considerada um classificador estocstico, que fornece estimativas de incertezas
associadas aos valores das classes atribudos a cada ponto do espao. Apresentou-se,
ainda, alternativas para estimativas de incertezas que devem ser escolhidas de
acordo com a natureza do atributo, que est sendo modelado, e tambm de acordo
com os objetivos de uma aplicao.
Salienta-se que os procedimentos geoestatsticos por indicao incluem
tambm os simuladores estocsticos, que no foram abordados neste captulo.
Tambm no foi abordado o uso de informao indireta para a melhora das
inferncias. Estes tpicos so de extrema relevncia para o contexto do uso efetivo
da geoestatstica em anlise de dados geogrficos e devero ser considerados em
futuras edies. Mesmo no mtodo por indicao algumas limitaes da krigeagem
permanecem uso dos dados para estimar o variograma e predizer a incerteza,
deficincia na extrapolao, ou seja, avaliar a incerteza fora dos dados. Novas
generalizaes comeam a surgir, tomando como base a teoria dos campos
aleatrios espao-temporais.

Anlise Espacial de Dados Geogrficos
4-24
REFERNCIAS BIBLIOGRFICAS
A estrutura terica da geoestatstica em seu enfoque por indicao est bem
apresentada em Goovaerts (1997) e em Isaaks e Srivastava (1989). Algoritimos
implementados e explicaes didticas sobre como operar a Krigeagem por
indicao pode ser encontrada no livro de Deutsch e Journel (1992). Com relao
integrao entre geoestatstica e SIGs e modelagem e tratamento de incertezas em
SIG, o leitor deve referir-se a Felgueiras C. A. (1999), Felgueiras et al (1999) e
Heuvelink (1998). As questes sobre medidas de entropia podem ser apreciadas no
clssico Shannon, and Weaver (1949). Para uma discusso sobre diferentes medidas
de incerteza no enfoque por indicao veja Soares(1992). Referente a modelagem
espao-temporal, deve-se consultar o artigo de Kyriakidis e Journel (1999) e o livro
do George Christakos (2000). Referncias bsicas sobre os dados da Fazenda
Canchim podem ser encontrados em Calderano Filho et al. (1996). Estes dados
tambm esto disponveis no site do livro (www.dpi.inpe.br/gilberto/livro/analise).

Calderano Filho, B.; Fonseca, O. O. M.; Santos, H. G. e Lemos A. L..
Levantamento Semidetalhado dos Solos da Fazenda Canchim So Carlos - SP. Rio
de Janeiro, EMBRAPA- CNPS, 1996. 261p.
Christakos, G. Modern Spatiotemporal Geostatistics; IAMG Studies no. 6, Oxford
University Press, 2000
.Deutsch e Journel (1992). GSLIB: Geostatistical Software Library and users guide.
New York, Oxford University Press, 1992. 339p.
Felgueiras C. A. Modelagem Ambiental com Tratamento de Incertezas em Sistemas
de Informao Geogrfica: O Paradigma Geoestatstico por Indicao. Tese
(Doutorado em Computao Aplicada) Instituto Nacional de Pesquisas Espaciais,
So Jos dos Campos, Publicado em http://www.dpi.inpe.br/teses/carlos/, 1999.
Felgueiras C. A., Monteiro A. M. V., Fuks S. D. and E. C. G. Camargo. Inferncias
e Estimativas de Incertezas Utilizando Tcnicas de Krigeagem No Linear [CD-
ROM]. In: V Congresso e Feira para Usurios de Geoprocessamento da Amrica
Latina, 7, Salvador, 1999. Anais. Bahia, GisBrasil99. Seo de Palestras Tcnico-
Cientficas.
Goovaerts, P. Geostatistics for Natural Resources Evaluation. New York, Oxford
University Press, 1997. 481p.;
Isaaks E. H. and Srivastava R. M. An Introduction to Applied Geostatistics, Oxford
University Press, 1989. 560p.
Kyriakidis, P. C. e Journel, A. G. Geostatistical Space-Time Models: A Review.
Mathematical Geology, Vol. 31, No. 6, 1999
Anlise Espacial de Dados Geogrficos
4-25
Heuvelink G. B. M. Error Propagation in Environmental Modeling with GIS,
Bristol, Taylor and Francis Inc, 1998.
Shannon, C. E. e Weaver, W. The Mathematical Theory of Communication.
Urbana, The University of Illinois Press, 1949. 117p.
Soares, A. Geoestatistical Estimation of Multi-Phase Structures. Mathematical
Geology, 24(2):140-160, 1992.

Vous aimerez peut-être aussi