Vous êtes sur la page 1sur 17

Minerao

Impacto do agrupamento preferencial de


amostras na inferncia estatstica:
aplicaes em minerao

Resumo
O agrupamento preferencial de amostras freqente em estudos na rea de
minerao e geocincias. A utilizao de amostras para estimativas de parmetros
estatsticos da populao requer que a amostragem seja representativa da rea de
interesse e/ou da populao. Tal representatividade pode ser obtida pelo
planejamento cuidadoso do sistema ou padro de amostragem e pode ser
questionada sempre que os dados no estejam igualmente dispersos pela rea.
Nesse estudo, foram utilizadas duas tcnicas de desagrupamento: o Mtodo da
Poligonal e o Mtodo da Clula Mvel. Analisam-se a aplicabilidade dos mtodos e o
impacto da amostragem preferencial sobre a estatstica bsica em dois bancos de
dados distintos. O Mtodo da Poligonal forneceu uma resposta direta, nica e com
metodologia mais facilmente compreensvel pelo usurio, contribuindo
favoravelmente para sua adoo. Testou-se tambm o mtodo da entropia
estatstica para auxiliar na determinao do tamanho de clula mais apropriado,
quando utilizado o Mtodo de Clulas Mveis. Os dois mtodos estudados
apresentaram resultados estatsticos semelhantes, porm distintos dos parmetros
estatsticos calculados para os dados agrupados, atestando o vis estatstico gerado
ao ignorar o efeito do agrupamento preferencial.
Palavras-chave: amostragem preferencial, mtodos de desagrupamento, entropia
estatstica.

Abstract
Preferential sampling or clustering is frequently found in mining and earth sciences
applications. Reliable statistics for a population are obtained when representative
samples are available. Such representativeness can be achieved by a proper
sample design covering evenly the area. This paper investigates two declustering
methods to obtain unbiased statistics where clustered samples are available,
namely the polygonal and the cell-declustering method. The impact of clustering is
analysed for two different datasets. Polygonal method proved to be simpler as it
provides an unique solution easily to be understood by the user. In relation to the
cell-declustering method, a methodology to calculate the statistical entropy was
implemented to help in determining the most appropriate cell size. The two
methods lead to similar declustered statistics. However the final statistics showed a
large difference when compared to the statistics obtained for the clustered dataset.
Keywords: preferential sampling, declustering methods, statistical entropy.

1. Introduo
A amostragem dita preferencial quando a localizao das amostras no regular
ou aleatoriamente distribuda. Diversos fatores podem fazer com que subreas
sejam preferencialmente amostradas, quais sejam:

Condies de acessibilidade. reas prximas a estradas ou fazendas so


mais fceis de serem amostradas que terrenos acidentados ou de mata
densa.

Valores de atributos esperados. A amostragem freqentemente


adensada em reas que so julgadas crticas, por exemplo, com altos
teores ou grande concentrao de metais.

Estratgia de amostragem. Amostras agrupadas podem ter sido


coletadas para caracterizar a variabilidade de curto alcance, para auxiliar
na anlise variogrfica.

Mesmo que zonas de altos ou de baixos valores no tenham sido propositalmente


atingidas, qualquer amostragem preferencial passvel de impactar o resultado
estatstico dos dados. Um procedimento para correo de amostragem preferencial
consiste em reter unicamente os dados regularmente espaados. Esse enfoque
apropriado para bancos de dados que incluam quantidade suficiente de informaes
para garantir confiabilidade para a inferncia.
Quando os dados so esparsos e no permitem que sejam ignorados valores
agrupados, preciso utilizar algum mecanismo que, atribuindo pesos aos dados,
atenue ou modere a influncia desses. Intuitivamente, dados em reas densamente
amostradas poderiam receber menos peso que aqueles em reas esparsamente
amostradas. Tal ponderao equivale ao desagrupamento dos dados.
Nesse trabalho, dois bancos de dados (2D e 3D) so apresentados com o objetivo
de avaliar o impacto que a amostragem preferencial tem sobre a inferncia
estatstica. Para ilustrar esse impacto, duas tcnicas de desagrupamento sero
exploradas: o Mtodo da Poligonal (Isaaks & Srivastava, 1989) e o Mtodo da
Clula Mvel (Journel, 1983; Deutsch, 1989). Alm disso, introduzida uma
ferramenta baseada na medida da entropia estatstica (Shannon, 1948; Christakos,
1990; Journel & Deutsch, 1993), de maneira a permitir uma tomada de deciso
mais segura sobre o tamanho de clula mais apropriado, isto , aquele que vai
fornecer pesos para clculo dos parmetros estatsticos adequados.

2. Descrio dos dados


Dois bancos de dados foram utilizados: um com informaes em 2D e outro banco
com informaes em 3D. O mapa de localizao dos furos de sondagem do banco
de dados 2D apresentado na Figura 1 e, na Figura 2, apresentada a localizao
dos furos de sondagem do banco de dados 3D.

Figura 1 - Mapa de localizao dos furos de sondagem do banco de dados 2D utilizado.

Figura 2 - Mapa de localizao dos furos de sondagem do banco de dados 3D


utilizado.

O banco de dados 2D consiste de 340 furos de sondagem com dados de espessura


de camada de carvo, enquanto o banco de dados 3D constitudo de 26 furos de

sondagem com dados de teor de Au (g/t). Como a anlise no foi efetuada num
espaamento regular ao longo do furo, para o banco de dados 3D, a primeira
providncia foi efetuar essa regularizao pela composio em amostras de igual
suporte, resultando em um banco composto por uma informao a cada 5 m de
furo. As medidas de estatstica descritiva dos dados agrupados de ambos os bancos
de dados apresentada nas Figuras 3 e 4.

Figura 3 - Medidas de estatstica descritiva dos dados agrupados do


banco de dados 2D utilizado.

3. Desagrupamento pelo Mtodo da Poligonal


Esse um mtodo de desagrupamento em que os pesos atribudos s amostras so
diretamente proporcionais rea do Polgono de Voronoi ao seu redor. Em zonas de
dados agrupados, as reas dos polgonos tendem a ser pequenas, recebendo,
ento, pesos menores. A Figura 5 ilustra o procedimento para gerao do Polgono
de Voronoi no entorno da amostra 328, onde as arestas do polgono gerado esto
meia distncia em relao s demais amostras na circunvizinhana.

Figura 5 - Polgono de influncia da amostra


(Polgono de Voronoi).

As extremidades da rea global recebem um tratamento diferenciado. Uma amostra


localizada perto de uma das extremidades da rea de interesse pode no estar
completamente cercada por outras amostras, podendo acarretar a impossibilidade
de se ter um polgono fechado. Uma soluo seria a escolha de um limite natural,
imitando um contato geolgico, ou mesmo o limite da jazida. Outra maneira seria
fechar o polgono com um arco, com raio definido pelo maior segmento delimitado,
a 90 desse (Figura 6). A soluo adotada pelo software 3Plot (Kanevski et al.,
1998) definir como limite a linha que une os furos mais externos (Figura 7).

Figura 6 - Solues para fechamento do polgono nas extremidades da rea global,


pela definio de um limite arbitrrio (b) ou por um arco (c).

Figura 7 - Polgonos de Voronoi para o banco de dados 2D.

Os pesos atribudos a cada amostra desagrupada dependem da rea de influncia


da mesma. A mdia desagrupada das amostras dada pela seguinte expresso:

(1)
onde m a mdia desagrupada dos dados, A o somatrio de todas as reas dos
polgonos, wa a rea do polgono centrado em ua e z(ua) o valor da varivel
resposta observado na amostra. O resultado grfico da gerao de Polgonos de
Voronoi obtido com o 3Plot para o banco de dados 2D apresentado na Figura 7.

O 3Plot, alm de produzir o mapa com as reas de influncia delimitada para cada
amostra, tambm gera uma tabela com as reas para cada amostra e,
conseqentemente, torna-se possvel determinar os pesos, conforme mostra
a Figura 8. Dessa maneira possvel calcular a mdia desagrupada da amostragem,
como ilustrado para o banco de dados 2D (Figura 9).

Figura 8 - Planilha utilizada para clculo dos pesos e da mdia a partir das reas dos Polgonos de
Voronoi.

Figura 9 - medidas de estatstica descritiva dos dados desagrupados do


banco de dados 2D.

4. Desagrupamento pelo mtodo de clulas mveis


Nesse mtodo, a rea total dividida em regies retangulares chamadas de clulas.
Cada amostra recebe um peso inversamente proporcional ao nmero de amostras
que caem dentro da mesma clula. Amostras agrupadas, de maneira geral,
recebero pesos baixos com esse mtodo, pois as clulas nas quais elas esto
localizadas contero diversas outras amostras.
A Figura 10 mostra uma malha de clulas sobre um conjunto de amostras
agrupadas. As linhas tracejadas so os limites de clulas de 20 x 20 m. Cada
amostra receber um peso de acordo com o postulado nas equaes (2) e (3):

(2)

(3)
onde:
B = nmero de clulas.
n = nmero de dados em cada clula.

= peso.
z(u) = valor da varivel respostado no ponto.

m = mdia deagrupada dos dados.

Figura 10 - Um exemplo de desagrupamento por clulas


mveis.

Existem dois parmetros-chave do mtodo:

Tamanho de clula.

Locao da clula no grid (origem e orientao).

Amostras agrupadas so freqentemente adicionadas a uma malha regular j


existente, da um tamanho de clula adequado para o desagrupamento seria o
espaamento dessa malha original, sendo que o centro da clula deve corresponder
a um n da malha. Quando o padro de amostragem no sugere um tamanho
natural de clula, vrios tamanhos e origens devem ser tentados. Salienta-se que,
se as clulas so muito pequenas, ento cada amostra possivelmente cair dentro
de uma clula, logo todas as amostras recebero o mesmo peso, ou seja, 1.
Por outro lado, se for escolhido um tamanho de clula muito grande, comparvel
com o tamanho da rea em estudo, praticamente todas as amostras cairo dentro
da mesma clula e, novamente, recebero pesos iguais. De fato, em algum lugar
entre esses extremos, est o tamanho ideal de clula. Se as amostras estiverem
agrupadas em zonas de altos teores, o mtodo deve procurar a menor mdia

desagrupada para diferentes tamanhos de clulas, assemelhando-se ao grfico


da Figura 11.

Figura 11 - Variao da mdia com o aumento do


tamanho de clula, para amostragem preferencial em
zonas de alto teor.

No caso de modelos 3D, as clulas tornam-se blocos retangulares. As dimenses


dos blocos no so mais to bvias como em 2D, porm procura-se estabelecer um
leque de dimenses de blocos coerente com a malha amostral, de tal forma que
minimize (ou maximize) a estimativa da mdia global. Para verificar o
comportamento da mdia desagrupada em relao ao tamanho mximo de clula,
esse parmetro alterado at atingir um tamanho tal que englobe praticamente
todas as amostras. Na Figura 12, apresentada a evoluo dessa anlise para o
banco de dados 2D.
Constatou-se que, a partir de um tamanho de clula de aproximadamente 4000 m,
h uma tendncia de aumento dos valores da mdia, alm de uma clara
instabilidade nos valores obtidos. Apesar de terem sido encontrados valores de
mdia desagrupada inferiores alm desse tamanho de clula, os mesmos foram
desconsiderados por estarem num tamanho de clula tal que praticamente
englobariam toda a rea de estudo. Na Figura 13, apresentada, portanto, a
estatstica bsica desagrupada do banco de dados 2D, para o tamanho de clula de
4000 m.

Figura 13 - Estatstica bsica dos dados desagrupados do


banco de dados 2D.

Na Figura 14, apresentada a anlise do comportamento da mdia medida que


se aumenta o tamanho de clula para o banco de dados 3D. A Figura 15 apresenta
a estatstica bsica desagrupada do banco de dados 3D, para o tamanho de clula
de 200 x 200 x 20 m (em x, y e z, respectivamente).

Figura 14 - Evoluo da mdia desagrupada medida que se


aumenta o tamanho de clula mximo para o estudo em 3D.

5. Mtodo da entropia estatstica


A entropia de uma varivel discreta aleatria X definida como:

(4)
onde N o nmero total de possveis resultados de X, e pi a probabilidade
associada ao isimo resultado. H(X) pode ser interpretado como a quantidade de
incerteza que existe sobre o valor de X e/ou a quantidade mdia de informaes
recebidas quando o valor de X observado.
Considerando-se uma varivel aleatria discreta V, definida em um domnio espacial
D, tal que todas N valores possveis de V (v1, v2,, vN) esto associadas a um grupo
de amostras de tamanhos iguais que compe o domnio D, a entropia H(V)
definida como:

(5)
Se cada resultado possvel de X tem uma igual probabilidade de ocorrncia, ento
H(V) mximo. Para qualquer outro grupo de pesos desiguais, H(V) < - ln(1/N).
Agora considere uma amostragem limitada U de V, com L amostras ul, onde l = 1,
2,, L e sendo L < N. A entropia das amostras de U pode ser medida como:

(6)
onde wl [0,1] so os pesos associados s amostras ul e wl = 1. Se U escolhido
atravs de um espaamento regular amostral, tal que os wl so iguais a 1/L, a
entropia dessa amostragem regular Ut

(7)
A escolha de wl=1/L maximiza o valor de H(U) e, por conseguinte, minimiza o valor
de H(V) - H(U). Isto interpretado da seguinte forma: a amostragem regular Ut de
V fornece o mximo de informaes possveis sobre V para um nmero de amostras
L. Para qualquer outro no-regular ou agrupado grupo de amostras Uc com L
amostras, tal que wl no igual a 1/L, H(Uc) < H(Ut).
Portanto busca-se um grupo timo de pesos wl, tal que H(V) - H(Uc) mximo. Na
prtica, essa diferena pode ser maximizada atravs da minimizao de H(Uc),
usando as mesmas condies apresentadas no Mtodo da Clula Mvel, ou seja, os
pesos wl so diretamente proporcionais rea de influncia da amostra ul. Usa-se o

mecanismo de clulas mveis para encontrar o grupo timo de pesos que


minimizem H(Uc).
O cdigo do programa declus.f do GSLIB foi alterado de maneira que fosse obtido
H(Uc) para cada tamanho de clula estipulado, pela aplicao da equao 6 (Figura
16). O arquivo de parmetro no necessitou nenhum ajuste e os valores de H(U c)
foram gravados no arquivo de sumrio padro do declus, conforme pode ser visto
naFigura 17.

Figura 16 - Principal alterao feita no cdigo fonte do declus.f, onde


calculada |H(Uc)|.

Figura 17 - Arquivo de sumrio (*.sum) do programa declus.f alterado.

A mesma tendncia de instabilidade encontrada anteriormente (quando se


compararam o tamanho de clula e a mdia desagrupada) voltou a se verificar a
partir do tamanho de clula de aproximadamente 4000 m, para o banco 2D.
Na Figura 18, pode-se observar, apesar da instabilidade caracterizada pelas
oscilaes e presenas de picos, uma clara tendncia de estabilizao dos valores
de |H(Uc)|, a partir da clula com 4000 m. Esses pesos foram utilizados para se
obter a estatstica desagrupada.

Figura 18 - Comportamento de |H(Uc)| do banco 2D, medida que se


aumenta o tamanho de clula mximo.

Na Figura 19, apresentada a anlise do comportamento de |H(Uc)| com o


aumento do tamanho de clula no caso em 3D. Assim como aconteceu para o
exemplo anterior, considerou-se como tamanho de clula ideal o ponto onde se d a
estabilizao da curva, no caso, em 200 m, apesar de o maior valor de |H(U c)| se
dar em aproximadamente 300 m.

Figura 19 - Comportamento de |H(Uc)| do banco 3D, medida que se


aumenta o tamanho de clula mximo.

6. Concluses
Os resultados apresentados demonstram o risco em se assumir que as medidas
estatstica descritiva de dados preferencialmente amostrados seja representativa da
distribuio real da populao. No resumo comparativo apresentado na Tabela 1,
pode-se notar que os valores de mdia e desvio obtidos pelos dois mtodos de
desagrupamento so bastante semelhantes. Em relao ao valor da mdia
agrupada, no entanto, as variaes so da ordem de 13% e 26%, para os bancos
de dados 2D e 3D, respectivamente.

Tabela 1 - Resultados obtidos pelos mtodos de desagrupamento utilizados.

A definio do tamanho de clula ideal, um dos pontos mais crticos na aplicao do


Mtodo de Clulas Mveis, foi tratada seguindo duas abordagens distintas,
medida que diferentes tamanhos de clula eram testados: pela evoluo do valor
da mdia e pela entropia estatstica (H(Uc)). Como esperado, as duas abordagens
conduziram a resultados semelhantes, corroborando com a deciso referente
definio de qual seria o tamanho de clula que confeceria os resultados
estatsticos menos tendenciosos. Amplamente divulgado e utilizado no
mdulodeclus.f do GSLIB, operando bem, tanto em 2D, como em 3D, o Mtodo das
Clulas Mveis pode-se valer da anlise da entropia como mais uma ferramenta na
definio do tamanho de clula ideal.
Duas das principais desvantagens at ento apresentada pelo Mtodo da Poligonal
eram a necessidade de definir limites de domnio e o fato de ele no estar
implementado computacionalmente. Essas limitaes parecem solucionadas com a
disponibilizao de ferramentas em ambiente amigvel e com a distribuio livre
(3Plot) dessas ferramentas. Tambm o mtodo fornece uma resposta direta, nica
e com metodologia mais facilmente compreensvel pelo usurio em geral, contribui
favoravelmente para a sua adoo.

7. Referncias Bibliogrficas
SHANNON, C.E. A mathematical theory of communication. Bell System Techical
Journal, 27, p. 379-623, 1948.
[ Links ]
JOURNEl, A.G. Non-parametric estimation of spatial distributions. Mathematical
Geology, v. 15, n. 3, p. 445-468, 1983.
[ Links ]
ISAAKS, E.H., SRIVASTAVA, M.R. An introduction to applied geostatistics. New
York: Oxford University Press, 1989. 561 p.
[ Links ]
DEUTSCH, C.V. DECLUS: a Fortran 77 program for determining optimum spatial
declustering weights.Computers & Geosciences, v. 15, n. 3, p. 325-332, 1989.
[ Links ]
CHRISTAKOS, G. A bayesian/maximum-entropy view to the spatial estimation
problem. Mathematical Geology, v. 22, n. 7, p.763-777, 1990.
[ Links ]
JOURNEL, A.G, DEUTSCH, C.V. Entropy and spatial disorder. Mathematical
Geology, v. 25, n. 3, p.329-355, 1993.
[ Links ]

GOOVAERTS, P. Geostatistics for natural resources evaluation, New York: Oxford


University Press, 1997. 483 p.
[ Links ]
KANEVSKY, M., CHERNOV, S., DEMYANOV, V., SAVELIEVA, E., TIMONIN, V. e SEROV,
A. Geostat office - 3Plot program for windows. Environmental Modelling and
System Analysis Laboratory, Nuclear Safety Institute/Russian Academy os Sciences.
http://www.ibrae.ac.ru/~mkanev/. 1998.
[ Links ]
DEUTSCH, C.V., JOURNEL, A.G. GSLIB: geostatistical software Library and
user's guide, New York: Oxford University Press, 1998. 369 p.
[ Links ]