Vous êtes sur la page 1sur 13

CLASSIFICAO NO-SUPERVISIONADA DE IMAGENS DE SENSORES REMOTOS UTILIZANDO REDES NEURAIS AUTO-ORGANIZVEIS E MTODOS DE AGRUPAMENTOS HIERRQUICOS Unsupervised classification of remote

sensors images using self-organizing neural networks and hierarchical clustering methods Mrcio Leandro Gonalves1,2 Mrcio Luiz de Andrade Netto2 Jurandir Zullo Jr.3 Jos Alfredo Ferreira Costa4
1

Pontifcia Universidade Catlica de Minas Gerais PUC Minas

Departamento de Cincia da Computao Av. Padre Francis Cletus Cox, 1661, CEP 37701-355, Poos de Caldas-MG, Brasil marcio@pucpcaldas.br
2

Universidade Estadual de Campinas - UNICAMP

Faculdade de Engenharia Eltrica e de Computao FEEC Centro de Pesquisas Meteorolgicas e Climticas Aplicadas Agricultura CEPAGRI Cidade Universitria Zeferino Vaz, CEP 13083-970, Campinas SP, Brasil marcio@dca.fee.unicamp.br, jurandir@cpa.unicamp.br
4

Universidade Federal do Rio Grande do Norte - UFRN

Departamento de Engenharia Eltrica DEE Campus Universitrio - Lagoa Nova, CEP 59072-970, Natal RN, Brasil alfredo@dee.ufrn.br

RESUMO
Este trabalho apresenta uma nova metodologia para a classificao no-supervisionada de imagens de sensoriamento remoto. Diferentemente dos mtodos convencionais de classificao no-supervisionada, como o Kmdias e o ISODATA, os quais se baseiam somente em tcnicas de agrupamentos particionais, a metodologia proposta realiza a classificao automtica de imagens atravs de uma abordagem inovadora empregando o Mapa Autoorganizvel de Kohonen (SOM Self-Organizing Map) em conjunto com um mtodo de agrupamento hierrquico aglomerativo. O ponto chave do mtodo proposto executar o processo de anlise de agrupamentos atravs de um conjunto de prottipos do SOM ao invs de trabalhar diretamente com os padres originais da imagem. Essa estratgia reduz significativamente a complexidade da anlise dos dados tornando possvel a utilizao de tcnicas normalmente consideradas inviveis para o processamento de imagens de sensoriamento remoto, como mtodos de agrupamentos hierrquicos e ndices de validao de agrupamentos. Atravs do SOM, o mtodo proposto mapeia os padres originais da imagem para uma grade de neurnios bidimensional procurando preservar a distribuio de probabilidade e a topologia dos mesmos. Posteriormente, um mtodo de agrupamento hierrquico aglomerativo com restries de conectividade aplicado sobre a grade de neurnios j treinada, gerando um dendrograma simplificado para os dados da imagem. Cada nvel do dendrograma apresenta uma configurao diferente de agrupamentos de neurnios (ou prottipos) do SOM que pode ser utilizada para representar as classes sobre as quais a imagem original ser classificada. Aplicando verses modificadas de ndices de validao de agrupamentos o mtodo determina automaticamente o nmero ideal de agrupamentos da imagem no exigindo que o usurio defina previamente a quantidade de classes para realizar o processo de classificao. Os resultados experimentais mostram um exemplo de aplicao da metodologia proposta sobre uma imagem teste e compara o seu desempenho com o do algoritmo Kmdias. Palavras chaves: processamento digital de imagens, sensoriamento remoto, classificao no-supervisionada, redes neurais artificiais.

Revista Brasileira de Cartografia No XX/YY, 2008. (ISSN 0560-4612)

ABSTRACT
This work presents a new methodology for the unsupervised classification of remotely sensed images. Differently of the traditional methods of unsupervised classification, such as K-means and ISODATA, which use only partitional clustering techniques, the proposed methodology accomplishes the automatic classification of images through an innovative approach applying the Kohonen Self-Organizing Map (SOM) together with an agglomerative hierarchical clustering method. The key point of the proposed method is to execute the clustering process through a set of prototypes of the SOM instead of analyzing directly the original patterns of the image. This approach significantly reduces the complexity of the analysis becoming possible the use of techniques that normally are considered impracticable for the digital processing of remotely sensed images, such as hierarchical clustering methods and cluster validity indexes. Using the SOM, the proposed method maps the original patterns of the image to a set of neurons arranged in a twodimensional lattice searching to preserve the probability distribution and the topology of the input space. Subsequently, an agglomerative hierarchical clustering method with restricted connectivity is applied on the lattice of neurons previously trained, generating a simplified dendrogram for the image data. Each level of the dendrogram corresponds to a different configuration of clusters of neurons (or prototypes) of the SOM that can be used to represent the classes on which the original image will be classified. Applying modified versions of cluster validity indexes the method automatically determines the ideal number of clusters of the image not demanding that the user previously defines the quantity of classes to execute the classification process. The experimental results show an application example of the proposed method on a test image and its performance is compared with the K-means algorithm. Keywords: digital image processing, remote sensing, unsupervised classification, artificial neural networks. 1. INTRODUO Desde o lanamento dos primeiros satlites voltados para a explorao de recursos terrestres, os mtodos digitais de classificao de imagens de sensoriamento remoto tm adquirido uma importncia crescente no reconhecimento automtico de padres da superfcie terrestre (RICHARDS et al., 2005). Atualmente a enorme quantidade de imagens que esto sendo coletadas por sistemas sensores cada vez mais modernos e sofisticados requer o desenvolvimento de metodologias de classificao inovadoras, as quais possibilitem uma explorao automtica e eficiente do grande volume de dados disponveis nas imagens e, ao mesmo tempo, tornem o processo de mapeamento de caractersticas da superfcie terrestre menos subjetivo e com maior potencial de repetio em situaes subseqentes. Na literatura existe uma grande variedade de propostas de algoritmos para a classificao de imagens de sensoriamento remoto. Diferentes tcnicas provenientes de diversas reas de pesquisa esto sendo utilizadas como base para o desenvolvimento desses algoritmos, entre elas: a estatstica (DEAN et al., 2003), redes neurais (GONALVES et al., 1996), mquinas de vetores-suporte (PAL et al., 2005), algoritmos genticos (ALIXANDRINI et al., 2002), lgica nebulosa (WANG, 1990) e rvores de deciso (HANSEN et al., 1996). Em sensoriamento remoto tradicionalmente as tcnicas de classificao de imagens so agrupadas em trs categorias gerais: supervisionada, nosupervisionada e hbrida (LILLESAND et al., 2000). Particularmente, a classificao no-supervisionada baseia-se no princpio de que o algoritmo computacional capaz de identificar por si s as classes dentro de um conjunto de dados. Esse tipo de classificao freqentemente realizado atravs de mtodos de agrupamentos (clustering). Embora exista uma grande quantidade de diferentes mtodos de agrupamentos na rea de reconhecimento de padres (XU et al., 2005), a maioria dos softwares ou sistemas computacionais voltados para o processamento digital de imagens de sensoriamento remoto realiza a classificao no-supervisionada baseada em mtodos de agrupamentos particionais, como o K-mdias e o ISODATA (BALL et al., 1967). Apesar de serem amplamente utilizados esses mtodos particionais de agrupamentos apresentam diversas limitaes. As funes objetivo usadas por eles partem do pressuposto de que o nmero de agrupamentos ou classes, K, conhecido a priori. Na hiptese de se ter escolhido um valor K inadequado o mtodo ir impor, pelo uso de tcnicas de otimizao, K agrupamentos aos dados. O usurio tambm deve especificar manualmente vrios parmetros para controlar o processo de agrupamento, entre eles: os centrides iniciais de cada agrupamento, o nmero mximo de iteraes, limiares para realizar a diviso, fuso ou excluso de agrupamentos. O K-mdias e o ISODATA so muito sensveis a esses parmetros, podendo gerar parties diferentes quando so feitas vrias simulaes para um mesmo conjunto de dados. Outras limitaes no menos importantes desses algoritmos particionais so: o alto custo computacional quando o conjunto de dados a ser analisado muito grande (a cada iterao todos os pixels da imagem so comparados com todos os centros de agrupamentos) e a existncia de suposies sobre a forma dos agrupamentos. Geralmente apenas um prottipo 2

Revista Brasileira de Cartografia No XX/YY, 2008. (ISSN 0560-4612)

(centride) utilizado para representar um agrupamento, portanto esses mtodos tornam-se adequados apenas para analisar agrupamentos que apresentam formatos hiperesfricos (GONALVES et al., 2005). Outra forma possvel, mas no usual, de realizar a classificao no-supervisionada de imagens de sensoriamento remoto atravs de mtodos hierrquicos de agrupamentos. Diferentemente dos mtodos particionais, os mtodos hierrquicos no exigem que o usurio especifique previamente o nmero de agrupamentos e outros parmetros adicionais. Outra vantagem significativa desses mtodos a de possibilitar a visualizao do resultado da classificao por meio de um dendrograma, que ilustra de forma hierrquica o grau de semelhana entre os agrupamentos que so formados por fuses (ou divises) em cada estgio sucessivo da anlise. Entretanto, os mtodos hierrquicos apresentam algumas caractersticas que inviabilizam a sua aplicao na classificao de imagens de sensoriamento remoto: (a) em geral requerem espao de memria de ordem O(N2), onde N o nmero de registros do conjunto de dados; (b) os resultados podem ser difceis de interpretar, principalmente para conjuntos de dados grandes; (c) para determinar qual a linha de corte do dendrograma h a necessidade de se aplicar algum critrio de deciso (DUDA et al., 2002). Conseqentemente, na literatura quase imperceptvel a existncia de trabalhos que aplicam mtodos hierrquicos de agrupamentos na anlise de imagens de sensoriamento remoto. Diante desse cenrio, o presente trabalho apresenta uma nova metodologia para a classificao no-supervisionada de imagens de sensoriamento remoto. Na metodologia proposta o Mapa Autoorganizvel de Kohonen (SOM Self-Organizing Map) utilizado para mapear os padres originais da imagem para uma grade de neurnios bidimensional. O objetivo quantizar e representar os padres da imagem em um espao de menor dimenso, buscando preservar a distribuio de probabilidade e a topologia dos mesmos. Posteriormente, um mtodo de agrupamento hierrquico aglomerativo aplicado sobre a grade de neurnios do SOM j treinado, gerando um dendrograma de neurnios agrupados com diferentes graus de similaridade. Cada nvel do dendrograma obtido corresponde a uma configurao diferente de agrupamentos de neurnios do SOM que pode ser utilizada para representar as classes sobre as quais a imagem original ser classificada. Alm de viabilizar a aplicao de um mtodo hierrquico, a idia de representar a imagem atravs dos neurnios de um SOM possibilita a descoberta de agrupamentos com geometrias complexas e variadas, tendo em vista que as classes da imagem so representadas por grupos de neurnios e no apenas por um nico prottipo. Alm disso, procurando explorar todas as propriedades do SOM e reduzir ainda mais o volume de processamento do processo de classificao, a metodologia proposta emprega um algoritmo de

agrupamento hierrquico com conectividade restrita e ndices de validao de agrupamentos calculados de maneira modificada para determinar o nmero ideal de classes da imagem. Buscando garantir ainda uma maior eficincia no processo de classificao, o mtodo proposto extrai as informaes da imagem por meio de janelas de pixels, a fim de incorporar informaes de contexto. Seguindo essa abordagem, antes de se aplicar o algoritmo de agrupamento hierrquico o mtodo filtra prottipos heterogneos do SOM, os quais representam padres (janelas de pixels) correspondentes a regies de transio entre diferentes classes de cobertura terrestre. Os padres originais associados a esses prottipos heterogneos so classificados de forma particular somente no final do processo, considerando as classes dos pixels vizinhos que j foram rotulados. O restante do artigo est organizado da seguinte forma: a seo 2 descreve sucintamente o SOM, a seo 3 apresenta uma breve explanao sobre mtodos de agrupamentos hierrquicos aglomerativos, enquanto a seo 4 apresenta a metodologia de classificao proposta. Resultados experimentais mostrando uma comparao do mtodo proposto com o algoritmo K-mdias so mostrados na seo 5, e a seo 6 apresenta as concluses e consideraes finais. 2. MAPA AUTO-ORGANIZVEL DE KOHONEN O Mapa Auto-organizvel de Kohonen (SOM Self-Organizing Map) um tipo de rede neural artificial baseada em aprendizado competitivo e nosupervisionado, i.e., nenhuma informao sobre as classes dos sinais de entrada utilizada no processo de ajuste dos pesos sinpticos da rede (KOHONEN, 1997). A rede consiste essencialmente de duas camadas: uma camada de entrada I e uma camada de sada U com neurnios geralmente dispostos em um arranjo topolgico bidimensional. A entrada da rede corresponde a um vetor p-dimensional, x, geralmente no p espao . Todas as p componentes do vetor de entrada alimentam cada um dos neurnios do mapa. Cada neurnio i pode ser representado por um vetor de pesos sinpticos wi = [wi1, wi2,..., wip]T, tambm no espao pdimensional. Para cada padro de entrada x um neurnio escolhido o vencedor, c, usando o critrio de maior similaridade:
i

||x wc|| = min{||x wi||}


i

(1)

onde ||.|| representa a distncia Euclidiana. Os pesos do neurnio vencedor, juntamente com os pesos dos seus neurnios vizinhos, so ajustados de acordo com a seguinte equao: wi(t +1) = wi(t) + hci(t)[x(t) - wi(t)] (2)

onde t indica a iterao do processo de treinamento, x(t) o padro de entrada e hci(t) o ncleo de vizinhana ao redor do neurnio vencedor c. Este ltimo termo 3

Revista Brasileira de Cartografia No XX/YY, 2008. (ISSN 0560-4612)

uma funo decrescente com o tempo e com a distncia do neurnio i ao neurnio vencedor c, e geralmente corresponde ao produto de duas componentes: a taxa de aprendizado (t) e a funo de vizinhana h(d,t): hci(t) = (t)h(||rc ri||,t) (3)

onde ri e rc so, respectivamente, as posies do neurnio i e do neurnio vencedor no arranjo topolgico da rede. Uma propriedade importante do SOM, derivada da quantizao vetorial gerada pelo algoritmo, a de aproximar o espao de entrada buscando preservar a ordenao topolgica e a densidade dos dados. Isso possibilita obter informaes dos agrupamentos de dados originais analisando as relaes geomtricas dos neurnios do mapa treinado (HAYKIN, 1999). 3. MTODOS DE AGRUPAMENTOS HIERRQUICOS AGLOMERATIVOS Mais comuns dentre os mtodos de agrupamentos hierrquicos, as tcnicas aglomerativas iniciam a anlise dos dados considerando a existncia de N agrupamentos, cada um deles contendo exatamente um nico objeto do conjunto de dados. Sucessivas operaes de fuso entre os agrupamentos so ento efetuadas at que exista um nico agrupamento contendo todos os N objetos. Os passos de um mtodo hierrquico aglomerativo podem ser descritos da seguinte forma: 1. 2. Inicie com N agrupamentos C1, C2,...,CN cada um contento exatamente um nico objeto. Determine o par de agrupamentos distintos (Ci,Cj), de modo que: D(Ci,Cj) =
1 m, l N m l

dendrograma hierarquiza o grau de semelhana entre os agrupamentos tornando possvel obter uma viso bidimensional da similaridade ou dissimilaridade de todos os dados. Esta propriedade facilita a comparao de diferentes configuraes de agrupamentos para um mesmo conjunto de dados. Entretanto, para se determinar o nvel apropriado do dendrograma ou o nmero ideal de agrupamentos algum critrio de deciso deve ser empregado. 4. METODOLOGIA PROPOSTA A metodologia proposta neste trabalho essencialmente busca explorar em conjunto as propriedades do SOM e dos mtodos de agrupamentos hierrquicos aglomerativos para realizar a classificao no-supervisionada de imagens de sensoriamento remoto. A Fig. 1 ilustra de maneira simplificada o mtodo proposto e a seguir so apresentadas as suas etapas principais: 1. Amostragem: amostras na forma de janelas de pixels so coletadas de maneira uniforme sobre toda a regio da imagem e fornecidas como padres de entrada para o SOM. Treinamento do SOM: o treinamento nosupervisionado do SOM realizado e um mapa de caractersticas da imagem composto pelos neurnios da rede (prottipos) obtido. Filtragem de prottipos: os prottipos do SOM que apresentam atividade nula so descartados e aqueles que apresentam alto grau de heterogeneidade espectral (prottipos heterogneos) so excludos do prximo passo. Anlise hierrquica aglomerativa: um mtodo de agrupamento hierrquico aglomerativo com restries de conectividade aplicado sobre os prottipos do SOM j filtrado, gerando um dendrograma do mapa. Avaliao dos agrupamentos: um ndice de validao de agrupamentos calculado de forma modificada aplicado em todos os nveis do dendrograma obtido no passo 4 para determinar o nmero ideal de agrupamentos. Classificao do SOM: os prottipos do SOM so rotulados de acordo com as classes de prottipos determinadas no passo 5. Classificao da imagem: os prottipos do SOM rotulados no passo 6 em conjunto com os prottipos heterogneos (filtrados no passo 3) so utilizados como referncia para classificar todos os pixels da imagem. Refinamento: cada um dos pixels da imagem que foram associados a algum prottipo heterogneo reclassificado utilizando a classe do pixel vizinho que apresenta a menor distncia (espectral) a ele.

2.

3.

4.

min

D(Cm,Cl)

(4) 5.

3. 4. 5.

onde D(*,*) uma funo de distncia. Forma-se um novo agrupamento Ck pela unio dos agrupamentos Ci e Cj, i.e., Ck = Ci Cj. Calculam-se as novas distncias, D(Ck,Cl), entre o novo agrupamento Ck e todos os outros restantes. Repita os passos 2, 3 e 4 at que todos os objetos estejam em um nico agrupamento.

6. 7.

Existem diversas variantes de mtodos hierrquicos aglomerativos baseadas em diferentes formas de calcular a distncia D(*,*) entre o agrupamento formado (Ck) e todos os outros agrupamentos. Os mtodos de agrupamentos hierrquicos aglomerativos mais simples e populares so o mtodo de Ligaes Simples (ou de vizinhos mais prximos) e o de Ligaes Completas (XU et al., 2005). Os resultados de um mtodo hierrquico aglomerativo so usualmente descritos por um diagrama de similaridade, chamado de dendrograma. O

8.

Nas prximas subsees cada um dos passos da metodologia proposta explicado com maiores detalhes.

Revista Brasileira de Cartografia No XX/YY, 2008. (ISSN 0560-4612)

Imagem de entrada

Imagem classificada

SOM

Mapa de Caractersticas rotulado

amostrais que incorporem mais de uma classe, o mtodo proposto (atravs dos passos 3 e 8) trata de maneira diferenciada os prottipos do SOM que representam essas janelas heterogneas. Alm disso, prottipos que possuem mais de uma classe podem funcionar como bordas no mapa de caractersticas do SOM contribuindo para a separao dos agrupamentos. 4.2 Treinamento do SOM

Mapa de Caractersticas da Imagem

Avaliao dos agrupamentos

Filtragem de Prottipos

Mtodo Hierrquico Aglomerativo

Fig. 1 Ilustrao da metodologia de classificao. 4.1 Amostragem O passo 1 da metodologia proposta consiste em coletar um conjunto de amostras da imagem para realizar o treinamento do SOM. Diferentemente de abordagens pixel a pixel que utilizam apenas a informao espectral de pontos individuais para encontrar regies homogneas, o presente trabalho realiza a amostragem da imagem atravs de janelas de pixels. A idia incorporar no processo de classificao informaes de vizinhana (contexto), tendo em vista que pixels isolados no so capazes de representar a maioria dos padres de cobertura terrestre, especialmente no caso de imagens que apresentam resolues espaciais mais altas. Embora a estratgia de utilizar informaes de pixels vizinhos apresente um maior custo computacional do que uma abordagem pixel a pixel, na literatura vrios trabalhos tm mostrado que esse esforo justificado por um aumento proporcional na acurcia da classificao (MAGNUSSEN et al., 2004). Outros dois pontos importantes relacionados com o processo de amostragem so a forma de extrao das janelas amostrais e o tamanho das mesmas. As janelas amostrais so coletadas de maneira uniforme sobre toda a regio da imagem, sem sobreposies e em intervalos regulares (de no mximo 10 pixels). Todas as amostras so quadradas e possuem o mesmo tamanho. A determinao do tamanho das amostras no uma tarefa simples de ser automatizada. Dependendo das caractersticas da imagem a ser classificada, janelas muito pequenas podem no capturar o padro particular das classes, enquanto janelas maiores podem incluir pixels de mais do que uma classe. No entanto, partindo de um tamanho no inferior a 5x5, o usurio possui dentro da metodologia proposta um certo grau de flexibilidade para definir a dimenso das janelas amostrais, no sendo portanto essa tarefa um ponto crtico do processo. Caso sejam capturadas janelas

Para realizar o treinamento do SOM necessrio especificar alguns parmetros que definem a estrutura do mapa e que controlam o treinamento propriamente dito. Com o objetivo de garantir um bom mapeamento dos padres originais, a metodologia proposta define de modo particular os parmetros da rede baseando-se na literatura existente, em testes experimentais e em algumas peculiaridades da aplicao do SOM em imagens de sensores remotos. Todavia, alternativas tambm podem ser buscadas para se obter bons mapas. Uma boa reviso sobre os parmetros de treinamento do SOM pode ser obtida em COSTA, (1999). A metodologia proposta utiliza os seguintes parmetros para realizar o treinamento da rede: Inicializao dos pesos: linear Apresentao dos padres: em lote Nmero de pocas de treinamento: 500 Tipo de funo de vizinhana: gaussiana Formato do arranjo: retangular.

O tamanho do mapa um dos parmetros livres do SOM que depende particularmente da imagem de entrada. O principal propsito para escolher um tamanho apropriado para o SOM realizar um bom mapeamento dos padres da imagem no arranjo topolgico de neurnios. Contudo, o desempenho da metodologia de classificao proposta no significativamente afetado se tamanhos suficientemente grandes para o SOM forem utilizados. Embora mapas com dimenses maiores do que a necessria apresentem uma quantidade maior de neurnios inativos, i.e., neurnios que no possuem nenhum padro de entrada associado a eles, este evento no prejudicial dentro da metodologia proposta. Assim como o mtodo trata de maneira adequada prottipos heterogneos, o mesmo acontece com os prottipos inativos. No final da etapa de treinamento do SOM temse, portanto, um conjunto de prottipos (neurnios) que representam todos os padres de entrada coletados a partir da imagem original. 4.2.1 Mapa de Caractersticas da Imagem A metodologia proposta possui uma particularidade em relao ao mapeamento da imagem atravs do SOM que deve ser destacada. Uma vez que os neurnios do SOM so dispostos espacialmente na forma de uma grade retangular, e considerando ainda 5

Revista Brasileira de Cartografia No XX/YY, 2008. (ISSN 0560-4612)

que nesta rede neural os vetores de pesos de cada neurnio possuem as mesmas dimenses que os padres de entrada (que neste caso so janelas de pixels), tornase possvel gerar uma imagem da grade de neurnios do mapa. Conforme mostra a Fig. 2, os neurnios ou prottipos do SOM (atravs dos seus vetores de pesos sinpticos) correspondem a janelas de pixels, o que permite a visualizao dos mesmos na forma de uma imagem. Essa representao visual da grade de neurnios do SOM, aps o seu treinamento no supervisionado, foi denominada aqui de Mapa de Caractersticas da Imagem (MCI).
Imagem de entrada janelas de pixels SOM entradas neurnios

agrupamento hierrquico. Essa excluso realizada com o objetivo de no permitir que esses prottipos e, conseqentemente, os padres associados a eles sejam atribudos erroneamente a uma das classes que os compe. Os prottipos heterogneos so reincorporados apenas nos procedimentos adotados nos passos 7 e 8 do mtodo proposto. Para medir o grau de heterogeneidade de cada prottipo aplicado um ndice, denominado aqui de ndice de Heterogeneidade Espectral (IHE), definido da seguinte forma:
IHE = 1 M
M

CVi
i =1

(5)

grade retangular

cada neurnio corresponde a uma janela de pixels

Imagem da grade (MCI)

onde M o nmero de bandas espectrais da imagem consideradas na anlise e CVi o coeficiente de variao (disperso relativa) dos nveis de cinza de todos os pixels na banda espectral i do prottipo. Os prottipos cujos IHEs satisfazem a relao dada abaixo so considerados heterogneos e, conseqentemente, sero filtrados: 1 IHE > IHE + IHE , (6) 2
IHE e IHE so, respectivamente, a mdia e o desvio padro dos IHEs de todos os prottipos. O tempo de processamento consumido por esta etapa de filtragem de prottipos compensado no apenas pela reduo do nmero de prottipos que sero analisados no passo 4 do mtodo, mas principalmente por um possvel aumento na preciso de classificao da imagem. Prottipos inativos e heterogneos podem funcionar como unidades de interpolao no mapa de neurnios facilitando a separao das classes de agrupamentos.

Fig. 2 Ilustrao do processo de construo do Mapa de Caractersticas da Imagem. Conforme ser experimentais (seo 5), visualizar o mapeamento entrada realizado pelo propriedades. apresentado nos resultados atravs do MCI possvel dos padres da imagem de SOM e suas respectivas

4.3 Filtragem de prottipos O passo 3 da metodologia proposta consiste em filtrar dois tipos de prottipos que geralmente aparecem no mapeamento dos padres da imagem atravs do SOM. Esses prottipos so chamados aqui de inativos e heterogneos. Os prottipos inativos correspondem queles neurnios que apresentam atividade nula no processo de aprendizado competitivo do SOM, e por isso no possuem nenhum padro de entrada associado a eles. Esses prottipos so simplesmente descartados do processo no passando para as prximas etapas da anlise. Os prottipos heterogneos so aqueles que apresentam alto grau de heterogeneidade espectral e esto associados normalmente a padres de entrada que possuem mais do que uma classe de cobertura terrestre. Na maioria das vezes esses padres correspondem a regies de transio entre classes de cobertura terrestre presentes na imagem e so capturados em decorrncia da amostragem realizada por janelas de pixels. Os prottipos considerados heterogneos so excludos do passo 4 da anlise, onde aplicado o mtodo de

4.4 Anlise Hierrquica Aglomerativa No quarto passo da metodologia proposta, um mtodo de agrupamento hierrquico aglomerativo aplicado sobre o conjunto de prottipos do SOM j treinado e filtrado. O objetivo desse passo agrupar prottipos e conjuntos de prottipos em diferentes nveis de similaridade buscando descobrir a estrutura (ou classes) dos mesmos. O mtodo de Ligaes Simples (ou dos vizinhos mais prximos) foi utilizado nesta abordagem, porm outros mtodos hierrquicos podem ser empregados. Uma caracterstica importante da estratgia de anlise hierrquica apresentada neste trabalho a imposio de restries s possveis fuses dos prottipos do SOM. Um algoritmo hierrquico aglomerativo uma vez aplicado sobre os agrupamentos de neurnios do SOM deve respeitar as relaes topolgicas do espao de sada da rede. Diferentemente da abordagem tradicional de mtodos de agrupamentos hierrquicos, que consiste em comparar todos os pares de objetos ou grupos de objetos para decidir sobre uma fuso, a abordagem utilizada neste trabalho verifica a

Revista Brasileira de Cartografia No XX/YY, 2008. (ISSN 0560-4612)

possibilidade de efetuar fuses somente entre pares de neurnios ou grupos de neurnios que sejam adjacentes (ou vizinhos) na grade do SOM. No final desta etapa tem-se um dendrograma que mostra de maneira hierrquica a relao de semelhana entre os prottipos e agrupamentos de prottipos do SOM. Lembrando que os prottipos do SOM representam todos os padres de entrada, o dendrograma gerado reflete, portanto, as relaes existentes entre os dados e agrupamentos de dados da imagem original, podendo ser visto ento como um dendrograma simplificado da imagem. 4.5 Avaliao dos agrupamentos Em cada nvel do dendrograma obtido no passo anterior h uma configurao diferente de agrupamentos para os prottipos do SOM, e conseqentemente, para o conjunto de dados da imagem. Portanto, como em qualquer mtodo de agrupamento hierrquico, h a necessidade de se aplicar algum critrio para verificar qual nvel do dendrograma representa a configurao ideal de agrupamentos (ou o nmero ideal de classes). Uma sada usual a aplicao de ndices de validao de agrupamentos que incorporem medidas de disperso intra e inter-agrupamentos (MAULIK et al., 2002). A estratgia consiste em aplicar o ndice de validao em todos os nveis do dendrograma e escolher aquele nvel em que o ndice apresenta o valor timo dentre todos os valores obtidos. Entretanto, deve-se observar que a implementao da maioria dos ndices de validao de agrupamentos exige um alto custo computacional. Devido a isso, quando o nmero de agrupamentos e o volume do conjunto de dados so muito grandes a utilizao desses ndices torna-se proibitiva. As imagens de sensoriamento remoto so um exemplo tpico. Conforme descrito em JI (2003), ndices de validao so freqentemente ignorados em aplicaes de sensoriamento remoto e por isso no esto disponveis na maioria dos pacotes de processamento de imagens. No entanto, como na metodologia proposta o dendrograma obtido no passo anterior no construdo em funo dos padres originais da imagem, e sim, por um pequeno conjunto de neurnios do SOM que os representam, a aplicao de um ndice de validao de agrupamentos em cada nvel do dendrograma se torna vivel, pois a quantidade de dados a ser avaliada neste caso bem inferior a do conjunto de padres extrados diretamente da imagem. Embora o SOM realize uma boa aproximao para o espao de entrada, certo que a estratgia de aplicar um ndice de validao sobre os prottipos da rede, ao invs de aplic-lo diretamente sobre os padres originais da imagem, poder causar alguma diferena numrica nos resultados. Para diminuir possveis erros de aproximao, o mtodo proposto modifica a forma de calcular os ndices de validao. Os ndices so calculados utilizando no apenas os vetores de pesos

dos prottipos do SOM, mas tambm o nvel de atividade de cada um deles. O nvel de atividade de um prottipo igual ao nmero de padres de entrada que esto associados a ele pelo processo de mapeamento do SOM. Para exemplificar a modificao aplicada nos clculos dos ndices considere a frmula descrita na equao (7). Esta frmula e variantes da mesma so comumente utilizadas em alguns ndices de validao de agrupamentos para calcular a distncia (ij) entre dois agrupamentos de dados Ci e Cj (BEZDEK et al., 1998).

ij =

1 Ci C j

d( x, y )
xCi , yC j

(7)

Na frmula acima, d(*,*) uma medida de distncia, e |Ci| e |Cj| representam o nmero de pontos nos agrupamentos de dados Ci e Cj, respectivamente. Como se pode notar, ij determinada basicamente atravs dos clculos das distncias entre todos os pares de pontos x e y pertencentes aos agrupamentos de dados Ci e Cj. Se |Ci| e |Cj| so muito grandes o clculo de ij torna-se custoso demais. Aplicando a estratgia apresentada aqui, o clculo da distncia entre os agrupamentos Ci e Cj, equivalente ao apresentado na equao (7), fica formulado da seguinte maneira:

ijSOM =

1 Ci C j

h ( wi ) h ( w j ) d ( wi , w j )
wi W i , w j W j

(8)

onde Wi e Wj referem-se a quantidade de prottipos dos mesmos, d(*,*) a mesma medida de distncia usada na equao (7), h(wi) o nvel de atividade do prottipo wi pertencente a Wi e h(wj) o nvel de atividade do prottipo wj pertencente a Wj. Enquanto ij se baseia nas distncias entre SOM todos os pares de pontos pertencentes a Ci e Cj, ij se baseia nas distncias apenas entre os pares de pontos SOM pertencentes a Wi e Wj. Logo, nota-se que ij um clculo aproximado de ij, porm com um custo bem menor de processamento, pois as quantidades |Wi| e |Wj| geralmente so bem menores que |Ci| e |Cj|. A incluso dos nveis de atividade h(.) dos prottipos no clculo de SOM ij ajuda a diminuir o efeito dos erros de quantizao decorrentes do mapeamento realizado pelo SOM. Um outro ponto importante desta etapa do mtodo proposto a escolha do ndice de validao que ser aplicado de forma modificada em todos os nveis do dendrograma. Na metodologia proposta neste trabalho foi aplicado o ndice de validao CDbw (Composing Density Between and Within Clusters) proposto em HALKIDI et al. (2002). Alm de se basear em dois conceitos importantes, a densidade intraagrupamento e a separao entre os agrupamentos, este 7

Revista Brasileira de Cartografia No XX/YY, 2008. (ISSN 0560-4612)

ndice foi escolhido por apresentar caractersticas que o tornam capaz de avaliar de maneira adequada agrupamentos de dados que tenham formatos arbitrrios e complexos, o que no acontece com a maioria dos outros ndices de validao existentes na literatura. 4.6 Classificao do SOM Uma vez definido o nvel do dendrograma que apresenta a melhor configurao de agrupamentos para os prottipos do SOM e, portanto, para os padres da imagem, o passo 6 do mtodo proposto consiste apenas em rotular esses prottipos. Os prottipos pertencentes a um mesmo agrupamento recebem um rtulo particular e correspondem a uma determinada classe de cobertura terrestre presente na imagem. De acordo com a metodologia proposta, cada classe de cobertura terrestre descoberta ser representada ento por um grupo de prottipos do SOM e no apenas por um prottipo individual. 4.7 Classificao da Imagem Para realizar a classificao da imagem, os prottipos heterogneos que foram filtrados no passo 4 so agora reincorporados e considerados tambm como uma classe. Para isso, todos eles recebem um mesmo rtulo, que obviamente deve ser diferente daqueles usados para rotular as outras classes de prottipos no passo anterior. Janelas de pixels da imagem com dimenses iguais a das amostras de treinamento so comparadas com todos os prottipos do SOM. Essa comparao realizada atravs das distncias calculadas entre a janela de pixels considerada e cada um dos prottipos. O pixel central da janela de pixels recebe o rtulo do prottipo que apresenta a menor distncia a ela. A imagem ento inteiramente percorrida at que todos os pixels sejam classificados dessa forma. 4.8 Refinamento No ltimo passo do mtodo proposto, o resultado do processo de classificao realizado na etapa anterior aprimorado. Os pixels da imagem que receberam o rtulo da classe de prottipos heterogneos so reclassificados. Cada um desses pixels comparado com os seus pixels vizinhos na imagem que no foram rotulados pela classe de prottipos heterogneos. Eles recebem um novo rtulo que ser igual ao do vizinho que apresenta a distncia mnima a ele em termos de atributos espectrais. 5. RESULTADOS EXPERIMENTAIS Esta seo apresenta um exemplo de aplicao da metodologia proposta sobre uma imagem teste. Os resultados so comparados com aqueles obtidos a partir da aplicao do algoritmo K-mdias sobre a mesma imagem.

Todos os experimentos apresentados nesta seo foram realizados em uma mquina com processador AMD Athlon XP 2600+ 1,91GHZ e 1GB de memria RAM. A Fig. 3 mostra uma composio colorida da imagem utilizada nos testes. A imagem composta pelas bandas espectrais 3, 4 e 5 do satlite Landsat-5 (TM), possui 496x512 pixels e mostra a cidade de Manaus e o encontro dos Rios Negro e Solimes. A cena apresenta 4 grandes classes de cobertura terrestre: rea urbana, vegetao e dois padres de gua (um mais escuro correspondente ao Rio Negro e outro de cor mais arroxeada correspondente ao Rio Solimes). Pequenas reas com vegetao rala ou desmatada tambm aparecem na cena, mas com uma densidade muito baixa. Esta imagem foi cedida pelo Instituto Nacional de Pesquisas Espaciais (INPE).

Fig. 3 Composio colorida da imagem teste. Aplicando a metodologia proposta foi realizado inicialmente o processo de amostragem da cena. Janelas amostrais de tamanho 5x5 foram coletadas de maneira uniforme sobre toda a regio da imagem, sem sobreposies e em intervalos regulares de 10 pixels, totalizando cerca de 2500 amostras obtidas sem a interveno do usurio. Um SOM composto de 100 neurnios dispostos em uma grade retangular de dimenso 10x10 foi treinado com todas as amostras coletadas anteriormente. Os demais parmetros do SOM foram definidos de acordo com as especificaes apresentadas na seo 4.2. A Fig. 4 ilustra o MCI obtido aps o treinamento do SOM. Conforme descrito na seo 4.2.1, o MCI uma imagem gerada a partir da grade de neurnios do SOM j treinado.

Fig. 4 MCI obtido aps o treinamento do SOM.

Revista Brasileira de Cartografia No XX/YY, 2008. (ISSN 0560-4612)

Cada pequeno quadrado no MCI corresponde imagem de um prottipo (ou neurnio) do SOM. Atravs deles possvel visualizar as propriedades do mapeamento realizado pela rede neural. As quatro grandes classes de cobertura terrestre presentes na imagem original aparecem em forma de agrupamentos no MCI. No canto superior esquerdo se encontram os prottipos correspondentes ao padro de gua mais escuro, no canto superior direito esto presentes os prottipos referentes outra classe de gua (mais arroxeada), no canto inferior direito (em rosa) se encontra aqueles que correspondem rea urbana, e do canto inferior esquerdo ao centro do MCI esto os prottipos associados classe vegetao. Se observarmos a imagem original, verifica-se que a classe vegetao aquela que apresenta a maior rea de ocupao na cena. Sendo assim, como o SOM reflete a distribuio de probabilidade dos dados de entrada, os prottipos associados classe vegetao (em verde no MCI) se apresentam em maior nmero do que os prottipos das outras classes. A propriedade de ordenao topolgica do SOM tambm pode ser notada. Os prottipos das duas classes de gua presentes na imagem original aparecem prximos um dos outros na parte superior do MCI, isto porque os dados de entrada correspondentes a essas duas classes possuem uma maior similaridade espectral em comparao com os atributos espectrais das outras duas classes de cobertura. Aps o treinamento do SOM, a prxima etapa a ser executada a filtragem dos prottipos inativos e heterogneos. A Fig. 5a mostra o nvel de ativao de cada um dos prottipos do SOM, i.e., o nmero de padres de entrada (amostras) que esto associados a cada um deles atravs do mapeamento efetuado pelo SOM. Observa-se que os prottipos localizados nas posies da grade (1,5), (3,2), (4,8) e (6,10) apresentam nveis de ativao nulos e, portanto, no possuem nenhum padro de entrada associado a eles. De acordo com o mtodo proposto, esses prottipos so simplesmente descartados do processo no passando para as prximas etapas da anlise. A Fig. 5b apresenta os valores (em percentagem) dos IHEs de cada prottipo. Conforme apresentado na seo 4.3, o IHE mede o grau de heterogeneidade espectral dos prottipos do SOM. Os prottipos com IHEs cujos valores satisfazem o critrio dado em (6) so considerados heterogneos e devem ser filtrados. Desse modo, como os valores obtidos nesse experimento para a mdia ( IHE ) e para o desviopadro ( IHE ) dos IHEs foram, respectivamente, 11.89 e 8.93, os prottipos que apresentam valores de IHEs acima de 16.35 (limiar obtido de acordo com o critrio dado em (6)) so ento considerados heterogneos e por isso so filtrados. Esses prottipos (marcados em negrito na Fig. 5b) sero reconsiderados somente nos dois ltimos passos da metodologia de classificao. Sendo assim, do total de 100 prottipos do SOM, 25 deles (entre inativos e heterogneos) foram filtrados, restando 75 prottipos para serem analisados nas duas prximas etapas.

(a)

(b)

Fig. 5 (a) Nveis de ativao dos prottipos do SOM (prottipos com nveis de ativao nulos esto marcados em negrito). (b) Valores dos IHEs dos prottipos do SOM (prottipos considerados heterogneos esto marcados em negrito). De acordo com o mtodo proposto, a etapa seguinte consiste em aplicar o mtodo hierrquico aglomerativo sobre os prottipos do SOM filtrado. Conforme descrito na seo 4.4, o mtodo das Ligaes Simples utilizado nesta abordagem e as fuses entre os prottipos (ou grupos de prottipos) so efetuadas respeitando a vizinhana topolgica dos mesmos na grade retangular do SOM. O dendrograma possui 75 nveis, cada um deles apresentando uma configurao diferente de agrupamentos de prottipos do SOM que, por conseguinte, produz uma classificao diferente para a imagem original. Alm de possibilitar a classificao da imagem em diferentes nveis de agrupamentos, o dendrograma obtido permite que o usurio analise de maneira particular cada uma das unies realizadas entre os prottipos ou grupos de prottipos, e tambm a hierarquia das mesmas. Se ressaltarmos ainda que no mtodo proposto o usurio pode visualizar a imagem de cada prottipo do SOM atravs do MCI, a anlise do dendrograma se torna muito mais clara e eficiente, facilitando a compreenso das relaes existentes entre os diferentes padres presentes na imagem. importante observar que esse tipo de anlise somente possvel devido ao mapeamento realizado pelo SOM. A rede neural resume os padres originais da imagem por meio de um pequeno conjunto de prottipos viabilizando assim a construo de um dendrograma simplificado. Se porventura o SOM no fosse utilizado para representar os dados de entrada, a construo do dendrograma ou a interpretao do mesmo se tornaria impraticvel, pois o mesmo teria 2500 nveis de agrupamentos caso fossem consideradas todas as amostras coletadas da imagem. Dando continuidade na execuo das etapas do mtodo proposto, o ndice de validao de agrupamentos CDbw, calculado de forma modificada, aplicado em todos os nveis do dendrograma para determinar qual a configurao de agrupamentos ideal dentre as 75 obtidas. Com o objetivo de comparar as duas formas de clculo, a Fig. 6 mostra os valores do ndice de validao em suas verses modificada e original. O grfico apresenta somente os valores entre os nveis 61 e 74 do dendrograma. Para os nveis

Revista Brasileira de Cartografia No XX/YY, 2008. (ISSN 0560-4612)

inferiores a 61 os valores do ndice so menores do que aqueles apresentados no grfico, ou at mesmo nulos, devido existncia de nveis que possuem agrupamentos com apenas um nico prottipo O nmero de agrupamentos ou de classes do nvel 61 ao 74 decresce, respectivamente, de 15 at 2.

gua 1 gua 2 vegetao rea urbana filtrados Fig. 7 MCI classificado de acordo com a melhor configurao de agrupamentos do dendrograma. Terminada a etapa de classificao dos prottipos do SOM, os dois ltimos passos do mtodo concentram-se na classificao de todos os pontos da imagem original. Para isso, os prottipos heterogneos (filtrados anteriormente) voltam a ser incorporados no processo e considerados tambm como uma classe. Deste modo, no penltimo passo do mtodo proposto, 5 classes de prottipos do SOM so utilizadas como referncia para realizar a classificao da imagem, as 4 classes do nvel escolhido no dendrograma (apresentadas na Fig. 7) e a classe dos prottipos heterogneos. A imagem percorrida inteiramente considerando janelas de pixels com dimenses 5x5 (iguais aos das janelas amostrais) e comparado-as com todos os prottipos do SOM. O pixel central da janela de pixels recebe o rtulo do prottipo que apresenta a menor distncia a ela. Por fim, a ltima etapa do mtodo, denominada aqui de refinamento, aplicada. Um total de 26585 pixels da imagem foi associado classe de prottipos heterogneos. Esses pixels so reclassificados e recebem um novo rtulo, igual ao do pixel vizinho que apresenta a menor distncia a ele (em termos de atributos espectrais). A Fig. 8 mostra o resultado da classificao da imagem original pela metodologia proposta (as 4 classes so representadas pelas mesmas cores utilizadas na Fig. 7).

Fig. 6 Valores do ndice CDbw nas suas formas modificada e original. Como esperado, a estratgia de modificar a computao de ndices de validao de agrupamentos (descrita na seo 4.5) apresenta erros de aproximao, porm a variao dos valores semelhante ao da verso original, no comprometendo a tomada de deciso sobre o nmero de agrupamentos ideal dos dados. A vantagem principal em usar a verso modificada do ndice est no seu tempo de processamento. Neste experimento, enquanto o tempo gasto para calcular o ndice CDbw na forma original (para todo o dendrograma) foi de 784 segundos, a verso modificada exigiu apenas 32 segundos. importante observar que esta diferena significativa ocorre devido ao volume de dados considerados por cada uma das formas de clculo do ndice. O clculo do ndice CDbw na sua forma original foi executado em cada nvel do dendrograma considerando as 2500 amostras coletadas da imagem, enquanto o clculo da verso modificada considera apenas os 100 prottipos do SOM e os seus respectivos nveis de ativao. Para o ndice CDbw, quanto maior o seu valor melhor a configurao de agrupamentos avaliada. Sendo assim, dentre todos os nveis do dendrograma obtido neste experimento o nvel 72 aquele que apresenta o maior valor para o ndice (conforme mostra o grfico da Fig. 6), e portanto, o melhor conjunto de agrupamentos para os prottipos do SOM. A Fig. 7 mostra o MCI classificado de acordo com as classes de agrupamentos do nvel 72. Comparando com a imagem do MCI na Fig. 4, nota-se que os prottipos do SOM so agrupados em 4 classes, correspondendo adequadamente s 4 grandes classes de cobertura terrestre presentes na imagem. Os quadrados marcados com um X no MCI classificado so os prottipos descartados na etapa de filtragem do mtodo proposto. interessante notar que tais prottipos funcionam como unidades de interpolao e certamente contriburam para o processo de separao da maioria das classes.

Fig. 8 Resultado da classificao da imagem teste pela metodologia de classificao proposta. Portanto, de acordo com a metodologia proposta, a imagem teste foi classificada em 4 classes, as quais correspondem aos 4 padres de cobertura terrestre de maior predominncia na cena. Algumas pequenas reas de vegetao rala ou desmatada presentes na imagem foram classificadas como rea

Revista Brasileira de Cartografia No XX/YY, 2008. (ISSN 0560-4612)

10

urbana, por serem espectralmente muito semelhantes aos padres dessa classe e por se apresentarem com baixa densidade em comparao com os outros padres de cobertura. A Fig. 9 mostra o resultado da classificao da imagem teste pelo algoritmo K-mdias considerando o nmero de classes igual a 4. O algoritmo foi executado usando cinco inicializaes diferentes para os centrides de cada uma das classes e um nmero mximo de iteraes igual a 100.

supervisionado e considera os resultados da mesma como referncia (ou verdade). A classificao supervisionada, considerando as 4 classes predominantes na imagem, foi feita atravs de uma Rede Neural de Perceptrons Multicamadas com o algoritmo de treinamento Backpropagation. Essa classe de redes neurais tem sido amplamente empregada para realizar a classificao supervisionada de imagens de sensoriamento remoto (GONALVES, 1997). A matriz de confuso e o ndice de concordncia Kappa foram calculados a partir da comparao entre a imagem classificada pelo mtodo proposto e a imagem referncia (resultante da classificao supervisionada). Analisando a matriz de confuso apresentada na Tabela 1 e considerando que o valor alcanado para o ndice de concordncia Kappa foi igual a 0.96, podemos considerar que o resultado da classificao da imagem teste pelo mtodo apresentado neste trabalho foi bastante satisfatria. TABELA 1 MATRIZ DE CONFUSO DAS CLASSES PARA A IMAGEM CLASSIFICADA PELO MTODO PROPOSTO (%). Classes gua1 agua2 veg. urbana Total gua1 96.43 0.40 0.34 0.20 16.64 gua2 0.61 99.35 0.04 0.09 15.19 veg. 2.89 0.02 98.89 6.73 53.29 urbana 0.06 0.23 0.73 92.98 14.88 Total 100 100 100 100 100 Por fim, a Tabela 2 mostra o tempo de processamento consumido (em segundos) neste experimento por cada uma das etapas da metodologia de classificao proposta. TABELA 2 TEMPO CONSUMIDO PELO MTODO DE CLASSIFICAO PROPOSTO. Etapas do mtodo Tempo consumido Amostragem 10 Treinamento do SOM 40 Filtragem de prottipos 2 Anlise hierrquica 0.5 Avaliao 32 Classificao do SOM 0.4 Classificao da imagem 66 Refinamento 4 Total 154.9 O tempo total gasto pelo mtodo para realizar a classificao da imagem foi de aproximadamente 155 segundos. O treinamento do SOM, a avaliao dos agrupamentos e a classificao final da imagem foram as etapas que consumiram mais tempo de processamento. J o tempo consumido pelo algoritmo Kmdias na classificao da mesma imagem (considerando k igual a 4) foi de aproximadamente 93 segundos, realizando cinco inicializaes diferentes para os centrides das classes (como feito nos experimentos).

Fig. 9 Resultado da classificao da imagem teste pelo algoritmo K-mdias considerando k=4. Diferentemente do mtodo proposto, o algoritmo K-mdias no discriminou um dos padres de gua predominantes na imagem e classificou as reas de vegetao da cena em duas outras categorias. O algoritmo tambm confundiu reas de vegetao rala ou desmatada com padres de rea urbana, porm de forma bem mais acentuada que o mtodo proposto aqui. Os dois padres de gua existentes na imagem teste somente so discriminados pelo algoritmo K-mdias se considerarmos um nmero de agrupamentos maior ou igual a 5. No entanto, embora o algoritmo classifique a vegetao em vrias categorias diferentes, a confuso entre as reas de vegetao rala com os padres de rea urbana permanece para qualquer nmero de classes. Realizando uma anlise visual das imagens classificadas pelos dois mtodos (Figs. 8 e 9), observase que a imagem resultante da metodologia proposta apresenta um aspecto visual melhor. Enquanto a classificao pelo algoritmo K-mdias possui uma aparncia mais salpicada, a imagem produzida pelo mtodo proposto se apresenta de forma mais homognea em todas as reas classificadas. Essa diferena no aspecto visual certamente se d em virtude das formas pelas quais os dois mtodos tratam a imagem. Enquanto o algoritmo K-mdias utiliza uma abordagem pixel a pixel para realizar a classificao, o mtodo proposto trabalha com janelas de pixels, as quais incorporam informaes de vizinhana e por isso permitem obter uma classificao resultante de melhor qualidade. Procurando realizar uma anlise mais criteriosa e menos subjetiva da classificao obtida pela metodologia proposta, e considerando a ausncia de verdade terrestre para a imagem teste, o presente trabalho realiza a classificao da imagem de modo

Revista Brasileira de Cartografia No XX/YY, 2008. (ISSN 0560-4612)

11

Embora o algoritmo K-mdias tenha apresentado um tempo de processamento inferior ao da metodologia proposta, os dois mtodos possuem princpios e caractersticas muito diferentes, que devem ser consideradas na avaliao de suas complexidades de clculo. Uma diferena importante entre os dois mtodos est na quantidade de classes analisada por eles para realizar a classificao da imagem. O mtodo proposto avalia diferentes configuraes de agrupamentos para os dados, enquanto que o algoritmo K-mdias realiza a classificao da cena apenas para uma nica quantidade de classes definida a priori. O tempo gasto pelo mtodo proposto para avaliar 75 configuraes diferentes de agrupamentos foi de 32 segundos. Se resolvssemos utilizar uma estratgia semelhante para o algoritmo K-mdias, ou seja, realizar diferentes classificaes da imagem variando o nmero de classes (k) e depois aplicar o ndice de validao CDbw para decidir qual delas a melhor, o tempo de processamento seria to elevado ao ponto de tal estratgia ser considerada impraticvel. Basta levarmos em conta o tempo gasto na aplicao do ndice CDbw para avaliar a classificao produzida pelo algoritmo Kmdias apresentada na Fig. 9. O tempo consumido foi de 1890 segundos, muitssimo superior ao tempo gasto pelo mtodo proposto para avaliar diversas configuraes de agrupamentos para imagem. Diante dessas observaes e considerando ainda os possveis benefcios das outras tcnicas e procedimentos empregados na metodologia proposta (como a filtragem de prottipos, a anlise hierrquica e o refinamento da classificao), conclui-se que o tempo de processamento consumido pelo mtodo apresentado perfeitamente admissvel, o que ressalta ainda mais a viabilidade de aplicao do mesmo. 6. CONCLUSES E CONSIDERAES FINAIS Neste trabalho foi apresentada uma nova metodologia para a classificao no-supervisionada de imagens de sensoriamento remoto. O ponto chave do mtodo proposto realizar a anlise de agrupamentos da imagem atravs de um conjunto de prottipos do SOM ao invs de trabalhar diretamente com os padres originais da cena. Essa abordagem reduz significativamente a complexidade da anlise tornando possvel a utilizao de tcnicas que so normalmente consideradas inviveis para o processamento de imagens de sensoriamento remoto, como por exemplo, mtodos de agrupamentos hierrquicos e ndices de validao de agrupamentos. O mtodo proposto apresenta uma srie de vantagens e potencialidades que o colocam como uma alternativa bastante diferenciada para a classificao no-supervisionada de imagens. Entre elas, podemos destacar: A no exigncia de uma definio a priori do nmero de classes para realizar a classificao da

imagem, o que no acontece na maioria dos mtodos convencionais de classificao no-supervisionada; O mtodo possui apenas dois parmetros que devem ser definidos pelo usurio (o tamanho das amostras e do SOM), e mesmo assim bastante robusto quanto escolha dos mesmos; O simples uso de janelas de pixels permite incorporar informaes de contexto e textura sem nenhum clculo explcito de medida. Essa abordagem contribui para a qualidade da classificao resultante; A utilizao de um mtodo de agrupamento hierrquico aglomerativo permite que o usurio compreenda em diferentes nveis de agrupamentos as relaes existentes entre os padres de cobertura terrestre presentes na imagem. Alm disso, caso o usurio deseje, a imagem pode ser classificada considerando diferentes quantidades de classes; A representao distribuda das classes por meio de grupos de prottipos d ao mtodo a potencialidade de descobrir agrupamentos de dados que possuem geometrias complexas e variadas. Mtodos como o K-mdias utilizam apenas um nico prottipo (centride) para representar cada classe e por isso so capazes de detectar adequadamente apenas agrupamentos que tenham formatos hiperesfricos; O mtodo pode determinar sem nenhuma interveno do usurio o nmero ideal de agrupamentos ou de classes da imagem; O mtodo classifica de maneira diferenciada pixels situados em regies de transio entre classes. Esse procedimento contribui para aumentar a exatido da classificao resultante. Tendo em vista que a maioria dos mtodos convencionais de classificao no-superviosionada de imagens de sensoriamento remoto se baseiam somente em mtodos de agrupamentos particionais (como o Kmdias e o ISODATA), a possibilidade de utilizao de um mtodo de agrupamento hierrquico para analisar a imagem certamente um dos benefcios mais importantes proporcionado pelo uso do SOM nesta abordagem. Alm disso, a imposio de restries s possveis fuses dos prottipos do SOM diminui ainda mais a complexidade computacional do mtodo de agrupamento hierrquico aplicado. A estratgia de modificar o clculo de ndices de validao de agrupamentos utilizando os prottipos do SOM tambm contribui para o bom desempenho do mtodo. Apesar dos erros de aproximao, o clculo modificado do ndice no compromete a tomada de deciso sobre o nmero ideal de classes da imagem e ainda colabora significativamente na reduo do tempo de processamento global. Alm da imagem teste utilizada nos experimentos mostrados aqui, o mtodo proposto tambm foi aplicado em outras imagens de mdia e alta resoluo com nmeros variados de classes, tendo apresentado resultados satisfatrios. Finalmente, importante ressaltar ainda que, apesar dos trabalhos j desenvolvidos que aplicam as Redes Neurais na classificao de imagens de sensores

Revista Brasileira de Cartografia No XX/YY, 2008. (ISSN 0560-4612)

12

remotos apresentem bons resultados em comparao com os mtodos convencionais, a maioria desses trabalhos, alm de abordar muito superficialmente o processo de classificao em si, no explora todo o potencial que as redes neurais podem oferecer. De fato, redes neurais de Perceptrons Multicamadas com algoritmo de treinamento bakcpropagation so utilizadas como se fossem a nica alternativa para os classificadores estatsticos convencionais. Portanto, o presente trabalho tambm mostra, atravs da aplicao do SOM, que alternativas no campo das redes neurais podem ainda ser exploradas e aplicadas na anlise de imagens de sensoriamento remoto. REFERNCIAS BIBLIOGRFICAS ALIXANDRINI, M. J. JR., CENTENO, J. A. S. Experimento da Aplicao de Algoritmos Genticos para a Integrao de Dados Espectrais e Textura na Classificao de Imagens de Alta Resoluo. In: Anais do Simpsio Brasileiro de Geomtica, pp. 212-217, 2002. BALL, G., HALL, D. A Clustering Technique for Summarizing Multivariate Data. Behavior Science, v. 12, pp. 153-155, 1967. BEZDEK, J. C., PAL, N. R. Some new indexes of cluster validity, IEEE Transactions on Systems Man and Cybernetics, v. 28, pp. 301-315, 1998. COSTA, J. A. F. Classificao Automtica e Anlise de Dados por Redes Neurais Auto-organizveis. 1999. Tese (Doutorado em Engenharia Eltrica). Faculdade de Engenharia Eltrica e de Computao, Universidade Estadual de Campinas, Campinas-SP. DEAN, A. M., SMITH, G. M. An Evaluation of PerParcel Land Cover Mapping using Maximum Likelihood Class Probabilities. International Journal of Remote Sensing, v. 24, n. 14, July 2003. DUDA, T., CANTY, M. Unsupervised Classification of Satellite Imagery: choosing a good algorithm. International Journal of Remote Sensing, v. 23, n. 11, June 2002. GONALVES, M. L., NETTO, M. L. A., ZULLO JUNIOR, J. A Neural Architecture for Image Classification using Kohonen Feature Extraction. In: Proceedings of XVIII International Congress for Photogrammetry and Remote Sensing (ISPRS, Comission II), v. 31, pp. 117-122, Viena, 1996. GONALVES, M. L. Uma Arquitetura Neural Modular para a Classificao de Imagens Multiespectrais de Sensoriamento Remoto. 1997. Dissertao (Mestrado em Engenharia Eltrica). Faculdade de Engenharia Eltrica e de Computao, Universidade Estadual de Campinas, Campinas-SP.

GONALVES, M. L., NETTO, M. L. A., COSTA, J. A. F., ZULLO JUNIOR, J. Automatic Remotely Sensed Data Clustering by Tree-Structured Self-Organizing Maps. In: Proceedings of IEEE International Geoscience and Remote Sensing Symposium (IGARSS05), v.1, 4 p., Seoul, July 2005. HALKIDI, M., VAZIRGIANNIS, M., Clustering validity assessment using multi representatives. In: Proceedings of SETN Conference, Thessaloniki, Grcia, 2002. HANSEN, M., DUBAYAH, R., DEFRIES, R. Classification Trees: An Alternative to Traditional land Cover Classifiers. International Journal of Remote Sensing, v. 17, n. 5, 1996. HAYKIN, S. Neural Networks: A Comprehensive Foundation. New York: Prentice-Hall, 2nd edition, 1999. JI, M. Using fuzzy sets to improve cluster labeling in unsupervised classification, International Journal of Remote Sensing, v. 24, pp. 657671, 2003. KOHONEN, T. Self-Organizing Maps, 2nd Edition, Berlim: Springer Verlag, 1997. LILLESAND, T. M., KIEFER, R. W. Remote Sensing and Image Interpretation, John Wiley & Sons, inc., 2000. MAGNUSSEN, S., BOUDEWYN, P., WULDER, M. Contextual Classification of Landsat TM Images to Forest Inventory Cover Types. International Journal of Remote Sensing, v. 25, n. 12, pp. 2421-2440, 2004. MAULIK, U., BANDYOPADHYAY, S. Performance Evaluation of Some Clustering Algorithms and Validity Indices. IEEE Transactions on Pattern Analysis and Machine Intelligence. v. 24, n. 12, December 2002. PAL, M., MATHER, P. M. Support Vector Machines for Classification in Remote Sensing. International Journal of Remote Sensing, v. 26, n. 5, March 2005. RICHARDS, J. A. Analysis of Remotely Sensed Data: The Fomative Decades and the Future. IEEE Transactions on Geoscience and Remote Sensing, v. 43, n. 3, March 2005. WANG, F. Fuzzy Supervised Classification of Remote Sensing Images. IEEE Transactions on Geoscience and Remote Sensing, v. 28, n. 2, March 1990. XU, R., WUNSCH II, D. Survey of Clustering Algorithms. IEEE Transactions on Neural Networks. v. 16, n. 3, May 2005.

Revista Brasileira de Cartografia No XX/YY, 2008. (ISSN 0560-4612)

13