Académique Documents
Professionnel Documents
Culture Documents
1
( )=− (3) onde é é a média dos valores da variável para os objetos
ou cisternas do grupo U. Toma-se agora a distância entre os
grupos U e V como sendo o aumento na soma total das imobi-
lidades provocado pela divisão dos mesmos, isto é, seja a
Na equação 3, o logaritmo tem base ∈ (1, ∞), onde o imobilidade do grupo U, a imobilidade do grupo Ve ∪ a
intervalo de variação de é[0, ( )]. O valor mínimo de imobilidade do grupo resultante da divisão dos grupos U e V.
indica uma boa classificação ou agrupamento ótimo cor- Então uma vez que a divisão de U e V não afeta a imobilidade
respondendo a uma partição mais realista. Teoricamente o dos grupos remanescentes, temos:
valor mínimo de é 0 (zero). = −( + ), (6)
∪
Onde:
: matriz de partição Fuzzy que contém a composição de cada note que, se ̅ e ̅ são os vetores de média dos grupos U e V
vetor de redimensionado em cada grupo; respectivamente, então:
: denota o grau de adesão do vetor característico de variá-
veis, redimensionado no agrupamento, representado pelo = ‖ ̅ − ̅ ‖ (7)
centroide dos respectivos grupos, com ∈ [0,1]. +
A medida de validação de agrupamento proposta por [11], é
proporção de compactação de uma c-partição. Pode ser consi- O algoritmo de Ward, também conhecido como método da
derada como sendo uma função do conjunto de dados e o variância mínima proposto por [23], tem tendência a produzir
centroide dos grupos. grupos com um número aproximadamente igual de objetos.
Correlação Cofenética
∑ ∑ ( ) ‖ − ‖ (4)
( , : )= , A correlação Cofenética é definida como sendo a correla-
‖ − ‖
ção entre as distâncias previstas e as distâncias observadas. A
qualidade do agrupamento será melhor quanto mais próximo
onde o termo do numerador da equação acima é a soma dos for de um (1) o coeficiente de correlação. O coeficiente de
quadrados dos desvios de cada vetor característico ( =
correlação entre a matriz de distâncias originais e a matriz
1, … , ) para o centroide Fuzzy de cada grupo = (1, … ). cofenética proposta por [24] é dado pela expressão:
A magnitude dos termos diminui à medida que os agrupa-
mentos ficam mais compactos. O denominador que por sua ∑ ∑ − ̅ ( − ̅)
=
vez mede a distância mínima entre os centroides dos grupos de (8)
∑ ∑ − ̅ ∑ ∑ ( − ̅)
cisternas, tem valor mais elevado para grupos que estão bem
separados. O valor mínimo de sugere uma boa partição ou Em que:
agrupamento ótimo o que corresponde a grupos de cisternas
compactos e bemseparados. Temos ainda que é a matriz de
dados, N é o número de vetores de características ou variáveis 2 2
̅= e ̅=
de qualidade de água das cisternas e = ( , … , ), repre- ( − 1) ( − 1)
senta um c-tripla de protótipos , cada qual caracterizando o
baricentro de um dos grupos c. onde:
: distância entre os objetos ou cisternas i e j, na matriz cofe-
nética; : distância entre os objetos ou cisternas i e j, na
GOMES DE OLIVEIRA : MAPPING PLAQUES CISTERNS 4369
matriz original de distâncias ou matriz de dissimilaridade; n: ro ótimo de grupos (Tabela I), c = 2 para m= 1,5;1,6; 1,7;
dimensão da matriz. 2,2; 2,3 e 2,4, indica c = 3 para m = 1,4, indica c = 4 para m
= 2,5 e c = 5 para m = 1,8; 1,9; 2,0 e 2,1. As medidas de
III. RESULTADOS E DISCUSSÃO heterogeneidade de [26] mostram que para c = 5, isto é, quan-
do o número de grupos é maior o algoritmo de agrupamento
Os sistemas Híbridos caracterizam-se pela combinação de (FCM) fornecem grupos mais homogêneos. A escolha de um
duas ou mais técnicas de Inteligência Computacional em um número maior de grupos no caso c = 5, permite uma melhor
só modelo, objetivando-se utilizar o que existe de mais robus- comparação dos resultados como definido anteriormente. Os
to para obter a melhor solução para um dado problema. Neste valores ótimos do índice de Xie e Beni sugerem que a melhor
contexto existem os modelos híbridos construídos com Redes escolha de m está no intervalo 1,8 – 2,1, ou seja, o número de
Neurais Artificiais (RNA). Portanto os modelos híbridos têm grupos indicado pelo algoritmo (FCM) é c = 5 para m na
como base a adição da Teoria de Conjuntos Fuzzy utilizando o vizinhança de 2,0. O coeficiente de partição ( )e partição
algoritmo c – Means. entropia ( ) indicam c = 2 como melhor partição, isto é,
O algoritmo Fuzzy c – Means o qual funciona como base sugerem dois grupos como resultado ótimo e são ineficazes.
para outros modelos híbridos utilizados na tarefa de agrupa- Em geral ( ) é maximizado e ( ) é minimizado para c =
mento ou classificação foi proposto por [25]. Segundo esse 2, independentemente do valor que o parâmetro de fuzificação
modelo uma variação não supervisionada da RNA é adiciona- m assume (Tabela I). Isto ocorre porque estas duas medidas de
da de característica Fuzzy. validação necessitam de uma relação direta com alguma pro-
Assim um objeto ou cisterna é atribuído a cada grupo de priedade dos dados. Em conformidade com [11], note que, à
acordo com o grau de adesão máxima aos grupos, e portanto medida que o coeficiente de partição decresce monotonamente
esta matriz produz a partição de agrupamentos o mais próximo com aumento do número de agrupamentos, a partição entropia
possível da realidade, isto é, uma cisterna é atribuída a cada apresenta um crescimento monótono a medida que o número
grupo de acordo com o grau de pertinência máxima, desde que de grupos aumenta.
tal grau de pertinência seja igual ou maior a 0,5 (≥ 0,5), o que Uma partição é considerada “ótima” quando os grupos
foi observado em todas as cisternas, caso contrário presume-se formados pelo algoritmo de agrupamento (FCM) são tão ho-
que a cisterna que obteve grau de pertinência inferior a 0,5 mogêneos de forma que nenhum objeto ou cisterna seja realo-
não pertence a nenhum grupo, o que não verificou-se neste cado a outro grupo se houver novas interações do algoritmo.
agrupamento Fuzzy. Esta partição é verificada pelos índices de validação de Xie e
As cem cisternas consideradas no estudo, foram analisadas Beni ( ), o coeficiente de partição( ) e partição entropia
para extrair características para a análise de agrupamento. As ( ), que são obtidos pelas variações do parâmetro de fuzifi-
correlações entre as características e as variáveis relacionadas cação m e o número de grupos c (Tabela I), isto é, o algoritmo
com a qualidade da água foram analisadas, ou seja, as seis obtém uma partição “ótima” que é indica por (VXB) em geral
variáveis de qualidade da água ora analisadas foram relacio- para m=2 quando ( ) atinge seu valor máximo e ( ),
nadas aos sais minerais e as condições higiênicas sanitárias. atinge seu valor mínimo para c = 2.
As variáveis de localização, latitude e longitude então inclu- Segundo [27 – 28], ambas as medidas frequentemente indi-
sas no estudo para identificar as regiões onde estão localizadas cam como resultado c = 2, sendo uma partição ótima. No caso
as cisternas que são geograficamente próximas. As seis variá- dos dados das cisternas de placas na região do Pajeú a tendên-
veis foram padronizadas, e foi atribuída a mesma escala de cia monótona é claramente observada na partição da entropia
importância para todas as variáveis, o que significa que ne- ( ) para valores de m superior a 1,9 (Tabela I). O índice de
nhuma variável em particular influenciou no resultado dos Xie e Beni ( ) não exibe nenhuma tendência monofônica.
agrupamentos, exceto pela característica natural da variável. Portanto é eficaz na identificação da partição ótima ou dos
Para analisar a sensibilidade do resultado do algoritmo Fuzzy c grupos formados pelas cisternas de placas utilizadas no estudo
– Means (FCM) a variação no parâmetro de fuzificação o m é da qualidade da água na região do Pajeú.
de 1,4 a 2,5 e no entanto [20], menciona que o FCM oferece De acordo com [19], se o parâmetro de fuzificação m é de-
melhor desempenho para m no intervalo de 1,5 – 2,5. finido em m = 2, o grau de pertinência das observações ou
A homogeneidade dos grupos é obtida a partir do algoritmo cisternas a um determinado grupo, é obtido unicamente em
Fuzzy c – Means (FCM), é testada através de medidas de hete- função das razões entre as distâncias entre o objeto e os cen-
rogeneidades [26]. Quando o conjunto inteiro de cem cisternas tros de grupos. Por outro lado, se o valor do parâmetro de
foi considerado como um único grupo, este grupo é bastante Fuzificação m é diferente de 2 (m ≠ 2), observa-se que existe
heterogêneo. Por outro lado, quando o número de grupos c uma alteração na influência das relações entre as distâncias
aumenta além de um, o algoritmo apresenta grupos que são dos dados aos centros dos grupos. Quando o parâmetro de
relativamente homogêneos. No entanto o tamanho dos grupos fuzificação m cresce, isto é, para (m → ∞) o grau de pertinên-
diminui com aumento do número de grupos. Assim neste cia não é calculado mais em função das distâncias entre os
estudo o número máximo de grupos foi fixado pela matriz do dados e os centros dos grupos, e sim em função do número de
grau de pertinência das cisternas em cada grupo. Portanto, os grupos c. Observa-se que para altos valores de m os vetores
resultados obtidos para c não superior a 6 são apresentados e protótipos que compõem os elementos da matriz de atualiza-
discutido em seguida. ção dos dados, tendem a se aproximar do centro do conjunto
O número ideal de grupos no conjunto de dados de cisterna de dados, ou seja, para valores altos do parâmetro de fuzifica-
é identificado através das medidas de validação do agrupa- ção o algoritmo (FCM) apresenta resultados com grupos me-
mento Fuzzy. O índice de Xie e Beni ( )indica como núme- nos bem definidos. Portanto o “melhor” valor que m pode
4370 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 10, OCTOBER 2016
assumir no algoritmo (FCM) é aquele que minimiza a movi- Uma observação visual do dendograma feita com base na
mentação da matriz de atualização. Fig. 1, observa-se a existência de seis grupos nesta figura, que
foi obtida pelo método de Ward.
TABELA I
COMPARAÇÃO DAS MEDIDAS DE VALIDAÇÃO DOS GRUPOS PARA O CONJUNTO DE DADOS RELATIVOS AS CISTERNAS DE PLACAS NA
REGIÃO DO PAJEÚ EM SERRA TALHADA – PE. OS VALORES EM NEGRITO DENOTAM VALORES ÓTIMOS DAS MEDIDAS DE VALIDAÇÃO
O método de Ward apresentou algumas diferenças do mé- A estatística média da silhueta obtida pelo método de Ward
todo de agrupamento Fuzzy, uma delas é que o grupo 1 agru- foi de 0,54, valor que não levanta evidências da inadequação
pou 42 cisternas, ou seja, um número bem superior em relação com relação a classificação das cisternas nos respectivos gru-
ao mesmo grupo obtido pelo método de agrupamento Fuzzy pos.
que agrupou 7 cisternas como visto na Tabela II.O grupo 4
ficou com 28 cisternas segundo o método de Ward, e pelo IV. CONCLUSÃO
agrupamento Fuzzy este grupo alocou 29 cisternas, ou seja,
ambos os métodos obtiveram resultados bastante similares. No O método de agrupamento Fuzzy utilizou a matriz de grau
grupo 3 o método de Ward alocou apenas 6 cisternas já o de pertinência que alocou cada cisterna para o grupo ao qual
agrupamento Fuzzy 29 cisternas. O grupo 2 alocou 12 cister- ela obteve a mais elevada pertinência. Assim possibilitando
nas pelo agrupamento Fuzzye7 cisternas pelo método de que os resultados apresentados neste trabalho apoiam forte-
Ward, já o grupo 5 agrupo 15 cisternas pelo agrupamento mente a análise agrupamento Fuzzy para produzir ou encontrar
Fuzzy e 10 cisternas pelo método de Ward e o grupo 6 agru- grupos homogêneos, que são eficazes na análise agrupamento
pou 8 cisternas pelo agrupamento Fuzzy e 7 cisternas pelo de cisternas de placas da região do Pajeú.
método de Ward. De maneira geral o método agrupamento O método de Ward também foi utilizado para a classifica-
Fuzzy classificou as cisternas nos seis grupos de maneira, mas ção das cisternas e foi observada a alocação das cisternas nos
parcimoniosa, isto é, não houve grupos com um número ele- seus respectivos grupos. Quando os desempenhos do método
vado de cisternas e tão pouco grupos com poucas observações. do agrupamento Fuzzy e método de Ward são comparados
verificou-se que os resultados para os grupos formados pelo
TABELA II
NÚMERO DE CISTERNAS AGRUPADAS PELO AGRUPAMENTO método do agrupamento Fuzzy são melhores que os resultados
FUZZY E PELO MÉTODO HIERÁRQUICO DE AGRUPAMENTO do método de Ward. Logo os resultados mostraram que o
desempenho do agrupamento Fuzzy era melhor do que o mé-
Métodos de Agrupamento todo de Ward para identificação dos grupos de cisternas mais
Grupos Fuzzy Ward homogêneos.
Grupo 1 7 42 O agrupamento Fuzzy sugeriu a formação de seis grupos de
Grupo 2 12 7 acordo com a matriz do grau de pertinência das cisternas a
Grupo 3 29 6 cada grupo. No entanto levando em consideração o índice de
Grupo 4 29 28 Xie e Beni, a indicação foi de cinco grupos, o que se tornaria
Grupo 5 15 10 mais plausível por ser um índice de validação. Portanto com o
Grupo 6 8 7 resultado, pode-se dizer que o método de agrupamento Fuzzy
pode ser utilizado com sucesso para classificação de cisternas
de placas.
O método de Ward apresentou características peculiares em
relação ao método de agrupamento Fuzzy utilizado para estas
V. REFERÊNCIAS
análises como bem destacadas anteriormente. Estas caracterís-
ticas também foram notáveis no gráfico e nas estatísticas da [1] K. Cherwin, Knapp, A. Unexpected patterns of sensitivity to drought in
silhueta observadas na Fig. 2, onde o único grupo que obteve three semi-arid grasslands. Global Change Ecology - Original Research, v.
estatística da silhueta ótima com valor de 0,84 foi o grupo 6, 169, pp. 845 – 852, 2012.
enquanto os demais grupos obtiveram estatísticas da silhueta [2] L. Kaufman, P.J. Rousseeuw. In: Finding Groups in Data Wiley, New
York, 1990.
acima de 0,48 dando indícios de boas classificações das cis- [3] A. K. Jain, M.N. Murty, P.J. Flynn. Data clustering: a review, ACM
ternas em seus respectivos grupos, mesmo com estatísticas da Comput. Surv. v. 31 n. 3, pp. 264 –323, 1991.
silhueta inferiores ao grupo 6. [4] F. Hoppner, F. Klawon, R. Kruse, T. Runkler. Fuzzy Cluster Analysis:
Methods for Classifications, Data Analysis and Image RecognitionWiley,
New York,1999.
Clusters silhouette plot [5] A. Devillez, P. Billaudel, G. V. Lecolier. A fuzzy hybrid hierarchical
Average silhouette width: 0.54 clustering method with a new criterion able to find the optimal partition,
1.00 Fuzzy Sets Syst. v. 128, n. 3, pp. 323–338, 2002.
[6] H. Frigui, R. Krishnapuram. A robust algorithm for automatic extraction
of anunknown number of clusters from noisy data, Pattern Recognition Lett.
0.75 cluster n. 17 pp. 12231232, 1996.
[7] E. R. Hruschka, R. J. G. B. Campello, L. N. de Castro. Evolutionary
Silhouette width Si
1
search foroptimal fuzzy c-means clustering, in: Proceedings of the 13th IEEE
2
International Conference on Fuzzy Systems, Budapest, Hungary, pp. 685–
3
0.50 690, 2004.
4 [8] G.V. Milligan, M.C. Cooper. An examination of procedures for determin-
5 ing the number of clusters in a data set, Psychometrika v. 50, n. 2, pp. 159–
0.25 6 179, 1985.
[9] J. C. Bezdek. Numerical taxonomy with fuzzy sets, J. Math. Biol. n. 1 pp.
57–71, 1974.
[10] J. C. Bezdek. Cluster validity with fuzzy sets, J. Cybern. n. 3, pp. 58–78,
0.00
1974.
[11] X. L. Xie, G. Beni. A validity measure for fuzzy clustering, IEEE Trans.
Figura 2. Gráfico e estatística da silhueta obtida pelo método de Ward. Pattern. Anal. Mach. Intell. v. 13, n.8, pp. 841–847, 1991.
4372 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 10, OCTOBER 2016
[12] K. L. Wu, M. S. Yang. A cluster validity index for fuzzy clustering, 1992. Obteve o título de especialista em MBA em Administração de Empre-
Pattern Recognition Lett. n. 26, pp. 1275–1291, 2005. sas pela Faculdade de Tecnologia Internacional (FATEC), Recife, Pernambu-
[13] M. Kim, R. S. Ramakrishna. New indices for cluster validity assessment, co, Brasil, 2012. Obteve o título de mestre em Biometria e Estatística Aplica-
Pattern Recognition Lett. v. 26, n. 15, pp. 2353–2363, 2005. da pela Universidade Federal Rural de Pernambuco (UFRPE), Recife, Per-
[14] Y. Zhang, W. Wang, X. Zhang, Li Yi. A cluster validity index for fuzzy nambuco, Brasil, 2002. Obteve o título de Doutor em Agronomia (Ciência dos
clustering, Inform. Sci. v. 178, n.4, pp. 1205–1218, 2008. Solos), pela Universidade Federal Rural de Pernambuco (UFRPE), Recife,
[15] A. Celikyilmaz, I. B. Turk. Validation criteria for enhanced fuzzy cluster- Pernambuco, Brasil, 2009.Foi Diretor do Núcleo de Tecnologia da Informa-
ing, Pattern Recognition Lett. v. 29, n. 2, pp. 97–108, 2008. ção (NTI) de 1995 a 2000. Foi Coordenador do Programa de Pós-Graduação
[16] W. Wang, Y. Zhang. On fuzzy cluster validity indices, Fuzzy Sets Syst. em Biometria e Estatística Aplicada/UFRPE. Está como Pró-Reitor de Admi-
v.58, n.19, pp. 2095–2117, 2007. nistração da UFRPE. Bolsista CNPq. Atualmente é professor adjunto da
[17] M. Bouguessa, S. Wang, H. Sun. An objective approach o cluster valida- Graduação e da Pós-Graduação do Departamento de Estatística e Informática
tion, Pattern Recognition Lett. v. 27 n. 13, pp. 1419–1430, 2006. da Universidade Federal Rural de Pernambuco, atuando principalmente nos
[18] Sudene - Superintendência do Desenvolvimento do Nordeste. Dados seguintes temas: Estatística aplicada, gestão, educação a distância, recursos
pluviométricos mensais do Nordeste. Recife: SUDENE, 1990. hídricos, produção de sedimentos em suspensão e por carga de fundo e con-
[19] R. Xu, D. Wunsch. II survey of clustering algorithms. IEEE Transactions servação do solo e da água. http://lattes.cnpq.br/7315592683569670.
on Neural Networks, v. 16, n. 3, pp. 645–678, 2005.
[20] N. R. Pal, J. C. Bezdek. On cluster validity for the Fuzzy c-means model.
IEEE Transactions on Fuzzy systems. v.3 n.3, pp.370 – 379, 1995.
[21] S. Theodoridis, K. Koutroubas. Pattern Recognition. Academic Press,
New York, 1999.
[22] M. Halkidi, Y. Batistakis, M. Vazirgiannis. On clustering validation
techniques. Journal of Intelligent Information Systems, v. 17, pp. 107 – 145,
2001.
[23] L. Orlóci. Multivariate analysis in vegetational research. 2. ed. The
Hague: Dr. W. Junk B. V. Publishers, 1978. 451 p.
[24] W. O. Bussab, E. S. Miazaki, D. Andrade. Introdução a análise de agru-
pamento. São Paulo: Associação Brasileira de Estatística, 1990. 105p.
[25] J. C. Bezdek, E. C. Tsao, N. R. Pal. Fuzzy kohonen clustering networks.
In IEEE International Conference on Fuzzy Systems, pp. 1035 – 1043, 1992.
[26] J. R. M. Hosking, J. R. Wallis. Some statistics use fulin regional frequen-
cy analysis. Water Resources Research (Correction: Water Resources Re-
search v. 31 n. 1, p. 251, 1995), v. 29 n. 2, pp. 271 – 281, 1993.
[27] Z. K. Bargaoui, V. Fortin, B. Bobée, L. Duckstein. A fuzzy approach to
the delineation of region of influence for hydrometric stations. Revue des
sciences de l’eau v. 11 n. 2, pp. 255 – 282, 1998.
[28] M. J. Hall, A. W. Minns. The classification of hydrologically homogene-
ous regions. Hydrological Sciences Journal, v. 44, n. 5, pp. 693 – 704, 1999.