Gamboa Medina 2013

MARIA MERCEDES GAMBOA-MEDINA
DETECO DE VAZAMENTOS EM REDES SOB PRESSO

BASEADA NA ANLISE DOS SINAIS DE VAZO E PRESSO COM UM SISTEMA
DE RECONHECIMENTO DE PADRES
Dissertao apresentada Escola de Engenharia

de So Carlos, da Universidade de So Paulo,
como parte dos requisitos para obteno do
ttulo
Mestre
em
Cincias:
Engenharia
Hidrulica e Saneamento.
Orientadora: Prof. Tit. Luisa Fernanda Ribeiro

Reis
VERSO CORRIGIDA
SO CARLOS, SP
2013
Este trabalho foi licenciado com uma Licena CreativeCommons - Atribuio No

Comercial 3.0 Brasil.
permitido compartilhar e adaptar o trabalho para todo uso no comercial, desde que
respeitada a atribuio. A licena jurdica (resumida ou completa) pode ser acessada em:
http://creativecommons.org/licenses/by-nc/3.0/br/deed.pt
Gamboa-Medina, Maria Mercedes

G192d
Deteco de vazamentos em redes sob presso baseada

na anlise dos sinais de presso e vazo com um sistema
de reconhecimento de padres / Maria Mercedes
Gamboa-Medina; orientadora Luisa Fernanda Ribeiro Reis.
So Carlos, 2013.
Dissertao (Mestrado) - Programa de Ps-Graduao
e rea de Concentrao em Hidrulica e Saneamento -Escola de Engenharia de So Carlos da Universidade de
So Paulo, 2013.
1. Vazamentos. 2. Redes. 3. Sinais de presso. 4.
Analise de sinais. I. Ttulo.
Ao Javier, o homem maravilhoso que decidiu comigo

andar a vida em parceria, e a cada dia faz que eu queira
criar muitos caminhos novos com ele.
minha me Blanca, meu pai Rafael, meus irmos
Rafael, Juan Francisco (i.m.), Ricardo e Alejandro, e
minha irm Laura, que estiveram e estaro sempre
presentes na minha vida e que, para meu orgulho, fazem
parte da minha prpria identidade; e aos meus sobrinhos,
que carregam tanto futuro e esperana.
AGRADECIMENTOS
Agradeo sinceramente s muitas pessoas que de diversas maneiras contriburam para o

grande processo que me permite apresentar esta dissertao. Em particular gostaria de
expressar minha gratido pela contribuio durante o projeto:
professora Fernanda, que desde o incio acreditou neste projeto e na minha capacidade, e
me fez acreditar tambm. Agradeo pela permanente orientao e o conhecimento
transmitido, e tambm pela confiana depositada, a disposio e pacincia dispensadas, e os
ensinamentos proporcionados com suas palavras e com seu exemplo.
Ao professor Rodrigo Guido, cujas indicaes foram uma bssola nas diversas etapas do
projeto, agradeo a grande contribuio e a excelente disposio em colaborar conosco.
Aos professores Rodrigo Porto, Andr de Carvalho e Maria Carolina Monard, agradeo pela
receptividade e sua contribuio resolvendo dvidas e oferecendo indicaes que foram
fundamentais no trabalho.
Ao engenheiro Javier Mahecha, pelas ideias fornecidas, a valiosa colaborao nas atividades
de laboratrio, as longas conversas sobre os temas do projeto, a reviso do texto e, em fim,
tudo o suporte que fez possvel a concluso deste trabalho.
A Roberto Cezar Brgamo e Fransico Bergamin, tcnicos do departamento de hidrulica e
saneamento, pela colaborao com as reparaes no experimento mostrando sua competncia
profissional e excelente disposio.
Ao Casiano, funcionrio da firma TeS, pelo esforado trabalho na reforma do sistema
eletrnico do experimento e a colaborao frente as dificuldades correlatas.
Aos colegas do Laboratrio de Simulao Numrica, particularmente a Narumi Abe pela
ajuda nas atividades de laboratrio e na implementao das anlises, a Frederico Odan pela
disposio para resolver dvidas e a Tais Shinma pela pacincia e amizade.
Aos colegas do ICMC, Didier Vega e Lilian Berton, pelo auxilio no uso do software.
Aos colegas, funcionrios e professores do departamento de hidrulica e saneamento, pelo
acolhimento, a companhia, o auxlio e os ensinamentos proporcionados durante o mestrado.
Coordenao de Aperfeioamento de Pessoal de Nvel Superior (CAPES), pela bolsa de
estudos concedida.
Acredito nos homens, isto , na sua razo. Sem essa f

no teria a fora de sair da cama pela manh. , eu
acredito na calma fora da razo nos homens. No
podero resistir a ela muito tempo, no podero
aguentar. Pensar um dos maiores prazeres da raa
humana.
A vida de Gallileo. Bertol Bretch (1858 1956)
RESUMO
GAMBOA-MEDINA, M. M. Deteco de vazamentos em redes sob presso baseada na

anlise dos sinais de presso e vazo com um sistema de reconhecimento de padres.
Dissertao (Mestrado) - Programa de Ps-Graduao e rea de Concentrao em Hidrulica
e Saneamento -- Escola de Engenharia de So Carlos da Universidade de So Paulo, 2013.
O controle de perdas em sistemas de distribuio de gua para abastecimento uma

preocupao constante, e uma tarefa fundamental para a soluo do problema a deteco
rpida e confivel dos vazamentos que frequentemente iniciam em qualquer ponto da rede.
Uma abordagem promissria a deteco de vazamentos baseada na anlise de sinais
adquiridos pelo monitoramento das redes durante sua operao, e dentro dela se enquadra este
trabalho. desenvolvido um sistema de reconhecimento de padres para anlise de sinais de
presso e vazo que permite identificar se durante a aquisio do sinal aconteceu um
vazamento ou no. Para a conformao desse sistema diversas tcnicas so exploradas,
incluindo a extrao de caractersticas no domnio do tempo (energia, entropia, nmero de
cruzamentos por zero) e na decomposio wavelet (distribuio da energia nas componentes).
Tambm explorado o uso de algoritmos para classificao de diferentes tipos (vizinhos mais
prximos, rvore de deciso, regra de deciso, Naive Bayes, mquina de vetor suporte e rede
neural artificial com funes de base radial). Sinais so adquiridos junto ao circuito hidrulico
experimental, que permitiu a simulao da ocorrncia de um vazamento na rede, para
constituir uma amplia base de dados com sinais de exemplo. Alm da reviso bibliogrfica e
os conceitos relativos s metodologias exploradas, so apresentadas neste documento as
anlises que conduzem criao do sistema de reconhecimento de padres mais apropriado
para o problema. Das anlises dos diferentes mtodos considerados definido o sistema de
reconhecimento de padres, em suas etapas de segmentao e padronizao, extrao de
caractersticas e classificao. A avaliao do sistema proposto mostra um desempenho
totalmente satisfatrio, com reconhecimento acertado de sinais vinculados ou no a um
vazamento em mais de 95% dos testes.
Palavras chave: Vazamentos. Redes de abastecimento de gua. Sinais de presso. Anlise de
sinais.
ABSTRACT
GAMBOA-MEDINA, M. M. Leak detection in water networks based on the analysis of

flow and pressure signals by a pattern recognition system. Master thesis Escola de
Engenharia de So Carlos of Universidade de So Paulo, 2013.
Control of losses in water supply systems is a constant concern, and a key to the solution of
this problem is the rapid and reliable detection of leaks that often begin anywhere on the
network. A promising approach to solve the problem is the leak detection based on the
analysis of signals acquired by monitoring the network in operation, and this research fits
with that approach. Its developed a pattern recognition system for the analysis of pressure
and flow signals, which identifies whether a leak happened during signal acquisition. Several
techniques are exploited for forming this system, including the feature extraction in the time
domain (energy, entropy, zero crossings count) and in the wavelet decomposition (energy
distribution in the components). Also, the use of different types of algorithms for
classification (nearest neighbors, decision tree, decision rule, Naive Bayes, support vector
machine and artificial neural network with radial basis functions) is explored. Signals are
acquired from the experimental hydraulic circuit, allowing the simulation of the onset of a
leak in the network, to form a big database of example signals. Besides the literature review
and the concepts relating to the considered methods, in this document are shown the analyses
leading to the creation of the pattern recognition system most appropriate for the problem.
The analysis of the methods considered allows defining the pattern recognition system, which
is composed by segmentation and standardization, feature extraction and classification. The
evaluation of the proposed system shows a completely satisfactory performance, recognizing
rightly the signals as linked or not to a leak in more than 95% of the tests.
Keywords: Leaks. Supply networks. Pressure signals. Signal analysis.
LISTA DE ABREVIATURAS
AAC
rea abaixo da curva ROC, indicador de desempenho.
AS_O Mtodos baseados na anlise de sinais durante operao.

AS_T Mtodos baseados na anlise de sinais durante o transitrio.
COM Nome da classe que agrupa os sinais adquiridos durante o incio de um vazamento.
db2
Funo wavelet Daubechies com dois momentos zero.
EDW Distribuio da energia nas componentes da decomposio wavelet, caracterstica do

sinal.
ENE
Energia, caracterstica do sinal.
ENT
Entropia, caracterstica do sinal.
FBR
Rede neural artificial com funes de base radial, mtodo de classificao.
FC
Falsos COM, nmero de instncias da classe SEM classificadas na classe COM.
FS
Falsos SEM, nmero de instncias da classe COM classificadas na classe SEM.
KNN K vizinhos mais prximos, mtodo de classificao.

MH_P Mtodos baseados na modelagem hidrulica no regime permanente.
MH_T Mtodos baseados na modelagem hidrulica no regime transitrio.
NCZ Nmero de cruzamentos por zero, caracterstica do sinal.
RNA Rede neural artificial.
ROC Receiver operating characteristic, curva que representa o desempenho.
SEM Nome da classe que agrupa os sinais adquiridos durante escoamento permanente.
SVM Mquina de vetor suporte (support vector machine), mtodo de classificao.
TOD Vetor combinando as caractersticas ENE, ENT, NCZ e EDW.
VC
Verdadeiros COM, nmero de instncias classificadas acertadamente na classe COM.
VS
Verdadeiros SEM, nmero de instncias classificadas acertadamente na classe SEM.
LISTA DE FIGURAS
Figura 1. Esquema geral dos elementos do modelo hidrulico ................................................ 24

Figura 2. Esquema geral dos mtodos baseados na anlise de sinais. ...................................... 29
Figura 3. Funo wavelet Daubechies, db2 .............................................................................. 41
Figura 4. Esquema da decomposio wavelet discreta ............................................................. 43
Figura 5. Esquema da decomposio wavelet packet ............................................................... 44
Figura 6. Esquema do circuito hidrulico experimental ........................................................... 47
Figura 7. Localizao dos sensores no circuito hidrulico experimental ................................. 49
Figura 8. Interface do software de aquisio de dados ............................................................. 50
Figura 9. Trs exemplos de sinais da classe SEM adquiridos com o sensor P02 para trs
diferentes vazes no circuito (Q). ............................................................................................. 51
Figura 10. Trs exemplos de sinais da classe COM adquiridos com o sensor P02 para trs
diferentes vazes no circuito (Q) e diferentes magnitudes de vazamento (V). ........................ 52
Figura 11. Esquema bsico das etapas de um sistema de reconhecimento de padres ............ 54
Figura 12 Exemplo de dois sinais de presso adquiridos. ........................................................ 58
Figura 13 Caractersticas extradas dos dois sinais de presso. ................................................ 58
Figura 14. Espao de entrada para elementos de dimenso trs pertencentes a duas classes .. 62
Figura 15. Exemplo de rvore de deciso para duas classes, com quatro caractersticas. ....... 64
Figura 16. Esquema de rede de Funes de Base Radial ......................................................... 70
Figura 17. Exemplo curva ROC ............................................................................................... 73
Figura 18. Esquema das anlises apresentadas neste captulo, em relao s componentes do
sistema de reconhecimento de padres. .................................................................................... 76
Figura 19. AAC mdia usando diferentes nveis de decomposio, segundo o classificador. . 78
Figura 20. Comparao da AAC mdia usando decomposio wavelet discreta e wavelet
packet. ....................................................................................................................................... 80
Figura 21. Histograma de frequncias da distribuio da energia na decomposio wavelet
packet, para exemplos SEM e COM. ....................................................................................... 81
Figura 22. AAC usando variaes do algoritmo K-NN, depois da extrao das caractersticas
TOD. ......................................................................................................................................... 84
Figura 23. AAC usando variaes do algoritmo K-NN, depois da extrao da caracterstica
EDW. ........................................................................................................................................ 85
Figura 24. Histogramas dos valores do vetor de caractersticas para exemplos SEM e COM. 88
Figura 25. AAC para diferentes vetores de caractersticas segundo o sensor e o classificador
considerados. ............................................................................................................................ 91
Figura 26. AAC para diferentes classificadores, segundo o sensor. ........................................ 97
Figura 27. Curvas ROC para os sensores P02, P16 e Q03..................................................... 103
Figura 28. Sensibilidade (taxa de verdadeiros positivos) para diferentes valores de V/Q, total.
................................................................................................................................................ 107
LISTA DE TABELAS
Tabela 1. Resumo de trabalhos em deteco de vazamentos ................................................... 23

Tabela 2. Relaes V/Q dos exemplos COM ........................................................................... 52
Tabela 3. Esquema da matriz de confuso ............................................................................... 71
Tabela 4. AAC mdia (desvio padro) para diferentes nveis de decomposio, segundo o
classificador. ............................................................................................................................. 78
Tabela 5. Aumento percentual na AAC com o aumento no nvel de decomposio, segundo o
classificador. ............................................................................................................................. 79
Tabela 6. AAC mdia (desvio padro) usando decomposio wavelet packet, segundo o
classificador. ............................................................................................................................. 80
Tabela 7. AAC usando variaes do algoritmo K-NN, depois da extrao do vetor de
caractersticas TOD. ................................................................................................................. 84
Tabela 8. AAC usando variaes do algoritmo K-NN, depois da extrao da caracterstica
EDW. ........................................................................................................................................ 85
Tabela 9.Incremento percentual na AAC usado variaes do algoritmo KNN........................ 86
Tabela 10. Intervalos de valores mais frequentes das caractersticas ....................................... 87
Tabela 11. AAC mdia (desvio padro) para diferentes vetores de caractersticas, segundo o
sensor considerado. ................................................................................................................... 92
Tabela 12. AAC mdia para diferentes vetores de caractersticas, segundo o classificador. ... 93
Tabela 13. AAC mdia (desvio padro) segundo o sensor considerado, para os vetores de
caractersticas de melhor desempenho. .................................................................................... 94
Tabela 14. AAC mdia (desvio padro) para diferentes classificadores, segundo o sensor
considerado. .............................................................................................................................. 96
Tabela 15. Matrizes de confuso totais para cada sensor, e mdia. ....................................... 100
Tabela 16. Taxa de acerto, taxa de erro e sensibilidade do sistema, para cada sensor. .......... 101
Tabela 17. Taxa de falsos positivos, especificidade e preciso do sistema, para cada sensor e
mdia. ..................................................................................................................................... 102
Tabela 18. AAC do sistema para cada sensor, e mdia. ......................................................... 104
Tabela 19. Indicadores VC e FS do sistema de reconhecimento calculados para os diferentes
valores de V/Q usados nos testes............................................................................................ 106
Tabela 20. Sensibilidade (taxa de verdadeiros positivos) para os diferentes valores de V/Q
usados nos testes. .................................................................................................................... 107
SUMRIO
1.
INTRODUO .................................................................................................................17
2.
OBJETIVOS ......................................................................................................................21
3.
MTODOS DE DETECO DE VAZAMENTOS ........................................................22
3.1.
MTODOS BASEADOS EM MODELOS HIDRULICOS (MH) .........................24
3.1.1.
Modelos em regime permanente (MH_P) ................................................................. 25
3.1.2.
Modelos em regime transitrio (MH-T) .................................................................... 27
3.1.3.
Vantagens e limitaes dos mtodos MH ................................................................. 28
3.2.
MTODOS DE DETECO DE VAZAMENTOS BASEADO NA ANLISE DE
SINAIS (AS) .............................................................................................................................29

3.2.1.
Anlise de sinais de presso durante um transitrio hidrulico (AS_T) ................... 29
3.2.2.
Anlise dos sinais durante operao da rede (AS_O) ............................................... 33
4.
CONCEITOS DE ANLISE DE SINAIS E APRENDIZADO DE MQUINA .............38
4.1.
VARIVEIS DO SISTEMA COMO SINAIS ...........................................................38
4.2.
TRANSFORMAES DE DOMNIO .....................................................................39
4.2.1.
Domnio da frequncia e Transformada de Fourier .................................................. 40
4.2.2.
Transformada Wavelet e analise tempo-frequncia................................................... 41
4.3.
DECOMPOSIO WAVELET DISCRETA E PACKET ..........................................43
4.4.
APRENDIZADO DE MQUINA .............................................................................45
5.
AQUISIO DE SINAIS EXPERIMENTAIS EM LABORATRIO ............................46
5.1.
MONTAGEM EXPERIMENTAL .............................................................................46
5.2.
AQUISIO DE DADOS .........................................................................................48
5.3.
RESUMO DOS EXPERIMENTOS ...........................................................................50
6.
SISTEMA DE RECONHECIMENTO DE PADRES .................................................... 53
6.1.
SEGMENTAO E PADRONIZAO ................................................................. 54
6.2.
EXTRAO DE CARACTERSTICAS .................................................................. 57
6.2.1.
Energia (ENE) ............................................................................................................ 58
6.2.2.
Entropia (ENT) .......................................................................................................... 59
6.2.3.
Nmero de cruzamentos por zero (NCZ)................................................................... 59
6.2.4.
Distribuio da energia na decomposio wavelet (EDW)........................................ 60
6.3.
CLASSIFICADOR .................................................................................................... 61
6.3.1.
Vizinhos mais prximos ............................................................................................ 61
6.3.2.
rvore de deciso ...................................................................................................... 63
6.3.3.
Regras de Deciso ...................................................................................................... 65
6.3.4.
Naive Bayes ............................................................................................................... 66
6.3.5.
Mquina de vetores de suporte .................................................................................. 67
6.3.6.
Rede Neural Artificial de Funes de Base Radial .................................................... 68
6.4.
AVALIAO DO PROCESSO ................................................................................ 70
6.4.1.
Validao cruzada (k-fold cross validation) .............................................................. 70
6.4.2.
Matriz de confuso ..................................................................................................... 71
6.4.3.
Curva ROC ................................................................................................................ 73
6.5.
IMPLEMENTAO DO SISTEMA DE RECONHECIMENTO DE PADRES .. 74
7.
RESULTADOS ................................................................................................................. 76
7.1.
SELECO DO TIPO E NIVEL DE DECOMPOSIO WAVELET PARA A
CARACTERISTICA EDW ...................................................................................................... 77

7.2.
PARMETROS PARA O CLASSIFICADOR KNN ............................................... 83
7.3.
CARACTERSTICAS EXTRADAS ....................................................................... 87
7.4.
TIPOS DE CLASSIFICADOR .................................................................................. 95
7.5.
RESULTADOS FINAIS DO SISTEMA DE RECONHECIMENTO DE PADRES98
7.5.1.
Matriz de confuso ..................................................................................................... 99
7.5.2.
rea abaixo da curva ROC (AAC) .......................................................................... 102
7.6.
MAGNITUDE DE VAZAMENTO .........................................................................104
8.
CONCLUSES ...............................................................................................................108
9.
REFERNCIAS ..............................................................................................................112
APNDICE
A.
HISTOGRAMAS
DOS
VALORES
DAS
CARACTERISTICAS
EXTRADAS DOS SINAIS PARA TODOS OS SENSORES ..............................................116

APNDICE B. DESEMPENHO DO SISTEMA DE RECONHECIMENTO DE PADRES
PROPOSTO, RESULTADOS INDIVIDUAIS DA VALIDAO CRUZADA ..................125
APDICE
C.
CURVA
ROC
DO
CLASSIFICADOR
NO
SISTEMA
DE
RECONHECIMENTO DE PADRES PROPOSTO (TODOS OS SENSORES) ................129
17
1. INTRODUO
Em todo o mundo, o gerenciamento de recursos hdricos para atender as demandas de

abastecimento urbano est sendo cobrado a aumentar sua eficincia, e um ponto chave no
atendimento desse propsito o controle dos vazamentos. A incidncia de vazamentos em
redes de abastecimento de gua no Brasil, mesmo que no seja quantificada com certeza,
reconhecidamente elevada. Segundo dados do Sistema Nacional de Informaes sobre
Saneamento (SNSA, 2010) as perdas totais (reais e aparentes) so em mdia de 37,4%,
atingindo 53,4% quando avaliada por regies do pas e at 80,7% ao considerar as empresas
prestadoras de servios. As consequncias dos vazamentos vo alm da evidente perda
econmica pela gua captada, tratada e transportada pelo sistema mas no aproveitada nem
faturada. Os vazamentos tambm esto relacionados com perdas de energia (especialmente
em sistemas com bombeamento), desestabilizao do solo com prejuzo das obras de
infraestrutura e edificaes, e problemas de sade pblica pelo risco de intruso de
contaminantes na rede, alm de constituir um desperdcio do recurso, contrrio
racionalidade e sustentabilidade que o sistema deve objetivar. Apesar do grande interesse
suscitado em relao aos vazamentos, eles representam um problema de difcil soluo em
todos os sistemas de abastecimento de gua ao redor do mundo, de forma que impossvel
dizer que na atualidade existe alguma cidade com sua rede de distribuio em condies to
controladas que no apresente vazamento. Uma das razes para isso o fato de que existem
nveis de controle de vazamentos economicamente inviveis (ASHTON; HOPE, 2001).
As indesejadas consequncias dos vazamentos localizados, alvos dos estudos do presente
trabalho, aumentam segundo o volume de gua perdido at que sejam tomadas providncias
para a sua correo, isto , o tempo transcorrido que inclui a deteco de um vazamento, sua
localizao e reparao. O tempo de reparao depende da capacidade logstica, tcnica e
econmica do prestador do servio, e comumente sua reduo encontra menores dificuldades
tcnicas do que a deteco e localizao. Assim, estas duas tarefas iniciais so as mais
influentes nos sistemas razoavelmente organizados, e constituem alvos das metodologias
mencionadas neste trabalho.
A prtica antiga de esperar que manifestaes evidentes de um vazamento sejam detectadas
pelos usurios ou inspetores para s depois tomar providncias no sentido de resolver o
problema, persiste em um nmero de sistemas urbanos cada vez mais reduzido. Os exames
18
visuais tm sido substitudos em muitos casos por outros mais avanados como a inspeo
acstica, injeo de gs na rede, inspees eletromagnticas ou baseadas em medies
eltricas. A incorporao das novas tecnologias tem ampliado as possibilidades de detectar
vazamentos menores que os identificveis atravs da simples inspeo visual, mas continuam
tendo um limite abaixo do qual os vazamentos no podem ser detectados.
Considerando que os vazamentos que podem ser detectados pelos usurios ou pelas
consequncias facilmente perceptveis no sistema, podem corresponder a menos de 10% das
perdas reais em sistemas bem manejados (PILCHER, 2007), as tarefas de deteco e
localizao so complexas e de grande importncia. Os vazamentos no visveis, tanto os
detectveis via metodologias de inspeo quanto os de magnitudes menores detectvel
atravs delas, esto caracterizados por vazes pequenas, ausncia de indicadores visveis de
superfcie e influncia menos evidente nas caractersticas hidrulicas do sistema. Assim, os
tempos de reparo desses vazamentos so bem maiores do que os dos visveis, e, portanto,
ainda que caracterizados por vazes pequenas, podem promover maior volume de gua
perdida.
As metodologias baseadas em procedimentos diretos sobre a rede, como as anteriormente
mencionadas, so consideradas metodologias passivas. Dentre as suas limitaes esto a
dificuldade de obteno de informao atualizada de todo o sistema, o fato dos resultados
dependerem da experincia dos operadores e das condies de realizao das inspees, e, em
alguns casos, a necessidade da suspenso do servio de abastecimento aos usurios. Alm
disso, os dados para anlise geralmente esto limitados a um perodo curto (durante a
realizao de inspees ou testes) e possuem pequena abrangncia espacial. Face ao exposto,
a sua utilidade prtica se restringe localizao de vazamentos previamente detectados.
Assim, cada vez mais importante desenvolver o controle ativo de vazamentos, entendido
como o processo de deteco e localizao de vazamentos permanente sobre a rede (WLTS,
2007). Para que novas metodologias de controle ativo possam ser implementadas elas devem
ser condizentes com a realidade dos rgos responsveis pelo abastecimento, o que inclui
informao incompleta sobre as caractersticas e estado da rede, pouca disponibilidade de
pessoal altamente qualificado, recursos limitados para a compra de equipamentos sofisticados
e fragilidade das redes existentes, dentre outros fatores.
Na procura de um controle ativo de vazamentos, diversas metodologias tm sido propostas no
mbito da engenharia hidrulica. A premissa fundamental de que o vazamento um
fenmeno hidrulico e as suas consequncias tm interferncia no funcionamento do sistema,
19
e em razo disso podem ser analisadas, por exemplo, em termos de caractersticas como vazo
e presso. Esta abordagem tem sido explorada por muitos pesquisadores nas ltimas dcadas,
com propostas diversas, mas a sua aplicao prtica a sistemas reais tem sido alcanada em
poucos casos.
Por outro lado, os esforos pela modernizao dos sistemas de distribuio de gua para
abastecimento visando a melhorar seu controle e operao tm levado instalao de sensores
de baixo custo que permitem conhecer o estado de sistema, por exemplo, vazes e presses
em locais especficos. Essas informaes so obtidas continuamente, mas, em geral, so
pobremente analisadas.
Considerando a necessidade do controle ativo de vazamentos e a possibilidade de aquisio de
informaes, existem propostas baseadas na anlise do comportamento das variveis do
sistema, isto , na anlise dos sinais adquiridos. Este enfoque mostra-se especialmente til por
permitir que vazamentos sejam detectados assim que surgirem, e por no depender da
modelagem hidrulica, o que implica numa vantagem importante considerando as
dificuldades prticas para a utilizao de modelos de redes de distribuio reais.
O presente trabalho um aporte dentro dos esforos para a deteco de vazamentos pela
anlise de sinais. Usando os dados de presso e vazo adquiridos experimentalmente num
circuito de laboratrio, desenvolvido um sistema de reconhecimento de padres para a
classificao dos sinais adquiridos durante uma situao de vazamento ou no. O
embasamento terico, a explicao da metodologia utilizada e os resultados obtidos so
apresentados neste documento, que organizado nos seguintes captulos:
Objetivos, ao longo do qual so especificados os objetivos do trabalho;
No captulo 3 apresentada uma reviso da bibliografia sobre mtodos de deteco de

vazamentos no mbito da engenharia hidrulica, segundo uma classificao aqui
proposta das tcnicas baseadas nos modelos hidrulicos e das baseadas na anlise dos
sinais. So comentados os trabalhos mais representativos dos diferentes enfoques, e o
tipo de sistemas para os quais as tcnicas tm sido validadas;
No captulo 4 so apresentados brevemente, para o leitor que no est familiarizado

com a terminologia da rea de anlise de sinais ou de aprendizado de mquina, os
conceitos bsicos que sero aplicados nos captulos seguintes.
20
No captulo 5 so descritas as condies sob as quais foi adquirida a informao

utilizada nas anlises, incluindo o sistema de laboratrio e aquisio e os experimentos
executados.
Os conceitos relativos ao sistema de reconhecimento de padres com suas trs etapas

principais (segmentao e padronizao, extrao de caractersticas e classificao)
so apresentados no captulo 6. Igualmente, so descritas as alternativas consideradas
dentro de cada etapa do sistema de reconhecimento.
O captulo 7 contm os resultados e as discusses correspondentes. So apresentadas

as anlises para a escolha das metodologias internas no sistema de reconhecimento de
padres, segundo as alternativas definidas no captulo 6, assim como os resultados
finais obtidos com a arquitetura de sistema selecionada e ainda anlises sobre a
influncia da magnitude do vazamento na deteco.
As concluses e recomendaes so apresentadas no captulo respetivo.
Ao final, as referncias bibliogrficas empregadas so listadas.
Nos apndices, dados e figuras adicionais aos colocados nos diferentes captulos so
mostrados.
21
2. OBJETIVOS
O objetivo deste trabalho o desenvolvimento de uma metodologia para deteco de

vazamentos em redes de gua sob presso baseada na anlise dos sinais de presso e vazo em
pontos pr-escolhidos da rede, com a construo de um sistema de reconhecimento de
padres. utilizado um circuito experimental e adquiridos em laboratrio os sinais
posteriormente utilizados para a construo e teste do sistema.
Os objetivos especficos so:
Adaptao do circuito hidrulico experimental para estudo das caractersticas do

escoamento: vazo em trechos da rede e presso em pontos escolhidos;
Obteno de sinais de presso e vazo caractersticos do sistema em diferentes estados

de funcionamento, na ausncia e presena de vazamentos, executando os experimentos
de interesse sobre o circuito;
Identificao da arquitetura do sistema de reconhecimento de padres para a deteco

de vazamentos, considerando os diferentes mtodos alternativos que podem ser
empregados nas suas trs etapas: segmentao e padronizao, extrao de
caractersticas e classificao.
Implementao da rotina computacional para cada uma das trs etapas do sistema,
incluindo os mtodos alternativos para cada qual.
Avaliao das alternativas para a etapa de extrao de caractersticas, analisando e

comparando quatro diferentes caractersticas extradas do sinal, trs delas no domnio
do tempo e uma depois da aplicao da transformada wavelet.
Avaliao das alternativas para a etapa de classificao, analisando seis mtodos ou

classificadores.
Seleo da melhor arquitetura do sistema de reconhecimento de padres e avaliao

completa do seu desempenho.
Avaliao da influncia da magnitude do vazamento no desempenho do sistema.
22
3. MTODOS DE DETECO DE VAZAMENTOS
Em resposta ao desafio da deteco e localizao de vazamentos, diversas abordagens tm

sido propostas. Por exemplo, ainda so comumente usadas as do tipo mais antigo: as
inspees, que evoluram desde os exames visuais para o uso de sensores acsticos, injeo de
gs, medies eletromagnticas e uma diversidade de tcnicas mais ou menos sofisticadas. As
metodologias baseadas em procedimentos diretos sobre a rede como as anteriores so
consideradas metodologias passivas. Dentre as suas limitaes est o fato de que muito
difcil obter informao atualizada de todo o sistema, os resultados dependem da experincia
dos executores e das condies de execuo, as informaes se restringem ao perodo de
execuo e possuem pequena abrangncia espacial, e em alguns casos implicam na
interrupo do servio aos usurios. Face ao exposto, a sua utilidade prtica se restringe
localizao de vazamentos previamente detectados.
Na procura de um controle ativo de vazamentos, outras metodologias tm sido desenvolvidas.
Os vazamentos tm sido reconhecidos como fenmenos hidrulicos cuja ocorrncia influi no
estado do sistema hidrulico onde acontecem, e consequentemente tm impacto sobre
variveis como a vazo e presso. O estudo dessa influncia visando deteco indireta dos
vazamentos tem dado origem a vrios grupos de tcnicas propostas no mbito da engenharia
hidrulica. A seguir so apresentadas brevemente essas tcnicas, sem pretender abarcar a
totalidade dos trabalhos da rea e sim alguns avaliados como representativos. Um resumo
desses trabalhos com suas principais caractersticas, e organizados segundo a classificao
proposta, apresentado na Tabela 1.
Para compreender o panorama atual das tcnicas de deteco de vazamentos proposta neste
trabalho uma nova classificao, distinguindo as tcnicas baseadas na modelagem hidrulica
(MH) das tcnicas focadas na anlise dos sinais (AS). Dentro do primeiro grupo esto as
tcnicas que modelam o sistema em regime permanente (MH_P) ou transitrio (MH_T).
Dentro do segundo grupo podem se diferenciar as tcnicas AS_T que estudam o sistema
somente durante um transitrio hidrulico (situaes cabveis a modelos dinmicos inerciais)
e as tcnicas AS_O que analisam os sinais durante a operao normal de uma rede, numa
escala temporal muito superior da passagem das ondas e em condies de anlise quaseestticas. dentro deste ltimo subgrupo que poderia ser classificado o sistema de
reconhecimento de padres desenvolvido no presente trabalho.
23
Tabela 1. Resumo de trabalhos em deteco de vazamentos

Autor, Ano
Mtodo Principal
Mtodos Baseados em Modelos Hidrulicos

Modelos em regime Permanente
Pudar; Liggett, 1992
Problema Inverso
Estimacion de estado. Minimos
Andersen; Powell, 2000
quadrados
Soares, 2003
Problema Inverso. AGs
MH_P Poulakis; Valougeorgis;
Probabilidad Bayesiana e
Papadimitriou, 2003
modelos parametricos
Colombo, 2007
Wu, 2009
Sistema considerado
Avaliao
Num Lab Cam
MH
Wu; Sage; Turtle, 2010
Circuitos hipotticos
Setor de rede real

Setor de rede real
Circuitos hipotticos e
Setor de rede real
X
X
Modelos Em Regime Transitrio

Anlise transitrio inverso
Liggett; Chen, 1994
(ITA)
Vitkovsky; Simpson;
Lambert, 2000
(ITA) e AGs
Kapelan; Savic; Walters,
2003
(ITA), AGs e LVM
MH_T Saldarriaga; Fuentes;
Setor de rede real
Galvis, 2006
(ITA) e AGs
Circuitos hipotticos e de
Soares, 2007
(ITA) e AGs
laboratrio
Sistema aberto de
Covas; Ramos, 2010
(ITA)
laboratrio
Soares; Covas; Reis, 2011
Circuito laboratrio
(ITA), AGs e LVM
AS
Mtodos Baseados Na Analise De Sinais
Anlise De Sinais De Presso Durante Um Transitrio Hidrulico
Mpesha; Gassman;
Fluxo oscilatorio. Resposta em
Sistema aberto hipottico
Chaudhry, 2001
frequencia
Amortecimento da onda.
Sistema tubulao nica
Wang et al., 2002
Harmonicos
hipottico e de laboratrio
Teste transitoro. Anlise
Ferrante; Brunone, 2003
harmnico
Sistema tubulao nica de
Ferrante; Brunone, 2003
wavelet
laboratrio
Misiunas, 2003; Misiunas et
Sumas cumulativas (CUSUM)
laboratrio e real
AS_T al., 2005
Covas; Ramos; Almeida,
Fluxo oscilatorio. Resposta em
Sistema aberto hipottico
2005
frequencia
Ferrante; Brunone;
Meniconi, 2007
wavelet
Ferrante; Brunone;
Sistema aberto (juno) de
Meniconi, 2009
wavelet
laboratrio e real
Aguiar, 2010
Classificao com RNA
laboratrio
Sistema aberto (juno)
Meniconi et al., 2011
wavelet e Lagrange
real
Anlise De Sinais Durante Operao Da Rede
Buchberger; Nadimpalli,
Setor de rede hipottico e
Analise estatistico de vazes
2004
real
Aksela; Aksela; Vahala,
Mapas auto organizados
Setor de rede real
2009
Romano; Kapelan; Savic,
Controle estatistico e
Setor de rede real
2009
inferencia Bayesiana
AS_O
Mounce; Boxall; Machell,
RNA e Logica Difusa
Setor de rede real
2010
Ye; Ph; Fenner, 2011
Filtros Kalman
Setor de rede real
Palau; Arregui; Carlos,
Analise de componentes
Setor de rede real
2012
principais
Romano; Kapelan; Savic,
RNA, Controle estatistico e
Setor de rede real
2012
inferencia Bayesiana
X
X
24
3.1. MTODOS BASEADOS EM MODELOS HIDRULICOS (MH)

Considerando os vazamentos como fenmenos hidrulicos, diversos autores tm explorado a
sua incorporao nos modelos hidrulicos. O modelo hidrulico a representao,
simplificada em maior ou menor grau, de um sistema composto de elementos (condutos,
vlvulas, bombas, etc.) que definem o escoamento de gua no interior das redes sob presso.
assumido que as demandas e as caractersticas da rede (tais como geometria, material e
comprimento das tubulaes, cotas, fator de atrito, etc) determinam o estado do sistema, em
termos de vazo em cada trecho e presso em cada n, sob dada condio operacional. Como
esquematizado na Figura 1, as relaes entre as caractersticas da rede, demandas e estado do
sistema so preestabelecidas atravs das equaes da hidrulica que descrevem a conservao
de massa nos ns e de energia nos circuitos fechados.
ENTRADAS
Topologia da rede, geometria,
cotas, bombas, etc.
Fator Atrito
Demandas (+ vazamentos)
MODELO HIDRULICO
(simulao)
Conservao Massa (ns)
Conservao Energia (circuitos)
SADAS
Estado do sistema
Qi trechos
Pj pontos
Figura 1. Esquema geral dos elementos do modelo hidrulico
Assim, a modelagem hidrulica pode ser vista como problema direto, quando todas as
caractersticas da rede, demandas e condies operacionais so conhecidas, enquanto as
presses e vazes so incgnitas. Ocorre que algumas caractersticas da rede ou sofrem
variaes ao longo do tempo, como o caso das rugosidades absolutas dos condutos, ou no
so conhecidas por razes diversas. Assim, uma abordagem muito usada em pesquisas
recentes a do problema inverso (PUDAR; LIGGETT, 1992), em que valores de presso e
vazo, normalmente obtidos por medio na rede, so fornecidos ao modelo para determinar
algumas caractersticas ou demandas desconhecidas. A resoluo do problema inverso tem
sido aplicada, por exemplo, para calibrar o fator de atrito, ou pesquisar vazamentos,
assumidos como demandas (exemplos indicados na Tabela 1 sero comentados nas sees
seguintes).
Os mtodos para a resoluo do modelo tambm podem ser classificados em dois tipos,
explcitos ou implcitos. Nos mtodos explcitos, o funcionamento hidrulico do sistema
descrito por N equaes no lineares, onde esto envolvidas as caractersticas da rede e as
demandas, e por N incgnitas representando o estado do sistema. Os valores das incgnitas
so encontrados atravs da resoluo do sistema de equaes. Poucos problemas podem ser
25
representados fielmente com esta abordagem simplificada, mas tem sido utilizada para a
calibrao do fator de atrito e as demandas nos ns usando desde mtodos de tentativa e erro
at resolues complexas do sistema de equaes da hidrulica da rede (SOARES, 2003).
Nos mtodos implcitos, o problema inverso resolvido usando o equacionamento, as
caractersticas conhecidas da rede e os valores de presso e vazo obtidos. So procurados os
valores timos das caractersticas desconhecidas com o objetivo de minimizar o erro, que
definido como a diferena entre a resposta do sistema (presso, vazo) calculada pelo modelo
e os seus valores observados (LIGGETT; CHEN, 1994).
A modelagem hidrulica pode ser feita para o regime permanente (MH_P) ou no permanente
(MH_T), sendo este o critrio de classificao das tcnicas de deteco de vazamentos
referidas a seguir.
3.1.1. Modelos em regime permanente (MH_P)
Nos modelos hidrulicos de redes em regime permanente, suposto que as mudanas na rede
so instantneas, passando de um estado permanente para outro, desconsiderando a transio.
As equaes que descrevem o funcionamento hidrulico da rede sob regime permanente so
conhecidas e aceitas para propsitos diversos tais como projetos, reabilitao, e otimizao da
operao de sistemas de distribuio de guas para abastecimento. Existe atualmente uma
grande quantidade de simuladores hidrulicos no regime permanente, com diferentes graus de
complexidade e limitaes, alguns deles desenvolvidos por grupos de pesquisa das
universidades (Crede), outros por agncias pblicas (Epanet), ou companhias comerciais
(WaterCad, InfoWater,H2OMap). No regime permanente factvel estudar simultaneamente
presso e vazo, considerando a capacidade de sensores e sistemas de aquisio,
diferentemente das anlises em regime transitrio, como discutido na seo 3.1.2.
A deteco de vazamentos por MH_P pode ser abordada com a incorporao de demandas ou
sadas adicionais e desconhecidas nos ns da rede. Os valores de tais demandas ou sadas, que
podem ser maiores ou iguais a zero, podem ser tambm variveis de deciso do problema de
otimizao utilizado para calibrao de redes (quando usada a abordagem implcita para
resoluo do problema inverso (PUDAR; LIGGETT, 1992)). Assim, em algumas pesquisas
sobre calibrao de modelos que podem ser encontrados os primeiros esforos para a deteco
de vazamentos.
26
Diferentes trabalhos sobre a calibrao de modelos incluindo a determinao de demandas

foram desenvolvidos nas ltimas dcadas, muitos deles identificando os algoritmos genticos
(AGs) como uma ferramenta vantajosa aos propsitos de otimizao, mas somente alguns
incluram dentro do problema de calibrao as perdas por vazamentos e demandas
dependentes da presso (COLOMBO, 2007; SOARES, 2003).
Por exemplo, na proposta apresentada por Wu (2009) e Wu, Sage e Turtle (2010), os
vazamentos dependentes da presso so includos no modelo hidrulico e a definio dos
parmetros, em cada n, essencialmente um problema de calibrao, resolvido com AGs.
Nesse ltimo trabalho apresentada a aplicao do mtodo a uma rede terica e a um setor de
rede real com dados adquiridos no perodo de mnima demanda obtendo, segundo os autores,
resultados positivos, mesmo limitados pelas dificuldades da modelagem hidrulica e da
acurcia na medio. O modelo de vazamentos incorporado ao modelo hidrulico define uma
relao potencial da vazo de sada do vazamento com a presso. Usualmente essa relao
pode ser dada pela equao de um orifcio ou por formulaes especficas que mudam
segundo a magnitude e tipo do vazamento.
Mas nem todos os trabalhos envolvendo modelao hidrulica de redes de abastecimento de
gua com incluso de vazamentos para escoamento permanente esto ligados calibrao;
essa abordagem tem sido desenvolvida tambm para aplicaes diferentes, como a otimizao
da operao e/ou localizao de vlvulas redutoras de presso (REIS; PORTO; CHAUDHRY,
1997). Focando no problema da deteco de vazamentos, Poulakis, Valougeorgis e
Papadimitriou (2003) apresentam uma tcnica na qual no considerada a calibrao, mas
sim as grandes incertezas envolvidas na simulao de redes reais. A ideia geral calcular as
sadas de um modelo hidrulico do sistema dependente das diferentes condies provveis de
vazamento, para posteriormente compar-las com um conjunto de observaes de
caractersticas do sistema (vazo, presso) e escolher a condio mais provvel. As condies
de vazamento avaliadas, que so a posio e a magnitude dos vazamentos, so as variveis de
deciso do problema de otimizao, enquanto a probabilidade dessas variveis
corresponderem sada observada a funo objetivo a maximizar mediante um processo de
busca. Analises probabilsticos bayesianos do suporte ao mtodo, que foi testado para uma
rede terica.
Com uma abordagem menos comum, Anderson e Powell (2000) apresentaram uma
metodologia para deteco de vazamentos baseada na estimao de estado, isto , o clculo de
presses e vazes, dados os parmetros fixos do sistema, usando mtodo implcito de
27
mnimos quadrados ponderados. So utilizadas as equaes do fluxo em circuitos e as

variveis de estado so as demandas (vazamentos) desconhecidas nos ns.
3.1.2. Modelos em regime transitrio (MH-T)
O estudo do comportamento hidrulico no regime no permanente tem alcanado maior
relevncia nos ltimos anos, motivado em parte pela necessidade de representar fenmenos
comuns nas redes como variabilidade das demandas e operao de vlvulas, bombas e
reservatrios. Uma vantagem importante das anlises em regime transitrio o fornecimento
de maior quantidade de informaes sobre o sistema, dado que em cada ponto de anlise
conta-se com grande quantidade de dados, variveis no tempo. Consequentemente, o
problema inverso torna-se sempre indeterminado (PUUST et al., 2010). Assim, a anlise
hidrulica de sistemas durante o transitrio hidrulico tem sido aplicada a diversas
metodologias para a calibrao de modelos e deteco de vazamentos.
O principio bsico utilizado que, quando um transitrio acontece, uma onda se movimenta
pelo sistema com umas caractersticas de propagao dadas, at encontrar uma
descontinuidade (como um vazamento, mudana de dimetro, mudana de material, etc.); por
efeito de dita descontinuidade as caractersticas da onda so modificadas, e essa modificao
perceptvel tambm em outros pontos do sistema, pela propagao. Assim, estudando o sinal
original e a modificao que sofreu, possvel identificar a singularidade que a produz e sua
localizao.
A ideia central antes exposta aplicada no mtodo de anlise do transitrio inverso (ITA, do
ingls Inverse Transient Analysis) (LIGGETT; CHEN, 1994), procurando a grandeza e
localizao de vazamentos no modelo hidrulico de transitrio, que minimizem a diferena
entre o diagrama de presso em funo do tempo modelado e o medido no sistema. Autores
posteriores tm feito aportes a esta abordagem, usando como metodologias de otimizao os
algoritmos genticos (VITKOVSKY; SIMPSON; LAMBERT, 2000), o mtodo de
Levenberg-Marquardt (LVM), ou mtodos hbridos (KAPELAN; SAVIC; WALTERS, 2003)
(SOARES; COVAS; REIS, 2011).
Mesmo sendo uma tcnica bem estudada, so poucos os relatos na literatura sobre sua
aplicao prtica, como mostrado na Tabela 1. Uma mesma rede terica simples foi
considerada na apresentao de vrias das metodologias propostas (KAPELAN; SAVIC;
WALTERS, 2003; LIGGETT; CHEN, 1994; VITKOVSKY; SIMPSON; LAMBERT, 2000),
28
tambm existem casos de estudo baseados em experimentao em laboratrio com circuitos

fechados (SOARES; COVAS; REIS, 2011; SOARES, 2007) ou abertos (COVAS; RAMOS,
2010), enquanto so excepcionais as referncias a testes em sistemas reais como o conseguido
por Saldarriaga, Fuentes e Galvis (2006). A importncia da preciso no modelo hidrulico a
principal limitao para a aplicao efetiva do mtodo de transitrio inverso a redes reais, e os
seus resultados no podem ser apresentados sem uma quantificao da incerteza envolvida
(PUUST et al., 2010). A construo de um modelo hidrulico requer um conhecimento
detalhado e preciso do sistema fsico a ser modelado, condio difcil de ser atingida por redes
reais.
Adicionalmente, a modelagem de redes no regime transitrio ainda foco de pesquisa. Soares
(2007) desenvolveu uma metodologia inovadora para calibrao e deteco de vazamentos,
em um modelo hidrulico em regime transitrio incorporando o fator de atrito varivel com o
comportamento viscoelstico das tubulaes de PVC, e os vazamentos como sadas
governadas pela presso.
Por outro lado, os mtodos baseados no regime no permanente apresentam uma limitao
adicional devido a que para implement-los necessrio gerar fenmenos transitrios no
sistema a avaliar, o que no caso de redes de abastecimento implicaria em grande risco de
falha. Alm disso, existe a dificuldade de estudar as vazes durante o transiente, dado que a
maioria de medidores no responde instantaneamente s mudanas, limitando assim as
anlises aos registros de presses (PUUST et al., 2010).
3.1.3. Vantagens e limitaes dos mtodos MH
Analisando todas as tcnicas de deteco de vazamentos MH (baseadas na modelagem
hidrulica do sistema, tanto no regime permanente quanto no no permanente) podem-se
identificar algumas vantagens e limitaes gerais. As vantagens principais so a possibilidade
de obter informao detalhada sobre o fenmeno e suas consequncias em toda a extenso da
rede, assim como permitir a anlise igualmente detalhada de cenrios criados, o que significa
uma ferramenta muito til para o planejamento e a tomada de decises. Dentre as limitaes
pode-se apontar a necessidade de uma serie de condies difceis de completar para uma rede
de abastecimento real: alto detalhamento na modelao, alta quantidade e qualidade da
informao sobre o sistema, exatido nos parmetros e condies de contorno, exatido na
simulao hidrulica, e sistema de medio confivel e sincronizado.
29
Na maioria das redes urbanas, durante a construo e as operaes de manuteno, so

decididas mudanas que no so registradas nos documentos oficiais. Muitas delas nem
podem ser esclarecidas em estudos posteriores considerando a localizao das tubulaes sob
a infraestrutura da cidade, de profundidade incerta. Assim sendo, muito difcil conseguir um
conhecimento preciso e completo das redes, o que gera sempre um nvel de incerteza mesmo
no melhor modelo desenvolvido.
3.2. MTODOS DE DETECO DE VAZAMENTOS BASEADO NA

ANLISE DE SINAIS (AS)
Visando superar as limitaes dos mtodos de deteco de vazamentos MH, tm surgido
diversos trabalhos que focam o estudo na anlise das variveis dependentes, isto de vazes e
presses, que podem ser obtidas por medies no sistema e consideradas genericamente sinais
(seo 4.1). As tcnicas classificadas neste grupo certamente reconhecem os mesmos
princpios hidrulicos aplicados nos modelos, mas no focam os esforos na resoluo das
suas equaes e sim na extrao de informaes diretamente dos sinais, sem passar pela
modelagem hidrulica, para a deteco de vazamentos. Na maioria dos casos, realizado
algum tipo de comparao entre os sinais monitorados em qualquer intervalo de tempo e
aqueles correspondentes ao estado original da rede, ou seja, sem vazamentos. Mesmo
baseados nessa ideia fundamental, as tcnicas que analisam os sinais durante o transitrio
hidrulico (AS_T) e aquelas focadas na anlise durante a operao (AS_O) tm raios de ao
bem diferenciados.
ENTRADAS
Sinais de presso e/ou vazo
adquiridos no sistema:
Durante transitrio
Durante operao
ANLISE DE SINAIS
Anlises estatsticas,
transformaes, etc...
Comparao com padres
(adquiridos ou calculados).
SADAS
Indicadores da
presena/ausncia
de vazamento.
Figura 2. Esquema geral dos mtodos baseados na anlise de sinais.
3.2.1. Anlise de sinais de presso durante um transitrio hidrulico (AS_T)

Da mesma forma que as tcnicas MH-T (seo 3.1.2), nas tcnicas AS_T aproveitada a
mudana que um vazamento causa na propagao da onda durante um fenmeno transitrio.
Quando acontece um transitrio hidrulico gerado por uma manobra no sistema, e, durante a
30
sua propagao a onda encontra um vazamento este ter um efeito que pode ser de
amortecimento e reflexo (COLOMBO; LEE; KARNEY, 2009). Tambm o prprio
surgimento de um vazamento gera um transitrio hidrulico e ondas que se deslocam pelo
sistema. Identificar e quantificar todas essas alteraes e correlacion-las com um vazamento
o foco dos mtodos de deteco AS_T que, diferentemente dos mtodos MH_T, utilizam as
informaes monitoradas em um nico ponto do sistema ou cada um dos pontos monitorados
analisado isoladamente.
Entre as tcnicas AS_T propostas nos ltimos anos est a deteco de rupturas fazendo uso do
algoritmo CUSUM (do ingls Cumulative Sum) na anlise de sinais de presso (MISIUNAS,
2003; MISIUNAS et al., 2005). Essa tcnica visa identificar a onda de presso produzida por
uma ruptura que d origem a um vazamento para extrair dela informaes sobre a localizao
e magnitude do vazamento, relacionados com os tempos de chegada e as amplitudes das
ondas. Para tanto, so usadas informaes de monitoramento permanente da presso em um
nico ponto de uma tubulao em circuito aberto.
Outro tipo de anlise de sinais de presso durante o transitrio gerado pelo prprio vazamento
foi aplicado por Aguiar (2010), utilizando redes neurais artificiais (RNA) para a identificao
de padres de mudana no sinal relacionados com o incio de um vazamento. A tcnica visa
distinguir sinais de presso como pertencendo a uma de duas classes: referente ao incio de
um vazamento ou sem vazamento. Usando sinais de presso adquiridos durante a simulao
da ocorrncia de vazamentos com abertura de vlvulas num sistema experimental, foi treinada
uma rede neural do tipo Perceptron feedforward. A RNA tem como entrada um segmento do
sinal, i.e. um conjunto de valores de presso adquiridos (e normalizados), e como sada dois
valores cada um deles relativo semelhana com uma das classes possveis. Esse processo
pode ser visto como um aprendizado de mquina supervisionado.
A anlise de sinais pode ser realizada sobre diferentes representaes ou domnios, como
explicado na seo 4.2. Os dois trabalhos antes referidos analisam os sinais na sua
representao original, no domnio temporal, enquanto outros muitos autores tm proposto
mtodos aplicando transformaes de domnio para, por exemplo, fazer as anlises de
resposta em frequncia ou de harmnicos. A ideia anterior aplicada nos trabalhos referidos
a seguir, nos quais, adicionalmente, as informaes relativas presena de vazamentos so
investigadas durante a ocorrncia de fenmenos transitrios controlados e gerados
artificialmente, diferentes dos produzidos pelo prprio incio do vazamento.
31
Aplicando o mtodo de resposta em frequncia, Mpesha, Gassman e Chaudhry (2001)

estudam o comportamento hidrulico de um sistema aberto submetido ao escoamento
oscilatrio gerado pela operao cclica de uma vlvula na sada. Segundo as caractersticas
do sistema e da oscilao, calculado o diagrama de resposta em frequncia no ponto a
montante da vlvula, considerando as oscilaes da presso e da vazo, e usando para tanto o
mtodo de matrizes de transferncia. Considerando que um vazamento reflete as ondas de
presso, criando ondas superpostas e, portanto, alterando a resposta em frequncia, essa
resposta alterada pela existncia de um vazamento tambm calculada com o mesmo mtodo
analtico. Ao comparar as respostas em termos de frequncia para os dois casos, possvel
identificar os picos adicionais gerados pelo vazamento, e partindo de tais informaes
definida uma metodologia para calcular a localizao e a magnitude do vazamento. Nesse
trabalho so apresentados testes numricos com diferentes sistemas abertos incluindo
tubulaes em srie ou em paralelo.
A mesma metodologia de gerao de fluxo oscilatrio utilizada no mtodo de ondas
estacionrias apresentado por Covas, Ramos e Almeida (2005) tambm baseado na anlise da
resposta em frequncia do sistema, mas calculando-a com o mtodo de impedncia. A anlise
de ressonncia usada para identificar as frequncias geradas por um ou vrios vazamentos, e
da a sua localizao na tubulao. A metodologia apresentada com exemplos numricos de
sistemas abertos de tubulao nica ou tubulaes em srie.
Wang et al. (2002) propem o estudo do amortecimento da onda de presso gerada por um
transitrio hidrulico como ferramenta para detectar, localizar e quantificar um vazamento. O
amortecimento da onda devido frico estudado em uma tubulao sem nenhum
vazamento, seja mediante anlise numrica ou medio direta das presses num ponto, e
posteriormente estudado o mesmo sistema com presena de vazamento. Os sinais de presso
assim obtidos so separados em segmentos relacionados com o perodo da onda, a forma de
separar as partes correspondentes a cada reflexo da onda, e a cada um desses segmentos
aplicada a transformada de Fourier. No trabalho citado desenvolvida analiticamente uma
expresso para o amortecimento do transiente, sendo exatamente exponencial se o
amortecimento devido unicamente ao atrito e aproximadamente exponencial se o vazamento
tambm contribui para o amortecimento. A amplitude de cada um dos componentes
harmnicos resultantes da transformada analisada juntamente com os parmetros de
amortecimento, de forma de obter as concluses buscadas. feita a apresentao numrica do
mtodo e tambm uma validao em teste de laboratrio com tubulao nica.
32
Em um estudo de validao da tcnica proposta por Wang et al. (2002) concluiu-se que sua
aplicao est limitada a sistemas que no envolvem nenhuma descontinuidade interna e a
fenmenos transitrios instantneos e de pequena amplitude cuja durao seja menor do que o
tempo de viagem da onda at o ponto de monitoramento (NIXON et al., 2006).
Uma tcnica AS_T destacada que usa transitrios hidrulicos gerados por manobras de
fechamento rpido e anlise de harmnicos apresentada por Ferrante e Brunone (2003a).
Estudando no domnio da frequncia as equaes que descrevem o escoamento transitrio,
obtm-se a expresso analtica para as presses na sada da tubulao. Esse sinal de sada no
domnio da frequncia depende das caractersticas da manobra que produz o transitrio e das
caractersticas do sistema, e modificado tambm pela presena de um vazamento. Sinais de
presso so adquiridos sob o transitrio gerado controladamente e so transformados ao
domnio da frequncia usando transformada de Fourier, para posteriormente compar-los com
a resposta analtica ou com a de experimentos anteriores. A anlise comparativa permite a
identificao de distores que indicam a presena de vazamento na tubulao. A
metodologia foi aplicada a um sistema aberto de tubulao nica, com vlvula de fechamento
na sada, e medio das presses em alta frequncia de aquisio.
Ao estudar a resposta do sistema no domnio da frequncia, perdida uma poro de
informaes interessantes como, por exemplo, o tempo de chegada da onda ou
descontinuidades no sinal temporal. Visando superar essa perda, num trabalho complementar
(FERRANTE; BRUNONE, 2003b), foi proposta a alternativa de transformao das presses
de sada usando transformada wavelet contnua. No sinal transformado so identificadas as
singularidades devidas reflexo da onda pelo vazamento que permitem a sua deteco, e
tambm obtida informao sobre o tempo de chegada da onda refletida, indicativa da
localizao do vazamento. Os resultados da aplicao do mtodo e anlises realizadas sobre
um sistema experimental aberto empregando diferentes tipos de transformada wavelet
permitem concluir que nem todos tm a mesma utilidade para o objetivo de identificao das
singularidades relativas ao vazamento.
Continuando a pesquisa do trabalho anterior, tm sido publicados estudos sobre o uso de
wavelets para a anlise de sinais de presso em transitrios com o objetivo da deteco de
vazamentos (FERRANTE; BRUNONE; MENICONI, 2007, 2009). Considerando um sistema
com uma nica tubulao, so gerados analiticamente sinais de presso em resposta a um
transitrio hidrulico, usando para isso o mtodo das caractersticas. Aos sinais aplicada a
transformada wavelet discreta e contnua, e vrios tipos de wavelets me (esses conceitos so
33
apresentados na seo 4.2.2). So apresentados testes com sries geradas analiticamente e

obtidas em laboratrio e, embora tenha sido identificada a necessidade de investigao dos
tipos de wavelet mais adequados anlise, provada a capacidade da transformada wavelet
para a identificao de singularidades a partir de sinais de presso, mesmo na presena de
rudo.
A anlise anterior pode ser estendida de sistemas de uma nica tubulao a sistemas com
bifurcao (FERRANTE; BRUNONE; MENICONI, 2009), e ainda melhorias so propostas
pela integrao de modelos de Lagrange. O uso desses modelos Lagrangianos para avaliar as
causas das singulares detectadas com a anlise wavelet (MENICONI et al., 2011) foi testado
em campo em uma tubulao adutora.
A totalidade das tcnicas AS_T encontradas considera unicamente sistemas abertos, na
maioria dos casos consistindo de uma nica tubulao, ocasionalmente sistemas com uma
bifurcao, como mostrado na Tabela 1. Tais tcnicas, alm de serem dependentes da anlise
de um evento transitrio bem controlado e conhecido, so altamente sensveis a
irregularidades ou mudanas no sistema. Adicionalmente, existem dificuldades para aplicar as
consideraes analticas em sistemas mais complexos. Por outro lado, existe tambm uma
limitao importante pelo risco ao impor altas presses durante os transitrios gerados em
sistemas reais.
Assim, sem desconhecer os avanos no seu desenvolvimento e as vantagens apresentadas,
pode-se concluir que as tcnicas AS_T no so aplicveis para verificao permanente da rede
de abastecimento visando deteco de vazamentos, sendo limitadas a linhas adutoras e
inspeo detalhada de trechos especficos.
3.2.2. Anlise dos sinais durante operao da rede (AS_O)
Pesquisas recentes esto tentando aplicar os aprendizados dos mtodos anteriormente
resumidos para superar suas limitaes, visando ao aproveitamento do monitoramento
permanente da rede para a deteco de vazamentos pela anlise dos sinais adquiridos durante
a operao (AS_O). Este tipo de mtodo procura ser aplicvel a sistemas reais de distribuio,
aproveitando as informaes de monitoramento permanente e de baixo custo, sem requerer
operaes especficas na rede (como a gerao de transitrios, que podem ainda prejudicar
estruturalmente o sistema) ou o conhecimento detalhado necessrio para a modelagem
hidrulica de elevada preciso. Comumente so aplicadas ferramentas estatsticas avanadas
34
ou tcnicas de inteligncia artificial, e em geral so procuradas nos sinais continuamente

monitorados evidncias que revelem o incio de um vazamento, e no a sua pr-existncia
como em muitas das tcnicas AS_T.
Podem ser citados vrios trabalhos que analisam os sinais de vazes de entrada em um setor
de rede de abastecimento, como os resumidos a seguir. Anlises estatsticas da vazo no
perodo de baixa demanda (considerada como varivel aleatria) so a base da proposta de
Buchberger e Nadimpalli (2004), que validada somente para setores residenciais pequenos,
onde possam ser descartados consumos noturnos importantes e variveis. Segundo o mtodo,
a partir dos dados de vazo de entrada a uma rea residencial adquiridos durante o perodo de
mnima demanda , so calculados os parmetros da distribuio de probabilidade normal das
medies. A srie observada truncada e reavaliada sua mdia e desvio padro, processo que
se repete at atingir uma quantidade mnima de leituras na amostra suficiente para a
determinao de tais parmetros. O comportamento esperado dos parmetros em relao ao
nvel de truncamento definido teoricamente, e uma divergncia abrupta nele interpretada
como um vazamento. Tambm analisando essa divergncia estimada a ordem de grandeza
das perdas. Segundo os autores, para aplicao da tcnica preciso contar com medies de
alta frequncia, da ordem de um valor cada 5s a 1s, e uma rea monitorada com menos de mil
residncias.
Usando ferramentas mais complexas para anlise dos sinais de vazo num setor de rede,
Mounce, Boxal e Machell (2010) propem um mtodo para deteco de vazamentos e outras
anormalidades em tempo real, usando inteligncia artificial, cujas bases foram apresentadas
em publicaes anteriores (MOUNCE et al.,
2006, 2007, 2008 apud (ROMANO;
KAPELAN; SAVIC, 2009). Dados de vazo coletados na rede com intervalos de 15 minutos,
durante os trs meses imediatamente anteriores anlise so submetidos a um prprocessamento, para serem utilizados no treinamento de uma rede neural artificial (RNA).
Posteriormente construdo o modelo de densidade de probabilidade para as vazes futuras
produzidas pela RNA. Sries atualizadas de valores observados so comparadas em tempo
real com as previses para perodos de duraes variveis; com um sistema de inferncia
difusa gerado um alerta quando detectadas observaes anormais. Baseado na densidade de
probabilidades, para cada evento associado um intervalo de confiana que permite
classificar e priorizar os alarmes. O mtodo foi testado para uma rede de distribuio de gua
potvel do Reino Unido com sucesso.
35
Por outro lado, o mtodo apresentado por K. Aksela, M. Askela e Vahala (2009) est baseado
nos mapas auto-organizados (SOM, do ingls Self Organizing Maps), que correspondem a um
tipo de RNA treinada usando aprendizado no supervisionado para o agrupamento de um
conjunto de entradas e que produz sua representao com menor dimensionalidade, que so os
chamados mapas. As informaes utilizadas para a construo do modelo de vazamentos so
sinais de vazo e registros de vazamentos conhecidos, num setor de rede real. Uma frmula
emprica de vazamento em funo da distncia ao sensor e do tempo definida para o caso
estudado. As entradas do SOM so os sinais de vazo, depois do pr-processamento, com
base semanal, correspondentes a todo o perodo de dados. A funo de vazamento emprica
incorporada, resultando na construo de mapas dos padres de vazo usados para indicar o
valor da funo de vazamento. Depois do processo de treinamento antes descrito, os mapas
criados permitem identificar um vazamento.
Ainda dentro das tcnicas baseadas nos registros de vazo em setores monitorados da rede,
tambm est a anlise de componentes principais (PCA, do ingls Principal Component
Analysis) para deteco de vazamentos (PALAU; ARREGUI; CARLOS, 2012). A tcnica de
PCA permite, com uma transformao ortogonal, reduzir uma matriz de alta dimensionalidade
como a de vazes num setor durante um determinado perodo, para uma matriz de
dimensionalidade menor na qual toda a variabilidade dos dados expressa num conjunto de
poucas variveis linearmente descorrelacionadas. Assim, construdo um modelo estatstico
que representa o comportamento da rede baseado exclusivamente nos sinais adquiridos.
Quando um vazamento se incorpora vazo, os valores das componentes mudam, e fazendo
uso de tcnicas estatsticas de controle possvel a identificao de anomalias, incluindo
inicio de vazamentos.
Incorporando a anlise de sinais de presso juntamente aos de vazo para a deteco de
vazamentos, foi proposto o uso de filtros Kalman (YE; PH; FENNER, 2011), um mtodo
estatstico que utiliza trechos conhecidos de sries temporais para produzir estimativas do
estado do sistema, no caso as presses e vazes. Os filtros Kalman fornecem uma
caracterizao estatstica de sistemas dinmicos, como o sinal temporal de vazo ou presso
na rede, considerando a influncia dos valores passados na distribuio de probabilidades em
um processo de aprendizado incremental. Assim, os filtros Kalman so aplicados para estimar
os parmetros hidrulicos (presso e vazo) na rede em condies normais, e um vazamento
pode ser detectado analisando as parcelas residuais do filtro, que correspondem diferena
entre valores estimados e medidos.
36
Usando tambm o monitoramento de presses e vazes na rede durante a operao, foi

desenvolvido um mtodo baseado em inferncia bayesiana (ROMANO; KAPELAN; SAVIC,
2009, 2010). O mtodo utiliza dados de vazo na entrada do setor e de presses em um ou
mais pontos internos a ele, adquiridos a uma taxa de 1 amostra cada 15 minutos. A esses
sinais aplica-se a remoo do rudo usando a transformada wavelet, que se apresentam como
uma boa ferramenta para o propsito de separar o rudo de outras caractersticas no
permanentes do sinal. Os sinais sem rudo do ltimo perodo de 24 horas constituem a
informao de treinamento para um modelo de previso de curto prazo, usando o Group
Method of Data Handling, tcnica estatstica que utiliza todas as informaes disponveis sem
a necessidade de especificar a forma do modelo para a previso. Valores atualizados
adquiridos na rede so comparados com os preditos pelo modelo, identificando as
discrepncias, e depois metodologias de controle estatstico de processos so usadas para
incrementar a confiabilidade da hiptese de vazamento. As informaes assim obtidas so
entregues a um sistema de inferncia Bayesiana para a avaliao da probabilidade de
ocorrncia de um vazamento e a gerao de alarmes.
A mesma equipe de pesquisa fez melhorias na proposta (ROMANO; KAPELAN; SAVIC,
2012), desenvolvendo um sistema modular que incorpora ferramentas adicionais em cada um
dos passos do processo de deteco. Depois do pr-processamento e filtragem do rudo, a
anlise de discrepncias feita com uma Rede Neural Artificial (RNA). A RNA treinada
com os sinais coletados em perodos anteriores, e recebe como entradas dados atualizados
para produzir como sada os valores futuros preditos, que so comparados com os dados
adquiridos da rede e calculadas as discrepncias. Adicionalmente avaliaes estatsticas dos
desvios no sinal e da sua tendncia so realizadas para gerar evidncia complementar sobre a
ocorrncia de vazamento. As evidncias geradas nas anlises de discrepncias, dos desvios e
das tendncias so incorporadas a um sistema de inferncia Bayesiana que estima a
probabilidade da ocorrncia de um vazamento, combina as informaes de diferentes sensores
e finalmente gera os alarmes de vazamento quando um limiar atingido. A tcnica tem sido
testada em um setor de rede real (ROMANO; KAPELAN; SAVIC, 2012).
As tcnicas baseadas na anlise de sinais durante a operao da rede (AS_O), apesar do curto
tempo desde seu surgimento, tm se mostrado promissoras. Porm, no tm sido publicadas
suas aplicaes efetivas a sistemas reais, possivelmente pelo tempo que naturalmente leva a
transferncia de tecnologia para a indstria, mas tambm por caractersticas das prprias
tcnicas que precisariam ser melhoradas para sua implementao generalizada. A aplicao de
37
tcnicas de inteligncia artificial na anlise dos sinais nas tcnicas AS_O ainda inovadora,
sendo que, a cada nova pesquisa com resultados positivos, novas possibilidades de melhoria
so abertas. Reconhecendo que os objetivos prticos do seu desenvolvimento no tm sido
satisfatoriamente atingidos, h um grande interesse por continuar explorando esta abordagem.
38
4. CONCEITOS DE ANLISE DE SINAIS E APRENDIZADO DE MQUINA
A metodologia proposta para deteco de vazamentos, com o suporte de um sistema de

reconhecimento de padres, tm suas bases em disciplinas diferentes da engenharia
hidrulica, como o processamento de sinais e o aprendizado de mquina. Com o objetivo de
apresentar os conceitos bsicos aplicados no trabalho para leitores no familiarizados com
esses temas, neste captulo so resumidas definies e explicaes simples, que podero ser
aprofundadas na bibliografia citada.
4.1.VARIVEIS DO SISTEMA COMO SINAIS

Um sinal pode ser definido como qualquer ente fsico que varia ao longo do tempo, espao ou
outra varivel independente (ou vrias delas) (PROAKIS; MANOLAKIS, 2007). Todo sinal
pode ser representado matematicamente como funo de uma ou diversas variveis
independentes. Segundo a definio anterior tanto a presso quanto a vazo em pontos de uma
rede podem ser estudados como sinais que, para as anlises de interesse, so considerados
independentes entre si, de forma a consider-los como sinais unidimensionais, variveis no
tempo somente.
entendendo as variveis do sistema, presso e vazo, como sinais, que foram neste trabalho
exploradas metodologias de processamento de sinais. O termo processamento de sinais
muito abrangente, pois considera todos os sistemas (fsicos ou lgicos) que realizam
operaes sobre o sinal, seja com o fim de produzir um sinal alterado ou de extrair
informaes de interesse, neste ltimo caso com o nome mais apropriado de anlise de
sinais.
Os sinais podem ser classificados em dois tipos bsicos: analgicos e digitais. Se a varivel
independente contnua e os valores da varivel dependente esto tambm numa faixa
contnua, o sinal analgico. Se tanto a varivel independente quanto a varivel dependente
so discretas, ento o sinal dito digital. A grande maioria de sinais no mundo fsico,
incluindo a presso e a vazo, analgica: por exemplo, em todo instante de tempo sem
interrupo existe uma presso, e sua magnitude instantnea pode assumir infinitos valores.
possvel o processamento de sinais analgicos, mas os mtodos mais avanados de anlise e
39
processamento que envolvem o uso de processadores so aplicveis somente a sinais digitais,

razo pela qual a converso dos sinais se faz necessria.
A converso de sinais analgicos em digitais definida por trs processos: amostragem,
quantizao e codificao. A amostragem refere-se extrao de valores do sinal em
intervalos discretos de tempo, a quantizao aproximao dos valores lidos a valores
discretos, e a codificao expresso dos valores no formato adequado para transmisso das
informaes, isto , uma sequncia de bits (PROAKIS; MANOLAKIS, 2007). Depois da
converso para sinais digitais, as variveis de interesse estaro representadas por uma srie de
valores, um para cada instante de tempo em intervalos fixos, sendo que cada valor ser
arredondado para o respectivo valor discreto mais prximo, e essas informaes sero
transmitidas para seu processamento.
Para o presente trabalho de pesquisa, e como apresentado na seo 5.2, as presses e vazes
na rede foram medidas pelos transdutores e hidrmetros, e transmitidas para uma placa de
aquisio de dados que controla o processo de converso e transmisso do sinal digital para o
microcomputador.
4.2.TRANSFORMAES DE DOMNIO
A presso e vazo na rede so neste trabalho, segundo explicado na seo anterior, sinais
digitais variveis no tempo, isto , sinais temporais discretos. O sinal composto por sries de
valores instantneos, e pelo processo de digitalizao usado, os intervalos de tempo entre
valores sucessivos so constantes. De acordo com essa representao temporal, as mudanas
nos valores correspondem a mudanas no estado do sistema observado, em funo do tempo.
Quando um sinal analisado nessa representao, como uma sequncia de valores no tempo,
fala-se de anlise no domnio do tempo. Com o sinal no domnio do tempo podem ser feitas
transformaes no sinal tais como a padronizao (seo 6.1), podem ser calculadas
caractersticas como energia, potncia, entropia e outras (seo 6.2), podem realizar-se
operaes como adio, multiplicao ou mudana de escala, dentre muitas outras opes de
anlise e processamento de sinais.
Sem desconhecer a variedade e importncia das metodologias de processamento de sinais no
domnio do tempo, em muitos casos a representao temporal insuficiente e outras formas
40
de indexao podem mostrar-se superiores, como a transformao para o domnio da

frequncia (MEYER, 1999).
4.2.1. Domnio da frequncia e Transformada de Fourier
A definio original da frequncia, vinda da fsica, relaciona-se com o movimento peridico,
em particular com a oscilao harmnica, comumente descrita por funes senoidais. Nesse
caso, a frequncia refere-se mudana angular por unidade do tempo na funo senoidal, ou
tambm quantidade de ciclos por segundo (PROAKIS; MANOLAKIS, 2007).
Seja considerado um sinal temporal discreto peridico (no qual as mesmas sequncias de
valores repetem-se a cada certo nmero de intervalos no tempo), por exemplo, um sinal
senoidal. Nesse sinal simples, o perodo definido como o tempo transcorrido para a
repetio da sequncia de valores (ciclos), e a frequncia o inverso do perodo, ou o nmero
de ciclos numa unidade de tempo. Portanto, esse sinal senoidal simples ter um nico valor de
frequncia representativo, comumente medido em unidade de s-1 = Hz. Se o sinal no fosse
simplesmente senoidal, mas composto pelo somatrio de vrias funes senoidais de
diferentes perodos, ao invs de um nico valor o sinal teria mltiplos valores de frequncia
presentes. Um sinal mais complexo composto por uma faixa muito ampla de frequncias
diferentes. A anlise dessas frequncias presentes no sinal, ao invs dos valores em funo do
tempo, corresponde anlise no domnio da frequncia.
A anlise no domnio da frequncia indispensvel na rea de processamento de sinais. A
descrio em termos da frequncia pode ser a base de uma melhor compreenso do fenmeno
que d origem aos sinais, sendo que oferece um complemento essencial descrio
exclusivamente temporal (MEYER, 1999). A ferramenta padro para anlise da frequncia a
transformada de Fourier, cuja ideia bsica que qualquer funo pode ser representada pelo
somatrio de funes senoidais de diferentes frequncias e fases. Assim, usando a
transformada de Fourier obtm-se os componentes relativos s diferentes frequncias no sinal,
construindo uma representao diferente e independente do eixo temporal. O processo
reversvel, pois utilizando a transformada inversa de Fourier, pode-se passar do domnio da
frequncia para o do tempo.
A transformada de Fourier funciona muito bem no processamento de sinais estacionrios
(invariantes no tempo), mas tem limitaes quando so analisados sinais no estacionrios ou
problemas envolvendo singularidades no sinal como mudanas localizadas no tempo
41
(MALLAT, 1999). A principal limitao deve-se a que com esse tipo de transformao
possvel saber quais frequncias compem um sinal, mas sem nenhuma indicao do
momento (ou valor no eixo temporal original) no qual essas frequncias se apresentam.
4.2.2. Transformada Wavelet e analise tempo-frequncia
Reconhecendo que as representaes em tempo e em frequncia so necessrias, mas
insuficientes, foram desenvolvidos mtodos de anlise que efetivamente fornecessem uma
descrio conjunta do sinal, nos dois domnios simultaneamente, e so as chamadas anlises
tempo-frequncia. Uma das principais aproximaes para o problema a decomposio dos
sinais a respeito de uma famlia de sinais ou funes elementares, as quais so bem
localizadas tanto em tempo quanto em frequncia (diferentemente da transformada de Fourier
tradicional). Os mtodos mais importantes que seguem essa aproximao so a decomposio
Gabor (relacionada com a transformada de Fourier de curta durao) e a decomposio
wavelet (MEYER, 1999).
As wavelets so simplesmente funes que satisfazem certas condies matemticas e que so
usadas para a representao de dados ou de outras funes (GRAPS, 1995). As funes
wavelet devem ter media zero, localizao no tempo e energia finita. Essas caractersticas so
comuns a inmeras funes matemticas, mas na prtica so aplicadas algumas funes
amplamente estudadas e validadas. Neste trabalho ser utilizada uma das funes mais
comuns, a funo Daubechies com dois momentos zero, ou db2, apresentada na Figura 3. A
escolha desta funo com dois momentos, que corresponde com filtros de suporte quatro, esta
relacionada sua capacidade para analises onde a resoluo temporal importante
(ADDISON, 2002). Considerando tambm que o fenmeno analisado (o vazamento) esta
relacionado com uma descontinuidade na primeira derivada do sinal no se considera
conveniente o uso de funes com maior suporte.
2
-1
-2
0
0.5
1.5
2.5
Figura 3. Funo wavelet Daubechies, db2
42
As funes wavelet so combinadas, mudando sua escala e posio, para transformar o sinal
em anlise para uma representao mais til. A mudana de escala, que equivale expanso
ou contrao da funo, est tambm indiretamente relacionada com as frequncias presentes
no sinal, enquanto a posio refere-se ao eixo temporal original do sinal. Assim, a
transformada wavelet permite analisar as frequncias presentes no sinal sem perder as
informaes referentes ao sinal no tempo. A transformada wavelet discreta de um sinal
definida como segue:
(
)(
( )
( )
( )
Sendo x = sinal original, em funo do tempo

Wxm,n = Transformada wavelet do sinal x, na escala m e posio n
( ) = Funo wavelet, em funo do tempo, na escala m e posio n
A caracterstica de localizao das funes elementares e a possibilidade de anlise em
mltiplas escalas ou resolues so vantagens importantes da transformada wavelet, que
permite que as informaes sejam adequadamente separadas, o que importante para
aplicaes como a identificao de singularidades ou a eliminao de rudo em sinais.
Matematicamente, a transformada wavelet tambm a convoluo da funo wavelet com o
sinal sob anlise1, e possvel entender essa convoluo como um processo de filtragem do
sinal. O termo filtragem, que em geral refere-se ao processo de discriminao de objetos
segundo seus atributos, na anlise de sinais usado comumente em referncia discriminao
das componentes de frequncia diferentes presentes no sinal de entrada. Assim, um sinal
filtrado contm somente algumas das frequncias presentes originalmente no sinal, enquanto
outras so descartadas.
Assim, relacionando a transformada wavelet com um processo de filtragem, possvel
entender a transformao em cada nvel (escala) como uma filtragem dupla, onde do sinal
original so extradas uma verso contendo s as frequncias baixas nele presentes e outra
verso contendo s as frequncias altas.
A convoluo um operador linear que transforma duas funes em uma terceira funo, no caso a
convoluo da funo wavelet e o sinal d origem ao sinal transformado.
43
4.3.DECOMPOSIO WAVELET DISCRETA E PACKET

Na mesma linha de raciocnio da interpretao da transformao wavelet como processo de
filtragem, a decomposio wavelet discreta de um sinal pode ser entendida como a
representao dele em diferentes escalas, relacionadas com as frequncias. Essa nova
representao obtida decompondo o sinal em duas partes, uma correspondente s baixas
frequncias e representada por um vetor de coeficientes de aproximao, enquanto a outra
parte correspondente s altas frequncias e representada por um vetor de coeficientes de
detalhe. Assim, o sinal original fica representado por dois componentes depois de decomposto
no nvel m = 1. O processo de decomposio em aproximao e detalhe executado
sucessivamente, com base na aproximao de nvel imediatamente anterior, como mostrado
na Figura 4. O nmero mximo de nveis de decomposio, M, depende do tamanho original
do sinal, N = 2M. Decompondo at um nvel m qualquer (1 m M), o sinal fica representado
por m+1 componentes, sendo um vetor de coeficientes da aproximao, e m vetores de
coeficientes dos detalhes.
Nvel
Tamanho N
m=0
Sinal Original
m=1
m=2
Componentes (aprox. e
detalhe) da dec. wavelet
discreta at nvel 3
m=3
Nomes dos componentes

neste trabalho
Figura 4. Esquema da decomposio wavelet discreta
A quantidade de elementos nos vetores de aproximao e detalhes muda de forma tal que em
todo nvel m o total de elementos de todas as componentes igual a N. Adicionalmente, cada
uma das componentes corresponde a uma representao da durao completa do sinal.
Lembrando tambm que cada decomposio produz uma diviso mais fina da faixa de
frequncias contidas em cada componente, entende-se que nveis de decomposio (m)
maiores implicam uma maior resoluo na frequncia, mas menor resoluo temporal,
44
enquanto nveis m menores fornecem melhor resoluo temporal, mas pobre resoluo de
frequncias. A seleo do melhor nvel de decomposio varia de um problema para outro,
sendo necessrio avaliar conjuntamente o ganho e o custo do clculo. Essa seleo para o
presente estudo apresentada na seo 7.1.
A decomposio wavelet packet uma generalizao da decomposio wavelet discreta.
Enquanto na decomposio wavelet discreta os componentes de detalhe passam inalterados
para os nveis de decomposio seguintes, na decomposio wavelet packet em cada nvel
tanto os componentes de aproximao quanto os de detalhe so decompostos sucessivamente.
Assim, para um nvel de decomposio m, o sinal fica representado por um vetor de
aproximao e 2m-1 vetores de detalhes, como mostrado na Figura 5.
Nvel
Tamanho N
m=0
Sinal Original
m=1
m=2
Componentes (aprox. e
detalhe) da dec. wavelet
package at nvel 3
m=3
Nomes dos componentes

neste trabalho
Figura 5. Esquema da decomposio wavelet packet
Lembrando que os vetores de aproximao correspondem s frequncias mais baixas

enquanto os de detalhes s frequncias mais altas, ao aplicar a decomposio wavelet packet
ao invs da wavelet discreta, obtm-se informaes mais detalhadas de sub-faixas de
frequncia mais altas.
A gerao e o processamento dessa maior quantidade de informaes implicam num alto
custo computacional, e necessrio avaliar o beneficio de sua aplicao a cada problema,
como feito na seo 7.1.
45
4.4. APRENDIZADO DE MQUINA

Comumente a resoluo de problemas complexos, envolvendo grande volume de dados e para
os quais no conhecida uma soluo algortmica definida, deve ser abordada
computacionalmente, requerendo sistemas que alm de executar operaes conhecidas sejam
capazes de criar por si prprios, a partir de experincias passadas, uma hiptese ou funo
capaz de resolver o problema. Entra-se assim no campo do aprendizado de mquina, pela qual
os computadores so programados para melhorar o desempenho por meio da experincia,
obtendo concluses genricas a partir de conjuntos de exemplos, i.e. com um processo de
induo (FACELI et al., 2011).
Assim, o aprendizado indutivo realizado pela anlise de exemplos obtidos com anterioridade
ao processo de aprendizado. Segundo as informaes anteriores fornecidas ao processo de
aprendizado, este pode ser supervisionado ou no supervisionado. No aprendizado
supervisionado para cada um dos exemplos fornecida tambm a resposta ou sada
correspondente, enquanto no aprendizado no supervisionado o prprio algoritmo dever
tentar agrupar e a interpretao desse agrupamento usualmente requer uma anlise posterior.
O problema tratado neste trabalho usando aprendizado de mquina a distino de sinais de
presso ou vazo segundo a condio na qual foram adquiridos: durante a ocorrncia de um
vazamento ou no. Como a resposta esperada se o sinal sob anlise pertence a uma ou
outra classe, trata-se de um problema de classificao. A classificao um caso particular de
aprendizado supervisionado onde aos exemplos esto associados rtulos de classe prdeterminado. Neste trabalho, existem somente duas classes (corresponde com a situao de
vazamento ou no), portanto dois valores para o rtulo de classe, formando um problema de
classificao binria. A metodologia de abordagem do problema apresentada no captulo 6.
O processo de aprendizado indutivo, durante o qual so obtidos os elementos necessrios para
extrair generalizaes a partir dos exemplos rotulados, tambm costuma ser chamado de
treinamento, termo que ser usado neste trabalho.
46
5. AQUISIO DE SINAIS EXPERIMENTAIS EM LABORATRIO
O horizonte da deteco de vazamentos abordada no presente trabalho refere-se s redes de

distribuio de gua para abastecimento, sistemas complexos e muito pouco analisados sob a
perspectiva da anlise de sinais aqui proposta, como mostrado na seo 3.2. Levando em
conta a novidade das metodologias propostas e a necessidade de encarar o problema
primeiramente sob condies conhecidas e controladas, decidiu-se trabalhar com um sistema
de laboratrio que ser descrito a seguir, juntamente com as condies de experimentao
adotadas para a gerao das bases de dados utilizadas em todas as anlises posteriores.
5.1.MONTAGEM EXPERIMENTAL
O circuito hidrulico experimental um sistema para estudo sobre uma rede de condutos
forados, com monitoramento automtico de presses e vazes, localizado no laboratrio de
Hidrulica Ambiental do Centro de Recursos Hdricos e Ecologia Aplicada (CRHEA). O
sistema completo composto pela rede de tubulaes em policloreto de vinila (PVC)
desenvolvida verticalmente, o sistema de alimentao e o de aquisio de dados, cujo
esquema apresentado na Figura 6.
O circuito hidrulico formado por um conjunto de tubulaes de PVC de 53, 75 e 101 mm
de dimetro interno com comprimento total de 203 m, alm de todos os acessrios hidrulicos
necessrios (ts, cotovelos, redues e ampliaes, entre outros). O sistema possui tambm 37
vlvulas (18 vlvulas esfera e 19 vlvulas de gaveta) para a modificao da topologia do
sistema e o controle de vazes, alm de uma vlvula automtica para gerao de fenmeno
transitrio no sistema, e nove vlvulas para sada de vazo que permitem a modelao de
vazamentos nos ns.
Para a alimentao do sistema hidrulico utilizada uma estao de bombeamento, com duas
bombas centrifugas em paralelo, de potncia 1 cv e 5 cv respectivamente, e com uma vlvula
de reteno a jusante delas. O bombeamento se d a partir de um reservatrio com nvel de
5 m, ao qual tambm retorna a vazo depois de circular pela rede, constituindo um circuito
fechado.
1m
2m
3m
4m
Escala
Figura 6. Esquema do circuito hidrulico experimental
47
48
5.2.AQUISIO DE DADOS
A aquisio de dados feita por 15 transdutores de presso com escalas de at 100, 200 e
300 psi, preciso de 0,25% do fundo de escala, e sada em corrente na faixa de 4 a 20 mA.
Para a medio de vazes de sada do circuito pelas vlvulas de simulao de vazamentos so
usados 9 medidores tipo hidrmetro com sensor eletrnico incorporado. Trs medidores
eletromagnticos de vazo de 100 mm de dimetro, com escala de 0 a 50 m3/h, esto
localizados nas tubulaes de entrada, de sada e uma intermediria. A localizao e
nomenclatura dos medidores so apresentadas na Figura 7.
Todos os sensores esto ligados a conversores analgicos para ajustar os diferentes tipos de
sinal que alimentam uma placa de aquisio de dados. A placa est comunicada com um
microcomputador no qual um software especificamente desenvolvido para o projeto permite
controlar a aquisio. No software tambm so incorporadas as equaes de calibrao de
cada um dos sensores e possvel fazer acompanhamento. possvel acompanhar os valores
das variveis adquiridos a partir de cada sensor, com atualizao a cada segundo,
graficamente. Para a gravao dos dados durante experimentos possvel escolher os sensores
a serem considerados, a taxa de aquisio (entre 1 amostra/minuto e 12000 amostras/minuto),
e o tempo total de aquisio (de 1 minuto at 48 horas). Tambm atravs do sistema as
bombas e a vlvula automtica podem ser acionadas usando o software. Na Figura 8
apresentada uma vista da interface visual do software.
P15
P13
P9
P11
P12
Q2
P14
P7
P6
P8
Q3
Q1
P16
P1
P3
P2
P5
P4
V1
1m
2m
3m
4m
Escala
Figura 7. Localizao dos sensores no circuito hidrulico experimental
49
50
Figura 8. Interface do software de aquisio de dados
5.3.RESUMO DOS EXPERIMENTOS

Para a construo e teste do sistema de reconhecimento de padres foi usada uma base de
dados de exemplos adquiridos junto ao circuito hidrulico experimental. Com os 15 sensores
de presso e 3 de vazo simultaneamente, foram adquiridos exemplos de duas classes: sem
vazamento (SEM) e durante o incio de um vazamento (COM). No total, para cada um dos 18
sensores conta-se com 620 exemplos, sendo 310 para cada uma das classes.
51
Os exemplos da classe SEM correspondem a medies durante operao do circuito com

vazo (Q) permanente, mas no igual para todos os exemplos. Foram feitas medies
continuas com taxa de 4 amostras/segundo, e posteriormente foram segmentados sinais de
exemplo (ver seo 6.1), com durao de um minuto ou 240 valores cada. O ensaio foi
repetido usando diferentes valores de vazo no circuito (Q) at conseguir completar 310
exemplos da classe. Na Figura 9 so apresentados trs exemplos da classe SEM,
correspondentes a trs diferentes valores de Q.
Figura 9. Trs exemplos de sinais da classe SEM adquiridos com o sensor P02 para trs diferentes vazes
no circuito (Q).
Por sua vez, os exemplos da classe COM foram adquiridos durante experimentos nos quais
um registro de simulao de vazamento (V1 na Figura 7) era aberto rapidamente. Na Figura
10 so apresentados trs exemplos da classe COM nos quais possvel identificar
visualmente a queda de presso devida ao vazamento. Salienta-se que essa identificao
difcil para a maior parte dos exemplos.
52
Figura 10. Trs exemplos de sinais da classe COM adquiridos com o sensor P02 para trs diferentes
vazes no circuito (Q) e diferentes magnitudes de vazamento (V).
Para os exemplos COM, mantendo a taxa de 4 amostras/segundo e mediante processo de

segmentao foram obtidos 310 sinais de exemplo, com durao de 1 minuto ou 240 valores,
cada um deles relativo aos momentos antes, durante e depois da abertura do registro de
simulao de vazamento (realizando, para tanto, 310 ensaios). Nos experimentos a vazo do
circuito (Q) foi controlada pela apertura manual da vlvula de sada enquanto a magnitude de
vazamento (V) dependeu da apertura do registro para sua simulao. Assim, buscou-se que as
vazes tanto Q quanto V apresentassem variaes de um exemplo para outro, para representar
as diferentes condies de operao do circuito. Com base nos valores medidos pelos sensores
foram calculadas as relaes V/Q resultantes para cada exemplo, cujo resumo para o total dos
310 exemplos apresenta-se na Tabela 2.
Tabela 2. Relaes V/Q dos exemplos COM
V/Q
Quant. de
exemplos
< 3%
3% - 4%
4% - 5%
5% - 6%
6% - 7%
7% - 8%
10
33
51
39
30
36
8% - 9% 9% - 10% 10% - 11%

29
35
32
> 11%
15
53
6. SISTEMA DE RECONHECIMENTO DE PADRES
Segundo foi explicado anteriormente, no presente trabalho o objetivo do processamento dos

sinais de presso e de vazo em uma rede sob presso a identificao de singularidades no
sinal que possam indicar a ocorrncia de um vazamento na rede.
Provavelmente o jeito mais rudimentar de abordar a tarefa seria examinar uma representao
grfica do sinal e determinar se h ou no uma anormalidade, com base no conhecimento
prvio, capacidade e at intuio. Claramente, essa metodologia tem grandes limitaes,
praticamente impossvel us-la para processar uma quantidade importante de informaes.
Ainda seus resultados sero diferentes, por exemplo, segundo a pessoa que faz a avaliao, a
escala e a forma de representao do sinal, dentre muitos outros fatores, fazendo com que
grande quantidade de singularidades seja despercebida e a taxa de falsos alarmes seja grande
demais.
Enfrentando a necessidade de automatizar o processo de reconhecimento das singularidades
no sinal, so propostas as metodologias conhecidas como reconhecimento de padres, uma
grande rea dentro do processamento digital de sinais. O reconhecimento de padres
basicamente o processo de anlise automtica de uma entrada (na forma de uma representao
digital) para relacion-la com uma categoria de sada. Como deduzido do prprio nome, um
sistema de reconhecimento de padres visa definir se um sinal de entrada corresponde ou no
(e com qual chance de acerto) a um padro dado. Diversos campos das cincias bsicas e da
engenharia fazem uso do reconhecimento de padres, aplicando-o para o processamento de
imagens, msicas, sinais de voz, imagens diagnsticas e todo tipo de sinais.
Um sistema de reconhecimento de padres tem uma estrutura bsica que compreende vrias
etapas; um novo sinal de entrada pode passar (ou no) por processo de segmentao, depois
passa pela extrao de caractersticas e finalmente classificado. Segundo indicado na seo
4.4, a classificao um problema de aprendizado de mquina supervisionado no qual
utilizada a informao de exemplos acertadamente classificados para possibilitar que um novo
sinal seja atribudo a uma das classes. Portanto a resposta que entrega o sistema o nome da
classe qual pertence o sinal de entrada dado. Cada uma das etapas, mostradas na Figura 11,
ser brevemente descrita em este documento.
54
DECISO
AQUISIO
SISTEMA DE RECONHECIMENTO DE PADRES
Sinal
Entrada
a
Extrao de
caracterstica
s
Segmentao e
padronizao
Sada
Classificao
Figura 11. Esquema bsico das etapas de um sistema de reconhecimento de padres
A construo de um sistema de reconhecimento de padres fortemente dependente do tipo

de sinal e do objetivo para o qual foi construdo, existindo grande diversidade de
metodologias aplicveis a cada uma das etapas. Deve ser lembrado que estes sistemas no
existem isoladamente, mas como parte de procedimentos mais completos que integram a
aquisio dos sinais de entrada, e posteriormente o uso das sadas como parte de um sistema
de suporte deciso.
Focando o problema em estudo, os sinais de entrada correspondem a presses e vazes
adquiridas no sistema, o processo de segmentao visa isolar trechos de curta durao, a
extrao de caractersticas aplicada para obter uma representao padronizada de cada um, e
um classificador binrio define se o sinal pertence mesma classe dos sinais adquiridos
durante a ocorrncia de um vazamento (COM) ou dos adquiridos na ausncia deles (SEM).
6.1.SEGMENTAO E PADRONIZAO
Pela natureza do sinal coletado, necessrio o processamento de grande quantidade de dados,
e no interessante realizar a anlise somente para um sinal de grande comprimento. Por
exemplo, se o sinal for adquirido durante vrias horas, no interessante definir somente um
conjunto de valores caractersticos (extrao de caractersticas) que represente todo o
comprimento do sinal porque poderia mascarar as mudanas que aconteceram em algum
momento durante o intervalo de aquisio e que se deseja sejam reconhecidas. Para solucionar
esse problema so propostas as tcnicas de segmentao (DUDA; HART; STORK, 2001).
De forma geral, as tcnicas de segmentao permitem modificar um sinal de entrada de
tamanho grande ou que envolve varias repeties do fenmeno a estudar, para obter sinais
55
divididos em unidades de anlise mais adequadas, ou segmentos. No caso de sinais temporais

de grande tamanho como os de presso e vazo adquiridos, essa segmentao pode ser feita
definindo como unidades de anlise intervalos de durao curta, o que pode conseguir-se com
a metodologia de janelas deslizantes.
A tcnica de janelas deslizantes consiste em definir sucessivamente subconjuntos de dados
consecutivos do sinal (ou equivalentemente intervalos de tempo), sendo que cada novo
subconjunto (ou intervalo) desconsidera os primeiros dados do subconjunto anterior e
incorpora os prximos elementos do sinal; desta forma, a segmentao feita percorrendo o
comprimento total do sinal, extraindo a quantidade necessria de segmentos ou subconjuntos
de tamanho fixo, ficando assim explicado o termo de janela deslizante. As etapas do sistema
de reconhecimento de padres podem ento ser aplicadas a cada subconjunto ou segmento.
O uso da janela deslizante como tcnica para segmentao tem diferentes variaes, entre elas
a forma da janela, ou a funo pela qual so lidos os dados do sinal para construir cada
segmento. O tipo de janela mais simples a janela retangular, que pode ser representado
como:
Sendo S = Sinal original, tamanho M

Xi = i-simo segmento extrado do sinal original, tamanho N (N< M)
posicaoi = posio do incio do i-simo segmento no sinal S
m = 1, 2... M
i = 1, 2... T; T = nmero de segmentos de tamanho N que podem ser extrados de X
Segundo os objetivos da anlise, as propriedades do sinal e das outras etapas do sistema de
reconhecimento, os efeitos de borda produzidos ao restringir as anlises a um conjunto finito e
curto de dados podem ser importantes. Para diminuir esse efeito indesejvel cada subconjunto
pode ser constitudo por dados extrados com funes j mais complexas do que a funo
retangular antes descrita, por exemplo, curvas Gaussianas ou outras com fatores tendendo a
zero nos extremos. Para a anlise dos sinais de presso e vazo na rede, usando o conjunto de
caractersticas apresentado na seo seguinte, estimado desnecessrio o uso de janelas com
56
formas complexas. Portanto, definido o uso da janela retangular como a metodologia de

segmentao para todos os casos analisados.
O tamanho de segmentos mais conveniente pode variar muito de um para outro problema e
no existem regras definidas para a sua escolha. Atendendo s necessidades especficas dos
dados adquiridos experimentalmente, foi definido usar segmentos com 240 pontos, o que
significa durao de 1 minuto com taxa de amostragem de 4 amostras/segundo. A tcnica foi
adaptada s condies de execuo dos ensaios, de forma a garantir a adequada distino
entre segmentos relativos s classes COM e SEM. Cada um dos segmentos ser considerado
nas anlises seguintes como um exemplo isolado, passando a usar o termo sinal para cada um
dos segmentos extrados do sinal adquirido.
Os valores de presso e vazo medidos so dependentes das condies do circuito: nvel no
reservatrio, operao das bombas, vazo no circuito e, no caso dos exemplos COM, da vazo
de sada pelo vazamento. necessrio ento considerar um dos problemas bsicos para o
correto funcionamento de um sistema de reconhecimento de padres: a generalizao. Sendo
que o objetivo identificar se um novo sinal adquirido inclui ou no o incio de um
vazamento, o projeto do sistema no pode ser dependente de algumas condies no circuito, e
sim ser capaz de fornecer resultados satisfatrios com sinais adquiridos sob uma nova
condio, isto , ter capacidade de generalizao.
As diferenas nas grandezas medidas no esto relacionadas com o fenmeno que queremos
reconhecer, o vazamento. Assim, visando capacidade de generalizao do sistema de
reconhecimento, essas diferenas podem ser desconsideradas. Para tanto, todos os sinais
utilizados (depois do processo de segmentao) so padronizados, segundo a expresso
seguinte:
| |
Sendo X = {x1, x2 xN} = Sinal padronizado de tamanho N

Y = {y1, y2 yN} = Sinal sem padronizar de tamanho N
= mdia do sinal sem padronizar
| |
= mximo valor absoluto dos elementos do sinal sem padronizar
57
6.2.EXTRAO DE CARACTERSTICAS
Cada um dos sinais usados na pesquisa representado por um vetor de 240 valores
sequenciais de presso ou vazo, que podem estar afetados por rudo, variaes originadas na
medio, transmisso, ou ainda por fenmenos fsicos como micro turbulncias. Pela
conformao dos exemplos, o tamanho de todos eles igual, mas em condies menos
controladas so comuns sinais com diferentes duraes ou taxa de amostragem, dados
faltantes ou valores errados que precisam ser desconsiderados, de forma que o sinal ou vetor
de entrada comumente tem tamanho varivel e grande.
Assim, a anlise dos valores brutos do sinal adquirido pode ser prejudicada pela presena de
perturbaes, a variabilidade no tamanho dos sinais, e o alto custo computacional da anlise
com sries longas. Em resposta a esses problemas, diversas metodologias de processamento
de sinais fazem uso da extrao de caractersticas. A extrao de caractersticas permite
analisar, ao invs do grande vetor de valores do sinal, caractersticas que dele derivam e que
podem ser representadas em um vetor muito menor, que ainda mantenha a capacidade de
distinguir a classe a que um exemplo pertence.
Para maior clareza no conceito de extrao de caractersticas, e a maneira de exemplo, na
Figura 12 apresentam-se dois sinais de presso de 1 minuto ou 240 pontos adquiridos, cada
um pertencendo a uma classe diferente (SEM e COM). importante salientar que a diferena
na ordem de grandeza desses sinais devida diferena na vazo no sistema durante a sua
aquisio. J uma diferena no formato (ou comportamento) que permita uma identificao
visual do incio de um vazamento no clara a partir desses sinais diretamente. Depois de
normalizar os valores das sries, as quatro caractersticas consideradas foram extradas desses
dois sinais de exemplo, formando para cada um deles um vetor de sete elementos2, cujos
valores esto nos eixos verticais da Figura 13.
Ao comparar os valores das caractersticas resultantes possvel identificar uma diferena
entre o exemplo COM e SEM de forma mais convincente que comparando seus
comportamentos na Figura 12. Claramente, no presente trabalho de pesquisa, a comparao
no feita s com dois sinais, como no exemplo anterior, e sim com todos os dados
adquiridos, obtendo os resultados apresentados na seo correspondente.
Os valores das caractersticas extradas so vetores de um ou mais elementos, por isso que ao extrair as
quatro caractersticas (explicadas na seo 6.2) o resultado um vetor de sete elementos.
58
ENE
ENT
220
9.5
170
8.5
120
7.5
70
6.5
classe
com
sem
5.5
20
ENE
ENT
NCZ
EDW
100
200
75
160
120
50
80
25
40
NCZ
A3
D3
D2
D1
Figura 12 Exemplo de dois sinais de presso
Figura 13 Caractersticas extradas dos dois sinais de
adquiridos.
presso.
Existe uma grande diversidade de caractersticas que podem representar o sinal, que podem
ser julgadas mais ou menos importantes, considerando o tipo de sinal e os objetivos da
anlise. Para identificar quais as caractersticas que melhor poderiam ser adaptadas ao sistema
de reconhecimento de padres para deteco de vazamentos, foi explorada a extrao de
quatro tipos de caractersticas diferentes e avaliados os resultados de sistemas construdos a
partir de cada uma, e de sua associao.
6.2.1. Energia (ENE)
A energia de um sinal temporal discreto uma medida do grau de distanciamento dos valores
com relao sua mdia, e definida como:
Sendo X = {x1, x2 xN} = Sinal de tamanho N

ENE = Energia do sinal x
Para cada um dos sinais obtido um valor de energia total. Teoricamente para o sinal
padronizado onde xi [-1,1] o valor de energia deve cumprir ENE < N.
59
6.2.2. Entropia (ENT)

A entropia fundamentalmente uma medida da aleatoriedade ou imprevisibilidade nos
valores de uma sequncia de pontos de uma distribuio discreta, originariamente apresentado
por Claude Shannon como parte fundamental da Teoria da Informao. Alm de outras reas,
o processamento de sinais faz uso do conceito de entropia como medida da desorganizao
de um sistema, e tambm uma medida da disperso das informaes contidas num vetor. A
expresso de entropia aplicada a um vetor N-dimensional, como neste trabalho, definida
como segue (ADDISON, 2002):

ENT = entropia do sinal X
Pi = energia normalizada do componente xi do sinal
Com a expresso anterior, e considerando cada um dos sinais exemplo como o vetor X,
calculado um valor de entropia para cada sinal.
Se a grandeza dos valores do sinal seguisse uma distribuio uniforme o valor da entropia
seria determinado somente pelo tamanho do vetor. O valor mnimo da entropia se apresentaria
no caso hipottico de somente um elemento do vetor ser diferente de 0. Assim, e lembrando
que os sinais adquiridos so padronizados de forma a ter valores xi [-1,1], o valor da
entropia calculado ser necessariamente ENT < 7.9.
6.2.3. Nmero de cruzamentos por zero (NCZ)
O nmero de cruzamentos por zero, como o prprio nome indica, nada mais que a contagem
do nmero de ocorrncias de um elemento positivo aparecer imediatamente depois de um
elemento negativo, ou um negativo depois de um positivo.
60

NCZ = Nmero de cruzamentos por zero do sinal X
I(s) = 1 se s = Verdadeiro
I(s) = 0 se s = Falso
Lembrando que os sinais so padronizados, a caracterstica de nmero de cruzamentos por
zero uma medida da frequncia de oscilaes ao redor da mdia. Comumente o rudo no
sinal aparece como oscilaes de alta frequncia gerando, portanto, valores altos no nmero
de cruzamentos por zero. Assim, quanto maior seja a influncia do rudo no comportamento
do sinal, maiores sero os valores de NCZ. O resultado para cada sinal uma quantidade
discreta entre 1 e N-1.
6.2.4. Distribuio da energia na decomposio wavelet (EDW)
Na seo 4.2 foram apresentados os conceitos bsicos relativos transformada wavelet. Ao
executar a decomposio wavelet discreta, o sinal original representado por dois novos
componentes ou vetores de coeficientes ordenados no tempo, e correspondentes s
frequncias baixas (aproximao) ou a frequncias altas (detalhes), respetivamente. O
processo continua iterativamente at o nvel escolhido, dividindo sucessivamente a
componente de aproximao do nvel anterior em duas novas componentes. Como resultado,
decompondo at o nvel m o sinal fica representado por um vetor de coeficientes da
aproximao, e m vetores de coeficientes dos detalhes, completando em total m+1 vetores ou
componentes.
Para analisar os resultados da decomposio wavelet estuda-se em qual das componentes est
concentrada mais ou menos informao, o que pode ser medido com os valores da energia
definida anteriormente (6.2.1). calculado o valor da energia correspondente a cada um dos
componentes resultantes da decomposio, e expresso como percentagem da energia total dos
m+1 componentes. A caracterstica de distribuio da energia nas componentes da
decomposio wavelet (EDW) do sinal corresponde ao vetor de valores resultante, composto
de m+1 nmeros reais de 0 at 100.
61
6.3.CLASSIFICADOR
O classificador a componente do sistema de reconhecimento de padres atravs do qual so
analisadas as caractersticas extradas e definida a resposta, que neste trabalho a classe
(COM ou SEM) a que o sinal apresentado pertence. A construo do classificador (chamada
de treinamento em alguns casos) consiste da definio dos padres das classes analisadas, o
mtodo de comparao do novo sinal com eles e a designao da classe. Os classificadores
considerados esto baseados em aprendizado supervisionado, portanto sua construo
baseada em exemplos classificados, isto , o conjunto de sinais da classe COM e o da classe
SEM. O objetivo do classificador alocar todo sinal novo classe adequada, mas realmente
difcil que com o algoritmo consiga-se definir exatamente essa resposta, e em geral avaliada
a probabilidade do sinal pertencer a cada uma das classes para depois relacion-lo classe
mais provvel (DUDA; HART; STORK, 2001).
A representao dos sinais pela extrao de caractersticas permite a aplicao de grande
quantidade de metodologias de classificao cuja conceituao e desenvolvimento
independem da natureza dos sinais. Com o objetivo de avaliar a utilidade de diferentes
classificadores dentro do sistema de reconhecimento de padres para deteco de vazamentos,
vrios tipos de metodologias foram aplicados. A seguir so apresentados os conceitos bsicos
de cada um desses classificadores, e os resultados da sua implementao so avaliados
segundo indicado em 6.4 e discutidos em 7.4.
6.3.1. Vizinhos mais prximos
O algoritmo dos k vizinhos mais prximos (KNN do ingls K Nearest Neigbour)
considerado o mais simples de todos os algoritmos de aprendizado de mquina (FACELI et
al., 2011). um classificador linear de uso expandido, que subtimo j que conduz a taxas
de erro maiores que o mnimo possvel teoricamente (THEODORIDIS; KOUTROUMBAS,
1999). A ideia fundamental do algoritmo que os elementos de uma mesma classe devem ter
valores das caractersticas semelhantes em comparao com os elementos de classes
diferentes.
Na apresentao do algoritmo KNN e de muitos outros dos classificadores importante o
conceito do espao de caractersticas (feature space) ou espao de entrada. O espao de
entrada um espao V-dimensional definido pelos V atributos extrados dos sinais. Cada um
62
dos sinais de exemplo adquiridos, representado pelo seu vetor de caractersticas de tamanho
V, pode ento ser visto como um ponto no espao de entrada, ou um vetor desde a origem at
esse ponto, e que tem associada a sua classe j conhecida (BEALE; JACKSON, 2010). Na
Figura 14 apresentado um exemplo de espao de entradas usando vetores de caractersticas
de dimenso trs (CAR.1, CAR.2, CAR.3) para elementos pertencentes a duas classes (A e
B).
CLA SSE
A
B
120
80
CAR. 1
40
0
0
8
50
CAR. 3
4
100
CAR. 2
Figura 14. Espao de entrada para elementos de dimenso trs pertencentes a duas classes
O algoritmo KNN do tipo lazy, baseado em memria ou preguioso, ao no criar uma

representao compacta ou modelo dos objetos, dado que no contempla nenhum
processamento anterior entrada de um novo elemento a ser classificado. Assim, o
treinamento do classificador consiste simplesmente em memorizar todos os exemplos. Os
passos bsicos do algoritmo para classificao so:
Escolher os k elementos (vetores) mais prximos, quer dizer com menor distncia de
x0, independentemente da classe que pertencem. A definio do melhor valor de K
abordada na seo 7.2.
A determinao da distncia entre o novo elemento (x0) e os demais elementos (xj), no
espao de entrada, pode ser obtida usando a distncia de Mahalanobis, Minkowski,
Manhattan, Chebyshev ou, muito mais comumente, a distncia Euclidiana definida
como segue:
63
Sendo (
) = Distncia entre os vetores x0 e xj
x0, xj = Vetor de entrada y um dos de exemplo, respetivamente. Tamanho V

= valor dos vetores x0 e xj na coordenada
Dentre os k elementos de exemplo escolhidos, identificar quantos deles correspondem

a cada uma das classes.
Alocar o elemento novo x0 classe correspondente maior quantidade dos k

exemplos, ou moda das classes dos vizinhos mais prximos. Variaes do algoritmo
podem incorporar uma ponderao para a classe de cada k exemplo dependente da sua
distncia.
Segundo o algoritmo KNN, como todos os classificadores baseados em distncia, a escala dos
valores um fator muito importante. Por exemplo, dentre as caractersticas apresentadas na
seo 6.2 algumas esto na faixa de 1 at 100 enquanto outras so sempre menores do que 10.
Considerando que uma distncia proporcionalmente pequena na coordenada WDE teria uma
importncia muito maior que uma distncia proporcionalmente alta na coordenada ENT, para
evitar essa assimetria, os valores das caractersticas so padronizados antes de executar o
algoritmo de classificao. A padronizao realizada para que todas as caractersticas
fiquem expressas no intervalo de 0 at 1, segundo:
Sendo y = {y1, y2 yM} = vetor de caractersticas sem padronizar

x = {x1, x2 xM} = vetor de caractersticas padronizado
ai, bi = limites inferior e superior, respectivamente, dos valores possveis para a isima caracterstica no vetor y, para i = 1, 2... M
6.3.2. rvore de deciso
As rvores de deciso so sistemas de classificao (ou de regresso em outros casos)
baseados na avaliao sequencial dos valores das caractersticas de um novo elemento, at
64
chegar finalmente a uma classe na qual o elemento possa ser alocado. A definio das regras
sequenciais que constituem uma rvore de deciso corresponde com a diviso sucessiva do
espao de entrada (seo 6.3.1) em regies no intersectadas menores que correspondem s
diferentes classes. Essa diviso feita normalmente com hiperplanos de lados paralelos aos
eixos, isto quer dizer que cada uma das regras para a diviso corresponde a uma pergunta
binria relativa a uma caracterstica, do tipo a caracterstica C menor que o valor Y?.
Existem tambm outros tipos de funes mais complexas, mas sua aplicao prtica menos
comum.
Uma rvore de deciso constituda por um conjunto de ns ordenados, a partir de um nico
n de deciso, que desempenham uma sequncia de testes. Cada n de deciso est unido a
outros dois ns, relativos s respostas para o teste, e as unies com eles so excludentes, pois
s uma delas pode ser seguida. Os ns posteriores podem ser tambm de deciso com a
mesma estrutura anterior, ou ns de folha. Os ns de folha correspondem diretamente a uma
classe. Um esquema de uma rvore de deciso para as duas classes COM e SEM com um
vetor de caractersticas de tamanho quatro apresentado na Figura 15. A rvore pode ser
representada tambm como um conjunto de regras, cada regra comeando no mesmo n
inicial, mas continuando por diferentes percursos at uma folha diferente.
Figura 15. Exemplo de rvore de deciso para duas classes, com quatro caractersticas.
O processo de treinamento do classificador consiste na definio dos ns e sua sequncia

baseada no conjunto de exemplos classificados, o que equivale diviso do espao de
entrada. A classificao de um novo elemento consiste na busca sequencial da regio no
65
espao a que ele corresponde. Para tanto, seus valores so submetidos sequncia de testes da
rvore de deciso at chegar a um n folha.
As rvores de deciso tm como vantagem fornecer um modelo inteligvel do processo de
classificao, que auxilia na definio das caractersticas mais importantes para a distino
entre classes ou ainda na avaliao da definio das classes. Adicionalmente possvel
analisar o processo de classificao de um elemento ou instncia particular, acompanhando
seu percurso pelos ns da rvore at um n de folha. Seu uso mais comum em problemas
com vrias classes, e para problemas com poucas caractersticas torna-se menos interessante.
Existem diversos algoritmos para a definio de rvores de deciso, no trabalho foi utilizado o
C4.5 (QUINLAN, 1993), segundo o qual o ordenamento das regras feito considerando a
entropia.
6.3.3. Regras de Deciso
Analogamente ao descrito para as rvores de deciso, os classificadores baseados em regras
tambm podem ser interpretados como a diviso do espao de entrada em regies, cada uma
referida a uma nica classe. Mas diferentemente das rvores, as regras de deciso no
correspondem com um processo de recursivo de diviso, e sim uma diviso direta. Assim,
cada regra cobre uma regio ou subconjunto de exemplos, e para classificar um novo
elemento todas as regras so avaliadas para definir em qual a regio e, portanto, a classe
qual pertence. As regras podem ser ordenadas ou no; no primeiro caso, (ordenadas) para
cada elemento novo, as regras so avaliadas numa ordem pr-definida at que alguma delas
seja cumprida. No segundo caso (no ordenadas), todas as regras so avaliadas e coletadas as
que so cumpridas; se elas se referem mesma classe, a classificao chega ao fim, mas se
foram cumpridas regras relativas a diferentes classes um processo adicional de avaliao da
classe mais provvel deve ser realizado.
Uma variao interessante da classificao com regras de deciso o algoritmo de uma nica
regra (1R ou OneR, do ingls One Rule), apresentado por Holte (1993). Atravs da
experimentao com diversas bases de dados foi comprovado que o mesmo desempenho dos
classificadores comuns, como as rvores de deciso, pode ser atingido tambm com um
algoritmo muito mais simples baseado numa nica regra, que pode ser entendida como uma
rvore de deciso para um nico atributo. Para cada qual dos atributos, a faixa total de valores
dividida em uma quantidade finita de intervalos dentro dos quais estejam contidos pelo
66
menos um nmero pr-determinado de elementos da mesma classe (6 elementos, comumente)

e o mnimo de elementos de outras classes. O algoritmo cria ento um conjunto de regras
relativo a cada atributo independentemente, segundo os intervalos definidos, e cada uma das
regras avaliada e calculada a taxa de erro correspondente. O conjunto de regras do atributo
que apresentar o menor erro ser o nico utilizado, descartando totalmente os outros. Se usado
um vetor de caractersticas de um nico elemento, o conceito bsico igual para o 1R e a
rvore de deciso, sendo diferente s o algoritmo usado para a definio das regras, que gera
resultados diferentes.
6.3.4. Naive Bayes
Uma aproximao interessante para o problema da classificao a baseada na natureza
estatstica das caractersticas extradas, colocando o problema em termos de probabilidade e
supondo que parmetros das distribuies que regem essas probabilidades podem ser
conhecidos. O principal classificador probabilstico o Naive-Bayes, baseado na teorema de
Bayes de deciso.
A idia central do classificador probabilstico decidir a classe que tenha a maior
probabilidade de representar um novo sinal analisado, usando os padres estabelecidos para
cada classe predefinida atravs da anlise de exemplos classificados. Estas tcnicas esto
baseadas na quantificao do melhor resultado entre vrias possveis decises de
classificao, usando a probabilidade e os custos associados a cada deciso.
A regra de deciso de Bayes para a classificao de um elemento (no caso, um vetor de
caractersticas) definida a partir da minimizao da probabilidade de erro na classificao, e
pode ser definida como segue.
Dado x, a classe escolhida para ele :
(
| )
| )
Sendo: x = o elemento a ser classificado (vetor de caractersticas)

w = conjunto de classes, definido com antecedncia, de tamanho N
(
| ) = Probabilidade a posteriori, ou probabilidade da classe wj dado x
A probabilidade a posteriori est definida pela expresso a seguir (frmula de Bayes):
67
(
Sendo: (
| )
) ( |
( )
) = Probabilidade a priori da classe wj
( |
) = Probabilidade condicional. Expressa a funo de densidade de
probabilidade de x dada a classe wj

( ) = Funo de densidade de probabilidade de x. Pode ser visto como um fator de
escala que garante que a soma das probabilidades posteriores seja 1. definida como:
( )
( |
) (
A probabilidade a priori de cada classe deve ser definida para o problema ao qual se aplica,
por exemplo, segundo a frequncia relativa de cada classe no conjunto de exemplos,
assumindo distribuio uniforme das classes ou adotando valores diferentes segundo
conhecimento adquirido sobre a ocorrncia das classes no fenmeno real. Nas anlises
seguintes foi utilizada a probabilidade a priori de (
Para o clculo da probabilidade condicional necessrio definir uma funo de densidade de

probabilidade que ajuste os exemplos. Rotineiramente assumida a distribuio normal com
mdia e desvio padro calculados a partir do conjunto de exemplos de cada classe, ( |
(
). Outros tipos de distribuio tambm podem ser usados na procura de um melhor
ajuste aos exemplos.

Como a funo de densidade de probabilidade
( ) igual para todas as classes, e no
classificador a deciso tomada segundo a comparao de probabilidades a posteriori de

diferentes classes e no segundo seus valores absolutos, o clculo de
( ) pode ser
negligenciado.
6.3.5. Mquina de vetores de suporte
As mquinas de vetores de suporte (SVM, do ingls Support Vector Machine) so sistemas de
aprendizado que podem realizar tarefas de classificao, usam um espao de atributos de
grande dimenso, e so treinadas com um algoritmo de aprendizado baseado em otimizao e
na teoria de aprendizado estatstico (TAE) (FACELI et al., 2011). Para alguns autores as SVM
so casos particulares de Redes Neurais Artificiais (REZENDE, 2003).
68
De maneira geral, as SVM transformam o conjunto de treinamento do espao de entradas

(cuja dimensionalidade igual ao tamanho do vetor de caractersticas usado) para um novo
espao de maior dimenso denominado espao de atributos (que no mais gerado pelas
caractersticas extradas como o espao de entrada). Uma vez no espao transformado as
classes devem tornar-se linearmente separveis, sendo possvel definir um hiperplano que
divida as classes. Esses hiperplanos de diviso so achados usando uma SVM linear,
salientando que a funo obtida ser linear s no espao transformado, mas no
necessariamente linear no espao de entrada.
As funes de mapeamento ou transformao para o espao de dimenso maior podem ser
lineares (para problemas com classes linearmente independentes no espao de entrada),
polinomiais, gaussianas, radiais ou outras, e sua escolha deve ser analisada para cada
problema. Entretanto, a dimensionalidade do espao obtido pode ser arbitrariamente grande,
normalmente limitada pelo custo computacional. A escolha dos hiperplanos de separao
timos no novo espao o resultado do treinamento de uma SVM; para esses fins o
hiperplano timo aquele que tem a maior distncia ou margem em relao aos elementos de
exemplos mais prximos. Assim, o treinamento envolve a soluo de um problema de
otimizao quadrtico para maximizar essa margem ou distncia. Os elementos mais
prximos, que conservam a mesma distncia (mnima) do hiperplano de separao, so de
particular interesse e chamados de vetores de suporte. A definio anterior do hiperplano
timo conduz melhor capacidade de generalizao da SVM, uma das suas principais
vantagens. Porm, a sensibilidade aos valores escolhidos para os parmetros e a criao de um
modelo no interpretvel so desvantagens a serem consideradas (DUDA; HART; STORK,
2001). Depois do processo de treinamento, um novo elemento que ingressa SVM ser
comparado com os limites dos hiperplanos achados para decidir a classe qual ser atribudo.
6.3.6. Rede Neural Artificial de Funes de Base Radial
O termo Rede Neural Artificial (RNA, ou ANN do ingls Artificial Neural Network) refere-se
a grande quantidade de modelos matemticos estruturados na forma de unidades de
processamento simples (neurnios) densamente interligados, nos quais o armazenamento e
processamento da informao so feitos de maneira paralela e distribuda. Alm de muitas
outras aplicaes, as RNA podem ser utilizadas como classificadores. No modelo, as unidades
ou neurnios esto organizados em camadas de processamento sequenciais, sendo que o vetor
de caractersticas fornece a entrada para a primeira camada e um valor referente classe a
69
sada da ltima camada. Cada neurnio executa uma funo usando um ou mais valores de
entrada afetados por pesos que ponderam a entrada recebida, e produz um valor de sada que
poder ser usado como entrada na camada seguinte. O treinamento da RNA como
classificador, aplicando aprendizado supervisionado, consiste no seu ajuste para que
reproduza com um erro mnimo as sadas conhecidas (classes), dadas as entradas de exemplo
(vetores de caractersticas). Posteriormente, a RNA dever prever a sada (classe) de qualquer
entrada nova.
As RNA de funes de base radial (FBR) so redes supervisionadas caracterizadas pelo tipo
de funes usadas na camada intermediria, sua arquitetura bsica apresentada na Figura 16.
Cada neurnio determinado por uma funo no linear da distncia euclidiana entre o vetor
de entrada e um centro predefinido (vetor de referncia), sendo funes localizadas e que
apresentam base radial sobre seu domnio (CASTRO; CASTRO, [s.d.]). Por ser de domnio
localizado, para cada vetor de entrada s algumas unidades apresentas sadas significativas, o
que ajustado dentro do processo de treinamento. Essas funes podem ter vrias formas,
sendo a mais comum a gaussiana:
(
Sendo X = vetor de entrada

Wi = vetor de referncia ou centro do neurnio i
b = fator de disperso da funo
A camada posterior realiza uma combinao linear das sadas das funes de base radial,
usando outro vetor de pesos, para gerar a sada. As sadas produzidas pela combinao linear
podem ter qualquer valor dentro da faixa estabelecida pela funo de ativao usada no
neurnio de sada, comumente uma funo logstica. Assim, para um classificador binrio
uma das classes pode corresponder a -1, a outra classe a 1, e as respostas do classificador para
uma nova entrada sero um nmero intermedirio. A classe escolhida em cada caso ser
aquela cujo valor de sada estabelecido esteja mais prximo do valor calculado pelo
classificador para o vetor de entrada.
70
E
n
: Sinal de entrada. Dimenso m

: Quantidade de neurnios na camada
intermediria (n m)
WPi : Vetor de centro do i-simo neurnio.
Dimenso m.
WSi : Peso do i-simo neurnio. Escalar.
R
: Resposta, nmero real.
B, B2: Fatores de dimensionamento.

DIST : Clculo da distncia vectorial.
x : Clculo da multiplicao.
: Funo somatrio.
: Funo de base radial:
)2
Figura 16. Esquema de rede de Funes de Base Radial
6.4. AVALIAO DO PROCESSO

Um bom sistema de reconhecimento de padres, neste trabalho, ser aquele que ao receber
um novo sinal produzir a sua classificao corretamente, mas para avaliar quo bom o
sistema no vlido usar um juzo apreciativo. Para qualquer anlise cientfica o desempenho
deve ser testado e quantificado com metodologias apropriadas. A seguir, as metodologias
usadas neste trabalho so brevemente apresentadas.
6.4.1. Validao cruzada (k-fold cross validation)
Uma das propriedades importantes de um sistema de reconhecimento de padres a sua
capacidade de generalizao, isto , a capacidade de fornecer respostas certas para entradas
diferentes daquelas usadas no processo de treinamento. Assim, para avaliar o desempenho
necessrio fornecer um conjunto de entradas ao sistema para analisar sua resposta em
comparao com as respostas certas previamente conhecidas, mas garantindo que essas
informaes no tenham feito parte do treinamento. Adicionalmente, existe interesse em
evitar que a escolha desse conjunto de entradas para teste influa na avaliao.
71
Assim, uma metodologia amplamente utilizada a validao cruzada (k-fold cross validation)
segundo a qual o conjunto total de exemplos dividido em k partes de aproximadamente igual
tamanho, sendo k-1 deles destinados ao processo de treinamento e 1 deles realizao de
testes. Portanto, o sistema treinado com k-1 partes e testado com a parte restante,
produzindo os indicadores de desempenho de interesse. Posteriormente, o processo repetido
escolhendo outra das partes para teste e as restantes k-1 para treinamento, e assim segue at
ter usado todas as k partes para teste uma vez. O desempenho ser ento calculado como a
mdia dos k valores dos indicadores obtidos nas iteraes. Na diviso do conjunto de
exemplos procura-se que cada parte seja formada por exemplos das diferentes classes na
mesma proporo que elas se apresentam no conjunto total.
Em todas as anlises da seo 7 foi utilizada a metodologia antes descrita para validao
cruzada, com 10 partes, cada uma composta por exemplos das classes COM e SEM na mesma
quantidade.
6.4.2. Matriz de confuso
Em problemas de classificao, particularmente binrios, muito til construir a chamada
Matriz de Confuso, em que os resultados de todos os testes so classificados considerando
qual a classe correta (linhas) e qual a classe prevista pelo sistema (colunas), como a mostrada
na Tabela 3. Normalmente ao falar do problema binrio refere-se uma classe como positiva e
a outra como negativa, no presente trabalho a classe positiva a referente ao vazamento,
COM, enquanto a classe negativa a referente ausncia de vazamento, SEM.
Assim, formam-se quatro categorias: Verdadeiros COM (VC, exemplos COM classificados
corretamente), Falsos COM (FC, exemplos SEM classificados como COM), Verdadeiros
SEM (VS, exemplos SEM classificados corretamente) e Falsos SEM (exemplos COM
classificados errado), sendo que VC+FC+VS+FS = N, nmero total de sinais de teste.
Tabela 3. Esquema da matriz de confuso
Classe
Verdadeira
Classe Obtida
COM
SEM
COM
VC
FS
SEM
FC
VS
72
Para um sistema de reconhecimento ideal, tanto FS quanto FC devem ser iguais a zero,
enquanto VC e VS devem ter valor de N/2 (dado que, neste trabalho, na validao cruzada
garantido que cada conjunto de teste tenha a mesma quantidade de exemplos de cada classe).
Inicialmente, a matriz de confuso alerta sobre resultados tendenciosos quando h grande
assimetria, mas a sua maior utilidade est no clculo de indicadores de desempenho como os
apresentados a seguir (FACELI et al., 2011).
Taxa de acerto: Indica o nvel geral de acurcia do sistema, contabilizando todos os

exemplos classificados acertadamente.
Taxa de erro: Complemento da taxa de acerto, a taxa de erro uma medida dos erros
cometidos nas duas classes.
Sensibilidade ou Taxa de verdadeiros positivos: Frao dos exemplos que

verdadeiramente so da classe COM e que foram classificados acertadamente.
Taxa de falsos positivos: Proporo dos exemplos que verdadeiramente so da classe

SEM, mas foram classificados como COM.
Especificidade: Frao dos exemplos que verdadeiramente so da classe SEM e que

foram classificados acertadamente.
Preciso: Proporo dos exemplos classificados como COM que verdadeiramente

pertencem a essa classe.
73
6.4.3. Curva ROC

A curva ROC (receiver operating characteristic) amplamente utilizada como uma
representao grfica do desempenho de classificadores binrios. No espao de curvas ROC
(espao ROC), como apresentado na Figura 17, o eixo horizontal corresponde taxa de falsos
positivos ou FC (relativo probabilidade de falsos alarmes), enquanto o eixo vertical
corresponde taxa de verdadeiros positivos ou VC (probabilidade de acerto na deteco).
Assim, o desempenho de um classificador ao final de um conjunto de testes (isto , os valores
de VC, VS, FC e FS resultantes) representado como um ponto na curva ROC. Assim, o
ponto (0,1) corresponde a um classificador ideal, que obteve classe igual verdadeira para
todos os exemplos. O ponto (0,0) corresponde a um classificador que sempre entrega a classe
negativa (SEM), enquanto no ponto (1,1) um classificador produz sempre a classe positiva
(COM) como resposta. A diagonal que representa VC = FC corresponde a classificadores que
entregam respostas aleatrias.
Figura 17. Exemplo curva ROC
Face ao exposto, ao analisar no espao ROC o desempenho de dois classificadores, aquele

que apresentar menor valor no eixo x e maior no y, ser melhor que o outro. Uma forma
muito mais robusta de fazer esse tipo de anlise o clculo da rea abaixo da curva ROC
correspondente a cada classificador. Na definio de uma curva ROC considerado que os
indicadores de desempenho do classificador mudam ao mudarem os parmetros para deciso
da classe, isto , a forma como cada algoritmo de classificao processa uma sada
(probabilidade calculada no classificador NaiveBayes, ou valor resultante do neurnio de
74
sada nas RNA-FBR, por exemplo) para prever uma das duas classes possveis. Cada
classificador fica assim representado por uma curva, sendo que para o classificador ideal a
curva seria a linha (0,0)(0,1)(1,1) e para o classificador aleatrio a linha (0,0)(1,1).
Um indicador de interesse sobre o desempenho de um classificador a rea abaixo da sua
curva ROC (AAC). Assim, quanto mais prximo de 1 for o valor, melhor ser o desempenho
geral do classificador, enquanto um valor de 0.5 na AAC corresponde com o desempenho de
um classificador aleatrio.
6.5.IMPLEMENTAO DO SISTEMA DE RECONHECIMENTO DE

PADRES
O processamento das informaes desde sua aquisio junto ao circuito experimental at a
obteno dos resultados contempla vrias etapas e para elas, como parte do presente trabalho,
foram desenvolvidas e utilizadas diferentes ferramentas computacionais. O processamento foi
realizado em blocos, completando cada etapa com todos os sinais de exemplo antes de seguir
para a seguinte etapa. Porm, as metodologias utilizadas poderiam ser implementadas
sequencialmente para cada sinal, fazendo mudanas nas rotinas.
A aquisio dos sinais foi feita a travs do software integrado ao sistema de aquisio (seo
5.2), obtendo as informaes em arquivos de extenso .xls. O armazenamento e primeira
organizao da informao foi feita usando planilhas de MSExcel. Posteriormente todos os
sinais adquiridos foram ingressados como variveis no programa Matlab3.
Os processos de segmentao, de padronizao e extrao de caractersticas, foram realizados
aplicando rotinas previamente desenvolvidas durante este trabalho fazendo uso do Matlab.
Dentro das rotinas desenvolvidas foram usadas funes do Wavelet toolbox, alm das librarias
comuns do Matlab. Todos os vectores de caractersticas extrados dos exemplos foram
transformados e exportados para uso no software WEKA4.
Para o processo de classificao, utilizando os algoritmos de aprendizado implementados no
WEKA foram treinados e testados os classificadores para todas as alternativas de arquitectura
do sistema de reconhecimento.
3
Do ingls Matrix Laboratory, Matlab um ambiente de anlise numrica de alto desempenho e linguagem de
programao de quarta gerao, desenvolvido pelo MathWorks, amplamente utilizado para ensino, pesquisa e
aplicaes industriais em todo o mundo.
4
Waikato Environment for Knowledge Analysis WEKA, um popular compendio de software para
aprendizado de mquina, desenvolvido em linguagem JAVA, pela Universidade de Waikato, Nova Zalndia.
75
Finalmente, os resultados do sistema de reconhecimento de padres com todas as

combinaes analisadas de opes nas trs etapas (segmentao e padronizao, extrao de
caractersticas com mltiplas alternativas, e classificao com mltiplas alternativas) so
exportado novamente ao software MSExcel para sua anlise estatstica, gerao de grficas e
apresentao dos resultados.
76
7. RESULTADOS
Como apresentado no captulo anterior, o sistema de reconhecimento de padres constitudo

basicamente por trs mdulos sequenciais (segmentao e padronizao, extrao de
caractersticas, e segmentao), e em cada um deles diferentes metodologias podem ser
aplicadas para conseguir conjuntamente o melhor desempenho final. As anlises realizadas
para decidir as melhores alternativas na construo do sistema de reconhecimento de padres
e as avaliaes posteriores so apresentadas neste captulo.
Na seo 7.1 so analisadas variaes no clculo de uma das caractersticas a ser consideradas
na etapa de extrao de caractersticas, enquanto na seo 7.2 so analisados parmetros para
um dos classificadores propostos. A comparao geral e a avaliao da melhor alternativa
para a etapa de extrao de caractersticas realizada na seo 7.3, e o correspondente etapa
de classificao analisado na 7.4. Com os resultados anteriores, fica definida a melhor
arquitetura de sistema de reconhecimento de padres proposta, e seu desempenho avaliado
na seo 7.5. Na seo 7.6 analisada a influncia da magnitude do vazamento no
desempenho do sistema. Um esquema das anlises apresentadas neste captulo, em relao
sua aplicao no sistema de reconhecimento de padres, mostrado na Figura 18.
Segmentao e
padronizao
Extrao de
caractersticas
Classificao
Alternativas adotadas
(6.1)
Alternativas de vetores
de caractersticas (7.3)
Alternativas de
classificadores (7.4)
Decomposio para o
clculo da EDW (7.1)
Parmetros do
classificador KNN (7.2)
Desempenho do sistema de
reconhecimento de padres (7.5)
Avaliaes
Influncia da magnitude do vazamento (7.6)
Figura 18. Esquema das anlises apresentadas neste captulo, em relao s componentes do sistema de
reconhecimento de padres.
77
Todos os resultados do presente captulo foram obtidos analisando toda a base de dados de
sinais adquiridos junto ao circuito hidrulica experimental como apresentado na seo 5.3,
com 620 exemplos em total (310 de cada classe) e para os 18 sensores 5. Cada resultado
apresentado produto da aplicao do 10-fold cross validation apresentado na seo 6.4.1. O
indicador de desempenho do sistema mais utilizado para as comparaes neste capitulo a
rea abaixo da curva ROC (AAC), explicada na seo 6.4.3.
7.1. SELECO DO TIPO E NIVEL DE DECOMPOSIO WAVELET

PARA A CARACTERISTICA EDW
Como apresentado nas sees 4.3 e 6.2.4, a caracterstica EDW calculada a partir das
componentes que representam o sinal depois da aplicao da decomposio wavelet, sendo os
componentes obtidos at um dado nvel. A seleo do melhor nvel de decomposio varia de
um problema para outro, sendo necessrio avaliar conjuntamente o ganho e o custo do
clculo. No caso, o ganho medido em termos do desempenho do sistema de reconhecimento
de padres quando desenvolvido usando a caracterstica EDW (distribuio da energia na
decomposio wavelet) calculada at cada nvel de decomposio. O custo de clculo,
entretanto, sabe-se que maior para nveis superiores.
Foram avaliadas as alternativas de uso da decomposio wavelet discreta at os nveis 2, 3, 4
e 5, usando em todos os casos a funo wavelet Daubechies 2 (db2), funo escolhida
segundo explicado na seo 4.2.2. A avaliao de cada qual dessas quatro alternativas na
extrao da EDW foi feita treinando e testando o sistema de reconhecimento de padres
completo (segmentao, extrao da caracterstica EDW e classificao) para cada um dos
sensores, com todos os exemplos adquiridos. Adicionalmente, todos os testes foram repetidos
para cada um dos seis classificadores propostos, visando obter concluses mais gerais e no
dependentes dos outros elementos do sistema de reconhecimento. O indicador de desempenho
do sistema usado foi a rea abaixo da curva ROC (AAC).
Resultados foram obtidos para cada alternativa de nvel de decomposio, usando cada um
dos seis classificadores propostos na seo 6.3, e para cada um dos 18 sensores. Para
consolidar essa grande quantidade de resultados, os valores relativos aos 18 sensores para
Como antes explicado, todas as analises so conduzidas para os sinais de cada um dos 18 sensores,
isoladamente, durante todas as etapas da anlise. Somente quando indicado, apresentada a mdia dos
resultados dos diferentes sensores.
78
cada alternativa foram resumidos calculando sua mdia e desvio padro, que so apresentados
na Tabela 4 e na Figura 19.
Tabela 4. AAC mdia (desvio padro) para diferentes nveis de decomposio, segundo o classificador.
Classificador
EDW db2 N2
EDW db2 N3
EDW db2 N4
EDW db2 N5
3NN
0.948 (0.025)
0.968 (0.023)
0.97 (0.022)
0.961 (0.021)
rvore
0.941 (0.031)
0.954 (0.03)
0.951 (0.022)
0.94 (0.032)
Regras
0.898 (0.03)
0.912 (0.034)
0.896 (0.033)
0.881 (0.032)
Bayes
0.963 (0.037)
0.968 (0.05)
0.971 (0.044)
0.968 (0.038)
SVM
0.905 (0.047)
0.932 (0.057)
0.934 (0.056)
0.923 (0.05)
FBR
0.964 (0.041)
0.971 (0.047)
0.975 (0.035)
0.974 (0.028)
Mdia
0.936 (0.035)
0.951 (0.04)
0.95 (0.035)
0.941 (0.034)
Figura 19. AAC mdia usando diferentes nveis de decomposio, segundo o classificador.
Lembrando que o aumento no nvel de decomposio implica em complexidade e custo

computacional maiores, foi calculado o benefcio de incrementar esse nvel, definindo esse
benefcio entre nveis consecutivos como o aumento percentual na mdia da rea abaixo da
curva ROC, conforme indicado na Tabela 5.
79
Tabela 5. Aumento percentual na AAC com o aumento no nvel de decomposio, segundo o classificador.
Classificador
de N2 a N3
de N3 a N4
de N4 a N5
3NN
1.98%
0.24%
-0.88%
rvore
1.28%
-0.32%
-1.01%
Regras
1.44%
-1.60%
-1.49%
NaiveBayes
0.48%
0.31%
-0.36%
SVM
2.66%
0.23%
-1.15%
FBR
0.79%
0.40%
-0.17%
Mdia
1.44%
-0.12%
-0.84%
Para todos os classificadores utilizados, a decomposio at nvel trs traz um ganho na mdia
da AAC em comparao com a decomposio at nvel 2 (de N2 para N3). Esse ganho
maior do que os obtidos ao passar de nvel trs para nvel quatro (de N3 para N4), e maior
ainda do que ganho ao mudar de nvel quatro para nvel cinco. Adicionalmente, s a passagem
de nvel dois para nvel trs traz ganhos positivos segundo todos os classificadores usados.
Considerando tais resultados, foi definido para o clculo da caracterstica EDW, usar a
decomposio wavelet at nvel 3.
A decomposio wavelet packet, apresentada na seo 4.3, julgou-se potencialmente
interessante para o problema em estudo, ao permitir as anlises com maior detalhe para toda a
faixa de frequncias, at as mais altas. Sendo que essa maior quantidade de informaes
implica num alto custo computacional, necessrio avaliar o beneficio de sua aplicao neste
trabalho especfico. Para tanto, usando a base de dados de 620 exemplos das classes SEM e
COM para cada qual dos 18 sensores, foi calculada a decomposio wavelet packet at nvel 3
usando a funo Daubechies 2 (db2). Para cada exemplo, foi calculada a caracterstica EDW,
representada por um vetor de 8 elementos cuja soma 100.
Para avaliar o desempenho da EDW extrada da decomposio wavelet packet foi treinado e
testado o sistema de reconhecimento de padres completo, para cada um dos 18 sensores,
usando alternativamente cada um dos seis classificadores. Foi calculada a AAC para cada
caso, e a mdia e o desvio padro dos resultados para os 18 sensores so apresentadas na
Tabela 6. Na Figura 20 os resultados so comparados com aqueles obtidos extraindo a
caracterstica EDW da decomposio wavelet discreta (db2 at nvel 3, discreta).
80
Tabela 6. AAC mdia (desvio padro) usando decomposio wavelet packet, segundo o classificador.
Classificador
EDW
Wavelet Package
3NN
0.972 (0.029)
rvore
0.946 (0.029)
Regras
0.901 (0.036)
Bayes
0.959 (0.042)
SVM
0.938 (0.06)
FBR
0.972 (0.043)
Mdia
0.948 (0.04)
Figura 20. Comparao da AAC mdia usando decomposio wavelet discreta e wavelet packet.
Os resultados correspondentes a trs dos classificadores utilizados (3 vizinhos mais prximos

3NN, Maquina de vetor suporte SVM e rede neural artificial com funes de base radial FBR)
mostram que o desempenho do sistema de reconhecimento de padres com a caracterstica
EDW superior para a decomposio wavelet packet se comparada com a decomposio
wavelet discreta. Para os trs classificadores restantes (rvore de deciso, Regra de deciso e
Naive Bayes) o desempenho superior usando wavelet discreta do que usando wavelet
packet.
Os resultados podem ser melhor entendidos se analisados os vetores de caractersticas gerados
ao extrair a caracterstica EDW usando decomposio wavelet packet. Os valores de
percentagem de energia em cada uma das oito componentes tm uma tendncia geral que
81
pode ser mostrada atravs dos histogramas de cada um dos valores das caractersticas,
calculados para os exemplos adquiridos com cada sensor. A comparao dos histogramas
construdos para cada componente dos respectivos exemplos SEM e COM, possvel atravs
do exame da Figura 21.
A3
D1
150
Frequncia (quantidade de exemplos)

(numero de exemplos)
Frequncia
100
50
0
0
15
30
45
60
75
90
16 24 32 40 48 56
D2
D3
150
100
50
0
0
12 15 18 21 0
10
20
30
D4
40
50
60
D5
150
100
50
0
0
12 16 20 24
28 0
D6
12 15 18 21
D7
150
100
50
0
0
10
15
20
25
30
12
18 24
30
36
classe
com
sem
Figura 21. Histograma de frequncias da distribuio da energia na decomposio wavelet packet, para
exemplos SEM e COM.
Vrias concluses podem ser extradas da comparao dos histogramas. A maior parte dos
exemplos COM tem a maior percentagem de energia na componente de aproximao, A3, e
as percentagens para os componentes de detalhe, D1 a D7, so usualmente menores. Para os
exemplos SEM, a percentagem de energia na componente A3 usualmente menor do que as
percentagens nas componentes D1 a D7. Adicionalmente, as distribuies nos componentes
de detalhe so mais concentradas para os exemplos COM do que para os exemplos SEM, e
82
mantm tambm uma distribuio semelhante nas componentes D1 a D7, com a maior
quantidade de casos correspondendo a percentagens de energias baixas. J para os sinais
SEM, parece que a energia est mais concentrada nos diferentes componentes de detalhe, com
pouca participao da componente A3. Assim, nos exemplos COM a maior parte da energia
do sinal devida mudana produzida pelo incio do vazamento, melhor representada na
componente de aproximao (ou de baixa frequncia). Entretanto, nos exemplos SEM a
energia do sinal est mais relacionada com o rudo e as oscilaes prprias do sistema fsico e
de aquisio de dados, razo pela qual apresentam maior disperso e a componente de
aproximao torna-se menos importante.
Em adio anlise dos histogramas, o estudo dos primeiros nveis na rvore de deciso
reforam as concluses. A componente com maior potencial para diferenciar os exemplos das
duas classes a A3. Adicionalmente, as componentes D2 e D3 tambm permitem uma
diferenciao interessante entre ambas as classes.
Em concordncia com as definies das decomposies wavelet discreta e packet, os
coeficientes de aproximao (A3) e os de detalhe da menor frequncia (D1) so idnticos se
aplicarmos as duas decomposies ao mesmo sinal. Os coeficientes D2 e D3 da
decomposio wavelet packet correspondem decomposio dos coeficientes D2 da wavelet
discreta, e D4, D5, D6 e D7 da packet com a decomposio do D3 da discreta. Assim, v-se
que a componente mais importante para distinguir as duas classes (A3) idntica na
decomposio wavelet discreta e na decomposio wavelet packet, e que as outras
componentes de maior interesse (D2 e D3 na decomposio packet) tm tambm uma
correspondncia clara na decomposio discreta (D2). Como antes dito, um maior
detalhamento nas frequncias mais altas no se mostra interessante por corresponder o
fenmeno estudado a mudanas nas baixas frequncias enquanto as altas frequncias esto
mais influenciadas pelo rudo.
Adicionalmente, os resultados do sistema de reconhecimento de padres com a caracterstica
EDW com decomposio wavelet packet apresenta resultados globais piores (com trs dos
classificadores avaliados) ou levemente melhores (com os outros trs classificadores), como
analisado anteriormente. Portanto, julga-se desnecessrio utilizar a decomposio wavelet
packet ao invs da decomposio wavelet discreta, considerando que a primeira tem maior
custo computacional e complexidade, mas as informaes adicionais que fornece no so as
mais interessantes para os objetivos do sistema de reconhecimento nem se traduzem em
melhores resultados globais.
83
Considerando o discutido nesta seo, nas anlises seguintes a caracterstica EDW ser a
avaliada usando decomposio wavelet discreta, da famlia db2, at nvel 3.
7.2.PARMETROS PARA O CLASSIFICADOR KNN

Dentro das opes consideradas para a etapa de classificao do sistema de reconhecimento
de padres (terceira etapa, depois da segmentao e a extrao de caractersticas) est o
algoritmo dos Vizinhos mais prximos (KNN). Como apresentado na seo 6.3.1, o mais
importante parmetro a ser decidido na aplicao desse mtodo de classificao o nmero
de vizinhos a serem inspecionados (K). No existindo uma regra geral para o valor timo
desse parmetro, necessrio seu estudo para cada problema de aplicao.
Com o objetivo de estabelecer o valor mais apropriado para K e avaliar a sensibilidade dessa
escolha, foram feitos testes do sistema de reconhecimento de padres envolvendo seis
possveis valores para K (1, 3, 5, 7, 9, 11) e, portanto, seis classificadores. A anlise feita
considerando os dados de cada sensor independentemente, usando o conjunto de quatro
caractersticas (TOD) e tambm usando somente a caracterstica de distribuio da energia da
decomposio wavelet6 (EDW).
Os resultados obtidos da aplicao do sistema de reconhecimento de padres para cada um
dos sensores, extraindo o vetor de caractersticas TOD, e usando os seis valores de K para o
algoritmo KNN, so mostrados na Tabela 7 e na Figura 22. Esses resultados esto em termos
da AAC obtida aplicando correlao cruzada com 10 blocos. Uma anlise anloga, porm
extraindo somente a caracterstica EDW, fornece os resultados apresentados na Tabela 8 e
Figura 23.
Em ambos os casos, usando decomposio wavelet discreta at nvel 3 com a funo db2, como definido na
seo anterior.
84
Tabela 7. AAC usando variaes do algoritmo K-NN, depois da extrao do vetor de caractersticas TOD.
Sensor
1-NN
3-NN
5-NN
7-NN
9-NN
11-NN
P01
0.923
0.968
0.971
0.977
0.976
0.981
P02
0.971
0.993
0.995
0.995
0.997
0.997
P03
0.974
0.993
0.994
0.997
0.997
0.997
P04
0.963
0.984
0.990
0.994
0.993
0.996
P05
0.937
0.979
0.987
0.988
0.988
0.992
P06
0.969
0.989
0.992
0.994
0.995
0.995
P07
0.974
0.986
0.994
0.995
0.995
0.995
P08
0.965
0.982
0.986
0.992
0.993
0.994
P09
0.969
0.987
0.991
0.993
0.992
0.995
P11
0.971
0.988
0.989
0.993
0.995
0.995
P12
0.971
0.989
0.992
0.992
0.992
0.994
P13
0.976
0.990
0.989
0.989
0.993
0.992
P14
0.969
0.984
0.989
0.989
0.989
0.992
P15
0.976
0.987
0.990
0.993
0.994
0.994
P16
0.958
0.982
0.991
0.990
0.992
0.994
Q01
0.906
0.955
0.960
0.968
0.968
0.968
Q02
0.879
0.936
0.952
0.957
0.958
0.956
Q03
0.816
0.898
0.917
0.925
0.931
0.934
Mdia
0.948
0.976
0.982
0.985
0.985
0.987
Desvio
0.043
0.024
0.020
0.018
0.017
0.017
Figura 22. AAC usando variaes do algoritmo K-NN, depois da extrao das caractersticas TOD.
85
Tabela 8. AAC usando variaes do algoritmo K-NN, depois da extrao da caracterstica EDW.
Sensor
1NN
3NN
5NN
7NN
9NN
11NN
P01
0.911
0.959
0.963
0.972
0.976
0.977
P02
0.956
0.986
0.989
0.989
0.992
0.993
P03
0.942
0.983
0.988
0.988
0.990
0.991
P04
0.947
0.982
0.988
0.988
0.987
0.990
P05
0.940
0.972
0.977
0.981
0.986
0.988
P06
0.947
0.981
0.987
0.988
0.989
0.990
P07
0.948
0.974
0.982
0.984
0.987
0.988
P08
0.945
0.970
0.976
0.984
0.986
0.990
P09
0.942
0.976
0.984
0.985
0.989
0.991
P11
0.939
0.979
0.986
0.988
0.988
0.988
P12
0.956
0.983
0.986
0.987
0.987
0.990
P13
0.961
0.980
0.983
0.988
0.989
0.991
P14
0.931
0.977
0.985
0.987
0.987
0.988
P15
0.942
0.972
0.981
0.985
0.988
0.989
P16
0.932
0.972
0.983
0.989
0.989
0.989
Q01
0.856
0.940
0.956
0.970
0.970
0.971
Q02
0.869
0.939
0.948
0.952
0.955
0.954
Q03
0.823
0.892
0.909
0.912
0.918
0.923
Mdia
0.927
0.968
0.975
0.979
0.981
0.982
Desvio
0.038
0.023
0.020
0.019
0.018
0.018
Figura 23. AAC usando variaes do algoritmo K-NN, depois da extrao da caracterstica EDW.
86
Os resultados apresentados permitem concluir que, tanto usando como vetor de caractersticas
TOD quanto EDW, o desempenho dos classificadores superior para valores maiores de K,
na maioria dos sinais. Como detalhado na Tabela 97, a melhora no desempenho muito mais
significativa para os valores inferiores de K, com um ganho mdio de 4,0% ao passar de 1NN
para 3NN. Ao estudar valores maiores de K, o aumento de desempenho torna-se menos
significativo.
Tabela 9.Incremento percentual na AAC usado variaes do algoritmo KNN
Sensor 1NN a 3NN
3NN a 5NN
5NN a 7NN
7NN a 9NN
9NN a 11NN
P01
4.77%
0.44%
0.82%
0.49%
0.05%
P02
2.95%
0.25%
0.01%
0.38%
0.03%
P03
4.09%
0.48%
0.03%
0.20%
0.15%
P04
3.50%
0.61%
-0.03%
-0.05%
0.24%
P05
3.13%
0.51%
0.45%
0.47%
0.17%
P06
3.42%
0.63%
0.08%
0.05%
0.17%
P07
2.60%
0.71%
0.27%
0.31%
0.10%
P08
2.50%
0.60%
0.74%
0.27%
0.34%
P09
3.43%
0.73%
0.18%
0.32%
0.25%
P11
4.00%
0.74%
0.19%
-0.04%
0.01%
P12
2.62%
0.31%
0.10%
0.06%
0.27%
P13
1.90%
0.31%
0.45%
0.12%
0.18%
P14
4.60%
0.82%
0.22%
0.02%
0.07%
P15
2.97%
0.94%
0.44%
0.24%
0.15%
P16
3.96%
1.12%
0.62%
-0.05%
-0.01%
Q01
8.38%
1.62%
1.34%
0.05%
0.11%
Q02
6.93%
0.98%
0.40%
0.22%
-0.06%
Q03
6.96%
1.71%
0.24%
0.62%
0.50%
Mdia
4.04%
0.75%
0.36%
0.20%
0.15%
Desvio
1.74%
0.41%
0.35%
0.20%
0.14%
Dadas as caractersticas do algoritmo KNN, o aumento no valor K (nmero de vizinhos)

multiplica o custo computacional do processo. Na procura de um equilbrio entre o custo
computacional e a melhora no desempenho do classificador, foi determinado que, para o
problema tratado e a base de dados usada neste projeto, o valor mais adequado do parmetro
K 3. Assim, nas anlises seguintes o algoritmo KNN usado ser o 3NN.
A Tabela 9 refere-se aos resultados obtidos usando somente a caracterstica EDW, mostrados na Tabela 8 e
Figura 23, mas as concluses so as mesmas se considerados os resultados usando TOD.
87
7.3.CARACTERSTICAS EXTRADAS
Como apresentado na seo 6.2, foram avaliadas quatro caractersticas para representar os
sinais adquiridos, sendo elas:
ENE. Energia, um valor representa cada sinal;
ENT. Entropia, um valor;
NCZ. Nmero de cruzamentos por zero, um valor;
EDW. Distribuio da energia nas componentes da decomposio wavelet, vetor de

quatro elementos.
Para analisar a tendncia das caractersticas dos sinais SEM e COM, foram extradas as
caractersticas de cada qual dos 620 exemplos das duas classes, para cada um dos 18 sensores.
Usando os valores extrados, foram construdos os histogramas de frequncias relativos aos
exemplos SEM e COM para cada caracterstica, ou mais exatamente para cada um dos valores
do vetor de caractersticas (sendo que a caracterstica EDW representada por quatro
valores). Os histogramas foram construdos com os dados de cada sensor isoladamente, e na
Figura 24 so apresentados os do sensor mais prximo do local de vazamento (P02) e o do
local mais afastado a jusante dele (P16), cuja localizao pode ser conferida na Figura 7.
Para obter uma indicao quantitativa do grau de semelhana entre os valores relativos s
duas classes, foi calculado o intervalo central de valores de caractersticas que contm o 85%
dos exemplos, sendo que 7,5% dos exemplos tm valores da caracterstica inferiores aos do
intervalo, e o restante 7,5% valores superiores a ele. Os limites desses intervalos so
resumidos na Tabela 10 e indicados tambm na Figura 24.
Tabela 10. Intervalos de valores mais frequentes das caractersticas
P02
SEM
COM
7.5% - 92.5% 7.5% - 92.5%
P16
SEM
COM
7.5% - 92.5% 7.5% - 92.5%
ENE
10.4 - 34.9
2.8 - 76.5
17.3 - 37.8
2.8 - 42.4
ENT
6.2 - 6.8
6 - 7.6
6.7 - 7
6-7
NCZ
58.5 - 121.9
1 - 57.5
76.1 - 123.9
44.9 - 92.5
EDW-A3
5.7 - 30.2
23.6 - 92.2
8 - 23.6
25.7 - 65.4
EDW-D3
9.3 - 50
1.3 - 12.6
15.6 - 50.4
9 - 33.8
EDW-D2
18.6 - 37.4
0.8 - 29.4
18.7 - 35.4
7.7 - 25.9
EDW-D1
4.7 - 33.6
0.3 - 34
7.7 - 34.3
1.7 - 30.5
88
ENE
160
80
80
0
0
20
40
60
80
100
120
ENT
160
40
60
80
100
120
ENT
80
0
2
NCZ
160
80
0
0
20
40
60
80 100 120 140
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
Frequncia (quantidade de exemplos). Sensor P16
20
160
80
NCZ
80
0
0
20
40
60
80 100 120 140
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
60
EDW - D2
160
80
160
60
EDW - D2
160
80
0
0
10
20
30
40
50
60
70
EDW - D1
160
10
20
30
40
50
60
70
EDW - D1
160
80
80
0
CLASSE
COM
SEM
ENE
160
10
20
30
40
50
60
CLASSE
COM
SEM
10
20
30
40
50
Figura 24. Histogramas dos valores do vetor de caractersticas para exemplos SEM e COM.
60
89
possvel verificar que para algumas das caractersticas, as faixas de valores mais comuns
so similares, enquanto para outras caractersticas os intervalos esto mais claramente
diferenciados. A seguir as observaes principais sobre cada caracterstica:
Para a caracterstica ENE, tanto no sensor mais prximo (P02) quanto no mais
afastado (P16) o intervalo de valores mais frequentes para a classe SEM est contido
no intervalo da classe COM. Assim, difcil diferenciar se um sinal pertence a uma ou
outra classe com base no seu valor ENE dado que os mesmos valores aparecem
frequentemente para as duas classes.
Quanto caracterstica ENT, os intervalos de valores para o sensor P02 so muito

semelhantes, e para o sensor P16 so quase idnticos. Assim, maior parte de exemplos
COM e SEM tem valores de ENT na mesma faixa, razo pela qual essa caracterstica
no se mostra interessante para o propsito de classificao.
O intervalo de valores mais frequentes de NCZ tende a valores menores para os

exemplos COM do que para os SEM segundo os dados do sensor P16, e para o sensor
P02 constitui conjuntos disjuntos. Considerando, por exemplo, somente os dados do
sensor P02, com uma regra simples segundo a qual NCZ>58SEM e
NCZ<58COM, 85% dos exemplos seriam corretamente classificados. Esse
comportamento compreensvel ao lembrar que a ocorrncia do vazamento induz uma
mudana no sinal que faz com que os valores se afastem da mdia (0), apresentando
menos cruzamentos por zero em comparao aos exemplos em que essa mudana
devida ao vazamento no acontece.
Quanto caracterstica EDW, os seus quatro valores apresentam tendncias diferentes

mas complementares, que no diferem significativamente para os dois sensores. Para a
energia A3 o intervalo de valores mais frequentes nos exemplos COM abarca valores
maiores do que o intervalo dos exemplos SEM, para os dois sensores considerados.
Isso significa que depois da decomposio wavelet dos sinais SEM uma parte menor
da energia corresponde aproximao A3 (baixas frequncias8) e as componentes de
detalhes (alta frequncia) so mais importantes, sendo esse o comportamento esperado
Vale a pena salientar que quando se mencionam, por exemplo, os valores mais frequentes ou os
histogramas de frequncias, a palavra frequncia refere-se quantidade de vezes que um valor ou faixa de
valores ocorrem, e pode ser quantificada com unidades de nmero de ocorrncias. Por outro lado, quando
referidas as altas / baixas frequncias em referencia s componentes da decomposio wavelet, trata-se de
frequncias presentes no sinal, que seria o numero de ciclos por unidade de tempo se se tratasse de sinais
peridicos, e cuja unidade a inversa do tempo, 1/sec = Hz.
90
para um sinal em que a maior parte das oscilaes devida ao rudo, de alta
frequncia. Entretanto, nos exemplos COM grande parte da energia est concentrada
no componente de aproximao A3, devido mudana provocada pelo vazamento. Os
valores de energia nas componentes de detalhe so complementares aos da
componente de aproximao (A3+D3+D2+D1=100 para cada exemplo individual),
portanto para os exemplos SEM os valores de D3, D2 e D1 so maiores do que para os
exemplos COM. A diferenciao entre os intervalos de valores mais comuns das duas
classes mais clara para os componentes de menor frequncia (D3) do que para os de
maior frequncia (D1). A importncia de cada valor da caracterstica de distribuio
da energia na decomposio wavelet foi discutida tambm na seo 7.1.
Os resultados para apenas dois dos sensores foram apresentados acima para melhor
compreenso, embora as mesmas anlises tenham sido realizadas para todos os outros
sensores foram feitas e os seus resultados em nada contradizem as anteriores observaes,
como pode ser verificado nos histogramas apndice A.
Os histogramas antes apresentados no fazem parte do sistema de reconhecimento de padres,
e sim de uma anlise adicional de comparao entre as caractersticas. Para avaliar a utilidade
dessas caractersticas na representao dos sinais para sua posterior classificao, o sistema de
reconhecimento de padres completo (incluindo segmentao, extrao de caractersticas e
classificao, como descrito na seo 6) foi construdo e avaliado, para cada um dos sensores.
Na etapa de extrao de caractersticas seis diferentes alternativas so consideradas, para
avaliar as caractersticas isoladas, combinadas ou ainda o sinal original, como segue:
TOD. Todas as quatro caractersticas em um vetor de caractersticas de dimenso sete;
ENE. Somente energia, vetor de elemento nico;
ENT. Entropia, vetor de elemento nico;
NCZ. Nmero de cruzamentos por zero, vetor de elemento nico;
EDW. Distribuio da energia nas componentes da decomposio wavelet, vetor de

dimenso quatro.
SIN. Sinal original (sem extrair nenhuma caracterstica), vetor de dimenso 240. O uso
do vetor original como vetor de entrada a o classificador possvel somente porque a
aquisio em laboratrio e o pr-processamento dos exemplos garante que todos eles
contenham a mesma quantidade de elementos, sem dados errneos ou faltantes.
91
Na etapa de classificao foram usados alternativamente todos os classificadores analisados,

visando a descartar variaes devidas sua escolha. Assim, para todos os sensores
independentemente, o sistema construdo para cada alternativa de vetor de caractersticas
com seis classificadores diferentes, definidos na seo 6.3 e que sero avaliados na seo 7.4.
Foi calculada a rea abaixo da curva ROC (AAC) para o sistema de reconhecimento de cada
combinao considerada, aplicando o procedimento de validao cruzada. Os resultados para
todos os sensores e para os diferentes vetores de caractersticas considerados so apresentados
na Tabela 11, em termos do seu valor mdio e desvio padro para os diferentes
classificadores. Nas ltimas linhas da mesma tabela apresentam-se valores mdios para todos
os sensores relativos a cada vetor de caractersticas. Os resultados anteriores tambm so
apresentados na Figura 25, na qual cada ponto corresponde avaliao de uma arquitetura do
sistema de reconhecimento de padres com os dados de um sensor. Cada 18 pontos alinhados
verticalmente correspondem aos resultados de todos os 18 sensores segundo um dos seis
classificadores (de esquerda para direita: 3NN, rvore, Regra, Bayes, SVM e FBR). Cada
grupo de pontos da mesma cor corresponde mesma alternativa em termos do vetor de
caractersticas considerado, isto , as alternativas a serem comparadas nesta seo para a
escolha do melhor vetor de caractersticas (TOD, ENE, ENT, NCZ, EDW, SIN).
Figura 25. AAC para diferentes vetores de caractersticas segundo o sensor e o classificador considerados.
92
Tabela 11. AAC mdia (desvio padro) para diferentes vetores de caractersticas, segundo o sensor
considerado.
Sensor
TOD
ENE
ENT
NCZ
EDW
SIN
P01
0.961 (0.02)
0.648 (0.037)
0.6 (0.033)
0.89 (0.05)
0.958 (0.02)
0.831 (0.153)
P02
0.988 (0.01)
0.893 (0.048) 0.877 (0.108) 0.983 (0.012) 0.971 (0.025) 0.838 (0.156)
P03
0.984 (0.014) 0.913 (0.055) 0.908 (0.054) 0.977 (0.016) 0.961 (0.039) 0.838 (0.156)
P04
0.985 (0.013) 0.914 (0.056) 0.915 (0.055) 0.977 (0.019) 0.963 (0.035) 0.841 (0.157)
P05
0.964 (0.025) 0.681 (0.085) 0.641 (0.032) 0.902 (0.042) 0.963 (0.025) 0.839 (0.149)
P06
0.982 (0.016) 0.909 (0.054) 0.911 (0.054) 0.973 (0.023) 0.964 (0.035) 0.841 (0.159)
P07
0.978 (0.023) 0.837 (0.059)
P08
0.974 (0.019) 0.719 (0.094) 0.694 (0.051)
0.92 (0.042)
0.969 (0.02)
0.836 (0.156)
P09
0.978 (0.024) 0.837 (0.059) 0.834 (0.065)
0.958 (0.03)
0.968 (0.03)
0.819 (0.166)
P11
0.977 (0.025) 0.824 (0.062) 0.849 (0.064) 0.961 (0.027) 0.971 (0.024) 0.837 (0.151)
P12
0.983 (0.016) 0.918 (0.057)
0.916 (0.06)
0.972 (0.021) 0.962 (0.039) 0.829 (0.163)
P13
0.982 (0.015)
0.82 (0.062)
0.814 (0.1)
0.938 (0.034) 0.976 (0.016)
P14
0.972 (0.024)
0.71 (0.086)
0.739 (0.074)
0.91 (0.047)
P15
0.979 (0.018) 0.706 (0.088)
0.74 (0.081)
0.915 (0.043) 0.971 (0.019) 0.839 (0.153)
P16
0.969 (0.018) 0.674 (0.064) 0.664 (0.044)
0.89 (0.038)
0.968 (0.019) 0.816 (0.157)
Q01
0.92 (0.044)
0.851 (0.032) 0.867 (0.024)
0.892 (0.03)
0.885 (0.042)
Q02
0.904 (0.044)
0.804 (0.05)
0.78 (0.034)
0.876 (0.068) 0.724 (0.139)
Q03
0.876 (0.035) 0.749 (0.057) 0.791 (0.039) 0.857 (0.027) 0.855 (0.029)
0.85 (0.108)
0.964 (0.022)
0.828 (0.15)
Media
0.8 (0.061)
0.858 (0.05)
0.84 (0.03)
0.964 (0.024) 0.968 (0.026) 0.843 (0.153)
0.803 (0.057) 0.925 (0.031)
0.855 (0.15)
0.967 (0.023) 0.828 (0.156)
0.951 (0.03)
0.79 (0.122)
Na Tabela 11 mostra-se que o uso do vetor de caractersticas TOD dentro do sistema de

reconhecimento de padres gera os melhores resultados mdios para todos os 18 sensores.
Entretanto, a EDW apresenta os segundos melhores resultados mdios para 11 sensores e
NCZ apresenta essa segunda melhor colocao nos 7 sensores restantes. Agrupando os
resultados dos 18 sensores o melhor desempenho mdio do sistema corresponde ao vetor de
TOD, seguido de EDW e NCZ, que tambm tm os menores desvios mdios, confirmando
assim essas trs opes de vetor de caractersticas como as mais teis ao sistema de
reconhecimento de padres. Tambm na Figura 25, pode-se identificar uma tendncia geral
dos resultados: usando as caractersticas ENE e ENT os resultados so em mdia inferiores e
apresentam uma disperso maior, enquanto usando TOD, NCZ e EDW os resultados so em
mdia maiores e menos dispersos.
93
O valor de desempenho afetado pela escolha do classificador, e para avaliar sua influncia
na Tabela 12 so mostrados os valores de desempenho mdios para cada alternativa de vetor
de caractersticos, discriminados segundo o tipo de classificador utilizado. Apesar das
variaes nos valores, o ordenamento das melhores caractersticas semelhante ao antes
identificado, com TOD e EDW na primeira e segunda melhor posio dentre as alternativas
de extrao de caractersticas, superados por pequena diferena pelo uso do vetor SIN quando
considerados dois dos classificadores.
Tabela 12. AAC mdia para diferentes vetores de caractersticas, segundo o classificador.
Classificador
TOD
ENE
ENT
NCZ
EDW
SIN
3NN
0.976
0.804
0.812
0.948
0.968
0.984
rvore
0.963
0.811
0.812
0.902
0.954
0.898
Regra
0.931
0.787
0.796
0.899
0.912
0.766
Bayes
0.979
0.840
0.828
0.953
0.968
0.593
SVM
0.953
0.700
0.715
0.894
0.932
0.942
FBR
0.984
0.859
0.857
0.956
0.971
0.784
Mdia
0.964
0.800
0.803
0.925
0.951
0.828
Tanto a anlise dos histogramas de valores das caractersticas quanto os indicadores de

desempenho mdio e a disperso dos resultados conduzem s mesmas concluses a respeito
da escolha das caractersticas, indicando que os melhores resultados mdios so os
apresentados pelo uso dos vetores TOD, EDW e NCZ. Mas o vetor TOD est constitudo por
todas as quatro caractersticas avaliadas, incluindo as que se julgam menos interessantes para
o reconhecimento (ENT e ENE). Para avaliar o efeito de descartar totalmente essas duas
caractersticas de piores resultados, foi construda outra alternativa de vetor de caractersticas
constituda pela combinao de NCZ e EDW. A comparao desse novo vetor de
caractersticas com os anteriormente identificados como de melhor desempenho apresentada
na Tabela 13.
O uso das caractersticas de NCZ+EDW (vetor de 5 elementos) fornece resultados mdios
muito semelhantes aos do uso do vetor TOD (de 7 elementos), sendo a AAC mdia de 0.961
no primeiro e 0.964 no segundo. Essa constatao sugere que o clculo e incluso das
caractersticas ENE e ENT no aporta benefcios ao processo de classificao e somente eleva
o custo computacional do processo.
Por outro lado, a caracterstica que isoladamente fornece os melhores resultados mdios
EDW, mas a incorporao da segunda melhor caracterstica, NCZ, incrementa um pouco os
94
resultados mdios (de 0.951 a 0.961 em mdia) e diminui levemente os desvios (de 0.030 a
0.023, em mdia). Como seu clculo pouco complexo se comparado com o da EDW,
considera-se interessante o uso das duas caractersticas combinadas, NCZ+EDW.
Tabela 13. AAC mdia (desvio padro) segundo o sensor considerado, para os vetores de caractersticas
de melhor desempenho.
Sensor
TOD
NCZ
EDW
NCZ+EDW
P01
0.961 (0.02)
0.89 (0.05)
0.958 (0.02)
0.958 (0.022)
P02
0.988 (0.01)
0.983 (0.012) 0.971 (0.025)
0.986 (0.01)
P03
0.984 (0.014) 0.977 (0.016) 0.961 (0.039)
0.98 (0.013)
P04
0.985 (0.013) 0.977 (0.019) 0.963 (0.035) 0.984 (0.012)
P05
0.964 (0.025) 0.902 (0.042) 0.963 (0.025) 0.965 (0.024)
P06
0.982 (0.016) 0.973 (0.023) 0.964 (0.035) 0.975 (0.016)
P07
0.978 (0.023) 0.964 (0.024) 0.968 (0.026) 0.975 (0.023)
P08
0.974 (0.019)
0.92 (0.042)
0.969 (0.02)
0.973 (0.018)
P09
0.978 (0.024)
0.958 (0.03)
0.968 (0.03)
0.974 (0.023)
P11
0.977 (0.025) 0.961 (0.027) 0.971 (0.024) 0.977 (0.023)
P12
0.983 (0.016) 0.972 (0.021) 0.962 (0.039) 0.979 (0.015)
P13
0.982 (0.015) 0.938 (0.034) 0.976 (0.016) 0.978 (0.016)
P14
0.972 (0.024)
P15
0.979 (0.018) 0.915 (0.043) 0.971 (0.019)
0.973 (0.02)
P16
0.969 (0.018)
0.89 (0.038)
0.968 (0.019)
0.97 (0.017)
Q01
0.92 (0.044)
0.892 (0.03)
0.885 (0.042)
0.905 (0.04)
Q02
0.904 (0.044)
0.78 (0.034)
0.876 (0.068) 0.901 (0.073)
Q03
0.876 (0.035) 0.857 (0.027) 0.855 (0.029) 0.867 (0.032)
Media
0.91 (0.047)
0.964 (0.022) 0.925 (0.031)
0.967 (0.023) 0.968 (0.023)
0.951 (0.03)
0.961 (0.023)
Quanto ao uso do sinal original (sem extrair caractersticas), SIN, como vetor de entrada para
o processo de classificao, cada exemplo considerado um ponto dentro de um espao de
dimenso 240, e para a definio de distncias, regras ou distribuies nos procedimentos de
treinamento dos classificadores o i-simo valor da srie comparado somente com o i-simo
das outras sries, sendo i = 1, 2... 240. Esse tipo de comparao ponto a ponto tem
desvantagens considerando que nos exemplos COM o vazamento acontece em diferentes
momentos dentro do intervalo de exemplo. O desempenho do sistema de reconhecimento de
padres usando o vetor SIN foi muito varivel dependendo do classificador utilizado, com
95
valores individuais de AAC desde 0.567 (sensor P16, classificador Bayesiano) at 0.997
(sensor P11, classificador 3NN). Assim, os valores de desvio relativos a SIN com cada sensor
mostrados na Tabela 11, de mdia 0.15 e mnimo 0.11, so maiores do que os desvios de
todas as outras alternativas de vetores de caractersticas, restando portanto confiabilidade aos
seus valores mdios. O tempo de processamento usando SIN foi muito maior do que com os
outros vetores de caractersticas, devido ao grande tamanho dos vetores envolvidos, embora
com essa alternativa seja economizado o tempo que leva a extrao de caractersticas. Como
apontado anteriormente, o uso do sinal sem extrair caractersticas somente possvel pelo fato
de todos os exemplos terem exatamente o mesmo tamanho. Se alguns dos exemplos tivessem
tamanho diferente, essa opo de uso do vetor SIN no seria aplicvel, enquanto o processo
de extrao de caractersticas no encontraria nenhum problema.
Assim, considerando que o uso do sinal diretamente como se fosse o vetor de caractersticas
no diminui o custo computacional, tm aplicao limitada, e gera desempenhos de menor
preciso e, em mdia, de menor acurcia, conclui-se que o uso da extrao de caractersticas
muito mais interessante do que o uso do sinal de entrada, SIN, diretamente.
7.4.TIPOS DE CLASSIFICADOR
Os seis diferentes tipos de classificador apresentados na seo 6.3 foram avaliados como
alternativas dentro do sistema de reconhecimento de padres criado, sendo eles:
3NN. Algoritmo de 3 vizinhos mais prximos, padronizando as entradas, usando

distncia Euclidiana e desconsiderando ponderao;
rvore. rvore de deciso segundo o algoritmo C4.5, com o mnimo de duas

instncias nos ns folha;
Regra. Algoritmo de uma regra (One Rule), com mnimo seis elementos nos
segmentos;
Bayes. Classificador Naive Bayes, usando distribuio normal;
SVM. Mquina de vetor suporte, com funes kernel lineares e sem incorporar pesos
diferenciados s duas classes;
FBR. Rede neural artificial com funes de base radial, com funes normalizadas
Gaussianas.
96
Levando em considerao as concluses da seo 7.3 sobre as caractersticas com maior

potencial para o processo de reconhecimento de padres do problema em estudo, nesta etapa
considerado somente o tipo de vetor de caractersticas com melhor desempenho: NCZ+EDW.
O desempenho para cada classificador e cada sensor, em termos da AAC, apresentado na
Tabela 14 e na Figura 26.
Tabela 14. AAC mdia (desvio padro) para diferentes classificadores, segundo o sensor considerado.
Sensor
3NN
rvore
Regra
Bayes
SVM
FBR
P01
0.967
0.952
0.932
0.985
0.935
0.980
P02
0.990
0.985
0.969
0.993
0.982
0.996
P03
0.985
0.970
0.963
0.991
0.974
0.996
P04
0.987
0.987
0.963
0.992
0.977
0.997
P05
0.974
0.962
0.924
0.988
0.955
0.987
P06
0.981
0.966
0.955
0.991
0.965
0.995
P07
0.983
0.976
0.934
0.994
0.969
0.995
P08
0.974
0.975
0.945
0.993
0.961
0.991
P09
0.981
0.972
0.931
0.994
0.974
0.994
P11
0.984
0.981
0.932
0.995
0.977
0.993
P12
0.987
0.972
0.955
0.991
0.973
0.996
P13
0.982
0.958
0.960
0.995
0.976
0.995
P14
0.979
0.953
0.934
0.993
0.960
0.990
P15
0.981
0.957
0.947
0.994
0.966
0.993
P16
0.971
0.969
0.945
0.991
0.958
0.984
Q01
0.963
0.925
0.865
0.931
0.865
0.884
Q02
0.961
0.962
0.885
0.869
0.777
0.952
Q03
0.906
0.874
0.823
0.859
0.842
0.899
Media
0.974
0.961
0.931
0.974
0.944
0.979
Desvo
0.019
0.026
0.038
0.043
0.057
0.034
97
Figura 26. AAC para diferentes classificadores, segundo o sensor.
O desempenho de todos os classificadores muito bom, de forma que as diferenas entre eles
so pequenas em relao ao resultado mdio. O classificador Bayes apresenta o melhor
resultado para nove dos sensores, enquanto o FBR o melhor para oito dos sensores e o 3NN
para os trs restantes. Mesmo com diferenas pequenas, os melhores resultados (maior valor
de AAC) correspondem aos classificadores FBR, Bayes e 3NN. O desempenho pior foi o da
regra de deciso, levemente superado pelo SVM e pela rvore.
Os classificadores de rvore, Regra e SVM, por terem desempenho mdio inferior, so
considerados menos interessantes. Mas antes de concluir sobre o classificador mais
conveniente, interessante analisar a aplicao dos diferentes tipos de classificadores desde as
suas idias de base. O classificador Naive Bayes, apresentado na seo 6.3.4, assume que os
dados fazem parte de uma distribuio de probabilidades cujos parmetros so definidos a
partir dos dados de treinamento e segundo eles decidida a resposta dos testes.
Adicionalmente, supe-se independncia estatstica entre as componentes do espao de
entrada. Comumente a hiptese de independncia no se verifica, mas tem sido comprovado
em aplicaes diversas que isso no prejudica o desempenho do classificador em quanto
98
deciso sobre a classe escolhida, embora comprometa o significado dos valores de

probabilidade de pertena a cada classe (FACELI et al., 2011).
Quanto ao tipo de distribuio, para os clculos anteriores foi assumida a distribuio normal,
como feito corriqueiramente. Mas ao analisar a verdadeira distribuio dos valores dos
vetores de caractersticas, como as apresentadas na Figura 24, isso no se verifica. A maioria
dos valores das caractersticas extradas no tem comportamento normal, descumprindo a
hiptese inicial da aplicao do classificador Naive Bayes. Ainda ao tentar substituir a
distribuio normal, nenhum tipo distribuio ajusta bem os dados das diferentes
caractersticas e sensores simultaneamente. Os resultados em termos do desempenho do
sistema de reconhecimento de padres usando o classificador Naive Bayes podem ser bons
devido a que as duas classes tm intervalos de valores mais comuns bem diferenciados,
especialmente das caractersticas NCZ e EDW (como destacado na seo 7.3), mas o
descumprimento da hiptese da distribuio de probabilidades gera desconfiana nestes
resultados. Adicionalmente, pode-se prever que com exemplos mais exigentes, para os quais
os valores mais comuns das caractersticas sejam menos diferentes entre as duas classes, o
problema por assumir a priori a distribuio de probabilidade pode ser mais significativo.
Entre os outros dois classificadores de melhor desempenho, o FBR cria um modelo do
sistema que no pode ser facilmente interpretado, numa RNA de trs camadas, enquanto o
3NN no cria modelo algum, pois usa diretamente a base de dados completa para
classificao de cada elemento. Considerando tambm que o desempenho dos dois
classificadores equivalente, pois a diferena na mdia de ordem de grandeza inferior ao
desvio, avaliado que o procedimento mais simples o mais conveniente. Sendo que o
treinamento do FBR implica na adoo de parmetros que modificam o processo de
otimizao, com uma complexidade maior que o algoritmo simples do 3NN, sem produzir
nem desempenho melhor nem um modelo facilmente interpretvel, considera-se mais
conveniente usar o classificador 3NN para as anlises posteriores.
7.5.RESULTADOS FINAIS DO SISTEMA DE RECONHECIMENTO DE

PADRES
Com base nas anlises relativas aos diferentes componentes do sistema de reconhecimento de
padres e suas alternativas, possvel escolher a arquitetura geral do sistema que fornece os
resultados mais interessantes no processo de reconhecimento de sinais adquiridos na ausncia
99
de vazamentos ou durante seu surgimento (classes SEM e COM, respectivamente).

Resumindo esses resultados, pode-se definir um sistema de reconhecimento de padres com
as seguintes etapas sequenciais:
Segmentao e padronizao. Segmentao em intervalos de 1 minuto ou 240 pontos,

e padronizao para valores de -1 a 1, com mdia 0.
Extrao de caractersticas. Extrao das caractersticas NCZ (nmero de cruzamentos

por zero) e EDW (distribuio da energia nas componentes da decomposio wavelet
discreta, db2, nvel 3) para conformao do vetor de 5 elementos NCZ+EDW.
Classificador. Classificador 3-NN (trs vizinhos mais prximos) padronizando as

entradas e usando distncia euclidiana sem ponderao.
O sistema assim constitudo avaliado a seguir, considerando as metodologias de avaliao

apresentadas na seo 6.4. Lembrando que, como nas sees anteriores, para cada qual dos
sinais independentemente o sistema de reconhecimento foi construdo e testado usando a
metodologia de validao cruzada com dez blocos (10-fold cross validation), de forma que
para cada sensor tm-se dez testes diferentes. Como nas sees anteriores, os resultados a
seguir referem-se s mdias dos dez testes realizados como se detalha em cada caso, e os
resultados individuais desses testes so apresentados no apndice B.
7.5.1. Matriz de confuso
Em cada um dos testes, do conjunto de 620 exemplos 10% usado para testes, sendo 31
exemplos SEM e 31 exemplos COM. A repetio do processo dez vezes, pela validao
cruzada, oferece um total de 620 respostas do sistema, com cada sensor. A matriz de confuso
dessas 620 respostas apresentada na Tabela 15 para cada sensor, e tambm se mostra a
matriz mdia resultante.
100
Tabela 15. Matrizes de confuso totais para cada sensor, e mdia.
P01
P02
P03
285
25
305
300
10
15
295
11
299
10
300
P04
P05
P06
301
297
13
297
13
303
19
291
11
299
P07
P08
P09
299
11
295
15
296
14
302
14
296
13
297
P11
P12
P13
299
11
301
299
11
302
302
304
P14
P15
P16
296
14
297
13
300
10
15
295
11
299
15
295
Q01
Q02
Q03
282
28
281
29
264
46
27
283
24
286
47
263
MDIA
294
16
15
295
Tanto as matrizes de confuso dos sensores individuais quanto a mdia mostram uma simetria
razovel com os erros balanceados entre falsos SEM (FS) e falsos COM (FC), descartando
vis na classificao. Com base nas matrizes e segundo as definies da seo 6.4.2, os
indicadores de desempenho foram calculados para cada um dos sensores e para o conjunto
todo, e so apresentados na Tabela 16 e na Tabela 17.
101
Tabela 16. Taxa de acerto, taxa de erro e sensibilidade do sistema, para cada sensor.
Sensor
Taxa acerto
Taxa erro
Sensibilidade
P01
0.935
0.065
0.919
P02
0.974
0.026
0.984
P03
0.968
0.032
0.968
P04
0.974
0.026
0.971
P05
0.948
0.052
0.958
P06
0.961
0.039
0.958
P07
0.969
0.031
0.965
P08
0.953
0.047
0.952
P09
0.956
0.044
0.955
P11
0.969
0.031
0.965
P12
0.973
0.027
0.971
P13
0.973
0.027
0.965
P14
0.953
0.047
0.955
P15
0.961
0.039
0.958
P16
0.960
0.040
0.968
Q01
0.911
0.089
0.910
Q02
0.915
0.085
0.906
Q03
0.850
0.150
0.852
Mdia
0.950
0.050
0.949
Desvio
0.031
0.031
0.032
O nvel geral de acurcia do sistema, medido pela taxa de acerto, maior que 0.91 para todos
os sensores com exceo do sensor Q03. O valor mdio, de 0.95, satisfatoriamente alto. A
taxa de erro o complemento da taxa de acerto, sendo assim sua mdia de 0.05. Quanto
sensibilidade ou taxa de verdadeiros positivos, mostra-se que a proporo de exemplos da
classe COM classificados acertadamente superior a 90% para dados de todos os sensores
com exceo do sensor Q03. Em mdia essa porcentagem de 94,9%, portanto somente 5,1%
dos exemplos COM foram classificados errados.
Os falsos positivos correspondem a exemplos SEM erroneamente classificados como COM, e
a taxa de ocorrncia desses casos de 0.048, em mdia. J a especificidade permite avaliar a
capacidade do sistema de identificar os exemplos SEM, calculando a proporo desses
exemplos classificados acertadamente, que de 0.952 em mdia. A preciso indica que a
102
porcentagem de exemplos classificados como COM que verdadeiramente pertencem a essa

classe de 95,2%.
Tabela 17. Taxa de falsos positivos, especificidade e preciso do sistema, para cada sensor e mdia.
Sensor
P01
Taxa falsos
Especificid.
positivos
0.048
0.952
Preciso
0.950
P02
0.035
0.965
0.965
P03
0.032
0.968
0.968
P04
0.023
0.977
0.977
P05
0.061
0.939
0.940
P06
0.035
0.965
0.964
P07
0.026
0.974
0.974
P08
0.045
0.955
0.955
P09
0.042
0.958
0.958
P11
0.026
0.974
0.974
P12
0.026
0.974
0.974
P13
0.019
0.981
0.980
P14
0.048
0.952
0.952
P15
0.035
0.965
0.964
P16
0.048
0.952
0.952
Q01
0.087
0.913
0.913
Q02
0.077
0.923
0.921
Q03
0.152
0.848
0.849
Mdia
0.048
0.952
0.952
Desvio
0.032
0.032
0.032
7.5.2. rea abaixo da curva ROC (AAC)

Para cada um dos sensores pode ser desenhada a respectiva curva ROC, com o eixo horizontal
referente a VC (verdadeiros COM) e o eixo vertical a FC (falsos COM). Na Figura 27 so
apresentadas, como exemplo, as curvas relativas aos sensores P02, P16 e Q03, enquanto as
dos outros sensores so mostradas no apndice C. O indicador de maior interesse nas anlises
comparativas neste trabalho a AAC, cujos valores para cada sensor (na arquitetura definitiva
do sistema) so apresentados na Tabela 18.
103
P02
P16
Q03
Figura 27. Curvas ROC para os sensores P02, P16 e Q03 9
Grficos gerados no software WEKA, como referido na seo 6.5.
104
Tabela 18. AAC do sistema para cada sensor, e mdia.
Sensor
rea abaixo
da curva ROC
P01
0.967
P02
0.990
P03
0.985
P04
0.987
P05
0.974
P06
0.981
P07
0.983
P08
0.974
P09
0.981
P11
0.984
P12
0.987
P13
0.982
P14
0.979
P15
0.981
P16
0.971
Q01
0.963
Q02
0.961
Q03
0.906
Mdia
0.974
Desvio
0.019
A AAC (rea abaixo da curva ROC), indicador do desempenho do classificador e cujo

mximo terico um (1.0), apresentou valores altos com todos os sensores, sendo o mnimo
0.906 (sensor Q03), o mximo 0.990 (sensor P02) e mdia de 0.974, valor satisfatrio.
7.6. MAGNITUDE DE VAZAMENTO

Um fator importante para a deteco de vazamentos a magnitude deles, em relao vazo
na rede. Como apresentado na Tabela 2 da seo 5.3, os experimentos foram conduzidos de
maneira a gerar nos exemplos COM diferentes relaes entre a vazo do vazamento (V) e a
vazo no circuito (Q). Para analisar a influncia da relao V/Q no desempenho do sistema de
105
reconhecimento de padres criado, foi identificada a faixa de valores V/Q a que pertence cada
um dos exemplos usados na etapa de teste dentro do processo de validao cruzada.
Analisando os resultados da classificao de cada exemplo para todos os testes, foi calculado
o nmero de exemplos COM classificados acertadamente (VC) ou no (FS) para cada faixa de
valores V/Q, como apresentado na Tabela 19. A sensibilidade ou taxa de verdadeiros
positivos (definida na seo 6.4.2), apresentada na Tabela 20. A configurao do sistema de
reconhecimento de padres a resumida na seo anterior, e inclui segmentao e
padronizao, extrao do vetor de caractersticas NCZ+EDW e classificao com 3NN.
A tendncia geral que pode ser predita quanto sensibilidade do sistema de reconhecimento
de padres que seus valores sejam menores para exemplos com relao V/Q baixa e maiores
para os exemplos com relao V/Q maior. Porm, valores individuais em alguns sensores no
seguem essa tendncia. Por exemplo, a sensibilidade na faixa de 4% a 5% aparece inferior do
que a de 3% a 4% para os sinais de vrios sensores, sendo o mais crtico o Q01 que aparenta
diminuio da sensibilidade em 0.11. Para a faixa de V/Q de 9% a 10% aparece na maioria
dos sensores sensibilidade inferior da faixa anterior (8% a 9%), sendo que essa tendncia
negativa continua presente ainda nos resultados totais. Uma possvel explicao de esse
inesperado resultado poderia ser a ocorrncia dentro de essa faixa de exemplos extrados de
um experimento com algum erro que tenha gerado corrupo dos dados e dificulte sua
classificao, mas essa hiptese no foi comprovada nem levada em conta nas anlises
executadas com a mesma base de dados de exemplos.
Ao analisar unicamente os resultados de sensibilidade totais, que consideram todos os testes
de todos os sensores acumulados, v-se que, com exceo da faixa de V/Q de 9% a 10%, a
tendncia esperada comprovada, sendo que a sensibilidade do sistema de reconhecimento
maior para relaes altas de V/Q do que para relaes baixas. As diferenas mais importantes
esto nas faixas inferiores, notando que o incremento na sensibilidade ao aumentar a relao
V/Q muito mais marcado at as relaes de 6%, depois da qual a sensibilidade estabiliza-se.
No pode deixar de ser levado em considerao que, ainda para os exemplos com V/Q < 3% a
sensibilidade muito alta (0.83) e j com exemplos de V/Q de 4% essa sensibilidade atinge o
0.9. Assim, mesmo sensvel magnitude do vazamento, o desempenho do sistema de
reconhecimento de padres proposto mantm-se razovel mesmo para valores V/Q < 3%.
106
Tabela 19. Indicadores VC e FS do sistema de reconhecimento calculados para os diferentes valores de

V/Q usados nos testes.
Sensor
P01
P02
P03
P04
P05
P06
P07
P08
P09
P11
P12
P13
P14
P15
P16
Q01
Q02
Q03
TOTAL
Indic.
Relao V/Q (%)

9 - 10 10 - 11
>11
Total
<3
3-4
4-5
5-6
6-7
7-8
8-9
VC
29
40
37
30
36
29
35
32
15
285
FS
11
25
VC
36
52
35
28
34
33
36
29
14
305
FS
VC
10
31
45
36
32
39
29
31
34
15
302
FS
VC
10
32
49
36
30
36
29
32
32
15
301
FS
VC
26
47
38
30
36
29
35
32
15
295
FS
15
VC
29
53
38
34
32
31
31
32
12
301
FS
VC
10
31
45
40
30
38
23
32
33
13
295
FS
15
VC
28
47
39
30
36
29
34
32
15
298
FS
12
VC
26
44
39
37
36
29
34
29
16
296
FS
14
VC
32
46
38
30
36
29
31
32
15
298
FS
12
VC
11
30
50
37
24
32
34
34
32
17
301
FS
VC
30
46
38
30
36
29
35
32
15
300
FS
10
VC
24
48
41
28
33
26
37
34
16
296
FS
14
VC
10
32
47
38
30
36
29
34
30
14
300
FS
10
VC
10
30
48
37
30
36
29
32
31
14
297
FS
13
VC
32
44
37
29
36
29
35
32
15
295
FS
15
VC
28
46
36
26
31
32
35
28
16
284
FS
26
VC
32
50
34
30
35
25
30
26
14
283
FS
27
VC
147
538
847
674
538
634
523
603
562
266
FS
31
51
76
29
34
107
Tabela 20. Sensibilidade (taxa de verdadeiros positivos) para os diferentes valores de V/Q usados nos
testes.
Sensor
Relao V/Q (%)

<3
3-4
4-5
5-6
6-7
7-8
8-9
9 - 10 10 - 11
>11
P01
0.20
0.88
0.78
0.95
1.00
1.00
1.00
1.00
1.00
1.00
P02
1.00
1.00
0.98
0.97
1.00
1.00
1.00
0.92
1.00
1.00
P03
1.00
0.94
0.94
0.97
1.00
1.00
1.00
0.94
1.00
1.00
P04
1.00
0.97
0.96
0.92
1.00
1.00
1.00
0.91
1.00
1.00
P05
0.70
0.79
0.92
0.97
1.00
1.00
1.00
1.00
1.00
1.00
P06
0.90
0.94
0.96
0.97
1.00
1.00
1.00
0.91
1.00
1.00
P07
0.91
0.94
0.90
0.95
0.97
1.00
1.00
0.89
1.00
1.00
P08
0.80
0.85
0.92
1.00
1.00
1.00
1.00
0.97
1.00
1.00
P09
0.75
0.84
0.88
1.00
1.00
1.00
1.00
1.00
0.97
1.00
P11
0.90
0.97
0.90
0.97
1.00
1.00
1.00
0.89
1.00
1.00
P12
1.00
0.97
0.94
0.97
1.00
1.00
1.00
0.89
1.00
1.00
P13
0.90
0.91
0.90
0.97
1.00
1.00
1.00
1.00
1.00
1.00
P14
0.75
0.80
0.94
0.98
1.00
1.00
1.00
0.97
1.00
1.00
P15
1.00
0.97
0.92
0.97
1.00
1.00
1.00
0.97
0.94
0.93
P16
1.00
0.91
0.94
0.95
1.00
1.00
1.00
0.91
0.97
0.93
Q01
0.60
0.97
0.86
0.95
0.97
1.00
1.00
1.00
1.00
1.00
Q02
0.60
0.88
0.90
0.90
0.96
0.89
0.97
0.95
0.97
1.00
Q03
0.88
0.91
0.94
0.87
0.91
1.00
0.83
0.91
0.90
0.93
Total
0.83
0.91
0.92
0.96
0.99
0.99
0.99
0.95
0.99
0.99
Figura 28. Sensibilidade (taxa de verdadeiros positivos) para diferentes valores de V/Q, total.
108
8. CONCLUSES
Neste trabalho foi desenvolvido um sistema de reconhecimento de padres para a deteco de

vazamentos em rede de abastecimento de gua sob presso pela anlise dos sinais, cujas
concluses so aqui apresentadas.
Como concluso da reviso bibliogrfica, foram classificadas as principais tcnicas de
deteco de vazamentos propostas no mbito da engenharia hidrulica, e identificou-se que o
conjunto de tcnicas mais promissor para sua implantao em sistemas reais o baseado na
anlise de sinais durante a operao do sistema. A principal vantagem dessas tcnicas no
dependerem do conhecimento detalhado do sistema (necessrio para o uso de modelos
hidrulicos) nem das restritas condies nas quais as anlises do transitrio so aplicveis.
Porm, seu objetivo a deteco de novos vazamentos, e no a localizao exata nem a
identificao de vazamentos existentes. Conclui-se tambm que apesar dos avanos realizados
ainda no existe uma soluo final e h muitas ferramentas que podem conduzir a melhores
resultados e devem ser pesquisadas, dentre elas o uso de sistemas de reconhecimento de
padres.
Foi adaptado e utilizado o circuito hidrulico experimental, localizado no laboratrio de
hidrulica ambiental do centro de recursos hdricos e ecologia aplicada (CRHEA). O circuito
consiste numa rede de tubulaes em policloreto de vinila (PVC) para o escoamento de gua
sob presso, e conta com monitoramento automtico de presses e vazes atravs de 18
sensores ligados a um sistema de aquisio de dados.
Foram executados repetidamente experimentos de duas classes: durante regime permanente
sem promover nenhuma mudana no sistema (SEM) e simulando o incio de um vazamento
com a abertura de um pequeno registro (COM). Os sinais adquiridos constituram a base de
dados usada para todas as anlises, com 310 exemplos de cada classe, obtidos com diferentes
vazes no circuito (Q) e, no caso dos exemplos COM, diferentes vazes de vazamento (V).
Assim, os exemplos COM representam diferentes magnitudes de vazamento, com relao
V/Q de 2% at 13%.
O sistema de reconhecimento de padres composto por trs etapas sequenciais: segmentao
e padronizao, extrao de caractersticas e classificao. Depois de conformado o sistema, a
entrada um sinal de presso ou vazo adquirido e a sada obtida, depois das trs etapas antes
mencionadas, a classe a que o exemplo pertence: SEM ou COM. Assim, o sistema permite
109
determinar, com certo grau de acurcia, se um novo sinal corresponde com uma situao de
incio de vazamento ou no. No presente trabalho essa avaliao foi feita sempre sobre uma
base de dados conformada previamente, mas o sistema desenvolvido poderia ser aplicado
anlise de sinais contnuos, em tempo real, precisando para tanto ajustes na rotina
computacional.
Para as anlises referentes s diferentes componentes do sistema foi aplicado o processo de
treinamento e teste do sistema de reconhecimento completo, com os sinais adquiridos nos 18
sensores localizados ao longo do circuito independentemente, produzindo indicadores de
desempenho individuais. Adicionalmente, cada avaliao foi feita usando a metodologia de
validao cruzada com dez blocos, sendo a mdia das dez repeties o indicador utilizado em
cada caso.
Quanto s primeiras etapas do sistema de reconhecimento de padres, a segmentao e
padronizao, os sinais adquiridos foram divididos em segmentos de durao 1 minuto ou 240
valores (taxa de amostragem de 4 amostras/s) e cada segmento constitui um exemplo de uma
das classes. Visando a garantir a capacidade de generalizao do sistema, as anlises foram
focadas no comportamento dos sinais e no nas grandezas medidas; assim, cada exemplo foi
padronizado de forma que a mdia fosse 0 e os valores do sinal estivessem entre -1 e 1.
No referente extrao de caractersticas, comprovou-se que esta etapa permitiu converter um
sinal de grande dimenso a uma representao de dimenso muito menor (vetor de
caractersticas) e que permite a classificao com acurcia ainda maior que os sinais originais
(SIN). As caractersticas consideradas foram energia (ENE), entropia (ENT), nmero de
cruzamentos por zero (NCZ) e distribuio da energia nas componentes da decomposio
wavelet (EDW), sendo as trs primeiras calculadas no domnio do tempo e a ltima baseada
na transformada wavelet.
Em referncia ao clculo da caracterstica EDW, foi assumido o uso da funo Daubechies
(db 2), e avaliado o nvel de decomposio wavelet mais conveniente, considerando que
maiores nveis correspondem a maior resoluo na frequncia, mas maior custo
computacional alm de menor resoluo temporal. Conclui-se que o uso da decomposio at
o nvel 3, forneceu desempenho mdio maior ao fornecido pelo nvel 2 e equivalente aos
relativos aos nveis 4 e 5. Adicionalmente foi comparado o uso da transformada wavelet
packet ao invs da transformada wavelet discreta, com o intuito de obter maior detalhamento
para frequncias altas. Concluiu-se que as informaes adicionais fornecidas pela
transformada packet no conduziram a melhorias no desempenho do sistema de
110
reconhecimento. Foi notado que depois da decomposio wavelet (tanto discreta quanto
packet) a maior energia est concentrada na componente de menor frequncia para os
exemplos COM, ao contrrio dos exemplos SEM, sendo assim essa componente mostrou-se a
mais til na distino entre exemplos das duas classes. Considerando o anterior, foi concludo
que para o clculo da caracterstica EDW, na etapa de extrao de caractersticas do sistema
de reconhecimento de padres, fosse usada a decomposio wavelet discreta, com a funo
db2, at nvel 3.
Os valores de cada qual das quatro caractersticas nas duas classes foram analisadas e foi
tambm avaliado o desempenho do sistema de reconhecimento de padres com o uso das
caractersticas isoladas e combinadas. Concluiu-se que as caractersticas ENE e ENT foram as
menos interessantes para o sistema, enquanto a mais interessante foi EDW, seguida de NCZ.
Ao avaliar o uso do vetor de caractersticas TOD, conformado pela combinao das quatro
caractersticas, o desempenho do sistema foi equivalente ao obtido usando o vetor de
caractersticas da combinao NCZ+EDW; portanto, o aporte das caractersticas ENE e ENT
ao processo de reconhecimento no significativo. Foi concludo que na etapa de extrao de
caractersticas fosse calculado o vetor NCZ+EDW como representao de cada sinal.
Para a etapa de classificao foram avaliados seis algoritmos diferentes e foi comparado o
desempenho do sistema de reconhecimento de padres usando cada qual. Antes da
comparao, foi analisado o parmetro K do algoritmo KNN, ou nmero de vizinhos mais
prximos, concluindo pela utilizao do valor de K = 3. O desempenho do sistema com base
nos seis classificadores utilizados (3NN, rvore, Naive Bayes, SVM e FBR) alto, sendo que
as diferenas entre eles so de ordem de grandeza menor de cada resultado. Os
classificadores correspondentes aos melhores desempenhos mdios so o FBR (rede neural
com funes de base radial), Naive Bayes e 3NN (3 vizinhos mais prximos). Desempenho
mdio inferior foi obtido usando rvore de deciso, regra de deciso e SVM (Mquina de
vetor suporte). Analisando os classificadores de melhor desempenho, foi concludo que os
resultados com o Naive Bayes perdem confiabilidade por no serem cumpridas as hipteses
originais quanto distribuio de probabilidade dos valores das caractersticas utilizadas. Por
outro lado, tanto FBR quanto 3NN apresentam desempenhos semelhantes, mas nenhum dos
dois fornece um modelo interpretvel do sistema, razo pela qual a escolha foi feita pela
menor complexidade, concluindo o uso do algoritmo 3NN para a etapa de classificao.
Assim, foi concludo que a melhor arquitetura para o sistema de reconhecimento de padres
era: segmentao e padronizao, extrao do vetor de caractersticas NCZ+EDW, e
111
classificao com 3NN. O sistema foi avaliado com os sinais obtidos de cada sensor
individualmente, segundo diferentes indicadores de desempenho produzindo os seguintes
resultados mdios: taxa de acerto de 95.0%, sensibilidade de 94.9%, taxa de falsos positivos
de 4.8%, especificidade de 95.2%, preciso de 95.2% e rea abaixo da curva ROC (AAC) de
0.974. Tais resultados indicam um desempenho consistente e de alta acurcia do sistema de
reconhecimento de padres proposto.
Adicionalmente, foi avaliada a influncia da magnitude do vazamento sobre processo de
deteco. Para tanto, depois de treinar e testar o sistema de reconhecimento de padres com
todos os exemplos, foi calculada a sensibilidade (taxa de verdadeiros positivos) discriminada
segundo a relao V/Q dos exemplos de teste. Embora a variao no seja igual para todos os
sensores, em mdia verifica-se que o aumento na relao de V/Q est relacionado com um
aumento na sensibilidade. As diferenas mais importantes esto nos exemplos de menor
magnitude, com relaes V/Q de 3% at 6%, para relaes de valores superiores a 6% a
sensibilidade no aumentou significativamente. Porm, para relaes inferiores a 3%, a
sensibilidade mdia de 82.6% e para aqueles com V/Q > 4% a sensibilidade superior a
90%. Assim, mesmo sensvel magnitude do vazamento, o desempenho do sistema proposto
se mantm razovel mesmo para valores V/Q < 3%.
Como mostrado, o sistema de reconhecimento de padres proposto produziu resultados
animadores para o problema de deteco de vazamentos para o qual foi projetado. Por ser este
um trabalho de explorao de uma nova metodologia, foram estabelecidos limites ao
problema de deteco, desconsiderando, por exemplo, otimizao da segmentao para
aplicao em tempo real, as variaes nas condies do escoamento por razes diferentes ao
vazamento ou diferentes localizaes do vazamento. Recomenda-se a incorporao de novas
condies para comprovar a resposta do sistema proposto, com os ajustes necessrios.
Considerando os resultados obtidos e a grande quantidade de ferramentas de anlise de sinais
e aprendizado de mquina, das quais s algumas foram aplicadas neste trabalho, recomendase em geral a explorao dessas ferramentas de anlise para a deteco de vazamentos em
sistemas reais de distribuio de gua para abastecimento.
112
9. REFERNCIAS
ADDISON, P. S. The Illustrated Wavelet Transform Handbook. 2002.

AGUIAR, F. G. Utilizao de redes neurais artificais para deteco de padres de
vazamento em dutos. So Carlos: Universidade de So Paulo, 2010.
AKSELA, K.; AKSELA, M.; VAHALA, R. Leakage detection in a real distribution network
using a SOM. Urban Water Journal, v. 6, n. 4, p. 279289, out. 2009.
ANDERSEN, J. H.; POWELL, R. S. Implicit state-estimation technique for water network
monitoring. Urban Water, v. 2, n. 2, p. 123130, jun. 2000.
ASHTON, C. .; HOPE, V. . Environmental valuation and the economic level of leakage.
Urban Water, v. 3, n. 4, p. 261270, dez. 2001.
BEALE, R.; JACKSON, T. Pattern Recognition. In: Neural Computing - An introduction.
New York: Taylor&Francis Group, 2010. p. 1537.
BUCHBERGER, S. G.; NADIMPALLI, G. Leak Estimation in Water Distribution Systems
by Statistical Analysis of Flow Readings. v. 130, n. 4, p. 321329, 2004.
CASTRO, F. DE; CASTRO, M. C. DE. Captulo 5 Radial Basis Function. In: Redes Neurais
Artificiais. Porto Alegre: Pontfica Universidade Catlica de Rio Grande do Sul, [s.d.].
COLOMBO, A. F.; LEE, P.; KARNEY, B. W. A selective literature review of transient-based
leak detection methods. Journal of Hydro-environment Research, v. 2, n. 4, p. 212227,
abr. 2009.
COLOMBO, F. Calibrao de modelos hidrulicos de redes de abastecimento de gua de
sistemas reais admitindo vazamentos. So Carlos: Universidade de So Paulo, 2007.
COVAS, D.; RAMOS, H. Case Studies of Leak Detection and Location in Water Pipe
Systems by Inverse Transient Analysis. Journal of Water Resources Planning and
Management, v. 136, n. 2, p. 248257, 2010.
COVAS, D.; RAMOS, H.; ALMEIDA, A. B. DE. Standing Wave Difference Method for
Leak Detection in Pipeline Systems. Journal of Hydraulic Engineering, v. 131, n. 12, p.
11061116, 2005.
DUDA, R.; HART, P.; STORK, D. Pattern Classification. 2. ed. New York: WilleyInterscience, 2001.
FACELI, K. et al. Inteligncia artificial. Uma abordagem de aprendizado de mquina.
Rio de Janeiro: LTC, 2011.
FERRANTE, M.; BRUNONE, B. Pipe system diagnosis and leak detection by unsteady-state
tests. 1. Harmonic analysis. Advances in Water Resources, v. 26, n. 1, p. 95105, jan. 2003.
113
FERRANTE, M.; BRUNONE, B. Pipe system diagnosis and leak detection by unsteady-state
tests. 2. Wavelet analysis. Advances in Water Resources, v. 26, n. 1, p. 107116, jan. 2003.
FERRANTE, M.; BRUNONE, B.; MENICONI, S. Wavelets for the Analysis of Transient
Pressure Signals for Leak Detection. Journal of hydraulic engineering, v. 133, n. 11, p.
12741282, 2007.
FERRANTE, M.; BRUNONE, B.; MENICONI, S. Leak detection in branched pipe systems
coupling wavelet analysis and a Lagrangian model. Journal of Water Supply: Research
and TechnologyAQUA, v. 58, n. 2, p. 95, mar. 2009.
GRAPS, A. An introduction to wavelets. IEE Computational Science and Engineering, v.
2, n. 2, 1995.
HOLTE, R. C. Very Simple Classification Rules Perform Well on Most Commonly Used
Datasets. Machine Learning, v. 11, p. 6390, 1 abr. 1993.
KAPELAN, Z.; SAVIC, D.; WALTERS, G. A hybrid inverse transient model for leakage
detection and roughness calibration in pipe networks. JOURNAL OF HYDRAULIC
RESEARCH, v. 41, n. 5, p. 481492, 2003.
LIGGETT, J. A.; CHEN, L.-C. Inverse transient analysis in pipe networks. Journal of
hydraulic engineering, v. 120, n. 8, p. 934955, 1994.
MALLAT, S. A Wavelet Tour of Signal Processing. 2. ed. London: Academic Press, 1999.
MENICONI, S. et al. Potential of transient tests to diagnose real supply pipe systems: What
can be done with a single extemporary test. Journal of Water Resources Planning and
Management, v. 137, n. 2, p. 238241, 2011.
MEYER, Y. Time-Frequency / Time-Scale Analysis. In: Wavelet Analysis and its
applications. London: Academic Press, 1999. v. Volume 10.
MISIUNAS, D. Burst Detection and Location in Pipelines and Pipe Networks with
application in water distribution systems. Lund: Lund University, 2003.
MISIUNAS, D. et al. Pipeline Break Detection Using Pressure Transient Monitoring. Journal
of Water Resources Planning and Management, v. 131, n. 4, p. 316325, 1 jul. 2005.
MOUNCE, S. R.; BOXALL, J. B.; MACHELL, J. Development and verification of an online
artificial intelligence system for detection of bursts and other abnormal flows. Journal of
Water Resources Planning and Management, v. 136, n. 3, p. 309318, 2010.
MPESHA, W.; GASSMAN, S. L.; CHAUDHRY, M. H. Leak detection in pipes by frequency
response method. Journal of hydraulic engineering, v. 127, n. 2, 2001.
NIXON, W. et al. Range of Validity of the Transient Damping Leakage. Journal of
114
PALAU, C. V.; ARREGUI, F. J.; CARLOS, M. Burst Detection in Water Networks Using
Principal Component Analysis. Journal of Water Resoucer planning and management, v.
138, n. 1, p. 4754, 2012.
PILCHER, R. Leak location and repair guidance notes and the never ending war against
leakageWater Loss. Anais...Bucareste, Romnia: 2007
POULAKIS, Z.; VALOUGEORGIS, D.; PAPADIMITRIOU, C. Leakage detection in water
pipe networks using a Bayesian probabilistic framework. Probabilistic Engineering
Mechanics, v. 18, n. 4, p. 315327, out. 2003.
PROAKIS, J. G.; MANOLAKIS, D. G. Digital Signal Processing. 4. ed. UpperSaddleRiver:
Pearson Education, 2007.
PUDAR, R. S.; LIGGETT, J. A. Leaks in Pipe Networks. Journal of Hydraulic
Engineering, v. 118, n. 7, p. 10311046, jul. 1992.
PUUST, R. et al. A review of methods for leakage management in pipe networks. Urban
Water Journal, v. 7, n. 1, p. 2545, fev. 2010.
QUINLAN, J. R. C4.5: programs for machine learning. San Francisco, CA, USA: Morgan
Kaufmann Publishers Inc., 1993.
REIS, L. F.; PORTO, R.; CHAUDHRY, F. Optimal location of control valves in pipe
networks by genetic algorithm. Journal of Water Resources Planning and Management, v.
123, n. 6, p. 317326, 1997.
REZENDE, S. O. Sistemas inteligentes. Fundamentos e Aplicaoes. Barueri: Manole,
2003.
ROMANO, M.; KAPELAN, Z.; SAVIC, D. Bayesian-based online burst detection in
water distribution systems10th International Conference on computing and control for the
Water Industry. Anais...Sheffield: 2009
ROMANO, M.; KAPELAN, Z.; SAVIC, D. Anomaly Detection Based in Bayesian
InferenceGBPCT/GB2010/000961, , 2010.
ROMANO, M.; KAPELAN, Z.; SAVIC, D. Automated Detection of pipe burst and other
events in water distribution systems. Journal of Water Resources Planning and
Management, 2012.
ROMANO, M.; KAPELAN, Z.; SAVIC, D. Testing of the system for detection of pipe
bursts and other events in a uk water distribution system14th Water Distribution System
Analysis Conference. Anais...Adelaide: 2012
SALDARRIAGA, J. G.; FUENTES, D. A. A.; GALVIS, L. F. C. Implementation of the
Hydraulic Transient and Steady Oscillatory Flow with Genetic Algorithms for Leakage
Detection in Real Water Distribution NetworksWater Distribution Systems Analysis
Symposium 2006Reston, VAASCE, , 13 mar. 2006.
115
SNSA, S. N. DE S. A. Sistema Nacional de Informaoes sobre Saneamento: diagnstico

dos servios de gua e esgotos - 2008. Brasilia: MCIDADES, 2010.
SOARES, A. Calibraao de modelos de redes de distribuiao de gua para
abastecimento considerando vazamentos e demandas dirigidas pela presso. So Carlos:
Universidade de So Paulo, 2003.
SOARES, A. Calibrao e Deteco de Vazamentos em Modelos de Sistemas Hidrulicos
no Escoamento Transitrio. So Carlos: Universidade de So Paulo, 2007.
SOARES, A. K.; COVAS, D. I. C.; REIS, L. F. R. Leak detection by inverse transient
analysis in an experimental PVC pipe system. Journal of Hydroinformatics, v. 13, n. 2, p.
153, abr. 2011.
THEODORIDIS, S.; KOUTROUMBAS, K. Pattern recognition. San Diego: Academic
Press, 1999.
VITKOVSKY, J. P.; SIMPSON, A. R.; LAMBERT, M. F. Leak detection and calibration
using transient and genetic algorithms. Journal of Water Resources Planning and
Management, v. 126, n. 4, p. 262265, 2000.
WANG, X. et al. Leak Detection in Pipelines using Damping of Fluid Transients. Journal of
WLTS, W. District Metered Areas Guidance Notes. 2007.
WU, Z. Y. Unified parameter optimisation approach for leakage detection and extendedperiod simulation model calibration. Urban Water Journal, v. 6, n. 1, p. 5367, mar. 2009.
WU, Z. Y.; SAGE, P.; TURTLE, D. Pressure-Dependent Leak Detection Model and Its
Application to a District Water System. Journal of Water Resources Planning and
Management, v. 136, n. 1, p. 116128, 2010.
YE, G.; PH, D.; FENNER, R. A. Kalman Filtering of Hydraulic Measurements for Burst
Detection in Water Distribution Systems. Journal of pipeline systems engineering and
practice, v. 2, n. 1, p. 1422, 2011.
116
APNDICE A. HISTOGRAMAS DOS VALORES DAS CARACTERISTICAS

EXTRADAS DOS SINAIS PARA TODOS OS SENSORES
ENE
160
80
80
0
0
20
40
60
80
100
120
ENT
160
40
60
80
100
120
ENT
80
0
2
NCZ
160
80
0
0
20
40
60
80
100 120 140
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
20
160
80
NCZ
80
0
0
20
40
60
80
100 120 140
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
60
EDW - D2
160
80
160
60
EDW - D2
160
80
0
0
10
20
30
40
50
60
70
EDW - D1
160
10
20
30
40
50
60
70
EDW - D1
160
80
80
0
CLASSE
COM
SEM
ENE
160
10
20
30
40
50
60
CLASSE
COM
SEM
10
20
30
40
50
60
117
ENE
160
80
80
0
0
20
40
60
80
100
120
ENT
160
40
60
80
100
120
ENT
80
NCZ
160
80
0
0
20
40
60
80 100 120 140
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
20
160
80
5
NCZ
160
80
0
0
20
40
60
80 100 120 140
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
60
EDW - D2
160
10
20
30
40
50
60
EDW - D2
160
80
80
0
0
10
20
30
40
50
60
70
EDW - D1
160
10
20
30
40
50
60
70
EDW - D1
160
80
80
0
CLASSE
COM
SEM
ENE
160
10
20
30
40
50
60
CLASSE
COM
SEM
10
20
30
40
50
60
118
ENE
160
80
80
0
0
20
40
60
80
100
120
ENT
160
40
60
80
100
120
ENT
80
0
2
NCZ
160
80
0
0
20
40
60
80 100 120 140
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
20
160
80
NCZ
80
0
0
20
40
60
80
100 120 140
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
60
EDW - D2
160
80
160
60
EDW - D2
160
80
0
0
10
20
30
40
50
60
70
EDW - D1
160
10
20
30
40
50
60
70
EDW - D1
160
80
80
0
CLASSE
COM
SEM
ENE
160
10
20
30
40
50
60
CLASSE
COM
SEM
10
20
30
40
50
60
119
ENE
160
80
80
20
40
60
80
100
120
ENT
160
40
60
80
100
120
ENT
80
0
NCZ
160
80
0
0
20
40
60
80 100 120 140
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
20
160
80
5
NCZ
160
80
0
0
20
40
60
80
100 120 140
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
60
EDW - D2
160
10
20
30
40
50
60
EDW - D2
160
80
80
0
0
10
20
30
40
50
60
70
EDW - D1
160
10
20
30
40
50
60
70
EDW - D1
160
80
80
0
CLASSE
COM
SEM
ENE
160
10
20
30
40
50
60
CLASSE
COM
SEM
10
20
30
40
50
60
120
ENE
160
80
80
0
0
20
40
60
80
100
120
ENT
160
40
60
80
100
120
ENT
80
0
2
NCZ
160
80
0
0
20
40
60
80 100 120 140
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
20
160
80
80
0
0
20
40
60
80 100 120 140
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
60
EDW - D2
160
80
5
NCZ
160
60
EDW - D2
160
80
0
0
10
20
30
40
50
60
70
EDW - D1
160
10
20
30
40
50
60
70
EDW - D1
160
80
80
0
CLASSE
COM
SEM
ENE
160
0
0
10
20
30
40
50
60
CLASSE
COM
SEM
10
20
30
40
50
60
121
ENE
160
80
80
0
0
20
40
60
80
100
120
ENT
160
40
60
80
100
120
ENT
80
NCZ
160
80
0
0
20
40
60
80
100 120 140
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
20
160
80
NCZ
80
0
0
20
40
60
80 100 120 140
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
60
EDW - D2
160
80
160
60
EDW - D2
160
80
0
0
10
20
30
40
50
60
70
EDW - D1
160
10
20
30
40
50
60
70
EDW - D1
160
80
80
0
CLASSE
COM
SEM
ENE
160
0
0
10
20
30
40
50
60
CLASSE
COM
SEM
10
20
30
40
50
60
122
ENE
160
80
80
0
0
20
40
60
80
100
120
ENT
160
40
60
80
100
120
ENT
80
NCZ
160
80
0
0
20
40
60
80 100 120 140
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
20
160
80
NCZ
80
0
0
20
40
60
80 100 120 140
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
60
EDW - D2
160
80
160
60
EDW - D2
160
80
0
0
10
20
30
40
50
60
70
EDW - D1
160
10
20
30
40
50
60
70
EDW - D1
160
80
80
0
CLASSE
COM
SEM
ENE
160
10
20
30
40
50
60
CLASSE
COM
SEM
10
20
30
40
50
60
123
ENE
160
80
80
0
0
20
40
60
80
100
120
ENT
160
40
60
80
100
120
ENT
80
0
2
NCZ
160
80
0
0
20
40
60
80 100 120 140
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
Frequncia (quantidade de exemplos). Sensor Q01
20
160
80
5
NCZ
160
80
0
0
20
40
60
80 100 120 140
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
60
EDW - D2
160
10
20
30
40
50
60
EDW - D2
160
80
80
0
0
10
20
30
40
50
60
70
EDW - D1
160
10
20
30
40
50
60
70
EDW - D1
160
80
80
0
CLASSE
COM
SEM
ENE
160
10
20
30
40
50
60
CLASSE
COM
SEM
10
20
30
40
50
60
124
ENE
160
80
80
20
40
60
80
100
120
40
60
80
100
120
ENT
160
80
80
NCZ
160
80
0
0
20
40
60
80
100 120 140
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
20
ENT
160
5
NCZ
160
80
0
0
20
40
60
80 100 120 140
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
60
EDW - D2
160
10
20
30
40
50
60
EDW - D2
160
80
80
0
0
10
20
30
40
50
60
70
EDW - D1
160
CLASSE
COM
SEM
ENE
160
80
10
20
30
40
20
50
60
CLASSE
COM
SEM
30
40
50
60
70
EDW - D1
160
80
10
10
20
30
40
50
60
125
APNDICE B. DESEMPENHO DO SISTEMA DE RECONHECIMENTO DE

PADRES PROPOSTO, RESULTADOS INDIVIDUAIS DA VALIDAO
CRUZADA
Sensor
P01
P02
P03
P04
Itera.
VC
FS
FC
VS
% acerto
AAC
29
31
96.77%
0.965
28
29
30
30
26
27
30
28
28
31
31
31
30
30
31
31
31
30
29
31
31
31
30
30
30
29
31
29
28
31
31
31
30
29
31
30
30
29
29
3
2
1
1
5
4
1
3
3
0
0
0
1
1
0
0
0
1
2
0
0
0
1
1
1
2
0
2
3
0
0
0
1
2
0
1
1
2
2
2
1
2
0
1
6
0
0
3
0
0
1
2
2
1
1
1
1
2
0
0
2
2
1
1
2
0
1
1
0
0
2
1
1
1
1
0
0
1
29
30
29
31
30
25
31
31
28
31
31
30
29
29
30
30
30
30
29
31
31
29
29
30
30
29
31
30
30
31
31
29
30
30
30
30
31
31
30
91.94%
95.16%
95.16%
98.39%
90.32%
83.87%
98.39%
95.16%
90.32%
100.00%
100.00%
98.39%
95.16%
95.16%
98.39%
98.39%
98.39%
96.77%
93.55%
100.00%
100.00%
96.77%
95.16%
96.77%
96.77%
93.55%
100.00%
95.16%
93.55%
100.00%
100.00%
96.77%
96.77%
95.16%
98.39%
96.77%
98.39%
96.77%
95.16%
0.969
0.960
0.977
1.000
0.967
0.920
0.999
0.975
0.939
1.000
1.000
1.000
0.981
0.996
0.984
0.982
0.999
0.983
0.979
1.000
1.000
0.968
0.979
0.981
0.982
0.966
1.000
0.997
0.980
1.000
1.000
0.983
0.997
0.980
0.982
0.966
0.984
0.999
0.980
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
126
Sensor
P05
P06
P07
P08
P09
Itera.
VC
FS
FC
VS
% acerto
AAC
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
29
30
30
31
30
29
29
29
30
30
30
31
31
29
30
31
30
29
29
27
30
31
30
28
30
30
30
30
31
29
31
31
31
28
29
27
30
29
29
30
30
31
31
28
29
29
31
29
30
28
2
1
1
0
1
2
2
2
1
1
1
0
0
2
1
0
1
2
2
4
1
0
1
3
1
1
1
1
0
2
0
0
0
3
2
4
1
2
2
1
1
0
0
3
2
2
0
2
1
3
2
0
3
1
2
3
4
0
2
2
0
0
2
1
2
1
1
1
1
2
0
0
2
0
1
1
1
0
2
1
1
0
2
2
0
2
2
2
2
1
1
0
2
1
2
1
3
0
1
2
29
31
28
30
29
28
27
31
29
29
31
31
29
30
29
30
30
30
30
29
31
31
29
31
30
30
30
31
29
30
30
31
29
29
31
29
29
29
29
30
30
31
29
30
29
30
28
31
30
29
93.55%
98.39%
93.55%
98.39%
95.16%
91.94%
90.32%
96.77%
95.16%
95.16%
98.39%
100.00%
96.77%
95.16%
95.16%
98.39%
96.77%
95.16%
95.16%
90.32%
98.39%
100.00%
95.16%
95.16%
96.77%
96.77%
96.77%
98.39%
96.77%
95.16%
98.39%
100.00%
96.77%
91.94%
96.77%
90.32%
95.16%
93.55%
93.55%
96.77%
96.77%
100.00%
96.77%
93.55%
93.55%
95.16%
95.16%
96.77%
96.77%
91.94%
0.980
0.983
0.960
0.998
0.966
0.947
0.939
0.997
0.993
0.979
0.998
1.000
0.983
0.981
0.980
0.983
0.982
0.981
0.981
0.944
0.998
1.000
0.982
0.963
0.981
0.967
0.981
0.983
0.997
0.978
0.983
1.000
0.967
0.974
0.983
0.931
0.979
0.961
0.978
0.981
0.998
1.000
0.967
0.994
0.964
0.950
0.982
0.998
0.982
0.976
127
Sensor
P11
P12
P13
P14
P15
Itera.
VC
FS
FC
VS
% acerto
AAC
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
30
29
31
30
30
30
30
31
29
29
31
31
31
29
30
30
30
30
30
29
30
30
31
30
29
27
29
31
31
31
31
31
28
28
31
27
29
30
30
31
30
30
31
30
30
27
30
29
30
30
1
2
0
1
1
1
1
0
2
2
0
0
0
2
1
1
1
1
1
2
1
1
0
1
2
4
2
0
0
0
0
0
3
3
0
4
2
1
1
0
1
1
0
1
1
4
1
2
1
1
0
0
2
0
1
1
1
1
0
2
0
0
2
2
1
1
1
0
0
1
0
0
0
0
2
1
2
0
0
1
0
0
1
1
2
2
4
1
2
2
1
1
2
1
0
1
3
0
1
1
31
31
29
31
30
30
30
30
31
29
31
31
29
29
30
30
30
31
31
30
31
31
31
31
29
30
29
31
31
30
31
31
30
30
29
29
27
30
29
29
30
30
29
30
31
30
28
31
30
30
98.39%
96.77%
96.77%
98.39%
96.77%
96.77%
96.77%
98.39%
96.77%
93.55%
100.00%
100.00%
96.77%
93.55%
96.77%
96.77%
96.77%
98.39%
98.39%
95.16%
98.39%
98.39%
100.00%
98.39%
93.55%
91.94%
93.55%
100.00%
100.00%
98.39%
100.00%
100.00%
93.55%
93.55%
96.77%
90.32%
90.32%
96.77%
95.16%
96.77%
96.77%
96.77%
96.77%
96.77%
98.39%
91.94%
93.55%
96.77%
96.77%
96.77%
0.998
0.996
0.967
0.982
0.982
0.966
0.996
0.983
0.996
0.977
1.000
1.000
0.984
0.980
0.980
0.967
0.982
0.999
0.999
0.981
0.982
0.983
1.000
0.983
0.980
0.946
0.948
1.000
1.000
1.000
1.000
1.000
0.951
0.978
0.998
0.930
0.971
0.998
0.979
0.981
0.997
0.996
0.981
0.997
0.999
0.918
0.959
0.998
0.982
0.981
128
Sensor
P16
Q01
Q02
Q03
Itera.
VC
FS
FC
VS
% acerto
AAC
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
30
31
30
31
31
29
29
31
29
29
28
27
27
30
29
22
30
29
31
29
28
29
26
30
27
27
27
29
30
28
29
25
24
26
26
21
27
29
29
28
1
0
1
0
0
2
2
0
2
2
3
4
4
1
2
9
1
2
0
2
3
2
5
1
4
4
4
2
1
3
2
6
7
5
5
10
4
2
2
3
1
0
3
2
1
2
4
0
0
2
1
2
2
4
3
2
4
1
3
5
4
4
0
3
1
2
3
2
2
3
6
2
8
6
5
2
5
3
6
4
30
31
28
29
30
29
27
31
31
29
30
29
29
27
28
29
27
30
28
26
27
27
31
28
30
29
28
29
29
28
25
29
23
25
26
29
26
28
25
27
96.77%
100.00%
93.55%
96.77%
98.39%
93.55%
90.32%
100.00%
96.77%
93.55%
93.55%
90.32%
90.32%
91.94%
91.94%
82.26%
91.94%
95.16%
95.16%
88.71%
88.71%
90.32%
91.94%
93.55%
91.94%
90.32%
88.71%
93.55%
95.16%
90.32%
87.10%
87.10%
75.81%
82.26%
83.87%
80.65%
85.48%
91.94%
87.10%
88.71%
0.982
1.000
0.945
0.980
0.999
0.932
0.943
1.000
0.968
0.964
0.974
0.938
0.968
0.972
0.944
0.932
0.968
0.977
0.978
0.977
0.950
0.959
0.944
0.980
0.961
0.950
0.937
0.963
0.993
0.975
0.956
0.928
0.802
0.888
0.915
0.900
0.892
0.933
0.906
0.935
129
APDICE C. CURVA ROC DO CLASSIFICADOR NO SISTEMA DE

RECONHECIMENTO DE PADRES PROPOSTO (TODOS OS SENSORES)
P01
P02
P03
P04
P05
P06
130
P07
P08
P09
P11
P12
P13
131
P14
P15
P16
Q01
Q02
Q03

Gamboa Medina 2013

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Gamboa Medina 2013

Transféré par

Droits d'auteur :

Formats disponibles

MARIA MERCEDES GAMBOA-MEDINA

DETECO DE VAZAMENTOS EM REDES SOB PRESSO

Dissertao apresentada Escola de Engenharia

Orientadora: Prof. Tit. Luisa Fernanda Ribeiro

Este trabalho foi licenciado com uma Licena CreativeCommons - Atribuio No

Gamboa-Medina, Maria Mercedes

Deteco de vazamentos em redes sob presso baseada

Ao Javier, o homem maravilhoso que decidiu comigo

Agradeo sinceramente s muitas pessoas que de diversas maneiras contriburam para o

Acredito nos homens, isto , na sua razo. Sem essa f

GAMBOA-MEDINA, M. M. Deteco de vazamentos em redes sob presso baseada na

O controle de perdas em sistemas de distribuio de gua para abastecimento uma

GAMBOA-MEDINA, M. M. Leak detection in water networks based on the analysis of

Keywords: Leaks. Supply networks. Pressure signals. Signal analysis.

rea abaixo da curva ROC, indicador de desempenho.

AS_O Mtodos baseados na anlise de sinais durante operao.

Funo wavelet Daubechies com dois momentos zero.

EDW Distribuio da energia nas componentes da decomposio wavelet, caracterstica do

Energia, caracterstica do sinal.

Entropia, caracterstica do sinal.

Rede neural artificial com funes de base radial, mtodo de classificao.

Falsos COM, nmero de instncias da classe SEM classificadas na classe COM.

Falsos SEM, nmero de instncias da classe COM classificadas na classe SEM.

KNN K vizinhos mais prximos, mtodo de classificao.

Verdadeiros COM, nmero de instncias classificadas acertadamente na classe COM.

Verdadeiros SEM, nmero de instncias classificadas acertadamente na classe SEM.

Figura 1. Esquema geral dos elementos do modelo hidrulico ................................................ 24

Tabela 1. Resumo de trabalhos em deteco de vazamentos ................................................... 23

MTODOS DE DETECO DE VAZAMENTOS ........................................................22

MTODOS BASEADOS EM MODELOS HIDRULICOS (MH) .........................24

Modelos em regime permanente (MH_P) ................................................................. 25

Modelos em regime transitrio (MH-T) .................................................................... 27

Vantagens e limitaes dos mtodos MH ................................................................. 28

MTODOS DE DETECO DE VAZAMENTOS BASEADO NA ANLISE DE

SINAIS (AS) .............................................................................................................................29

Anlise de sinais de presso durante um transitrio hidrulico (AS_T) ................... 29

Anlise dos sinais durante operao da rede (AS_O) ............................................... 33

CONCEITOS DE ANLISE DE SINAIS E APRENDIZADO DE MQUINA .............38

VARIVEIS DO SISTEMA COMO SINAIS ...........................................................38

TRANSFORMAES DE DOMNIO .....................................................................39

Domnio da frequncia e Transformada de Fourier .................................................. 40

Transformada Wavelet e analise tempo-frequncia................................................... 41

DECOMPOSIO WAVELET DISCRETA E PACKET ..........................................43

APRENDIZADO DE MQUINA .............................................................................45

AQUISIO DE SINAIS EXPERIMENTAIS EM LABORATRIO ............................46

MONTAGEM EXPERIMENTAL .............................................................................46

AQUISIO DE DADOS .........................................................................................48

RESUMO DOS EXPERIMENTOS ...........................................................................50

SISTEMA DE RECONHECIMENTO DE PADRES .................................................... 53

SEGMENTAO E PADRONIZAO ................................................................. 54

EXTRAO DE CARACTERSTICAS .................................................................. 57

Energia (ENE) ............................................................................................................ 58

Entropia (ENT) .......................................................................................................... 59

Nmero de cruzamentos por zero (NCZ)................................................................... 59

Distribuio da energia na decomposio wavelet (EDW)........................................ 60

Vizinhos mais prximos ............................................................................................ 61

rvore de deciso ...................................................................................................... 63

Regras de Deciso ...................................................................................................... 65

Naive Bayes ............................................................................................................... 66

Mquina de vetores de suporte .................................................................................. 67

Rede Neural Artificial de Funes de Base Radial .................................................... 68

AVALIAO DO PROCESSO ................................................................................ 70

Validao cruzada (k-fold cross validation) .............................................................. 70

Matriz de confuso ..................................................................................................... 71