Académique Documents
Professionnel Documents
Culture Documents
Mestre
em
Cincias:
Engenharia
Hidrulica e Saneamento.
VERSO CORRIGIDA
SO CARLOS, SP
2013
AGRADECIMENTOS
RESUMO
ABSTRACT
Control of losses in water supply systems is a constant concern, and a key to the solution of
this problem is the rapid and reliable detection of leaks that often begin anywhere on the
network. A promising approach to solve the problem is the leak detection based on the
analysis of signals acquired by monitoring the network in operation, and this research fits
with that approach. Its developed a pattern recognition system for the analysis of pressure
and flow signals, which identifies whether a leak happened during signal acquisition. Several
techniques are exploited for forming this system, including the feature extraction in the time
domain (energy, entropy, zero crossings count) and in the wavelet decomposition (energy
distribution in the components). Also, the use of different types of algorithms for
classification (nearest neighbors, decision tree, decision rule, Naive Bayes, support vector
machine and artificial neural network with radial basis functions) is explored. Signals are
acquired from the experimental hydraulic circuit, allowing the simulation of the onset of a
leak in the network, to form a big database of example signals. Besides the literature review
and the concepts relating to the considered methods, in this document are shown the analyses
leading to the creation of the pattern recognition system most appropriate for the problem.
The analysis of the methods considered allows defining the pattern recognition system, which
is composed by segmentation and standardization, feature extraction and classification. The
evaluation of the proposed system shows a completely satisfactory performance, recognizing
rightly the signals as linked or not to a leak in more than 95% of the tests.
LISTA DE ABREVIATURAS
AAC
ENT
FBR
FC
FS
VS
LISTA DE FIGURAS
Figura 25. AAC para diferentes vetores de caractersticas segundo o sensor e o classificador
considerados. ............................................................................................................................ 91
Figura 26. AAC para diferentes classificadores, segundo o sensor. ........................................ 97
Figura 27. Curvas ROC para os sensores P02, P16 e Q03..................................................... 103
Figura 28. Sensibilidade (taxa de verdadeiros positivos) para diferentes valores de V/Q, total.
................................................................................................................................................ 107
LISTA DE TABELAS
SUMRIO
1.
INTRODUO .................................................................................................................17
2.
OBJETIVOS ......................................................................................................................21
3.
3.1.
3.1.1.
3.1.2.
3.1.3.
3.2.
3.2.2.
4.
4.1.
4.2.
4.2.1.
4.2.2.
4.3.
4.4.
5.
5.1.
5.2.
5.3.
6.
6.1.
6.2.
6.2.1.
6.2.2.
6.2.3.
6.2.4.
6.3.
CLASSIFICADOR .................................................................................................... 61
6.3.1.
6.3.2.
6.3.3.
6.3.4.
6.3.5.
6.3.6.
6.4.
6.4.1.
6.4.2.
6.4.3.
6.5.
7.
RESULTADOS ................................................................................................................. 76
7.1.
7.3.
7.4.
7.5.
7.5.1.
7.5.2.
7.6.
8.
CONCLUSES ...............................................................................................................108
9.
REFERNCIAS ..............................................................................................................112
APNDICE
A.
HISTOGRAMAS
DOS
VALORES
DAS
CARACTERISTICAS
C.
CURVA
ROC
DO
CLASSIFICADOR
NO
SISTEMA
DE
17
1. INTRODUO
18
visuais tm sido substitudos em muitos casos por outros mais avanados como a inspeo
acstica, injeo de gs na rede, inspees eletromagnticas ou baseadas em medies
eltricas. A incorporao das novas tecnologias tem ampliado as possibilidades de detectar
vazamentos menores que os identificveis atravs da simples inspeo visual, mas continuam
tendo um limite abaixo do qual os vazamentos no podem ser detectados.
Considerando que os vazamentos que podem ser detectados pelos usurios ou pelas
consequncias facilmente perceptveis no sistema, podem corresponder a menos de 10% das
perdas reais em sistemas bem manejados (PILCHER, 2007), as tarefas de deteco e
localizao so complexas e de grande importncia. Os vazamentos no visveis, tanto os
detectveis via metodologias de inspeo quanto os de magnitudes menores detectvel
atravs delas, esto caracterizados por vazes pequenas, ausncia de indicadores visveis de
superfcie e influncia menos evidente nas caractersticas hidrulicas do sistema. Assim, os
tempos de reparo desses vazamentos so bem maiores do que os dos visveis, e, portanto,
ainda que caracterizados por vazes pequenas, podem promover maior volume de gua
perdida.
As metodologias baseadas em procedimentos diretos sobre a rede, como as anteriormente
mencionadas, so consideradas metodologias passivas. Dentre as suas limitaes esto a
dificuldade de obteno de informao atualizada de todo o sistema, o fato dos resultados
dependerem da experincia dos operadores e das condies de realizao das inspees, e, em
alguns casos, a necessidade da suspenso do servio de abastecimento aos usurios. Alm
disso, os dados para anlise geralmente esto limitados a um perodo curto (durante a
realizao de inspees ou testes) e possuem pequena abrangncia espacial. Face ao exposto,
a sua utilidade prtica se restringe localizao de vazamentos previamente detectados.
Assim, cada vez mais importante desenvolver o controle ativo de vazamentos, entendido
como o processo de deteco e localizao de vazamentos permanente sobre a rede (WLTS,
2007). Para que novas metodologias de controle ativo possam ser implementadas elas devem
ser condizentes com a realidade dos rgos responsveis pelo abastecimento, o que inclui
informao incompleta sobre as caractersticas e estado da rede, pouca disponibilidade de
pessoal altamente qualificado, recursos limitados para a compra de equipamentos sofisticados
e fragilidade das redes existentes, dentre outros fatores.
Na procura de um controle ativo de vazamentos, diversas metodologias tm sido propostas no
mbito da engenharia hidrulica. A premissa fundamental de que o vazamento um
fenmeno hidrulico e as suas consequncias tm interferncia no funcionamento do sistema,
19
e em razo disso podem ser analisadas, por exemplo, em termos de caractersticas como vazo
e presso. Esta abordagem tem sido explorada por muitos pesquisadores nas ltimas dcadas,
com propostas diversas, mas a sua aplicao prtica a sistemas reais tem sido alcanada em
poucos casos.
Por outro lado, os esforos pela modernizao dos sistemas de distribuio de gua para
abastecimento visando a melhorar seu controle e operao tm levado instalao de sensores
de baixo custo que permitem conhecer o estado de sistema, por exemplo, vazes e presses
em locais especficos. Essas informaes so obtidas continuamente, mas, em geral, so
pobremente analisadas.
Considerando a necessidade do controle ativo de vazamentos e a possibilidade de aquisio de
informaes, existem propostas baseadas na anlise do comportamento das variveis do
sistema, isto , na anlise dos sinais adquiridos. Este enfoque mostra-se especialmente til por
permitir que vazamentos sejam detectados assim que surgirem, e por no depender da
modelagem hidrulica, o que implica numa vantagem importante considerando as
dificuldades prticas para a utilizao de modelos de redes de distribuio reais.
O presente trabalho um aporte dentro dos esforos para a deteco de vazamentos pela
anlise de sinais. Usando os dados de presso e vazo adquiridos experimentalmente num
circuito de laboratrio, desenvolvido um sistema de reconhecimento de padres para a
classificao dos sinais adquiridos durante uma situao de vazamento ou no. O
embasamento terico, a explicao da metodologia utilizada e os resultados obtidos so
apresentados neste documento, que organizado nos seguintes captulos:
20
Nos apndices, dados e figuras adicionais aos colocados nos diferentes captulos so
mostrados.
21
2. OBJETIVOS
Implementao da rotina computacional para cada uma das trs etapas do sistema,
incluindo os mtodos alternativos para cada qual.
22
23
Mtodo Principal
Sistema considerado
Avaliao
Num Lab Cam
MH
Circuitos hipotticos
Circuitos hipotticos
Circuitos hipotticos
Circuitos hipotticos
X
X
X
X
24
MODELO HIDRULICO
(simulao)
Conservao Massa (ns)
Conservao Energia (circuitos)
SADAS
Estado do sistema
Qi trechos
Pj pontos
Assim, a modelagem hidrulica pode ser vista como problema direto, quando todas as
caractersticas da rede, demandas e condies operacionais so conhecidas, enquanto as
presses e vazes so incgnitas. Ocorre que algumas caractersticas da rede ou sofrem
variaes ao longo do tempo, como o caso das rugosidades absolutas dos condutos, ou no
so conhecidas por razes diversas. Assim, uma abordagem muito usada em pesquisas
recentes a do problema inverso (PUDAR; LIGGETT, 1992), em que valores de presso e
vazo, normalmente obtidos por medio na rede, so fornecidos ao modelo para determinar
algumas caractersticas ou demandas desconhecidas. A resoluo do problema inverso tem
sido aplicada, por exemplo, para calibrar o fator de atrito, ou pesquisar vazamentos,
assumidos como demandas (exemplos indicados na Tabela 1 sero comentados nas sees
seguintes).
Os mtodos para a resoluo do modelo tambm podem ser classificados em dois tipos,
explcitos ou implcitos. Nos mtodos explcitos, o funcionamento hidrulico do sistema
descrito por N equaes no lineares, onde esto envolvidas as caractersticas da rede e as
demandas, e por N incgnitas representando o estado do sistema. Os valores das incgnitas
so encontrados atravs da resoluo do sistema de equaes. Poucos problemas podem ser
25
representados fielmente com esta abordagem simplificada, mas tem sido utilizada para a
calibrao do fator de atrito e as demandas nos ns usando desde mtodos de tentativa e erro
at resolues complexas do sistema de equaes da hidrulica da rede (SOARES, 2003).
Nos mtodos implcitos, o problema inverso resolvido usando o equacionamento, as
caractersticas conhecidas da rede e os valores de presso e vazo obtidos. So procurados os
valores timos das caractersticas desconhecidas com o objetivo de minimizar o erro, que
definido como a diferena entre a resposta do sistema (presso, vazo) calculada pelo modelo
e os seus valores observados (LIGGETT; CHEN, 1994).
A modelagem hidrulica pode ser feita para o regime permanente (MH_P) ou no permanente
(MH_T), sendo este o critrio de classificao das tcnicas de deteco de vazamentos
referidas a seguir.
3.1.1. Modelos em regime permanente (MH_P)
Nos modelos hidrulicos de redes em regime permanente, suposto que as mudanas na rede
so instantneas, passando de um estado permanente para outro, desconsiderando a transio.
As equaes que descrevem o funcionamento hidrulico da rede sob regime permanente so
conhecidas e aceitas para propsitos diversos tais como projetos, reabilitao, e otimizao da
operao de sistemas de distribuio de guas para abastecimento. Existe atualmente uma
grande quantidade de simuladores hidrulicos no regime permanente, com diferentes graus de
complexidade e limitaes, alguns deles desenvolvidos por grupos de pesquisa das
universidades (Crede), outros por agncias pblicas (Epanet), ou companhias comerciais
(WaterCad, InfoWater,H2OMap). No regime permanente factvel estudar simultaneamente
presso e vazo, considerando a capacidade de sensores e sistemas de aquisio,
diferentemente das anlises em regime transitrio, como discutido na seo 3.1.2.
A deteco de vazamentos por MH_P pode ser abordada com a incorporao de demandas ou
sadas adicionais e desconhecidas nos ns da rede. Os valores de tais demandas ou sadas, que
podem ser maiores ou iguais a zero, podem ser tambm variveis de deciso do problema de
otimizao utilizado para calibrao de redes (quando usada a abordagem implcita para
resoluo do problema inverso (PUDAR; LIGGETT, 1992)). Assim, em algumas pesquisas
sobre calibrao de modelos que podem ser encontrados os primeiros esforos para a deteco
de vazamentos.
26
27
28
29
ANLISE DE SINAIS
Anlises estatsticas,
transformaes, etc...
Comparao com padres
(adquiridos ou calculados).
SADAS
Indicadores da
presena/ausncia
de vazamento.
30
sua propagao a onda encontra um vazamento este ter um efeito que pode ser de
amortecimento e reflexo (COLOMBO; LEE; KARNEY, 2009). Tambm o prprio
surgimento de um vazamento gera um transitrio hidrulico e ondas que se deslocam pelo
sistema. Identificar e quantificar todas essas alteraes e correlacion-las com um vazamento
o foco dos mtodos de deteco AS_T que, diferentemente dos mtodos MH_T, utilizam as
informaes monitoradas em um nico ponto do sistema ou cada um dos pontos monitorados
analisado isoladamente.
Entre as tcnicas AS_T propostas nos ltimos anos est a deteco de rupturas fazendo uso do
algoritmo CUSUM (do ingls Cumulative Sum) na anlise de sinais de presso (MISIUNAS,
2003; MISIUNAS et al., 2005). Essa tcnica visa identificar a onda de presso produzida por
uma ruptura que d origem a um vazamento para extrair dela informaes sobre a localizao
e magnitude do vazamento, relacionados com os tempos de chegada e as amplitudes das
ondas. Para tanto, so usadas informaes de monitoramento permanente da presso em um
nico ponto de uma tubulao em circuito aberto.
Outro tipo de anlise de sinais de presso durante o transitrio gerado pelo prprio vazamento
foi aplicado por Aguiar (2010), utilizando redes neurais artificiais (RNA) para a identificao
de padres de mudana no sinal relacionados com o incio de um vazamento. A tcnica visa
distinguir sinais de presso como pertencendo a uma de duas classes: referente ao incio de
um vazamento ou sem vazamento. Usando sinais de presso adquiridos durante a simulao
da ocorrncia de vazamentos com abertura de vlvulas num sistema experimental, foi treinada
uma rede neural do tipo Perceptron feedforward. A RNA tem como entrada um segmento do
sinal, i.e. um conjunto de valores de presso adquiridos (e normalizados), e como sada dois
valores cada um deles relativo semelhana com uma das classes possveis. Esse processo
pode ser visto como um aprendizado de mquina supervisionado.
A anlise de sinais pode ser realizada sobre diferentes representaes ou domnios, como
explicado na seo 4.2. Os dois trabalhos antes referidos analisam os sinais na sua
representao original, no domnio temporal, enquanto outros muitos autores tm proposto
mtodos aplicando transformaes de domnio para, por exemplo, fazer as anlises de
resposta em frequncia ou de harmnicos. A ideia anterior aplicada nos trabalhos referidos
a seguir, nos quais, adicionalmente, as informaes relativas presena de vazamentos so
investigadas durante a ocorrncia de fenmenos transitrios controlados e gerados
artificialmente, diferentes dos produzidos pelo prprio incio do vazamento.
31
32
Em um estudo de validao da tcnica proposta por Wang et al. (2002) concluiu-se que sua
aplicao est limitada a sistemas que no envolvem nenhuma descontinuidade interna e a
fenmenos transitrios instantneos e de pequena amplitude cuja durao seja menor do que o
tempo de viagem da onda at o ponto de monitoramento (NIXON et al., 2006).
Uma tcnica AS_T destacada que usa transitrios hidrulicos gerados por manobras de
fechamento rpido e anlise de harmnicos apresentada por Ferrante e Brunone (2003a).
Estudando no domnio da frequncia as equaes que descrevem o escoamento transitrio,
obtm-se a expresso analtica para as presses na sada da tubulao. Esse sinal de sada no
domnio da frequncia depende das caractersticas da manobra que produz o transitrio e das
caractersticas do sistema, e modificado tambm pela presena de um vazamento. Sinais de
presso so adquiridos sob o transitrio gerado controladamente e so transformados ao
domnio da frequncia usando transformada de Fourier, para posteriormente compar-los com
a resposta analtica ou com a de experimentos anteriores. A anlise comparativa permite a
identificao de distores que indicam a presena de vazamento na tubulao. A
metodologia foi aplicada a um sistema aberto de tubulao nica, com vlvula de fechamento
na sada, e medio das presses em alta frequncia de aquisio.
Ao estudar a resposta do sistema no domnio da frequncia, perdida uma poro de
informaes interessantes como, por exemplo, o tempo de chegada da onda ou
descontinuidades no sinal temporal. Visando superar essa perda, num trabalho complementar
(FERRANTE; BRUNONE, 2003b), foi proposta a alternativa de transformao das presses
de sada usando transformada wavelet contnua. No sinal transformado so identificadas as
singularidades devidas reflexo da onda pelo vazamento que permitem a sua deteco, e
tambm obtida informao sobre o tempo de chegada da onda refletida, indicativa da
localizao do vazamento. Os resultados da aplicao do mtodo e anlises realizadas sobre
um sistema experimental aberto empregando diferentes tipos de transformada wavelet
permitem concluir que nem todos tm a mesma utilidade para o objetivo de identificao das
singularidades relativas ao vazamento.
Continuando a pesquisa do trabalho anterior, tm sido publicados estudos sobre o uso de
wavelets para a anlise de sinais de presso em transitrios com o objetivo da deteco de
vazamentos (FERRANTE; BRUNONE; MENICONI, 2007, 2009). Considerando um sistema
com uma nica tubulao, so gerados analiticamente sinais de presso em resposta a um
transitrio hidrulico, usando para isso o mtodo das caractersticas. Aos sinais aplicada a
transformada wavelet discreta e contnua, e vrios tipos de wavelets me (esses conceitos so
33
34
KAPELAN; SAVIC, 2009). Dados de vazo coletados na rede com intervalos de 15 minutos,
durante os trs meses imediatamente anteriores anlise so submetidos a um prprocessamento, para serem utilizados no treinamento de uma rede neural artificial (RNA).
Posteriormente construdo o modelo de densidade de probabilidade para as vazes futuras
produzidas pela RNA. Sries atualizadas de valores observados so comparadas em tempo
real com as previses para perodos de duraes variveis; com um sistema de inferncia
difusa gerado um alerta quando detectadas observaes anormais. Baseado na densidade de
probabilidades, para cada evento associado um intervalo de confiana que permite
classificar e priorizar os alarmes. O mtodo foi testado para uma rede de distribuio de gua
potvel do Reino Unido com sucesso.
35
Por outro lado, o mtodo apresentado por K. Aksela, M. Askela e Vahala (2009) est baseado
nos mapas auto-organizados (SOM, do ingls Self Organizing Maps), que correspondem a um
tipo de RNA treinada usando aprendizado no supervisionado para o agrupamento de um
conjunto de entradas e que produz sua representao com menor dimensionalidade, que so os
chamados mapas. As informaes utilizadas para a construo do modelo de vazamentos so
sinais de vazo e registros de vazamentos conhecidos, num setor de rede real. Uma frmula
emprica de vazamento em funo da distncia ao sensor e do tempo definida para o caso
estudado. As entradas do SOM so os sinais de vazo, depois do pr-processamento, com
base semanal, correspondentes a todo o perodo de dados. A funo de vazamento emprica
incorporada, resultando na construo de mapas dos padres de vazo usados para indicar o
valor da funo de vazamento. Depois do processo de treinamento antes descrito, os mapas
criados permitem identificar um vazamento.
Ainda dentro das tcnicas baseadas nos registros de vazo em setores monitorados da rede,
tambm est a anlise de componentes principais (PCA, do ingls Principal Component
Analysis) para deteco de vazamentos (PALAU; ARREGUI; CARLOS, 2012). A tcnica de
PCA permite, com uma transformao ortogonal, reduzir uma matriz de alta dimensionalidade
como a de vazes num setor durante um determinado perodo, para uma matriz de
dimensionalidade menor na qual toda a variabilidade dos dados expressa num conjunto de
poucas variveis linearmente descorrelacionadas. Assim, construdo um modelo estatstico
que representa o comportamento da rede baseado exclusivamente nos sinais adquiridos.
Quando um vazamento se incorpora vazo, os valores das componentes mudam, e fazendo
uso de tcnicas estatsticas de controle possvel a identificao de anomalias, incluindo
inicio de vazamentos.
Incorporando a anlise de sinais de presso juntamente aos de vazo para a deteco de
vazamentos, foi proposto o uso de filtros Kalman (YE; PH; FENNER, 2011), um mtodo
estatstico que utiliza trechos conhecidos de sries temporais para produzir estimativas do
estado do sistema, no caso as presses e vazes. Os filtros Kalman fornecem uma
caracterizao estatstica de sistemas dinmicos, como o sinal temporal de vazo ou presso
na rede, considerando a influncia dos valores passados na distribuio de probabilidades em
um processo de aprendizado incremental. Assim, os filtros Kalman so aplicados para estimar
os parmetros hidrulicos (presso e vazo) na rede em condies normais, e um vazamento
pode ser detectado analisando as parcelas residuais do filtro, que correspondem diferena
entre valores estimados e medidos.
36
37
tcnicas de inteligncia artificial na anlise dos sinais nas tcnicas AS_O ainda inovadora,
sendo que, a cada nova pesquisa com resultados positivos, novas possibilidades de melhoria
so abertas. Reconhecendo que os objetivos prticos do seu desenvolvimento no tm sido
satisfatoriamente atingidos, h um grande interesse por continuar explorando esta abordagem.
38
39
4.2.TRANSFORMAES DE DOMNIO
A presso e vazo na rede so neste trabalho, segundo explicado na seo anterior, sinais
digitais variveis no tempo, isto , sinais temporais discretos. O sinal composto por sries de
valores instantneos, e pelo processo de digitalizao usado, os intervalos de tempo entre
valores sucessivos so constantes. De acordo com essa representao temporal, as mudanas
nos valores correspondem a mudanas no estado do sistema observado, em funo do tempo.
Quando um sinal analisado nessa representao, como uma sequncia de valores no tempo,
fala-se de anlise no domnio do tempo. Com o sinal no domnio do tempo podem ser feitas
transformaes no sinal tais como a padronizao (seo 6.1), podem ser calculadas
caractersticas como energia, potncia, entropia e outras (seo 6.2), podem realizar-se
operaes como adio, multiplicao ou mudana de escala, dentre muitas outras opes de
anlise e processamento de sinais.
Sem desconhecer a variedade e importncia das metodologias de processamento de sinais no
domnio do tempo, em muitos casos a representao temporal insuficiente e outras formas
40
41
(MALLAT, 1999). A principal limitao deve-se a que com esse tipo de transformao
possvel saber quais frequncias compem um sinal, mas sem nenhuma indicao do
momento (ou valor no eixo temporal original) no qual essas frequncias se apresentam.
4.2.2. Transformada Wavelet e analise tempo-frequncia
Reconhecendo que as representaes em tempo e em frequncia so necessrias, mas
insuficientes, foram desenvolvidos mtodos de anlise que efetivamente fornecessem uma
descrio conjunta do sinal, nos dois domnios simultaneamente, e so as chamadas anlises
tempo-frequncia. Uma das principais aproximaes para o problema a decomposio dos
sinais a respeito de uma famlia de sinais ou funes elementares, as quais so bem
localizadas tanto em tempo quanto em frequncia (diferentemente da transformada de Fourier
tradicional). Os mtodos mais importantes que seguem essa aproximao so a decomposio
Gabor (relacionada com a transformada de Fourier de curta durao) e a decomposio
wavelet (MEYER, 1999).
As wavelets so simplesmente funes que satisfazem certas condies matemticas e que so
usadas para a representao de dados ou de outras funes (GRAPS, 1995). As funes
wavelet devem ter media zero, localizao no tempo e energia finita. Essas caractersticas so
comuns a inmeras funes matemticas, mas na prtica so aplicadas algumas funes
amplamente estudadas e validadas. Neste trabalho ser utilizada uma das funes mais
comuns, a funo Daubechies com dois momentos zero, ou db2, apresentada na Figura 3. A
escolha desta funo com dois momentos, que corresponde com filtros de suporte quatro, esta
relacionada sua capacidade para analises onde a resoluo temporal importante
(ADDISON, 2002). Considerando tambm que o fenmeno analisado (o vazamento) esta
relacionado com uma descontinuidade na primeira derivada do sinal no se considera
conveniente o uso de funes com maior suporte.
2
-1
-2
0
0.5
1.5
2.5
42
As funes wavelet so combinadas, mudando sua escala e posio, para transformar o sinal
em anlise para uma representao mais til. A mudana de escala, que equivale expanso
ou contrao da funo, est tambm indiretamente relacionada com as frequncias presentes
no sinal, enquanto a posio refere-se ao eixo temporal original do sinal. Assim, a
transformada wavelet permite analisar as frequncias presentes no sinal sem perder as
informaes referentes ao sinal no tempo. A transformada wavelet discreta de um sinal
definida como segue:
(
)(
( )
( )
( )
A convoluo um operador linear que transforma duas funes em uma terceira funo, no caso a
convoluo da funo wavelet e o sinal d origem ao sinal transformado.
43
Tamanho N
m=0
Sinal Original
m=1
m=2
Componentes (aprox. e
detalhe) da dec. wavelet
discreta at nvel 3
m=3
A quantidade de elementos nos vetores de aproximao e detalhes muda de forma tal que em
todo nvel m o total de elementos de todas as componentes igual a N. Adicionalmente, cada
uma das componentes corresponde a uma representao da durao completa do sinal.
Lembrando tambm que cada decomposio produz uma diviso mais fina da faixa de
frequncias contidas em cada componente, entende-se que nveis de decomposio (m)
maiores implicam uma maior resoluo na frequncia, mas menor resoluo temporal,
44
enquanto nveis m menores fornecem melhor resoluo temporal, mas pobre resoluo de
frequncias. A seleo do melhor nvel de decomposio varia de um problema para outro,
sendo necessrio avaliar conjuntamente o ganho e o custo do clculo. Essa seleo para o
presente estudo apresentada na seo 7.1.
A decomposio wavelet packet uma generalizao da decomposio wavelet discreta.
Enquanto na decomposio wavelet discreta os componentes de detalhe passam inalterados
para os nveis de decomposio seguintes, na decomposio wavelet packet em cada nvel
tanto os componentes de aproximao quanto os de detalhe so decompostos sucessivamente.
Assim, para um nvel de decomposio m, o sinal fica representado por um vetor de
aproximao e 2m-1 vetores de detalhes, como mostrado na Figura 5.
Nvel
Tamanho N
m=0
Sinal Original
m=1
m=2
Componentes (aprox. e
detalhe) da dec. wavelet
package at nvel 3
m=3
45
46
5.1.MONTAGEM EXPERIMENTAL
O circuito hidrulico experimental um sistema para estudo sobre uma rede de condutos
forados, com monitoramento automtico de presses e vazes, localizado no laboratrio de
Hidrulica Ambiental do Centro de Recursos Hdricos e Ecologia Aplicada (CRHEA). O
sistema completo composto pela rede de tubulaes em policloreto de vinila (PVC)
desenvolvida verticalmente, o sistema de alimentao e o de aquisio de dados, cujo
esquema apresentado na Figura 6.
O circuito hidrulico formado por um conjunto de tubulaes de PVC de 53, 75 e 101 mm
de dimetro interno com comprimento total de 203 m, alm de todos os acessrios hidrulicos
necessrios (ts, cotovelos, redues e ampliaes, entre outros). O sistema possui tambm 37
vlvulas (18 vlvulas esfera e 19 vlvulas de gaveta) para a modificao da topologia do
sistema e o controle de vazes, alm de uma vlvula automtica para gerao de fenmeno
transitrio no sistema, e nove vlvulas para sada de vazo que permitem a modelao de
vazamentos nos ns.
Para a alimentao do sistema hidrulico utilizada uma estao de bombeamento, com duas
bombas centrifugas em paralelo, de potncia 1 cv e 5 cv respectivamente, e com uma vlvula
de reteno a jusante delas. O bombeamento se d a partir de um reservatrio com nvel de
5 m, ao qual tambm retorna a vazo depois de circular pela rede, constituindo um circuito
fechado.
1m
2m
3m
4m
Escala
47
48
5.2.AQUISIO DE DADOS
A aquisio de dados feita por 15 transdutores de presso com escalas de at 100, 200 e
300 psi, preciso de 0,25% do fundo de escala, e sada em corrente na faixa de 4 a 20 mA.
Para a medio de vazes de sada do circuito pelas vlvulas de simulao de vazamentos so
usados 9 medidores tipo hidrmetro com sensor eletrnico incorporado. Trs medidores
eletromagnticos de vazo de 100 mm de dimetro, com escala de 0 a 50 m3/h, esto
localizados nas tubulaes de entrada, de sada e uma intermediria. A localizao e
nomenclatura dos medidores so apresentadas na Figura 7.
Todos os sensores esto ligados a conversores analgicos para ajustar os diferentes tipos de
sinal que alimentam uma placa de aquisio de dados. A placa est comunicada com um
microcomputador no qual um software especificamente desenvolvido para o projeto permite
controlar a aquisio. No software tambm so incorporadas as equaes de calibrao de
cada um dos sensores e possvel fazer acompanhamento. possvel acompanhar os valores
das variveis adquiridos a partir de cada sensor, com atualizao a cada segundo,
graficamente. Para a gravao dos dados durante experimentos possvel escolher os sensores
a serem considerados, a taxa de aquisio (entre 1 amostra/minuto e 12000 amostras/minuto),
e o tempo total de aquisio (de 1 minuto at 48 horas). Tambm atravs do sistema as
bombas e a vlvula automtica podem ser acionadas usando o software. Na Figura 8
apresentada uma vista da interface visual do software.
P15
P13
P9
P11
P12
Q2
P14
P7
P6
P8
Q3
Q1
P16
P1
P3
P2
P5
P4
V1
1m
2m
3m
4m
Escala
49
50
51
Figura 9. Trs exemplos de sinais da classe SEM adquiridos com o sensor P02 para trs diferentes vazes
no circuito (Q).
Por sua vez, os exemplos da classe COM foram adquiridos durante experimentos nos quais
um registro de simulao de vazamento (V1 na Figura 7) era aberto rapidamente. Na Figura
10 so apresentados trs exemplos da classe COM nos quais possvel identificar
visualmente a queda de presso devida ao vazamento. Salienta-se que essa identificao
difcil para a maior parte dos exemplos.
52
Figura 10. Trs exemplos de sinais da classe COM adquiridos com o sensor P02 para trs diferentes
vazes no circuito (Q) e diferentes magnitudes de vazamento (V).
< 3%
3% - 4%
4% - 5%
5% - 6%
6% - 7%
7% - 8%
10
33
51
39
30
36
35
32
> 11%
15
53
54
DECISO
AQUISIO
Sinal
Entrada
a
Extrao de
caracterstica
s
Segmentao e
padronizao
Sada
Classificao
6.1.SEGMENTAO E PADRONIZAO
Pela natureza do sinal coletado, necessrio o processamento de grande quantidade de dados,
e no interessante realizar a anlise somente para um sinal de grande comprimento. Por
exemplo, se o sinal for adquirido durante vrias horas, no interessante definir somente um
conjunto de valores caractersticos (extrao de caractersticas) que represente todo o
comprimento do sinal porque poderia mascarar as mudanas que aconteceram em algum
momento durante o intervalo de aquisio e que se deseja sejam reconhecidas. Para solucionar
esse problema so propostas as tcnicas de segmentao (DUDA; HART; STORK, 2001).
De forma geral, as tcnicas de segmentao permitem modificar um sinal de entrada de
tamanho grande ou que envolve varias repeties do fenmeno a estudar, para obter sinais
55
56
| |
57
6.2.EXTRAO DE CARACTERSTICAS
Cada um dos sinais usados na pesquisa representado por um vetor de 240 valores
sequenciais de presso ou vazo, que podem estar afetados por rudo, variaes originadas na
medio, transmisso, ou ainda por fenmenos fsicos como micro turbulncias. Pela
conformao dos exemplos, o tamanho de todos eles igual, mas em condies menos
controladas so comuns sinais com diferentes duraes ou taxa de amostragem, dados
faltantes ou valores errados que precisam ser desconsiderados, de forma que o sinal ou vetor
de entrada comumente tem tamanho varivel e grande.
Assim, a anlise dos valores brutos do sinal adquirido pode ser prejudicada pela presena de
perturbaes, a variabilidade no tamanho dos sinais, e o alto custo computacional da anlise
com sries longas. Em resposta a esses problemas, diversas metodologias de processamento
de sinais fazem uso da extrao de caractersticas. A extrao de caractersticas permite
analisar, ao invs do grande vetor de valores do sinal, caractersticas que dele derivam e que
podem ser representadas em um vetor muito menor, que ainda mantenha a capacidade de
distinguir a classe a que um exemplo pertence.
Para maior clareza no conceito de extrao de caractersticas, e a maneira de exemplo, na
Figura 12 apresentam-se dois sinais de presso de 1 minuto ou 240 pontos adquiridos, cada
um pertencendo a uma classe diferente (SEM e COM). importante salientar que a diferena
na ordem de grandeza desses sinais devida diferena na vazo no sistema durante a sua
aquisio. J uma diferena no formato (ou comportamento) que permita uma identificao
visual do incio de um vazamento no clara a partir desses sinais diretamente. Depois de
normalizar os valores das sries, as quatro caractersticas consideradas foram extradas desses
dois sinais de exemplo, formando para cada um deles um vetor de sete elementos2, cujos
valores esto nos eixos verticais da Figura 13.
Ao comparar os valores das caractersticas resultantes possvel identificar uma diferena
entre o exemplo COM e SEM de forma mais convincente que comparando seus
comportamentos na Figura 12. Claramente, no presente trabalho de pesquisa, a comparao
no feita s com dois sinais, como no exemplo anterior, e sim com todos os dados
adquiridos, obtendo os resultados apresentados na seo correspondente.
Os valores das caractersticas extradas so vetores de um ou mais elementos, por isso que ao extrair as
quatro caractersticas (explicadas na seo 6.2) o resultado um vetor de sete elementos.
58
ENE
ENT
220
9.5
170
8.5
120
7.5
70
6.5
classe
com
sem
5.5
20
ENE
ENT
NCZ
EDW
100
200
75
160
120
50
80
25
40
NCZ
A3
D3
D2
D1
adquiridos.
presso.
Existe uma grande diversidade de caractersticas que podem representar o sinal, que podem
ser julgadas mais ou menos importantes, considerando o tipo de sinal e os objetivos da
anlise. Para identificar quais as caractersticas que melhor poderiam ser adaptadas ao sistema
de reconhecimento de padres para deteco de vazamentos, foi explorada a extrao de
quatro tipos de caractersticas diferentes e avaliados os resultados de sistemas construdos a
partir de cada uma, e de sua associao.
6.2.1. Energia (ENE)
A energia de um sinal temporal discreto uma medida do grau de distanciamento dos valores
com relao sua mdia, e definida como:
59
60
61
6.3.CLASSIFICADOR
O classificador a componente do sistema de reconhecimento de padres atravs do qual so
analisadas as caractersticas extradas e definida a resposta, que neste trabalho a classe
(COM ou SEM) a que o sinal apresentado pertence. A construo do classificador (chamada
de treinamento em alguns casos) consiste da definio dos padres das classes analisadas, o
mtodo de comparao do novo sinal com eles e a designao da classe. Os classificadores
considerados esto baseados em aprendizado supervisionado, portanto sua construo
baseada em exemplos classificados, isto , o conjunto de sinais da classe COM e o da classe
SEM. O objetivo do classificador alocar todo sinal novo classe adequada, mas realmente
difcil que com o algoritmo consiga-se definir exatamente essa resposta, e em geral avaliada
a probabilidade do sinal pertencer a cada uma das classes para depois relacion-lo classe
mais provvel (DUDA; HART; STORK, 2001).
A representao dos sinais pela extrao de caractersticas permite a aplicao de grande
quantidade de metodologias de classificao cuja conceituao e desenvolvimento
independem da natureza dos sinais. Com o objetivo de avaliar a utilidade de diferentes
classificadores dentro do sistema de reconhecimento de padres para deteco de vazamentos,
vrios tipos de metodologias foram aplicados. A seguir so apresentados os conceitos bsicos
de cada um desses classificadores, e os resultados da sua implementao so avaliados
segundo indicado em 6.4 e discutidos em 7.4.
6.3.1. Vizinhos mais prximos
O algoritmo dos k vizinhos mais prximos (KNN do ingls K Nearest Neigbour)
considerado o mais simples de todos os algoritmos de aprendizado de mquina (FACELI et
al., 2011). um classificador linear de uso expandido, que subtimo j que conduz a taxas
de erro maiores que o mnimo possvel teoricamente (THEODORIDIS; KOUTROUMBAS,
1999). A ideia fundamental do algoritmo que os elementos de uma mesma classe devem ter
valores das caractersticas semelhantes em comparao com os elementos de classes
diferentes.
Na apresentao do algoritmo KNN e de muitos outros dos classificadores importante o
conceito do espao de caractersticas (feature space) ou espao de entrada. O espao de
entrada um espao V-dimensional definido pelos V atributos extrados dos sinais. Cada um
62
dos sinais de exemplo adquiridos, representado pelo seu vetor de caractersticas de tamanho
V, pode ento ser visto como um ponto no espao de entrada, ou um vetor desde a origem at
esse ponto, e que tem associada a sua classe j conhecida (BEALE; JACKSON, 2010). Na
Figura 14 apresentado um exemplo de espao de entradas usando vetores de caractersticas
de dimenso trs (CAR.1, CAR.2, CAR.3) para elementos pertencentes a duas classes (A e
B).
CLA SSE
A
B
120
80
CAR. 1
40
0
0
8
50
CAR. 3
4
100
CAR. 2
Figura 14. Espao de entrada para elementos de dimenso trs pertencentes a duas classes
Escolher os k elementos (vetores) mais prximos, quer dizer com menor distncia de
x0, independentemente da classe que pertencem. A definio do melhor valor de K
abordada na seo 7.2.
A determinao da distncia entre o novo elemento (x0) e os demais elementos (xj), no
espao de entrada, pode ser obtida usando a distncia de Mahalanobis, Minkowski,
Manhattan, Chebyshev ou, muito mais comumente, a distncia Euclidiana definida
como segue:
63
Sendo (
Segundo o algoritmo KNN, como todos os classificadores baseados em distncia, a escala dos
valores um fator muito importante. Por exemplo, dentre as caractersticas apresentadas na
seo 6.2 algumas esto na faixa de 1 at 100 enquanto outras so sempre menores do que 10.
Considerando que uma distncia proporcionalmente pequena na coordenada WDE teria uma
importncia muito maior que uma distncia proporcionalmente alta na coordenada ENT, para
evitar essa assimetria, os valores das caractersticas so padronizados antes de executar o
algoritmo de classificao. A padronizao realizada para que todas as caractersticas
fiquem expressas no intervalo de 0 at 1, segundo:
64
chegar finalmente a uma classe na qual o elemento possa ser alocado. A definio das regras
sequenciais que constituem uma rvore de deciso corresponde com a diviso sucessiva do
espao de entrada (seo 6.3.1) em regies no intersectadas menores que correspondem s
diferentes classes. Essa diviso feita normalmente com hiperplanos de lados paralelos aos
eixos, isto quer dizer que cada uma das regras para a diviso corresponde a uma pergunta
binria relativa a uma caracterstica, do tipo a caracterstica C menor que o valor Y?.
Existem tambm outros tipos de funes mais complexas, mas sua aplicao prtica menos
comum.
Uma rvore de deciso constituda por um conjunto de ns ordenados, a partir de um nico
n de deciso, que desempenham uma sequncia de testes. Cada n de deciso est unido a
outros dois ns, relativos s respostas para o teste, e as unies com eles so excludentes, pois
s uma delas pode ser seguida. Os ns posteriores podem ser tambm de deciso com a
mesma estrutura anterior, ou ns de folha. Os ns de folha correspondem diretamente a uma
classe. Um esquema de uma rvore de deciso para as duas classes COM e SEM com um
vetor de caractersticas de tamanho quatro apresentado na Figura 15. A rvore pode ser
representada tambm como um conjunto de regras, cada regra comeando no mesmo n
inicial, mas continuando por diferentes percursos at uma folha diferente.
Figura 15. Exemplo de rvore de deciso para duas classes, com quatro caractersticas.
65
espao a que ele corresponde. Para tanto, seus valores so submetidos sequncia de testes da
rvore de deciso at chegar a um n folha.
As rvores de deciso tm como vantagem fornecer um modelo inteligvel do processo de
classificao, que auxilia na definio das caractersticas mais importantes para a distino
entre classes ou ainda na avaliao da definio das classes. Adicionalmente possvel
analisar o processo de classificao de um elemento ou instncia particular, acompanhando
seu percurso pelos ns da rvore at um n de folha. Seu uso mais comum em problemas
com vrias classes, e para problemas com poucas caractersticas torna-se menos interessante.
Existem diversos algoritmos para a definio de rvores de deciso, no trabalho foi utilizado o
C4.5 (QUINLAN, 1993), segundo o qual o ordenamento das regras feito considerando a
entropia.
6.3.3. Regras de Deciso
Analogamente ao descrito para as rvores de deciso, os classificadores baseados em regras
tambm podem ser interpretados como a diviso do espao de entrada em regies, cada uma
referida a uma nica classe. Mas diferentemente das rvores, as regras de deciso no
correspondem com um processo de recursivo de diviso, e sim uma diviso direta. Assim,
cada regra cobre uma regio ou subconjunto de exemplos, e para classificar um novo
elemento todas as regras so avaliadas para definir em qual a regio e, portanto, a classe
qual pertence. As regras podem ser ordenadas ou no; no primeiro caso, (ordenadas) para
cada elemento novo, as regras so avaliadas numa ordem pr-definida at que alguma delas
seja cumprida. No segundo caso (no ordenadas), todas as regras so avaliadas e coletadas as
que so cumpridas; se elas se referem mesma classe, a classificao chega ao fim, mas se
foram cumpridas regras relativas a diferentes classes um processo adicional de avaliao da
classe mais provvel deve ser realizado.
Uma variao interessante da classificao com regras de deciso o algoritmo de uma nica
regra (1R ou OneR, do ingls One Rule), apresentado por Holte (1993). Atravs da
experimentao com diversas bases de dados foi comprovado que o mesmo desempenho dos
classificadores comuns, como as rvores de deciso, pode ser atingido tambm com um
algoritmo muito mais simples baseado numa nica regra, que pode ser entendida como uma
rvore de deciso para um nico atributo. Para cada qual dos atributos, a faixa total de valores
dividida em uma quantidade finita de intervalos dentro dos quais estejam contidos pelo
66
| )
| )
67
(
Sendo: (
| )
) ( |
( )
( |
( |
) (
A probabilidade a priori de cada classe deve ser definida para o problema ao qual se aplica,
por exemplo, segundo a frequncia relativa de cada classe no conjunto de exemplos,
assumindo distribuio uniforme das classes ou adotando valores diferentes segundo
conhecimento adquirido sobre a ocorrncia das classes no fenmeno real. Nas anlises
seguintes foi utilizada a probabilidade a priori de (
( ) pode ser
negligenciado.
6.3.5. Mquina de vetores de suporte
As mquinas de vetores de suporte (SVM, do ingls Support Vector Machine) so sistemas de
aprendizado que podem realizar tarefas de classificao, usam um espao de atributos de
grande dimenso, e so treinadas com um algoritmo de aprendizado baseado em otimizao e
na teoria de aprendizado estatstico (TAE) (FACELI et al., 2011). Para alguns autores as SVM
so casos particulares de Redes Neurais Artificiais (REZENDE, 2003).
68
69
sada da ltima camada. Cada neurnio executa uma funo usando um ou mais valores de
entrada afetados por pesos que ponderam a entrada recebida, e produz um valor de sada que
poder ser usado como entrada na camada seguinte. O treinamento da RNA como
classificador, aplicando aprendizado supervisionado, consiste no seu ajuste para que
reproduza com um erro mnimo as sadas conhecidas (classes), dadas as entradas de exemplo
(vetores de caractersticas). Posteriormente, a RNA dever prever a sada (classe) de qualquer
entrada nova.
As RNA de funes de base radial (FBR) so redes supervisionadas caracterizadas pelo tipo
de funes usadas na camada intermediria, sua arquitetura bsica apresentada na Figura 16.
Cada neurnio determinado por uma funo no linear da distncia euclidiana entre o vetor
de entrada e um centro predefinido (vetor de referncia), sendo funes localizadas e que
apresentam base radial sobre seu domnio (CASTRO; CASTRO, [s.d.]). Por ser de domnio
localizado, para cada vetor de entrada s algumas unidades apresentas sadas significativas, o
que ajustado dentro do processo de treinamento. Essas funes podem ter vrias formas,
sendo a mais comum a gaussiana:
(
70
E
n
x : Clculo da multiplicao.
: Funo somatrio.
: Funo de base radial:
)2
71
Assim, uma metodologia amplamente utilizada a validao cruzada (k-fold cross validation)
segundo a qual o conjunto total de exemplos dividido em k partes de aproximadamente igual
tamanho, sendo k-1 deles destinados ao processo de treinamento e 1 deles realizao de
testes. Portanto, o sistema treinado com k-1 partes e testado com a parte restante,
produzindo os indicadores de desempenho de interesse. Posteriormente, o processo repetido
escolhendo outra das partes para teste e as restantes k-1 para treinamento, e assim segue at
ter usado todas as k partes para teste uma vez. O desempenho ser ento calculado como a
mdia dos k valores dos indicadores obtidos nas iteraes. Na diviso do conjunto de
exemplos procura-se que cada parte seja formada por exemplos das diferentes classes na
mesma proporo que elas se apresentam no conjunto total.
Em todas as anlises da seo 7 foi utilizada a metodologia antes descrita para validao
cruzada, com 10 partes, cada uma composta por exemplos das classes COM e SEM na mesma
quantidade.
6.4.2. Matriz de confuso
Em problemas de classificao, particularmente binrios, muito til construir a chamada
Matriz de Confuso, em que os resultados de todos os testes so classificados considerando
qual a classe correta (linhas) e qual a classe prevista pelo sistema (colunas), como a mostrada
na Tabela 3. Normalmente ao falar do problema binrio refere-se uma classe como positiva e
a outra como negativa, no presente trabalho a classe positiva a referente ao vazamento,
COM, enquanto a classe negativa a referente ausncia de vazamento, SEM.
Assim, formam-se quatro categorias: Verdadeiros COM (VC, exemplos COM classificados
corretamente), Falsos COM (FC, exemplos SEM classificados como COM), Verdadeiros
SEM (VS, exemplos SEM classificados corretamente) e Falsos SEM (exemplos COM
classificados errado), sendo que VC+FC+VS+FS = N, nmero total de sinais de teste.
Tabela 3. Esquema da matriz de confuso
Classe
Verdadeira
Classe Obtida
COM
SEM
COM
VC
FS
SEM
FC
VS
72
Para um sistema de reconhecimento ideal, tanto FS quanto FC devem ser iguais a zero,
enquanto VC e VS devem ter valor de N/2 (dado que, neste trabalho, na validao cruzada
garantido que cada conjunto de teste tenha a mesma quantidade de exemplos de cada classe).
Inicialmente, a matriz de confuso alerta sobre resultados tendenciosos quando h grande
assimetria, mas a sua maior utilidade est no clculo de indicadores de desempenho como os
apresentados a seguir (FACELI et al., 2011).
Taxa de erro: Complemento da taxa de acerto, a taxa de erro uma medida dos erros
cometidos nas duas classes.
73
74
sada nas RNA-FBR, por exemplo) para prever uma das duas classes possveis. Cada
classificador fica assim representado por uma curva, sendo que para o classificador ideal a
curva seria a linha (0,0)(0,1)(1,1) e para o classificador aleatrio a linha (0,0)(1,1).
Um indicador de interesse sobre o desempenho de um classificador a rea abaixo da sua
curva ROC (AAC). Assim, quanto mais prximo de 1 for o valor, melhor ser o desempenho
geral do classificador, enquanto um valor de 0.5 na AAC corresponde com o desempenho de
um classificador aleatrio.
Do ingls Matrix Laboratory, Matlab um ambiente de anlise numrica de alto desempenho e linguagem de
programao de quarta gerao, desenvolvido pelo MathWorks, amplamente utilizado para ensino, pesquisa e
aplicaes industriais em todo o mundo.
4
Waikato Environment for Knowledge Analysis WEKA, um popular compendio de software para
aprendizado de mquina, desenvolvido em linguagem JAVA, pela Universidade de Waikato, Nova Zalndia.
75
76
7. RESULTADOS
Segmentao e
padronizao
Extrao de
caractersticas
Classificao
Alternativas adotadas
(6.1)
Alternativas de vetores
de caractersticas (7.3)
Alternativas de
classificadores (7.4)
Decomposio para o
clculo da EDW (7.1)
Parmetros do
classificador KNN (7.2)
Desempenho do sistema de
reconhecimento de padres (7.5)
Avaliaes
Influncia da magnitude do vazamento (7.6)
Figura 18. Esquema das anlises apresentadas neste captulo, em relao s componentes do sistema de
reconhecimento de padres.
77
Todos os resultados do presente captulo foram obtidos analisando toda a base de dados de
sinais adquiridos junto ao circuito hidrulica experimental como apresentado na seo 5.3,
com 620 exemplos em total (310 de cada classe) e para os 18 sensores 5. Cada resultado
apresentado produto da aplicao do 10-fold cross validation apresentado na seo 6.4.1. O
indicador de desempenho do sistema mais utilizado para as comparaes neste capitulo a
rea abaixo da curva ROC (AAC), explicada na seo 6.4.3.
Como antes explicado, todas as analises so conduzidas para os sinais de cada um dos 18 sensores,
isoladamente, durante todas as etapas da anlise. Somente quando indicado, apresentada a mdia dos
resultados dos diferentes sensores.
78
cada alternativa foram resumidos calculando sua mdia e desvio padro, que so apresentados
na Tabela 4 e na Figura 19.
Tabela 4. AAC mdia (desvio padro) para diferentes nveis de decomposio, segundo o classificador.
Classificador
EDW db2 N2
EDW db2 N3
EDW db2 N4
EDW db2 N5
3NN
0.948 (0.025)
0.968 (0.023)
0.97 (0.022)
0.961 (0.021)
rvore
0.941 (0.031)
0.954 (0.03)
0.951 (0.022)
0.94 (0.032)
Regras
0.898 (0.03)
0.912 (0.034)
0.896 (0.033)
0.881 (0.032)
Bayes
0.963 (0.037)
0.968 (0.05)
0.971 (0.044)
0.968 (0.038)
SVM
0.905 (0.047)
0.932 (0.057)
0.934 (0.056)
0.923 (0.05)
FBR
0.964 (0.041)
0.971 (0.047)
0.975 (0.035)
0.974 (0.028)
Mdia
0.936 (0.035)
0.951 (0.04)
0.95 (0.035)
0.941 (0.034)
Figura 19. AAC mdia usando diferentes nveis de decomposio, segundo o classificador.
79
Tabela 5. Aumento percentual na AAC com o aumento no nvel de decomposio, segundo o classificador.
Classificador
de N2 a N3
de N3 a N4
de N4 a N5
3NN
1.98%
0.24%
-0.88%
rvore
1.28%
-0.32%
-1.01%
Regras
1.44%
-1.60%
-1.49%
NaiveBayes
0.48%
0.31%
-0.36%
SVM
2.66%
0.23%
-1.15%
FBR
0.79%
0.40%
-0.17%
Mdia
1.44%
-0.12%
-0.84%
Para todos os classificadores utilizados, a decomposio at nvel trs traz um ganho na mdia
da AAC em comparao com a decomposio at nvel 2 (de N2 para N3). Esse ganho
maior do que os obtidos ao passar de nvel trs para nvel quatro (de N3 para N4), e maior
ainda do que ganho ao mudar de nvel quatro para nvel cinco. Adicionalmente, s a passagem
de nvel dois para nvel trs traz ganhos positivos segundo todos os classificadores usados.
Considerando tais resultados, foi definido para o clculo da caracterstica EDW, usar a
decomposio wavelet at nvel 3.
A decomposio wavelet packet, apresentada na seo 4.3, julgou-se potencialmente
interessante para o problema em estudo, ao permitir as anlises com maior detalhe para toda a
faixa de frequncias, at as mais altas. Sendo que essa maior quantidade de informaes
implica num alto custo computacional, necessrio avaliar o beneficio de sua aplicao neste
trabalho especfico. Para tanto, usando a base de dados de 620 exemplos das classes SEM e
COM para cada qual dos 18 sensores, foi calculada a decomposio wavelet packet at nvel 3
usando a funo Daubechies 2 (db2). Para cada exemplo, foi calculada a caracterstica EDW,
representada por um vetor de 8 elementos cuja soma 100.
Para avaliar o desempenho da EDW extrada da decomposio wavelet packet foi treinado e
testado o sistema de reconhecimento de padres completo, para cada um dos 18 sensores,
usando alternativamente cada um dos seis classificadores. Foi calculada a AAC para cada
caso, e a mdia e o desvio padro dos resultados para os 18 sensores so apresentadas na
Tabela 6. Na Figura 20 os resultados so comparados com aqueles obtidos extraindo a
caracterstica EDW da decomposio wavelet discreta (db2 at nvel 3, discreta).
80
Tabela 6. AAC mdia (desvio padro) usando decomposio wavelet packet, segundo o classificador.
Classificador
EDW
Wavelet Package
3NN
0.972 (0.029)
rvore
0.946 (0.029)
Regras
0.901 (0.036)
Bayes
0.959 (0.042)
SVM
0.938 (0.06)
FBR
0.972 (0.043)
Mdia
0.948 (0.04)
Figura 20. Comparao da AAC mdia usando decomposio wavelet discreta e wavelet packet.
81
pode ser mostrada atravs dos histogramas de cada um dos valores das caractersticas,
calculados para os exemplos adquiridos com cada sensor. A comparao dos histogramas
construdos para cada componente dos respectivos exemplos SEM e COM, possvel atravs
do exame da Figura 21.
A3
D1
150
100
50
0
0
15
30
45
60
75
90
16 24 32 40 48 56
D2
D3
150
100
50
0
0
12 15 18 21 0
10
20
30
D4
40
50
60
D5
150
100
50
0
0
12 16 20 24
28 0
D6
12 15 18 21
D7
150
100
50
0
0
10
15
20
25
30
12
18 24
30
36
classe
com
sem
Figura 21. Histograma de frequncias da distribuio da energia na decomposio wavelet packet, para
exemplos SEM e COM.
Vrias concluses podem ser extradas da comparao dos histogramas. A maior parte dos
exemplos COM tem a maior percentagem de energia na componente de aproximao, A3, e
as percentagens para os componentes de detalhe, D1 a D7, so usualmente menores. Para os
exemplos SEM, a percentagem de energia na componente A3 usualmente menor do que as
percentagens nas componentes D1 a D7. Adicionalmente, as distribuies nos componentes
de detalhe so mais concentradas para os exemplos COM do que para os exemplos SEM, e
82
mantm tambm uma distribuio semelhante nas componentes D1 a D7, com a maior
quantidade de casos correspondendo a percentagens de energias baixas. J para os sinais
SEM, parece que a energia est mais concentrada nos diferentes componentes de detalhe, com
pouca participao da componente A3. Assim, nos exemplos COM a maior parte da energia
do sinal devida mudana produzida pelo incio do vazamento, melhor representada na
componente de aproximao (ou de baixa frequncia). Entretanto, nos exemplos SEM a
energia do sinal est mais relacionada com o rudo e as oscilaes prprias do sistema fsico e
de aquisio de dados, razo pela qual apresentam maior disperso e a componente de
aproximao torna-se menos importante.
Em adio anlise dos histogramas, o estudo dos primeiros nveis na rvore de deciso
reforam as concluses. A componente com maior potencial para diferenciar os exemplos das
duas classes a A3. Adicionalmente, as componentes D2 e D3 tambm permitem uma
diferenciao interessante entre ambas as classes.
Em concordncia com as definies das decomposies wavelet discreta e packet, os
coeficientes de aproximao (A3) e os de detalhe da menor frequncia (D1) so idnticos se
aplicarmos as duas decomposies ao mesmo sinal. Os coeficientes D2 e D3 da
decomposio wavelet packet correspondem decomposio dos coeficientes D2 da wavelet
discreta, e D4, D5, D6 e D7 da packet com a decomposio do D3 da discreta. Assim, v-se
que a componente mais importante para distinguir as duas classes (A3) idntica na
decomposio wavelet discreta e na decomposio wavelet packet, e que as outras
componentes de maior interesse (D2 e D3 na decomposio packet) tm tambm uma
correspondncia clara na decomposio discreta (D2). Como antes dito, um maior
detalhamento nas frequncias mais altas no se mostra interessante por corresponder o
fenmeno estudado a mudanas nas baixas frequncias enquanto as altas frequncias esto
mais influenciadas pelo rudo.
Adicionalmente, os resultados do sistema de reconhecimento de padres com a caracterstica
EDW com decomposio wavelet packet apresenta resultados globais piores (com trs dos
classificadores avaliados) ou levemente melhores (com os outros trs classificadores), como
analisado anteriormente. Portanto, julga-se desnecessrio utilizar a decomposio wavelet
packet ao invs da decomposio wavelet discreta, considerando que a primeira tem maior
custo computacional e complexidade, mas as informaes adicionais que fornece no so as
mais interessantes para os objetivos do sistema de reconhecimento nem se traduzem em
melhores resultados globais.
83
Considerando o discutido nesta seo, nas anlises seguintes a caracterstica EDW ser a
avaliada usando decomposio wavelet discreta, da famlia db2, at nvel 3.
Em ambos os casos, usando decomposio wavelet discreta at nvel 3 com a funo db2, como definido na
seo anterior.
84
Tabela 7. AAC usando variaes do algoritmo K-NN, depois da extrao do vetor de caractersticas TOD.
Sensor
1-NN
3-NN
5-NN
7-NN
9-NN
11-NN
P01
0.923
0.968
0.971
0.977
0.976
0.981
P02
0.971
0.993
0.995
0.995
0.997
0.997
P03
0.974
0.993
0.994
0.997
0.997
0.997
P04
0.963
0.984
0.990
0.994
0.993
0.996
P05
0.937
0.979
0.987
0.988
0.988
0.992
P06
0.969
0.989
0.992
0.994
0.995
0.995
P07
0.974
0.986
0.994
0.995
0.995
0.995
P08
0.965
0.982
0.986
0.992
0.993
0.994
P09
0.969
0.987
0.991
0.993
0.992
0.995
P11
0.971
0.988
0.989
0.993
0.995
0.995
P12
0.971
0.989
0.992
0.992
0.992
0.994
P13
0.976
0.990
0.989
0.989
0.993
0.992
P14
0.969
0.984
0.989
0.989
0.989
0.992
P15
0.976
0.987
0.990
0.993
0.994
0.994
P16
0.958
0.982
0.991
0.990
0.992
0.994
Q01
0.906
0.955
0.960
0.968
0.968
0.968
Q02
0.879
0.936
0.952
0.957
0.958
0.956
Q03
0.816
0.898
0.917
0.925
0.931
0.934
Mdia
0.948
0.976
0.982
0.985
0.985
0.987
Desvio
0.043
0.024
0.020
0.018
0.017
0.017
Figura 22. AAC usando variaes do algoritmo K-NN, depois da extrao das caractersticas TOD.
85
Tabela 8. AAC usando variaes do algoritmo K-NN, depois da extrao da caracterstica EDW.
Sensor
1NN
3NN
5NN
7NN
9NN
11NN
P01
0.911
0.959
0.963
0.972
0.976
0.977
P02
0.956
0.986
0.989
0.989
0.992
0.993
P03
0.942
0.983
0.988
0.988
0.990
0.991
P04
0.947
0.982
0.988
0.988
0.987
0.990
P05
0.940
0.972
0.977
0.981
0.986
0.988
P06
0.947
0.981
0.987
0.988
0.989
0.990
P07
0.948
0.974
0.982
0.984
0.987
0.988
P08
0.945
0.970
0.976
0.984
0.986
0.990
P09
0.942
0.976
0.984
0.985
0.989
0.991
P11
0.939
0.979
0.986
0.988
0.988
0.988
P12
0.956
0.983
0.986
0.987
0.987
0.990
P13
0.961
0.980
0.983
0.988
0.989
0.991
P14
0.931
0.977
0.985
0.987
0.987
0.988
P15
0.942
0.972
0.981
0.985
0.988
0.989
P16
0.932
0.972
0.983
0.989
0.989
0.989
Q01
0.856
0.940
0.956
0.970
0.970
0.971
Q02
0.869
0.939
0.948
0.952
0.955
0.954
Q03
0.823
0.892
0.909
0.912
0.918
0.923
Mdia
0.927
0.968
0.975
0.979
0.981
0.982
Desvio
0.038
0.023
0.020
0.019
0.018
0.018
Figura 23. AAC usando variaes do algoritmo K-NN, depois da extrao da caracterstica EDW.
86
Os resultados apresentados permitem concluir que, tanto usando como vetor de caractersticas
TOD quanto EDW, o desempenho dos classificadores superior para valores maiores de K,
na maioria dos sinais. Como detalhado na Tabela 97, a melhora no desempenho muito mais
significativa para os valores inferiores de K, com um ganho mdio de 4,0% ao passar de 1NN
para 3NN. Ao estudar valores maiores de K, o aumento de desempenho torna-se menos
significativo.
Tabela 9.Incremento percentual na AAC usado variaes do algoritmo KNN
3NN a 5NN
5NN a 7NN
7NN a 9NN
9NN a 11NN
P01
4.77%
0.44%
0.82%
0.49%
0.05%
P02
2.95%
0.25%
0.01%
0.38%
0.03%
P03
4.09%
0.48%
0.03%
0.20%
0.15%
P04
3.50%
0.61%
-0.03%
-0.05%
0.24%
P05
3.13%
0.51%
0.45%
0.47%
0.17%
P06
3.42%
0.63%
0.08%
0.05%
0.17%
P07
2.60%
0.71%
0.27%
0.31%
0.10%
P08
2.50%
0.60%
0.74%
0.27%
0.34%
P09
3.43%
0.73%
0.18%
0.32%
0.25%
P11
4.00%
0.74%
0.19%
-0.04%
0.01%
P12
2.62%
0.31%
0.10%
0.06%
0.27%
P13
1.90%
0.31%
0.45%
0.12%
0.18%
P14
4.60%
0.82%
0.22%
0.02%
0.07%
P15
2.97%
0.94%
0.44%
0.24%
0.15%
P16
3.96%
1.12%
0.62%
-0.05%
-0.01%
Q01
8.38%
1.62%
1.34%
0.05%
0.11%
Q02
6.93%
0.98%
0.40%
0.22%
-0.06%
Q03
6.96%
1.71%
0.24%
0.62%
0.50%
Mdia
4.04%
0.75%
0.36%
0.20%
0.15%
Desvio
1.74%
0.41%
0.35%
0.20%
0.14%
A Tabela 9 refere-se aos resultados obtidos usando somente a caracterstica EDW, mostrados na Tabela 8 e
Figura 23, mas as concluses so as mesmas se considerados os resultados usando TOD.
87
7.3.CARACTERSTICAS EXTRADAS
Como apresentado na seo 6.2, foram avaliadas quatro caractersticas para representar os
sinais adquiridos, sendo elas:
Para analisar a tendncia das caractersticas dos sinais SEM e COM, foram extradas as
caractersticas de cada qual dos 620 exemplos das duas classes, para cada um dos 18 sensores.
Usando os valores extrados, foram construdos os histogramas de frequncias relativos aos
exemplos SEM e COM para cada caracterstica, ou mais exatamente para cada um dos valores
do vetor de caractersticas (sendo que a caracterstica EDW representada por quatro
valores). Os histogramas foram construdos com os dados de cada sensor isoladamente, e na
Figura 24 so apresentados os do sensor mais prximo do local de vazamento (P02) e o do
local mais afastado a jusante dele (P16), cuja localizao pode ser conferida na Figura 7.
Para obter uma indicao quantitativa do grau de semelhana entre os valores relativos s
duas classes, foi calculado o intervalo central de valores de caractersticas que contm o 85%
dos exemplos, sendo que 7,5% dos exemplos tm valores da caracterstica inferiores aos do
intervalo, e o restante 7,5% valores superiores a ele. Os limites desses intervalos so
resumidos na Tabela 10 e indicados tambm na Figura 24.
Tabela 10. Intervalos de valores mais frequentes das caractersticas
P02
SEM
COM
7.5% - 92.5% 7.5% - 92.5%
P16
SEM
COM
7.5% - 92.5% 7.5% - 92.5%
ENE
10.4 - 34.9
2.8 - 76.5
17.3 - 37.8
2.8 - 42.4
ENT
6.2 - 6.8
6 - 7.6
6.7 - 7
6-7
NCZ
58.5 - 121.9
1 - 57.5
76.1 - 123.9
44.9 - 92.5
EDW-A3
5.7 - 30.2
23.6 - 92.2
8 - 23.6
25.7 - 65.4
EDW-D3
9.3 - 50
1.3 - 12.6
15.6 - 50.4
9 - 33.8
EDW-D2
18.6 - 37.4
0.8 - 29.4
18.7 - 35.4
7.7 - 25.9
EDW-D1
4.7 - 33.6
0.3 - 34
7.7 - 34.3
1.7 - 30.5
88
ENE
160
80
80
0
0
20
40
60
80
100
120
ENT
160
40
60
80
100
120
ENT
80
0
2
NCZ
160
80
0
0
20
40
60
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
20
160
80
NCZ
80
0
0
20
40
60
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
60
EDW - D2
160
80
160
60
EDW - D2
160
80
0
0
10
20
30
40
50
60
70
EDW - D1
160
10
20
30
40
50
60
70
EDW - D1
160
80
80
0
CLASSE
COM
SEM
ENE
160
10
20
30
40
50
60
CLASSE
COM
SEM
10
20
30
40
50
Figura 24. Histogramas dos valores do vetor de caractersticas para exemplos SEM e COM.
60
89
possvel verificar que para algumas das caractersticas, as faixas de valores mais comuns
so similares, enquanto para outras caractersticas os intervalos esto mais claramente
diferenciados. A seguir as observaes principais sobre cada caracterstica:
Para a caracterstica ENE, tanto no sensor mais prximo (P02) quanto no mais
afastado (P16) o intervalo de valores mais frequentes para a classe SEM est contido
no intervalo da classe COM. Assim, difcil diferenciar se um sinal pertence a uma ou
outra classe com base no seu valor ENE dado que os mesmos valores aparecem
frequentemente para as duas classes.
Vale a pena salientar que quando se mencionam, por exemplo, os valores mais frequentes ou os
histogramas de frequncias, a palavra frequncia refere-se quantidade de vezes que um valor ou faixa de
valores ocorrem, e pode ser quantificada com unidades de nmero de ocorrncias. Por outro lado, quando
referidas as altas / baixas frequncias em referencia s componentes da decomposio wavelet, trata-se de
frequncias presentes no sinal, que seria o numero de ciclos por unidade de tempo se se tratasse de sinais
peridicos, e cuja unidade a inversa do tempo, 1/sec = Hz.
90
para um sinal em que a maior parte das oscilaes devida ao rudo, de alta
frequncia. Entretanto, nos exemplos COM grande parte da energia est concentrada
no componente de aproximao A3, devido mudana provocada pelo vazamento. Os
valores de energia nas componentes de detalhe so complementares aos da
componente de aproximao (A3+D3+D2+D1=100 para cada exemplo individual),
portanto para os exemplos SEM os valores de D3, D2 e D1 so maiores do que para os
exemplos COM. A diferenciao entre os intervalos de valores mais comuns das duas
classes mais clara para os componentes de menor frequncia (D3) do que para os de
maior frequncia (D1). A importncia de cada valor da caracterstica de distribuio
da energia na decomposio wavelet foi discutida tambm na seo 7.1.
Os resultados para apenas dois dos sensores foram apresentados acima para melhor
compreenso, embora as mesmas anlises tenham sido realizadas para todos os outros
sensores foram feitas e os seus resultados em nada contradizem as anteriores observaes,
como pode ser verificado nos histogramas apndice A.
Os histogramas antes apresentados no fazem parte do sistema de reconhecimento de padres,
e sim de uma anlise adicional de comparao entre as caractersticas. Para avaliar a utilidade
dessas caractersticas na representao dos sinais para sua posterior classificao, o sistema de
reconhecimento de padres completo (incluindo segmentao, extrao de caractersticas e
classificao, como descrito na seo 6) foi construdo e avaliado, para cada um dos sensores.
Na etapa de extrao de caractersticas seis diferentes alternativas so consideradas, para
avaliar as caractersticas isoladas, combinadas ou ainda o sinal original, como segue:
SIN. Sinal original (sem extrair nenhuma caracterstica), vetor de dimenso 240. O uso
do vetor original como vetor de entrada a o classificador possvel somente porque a
aquisio em laboratrio e o pr-processamento dos exemplos garante que todos eles
contenham a mesma quantidade de elementos, sem dados errneos ou faltantes.
91
Figura 25. AAC para diferentes vetores de caractersticas segundo o sensor e o classificador considerados.
92
Tabela 11. AAC mdia (desvio padro) para diferentes vetores de caractersticas, segundo o sensor
considerado.
Sensor
TOD
ENE
ENT
NCZ
EDW
SIN
P01
0.961 (0.02)
0.648 (0.037)
0.6 (0.033)
0.89 (0.05)
0.958 (0.02)
0.831 (0.153)
P02
0.988 (0.01)
0.893 (0.048) 0.877 (0.108) 0.983 (0.012) 0.971 (0.025) 0.838 (0.156)
P03
0.984 (0.014) 0.913 (0.055) 0.908 (0.054) 0.977 (0.016) 0.961 (0.039) 0.838 (0.156)
P04
0.985 (0.013) 0.914 (0.056) 0.915 (0.055) 0.977 (0.019) 0.963 (0.035) 0.841 (0.157)
P05
0.964 (0.025) 0.681 (0.085) 0.641 (0.032) 0.902 (0.042) 0.963 (0.025) 0.839 (0.149)
P06
0.982 (0.016) 0.909 (0.054) 0.911 (0.054) 0.973 (0.023) 0.964 (0.035) 0.841 (0.159)
P07
P08
0.92 (0.042)
0.969 (0.02)
0.836 (0.156)
P09
0.958 (0.03)
0.968 (0.03)
0.819 (0.166)
P11
0.977 (0.025) 0.824 (0.062) 0.849 (0.064) 0.961 (0.027) 0.971 (0.024) 0.837 (0.151)
P12
0.916 (0.06)
P13
0.982 (0.015)
0.82 (0.062)
0.814 (0.1)
P14
0.972 (0.024)
0.71 (0.086)
0.739 (0.074)
0.91 (0.047)
P15
0.74 (0.081)
P16
0.89 (0.038)
Q01
0.92 (0.044)
0.892 (0.03)
0.885 (0.042)
Q02
0.904 (0.044)
0.804 (0.05)
0.78 (0.034)
Q03
0.876 (0.035) 0.749 (0.057) 0.791 (0.039) 0.857 (0.027) 0.855 (0.029)
0.85 (0.108)
0.964 (0.022)
0.828 (0.15)
Media
0.8 (0.061)
0.858 (0.05)
0.84 (0.03)
0.855 (0.15)
0.951 (0.03)
0.79 (0.122)
93
O valor de desempenho afetado pela escolha do classificador, e para avaliar sua influncia
na Tabela 12 so mostrados os valores de desempenho mdios para cada alternativa de vetor
de caractersticos, discriminados segundo o tipo de classificador utilizado. Apesar das
variaes nos valores, o ordenamento das melhores caractersticas semelhante ao antes
identificado, com TOD e EDW na primeira e segunda melhor posio dentre as alternativas
de extrao de caractersticas, superados por pequena diferena pelo uso do vetor SIN quando
considerados dois dos classificadores.
Tabela 12. AAC mdia para diferentes vetores de caractersticas, segundo o classificador.
Classificador
TOD
ENE
ENT
NCZ
EDW
SIN
3NN
0.976
0.804
0.812
0.948
0.968
0.984
rvore
0.963
0.811
0.812
0.902
0.954
0.898
Regra
0.931
0.787
0.796
0.899
0.912
0.766
Bayes
0.979
0.840
0.828
0.953
0.968
0.593
SVM
0.953
0.700
0.715
0.894
0.932
0.942
FBR
0.984
0.859
0.857
0.956
0.971
0.784
Mdia
0.964
0.800
0.803
0.925
0.951
0.828
94
resultados mdios (de 0.951 a 0.961 em mdia) e diminui levemente os desvios (de 0.030 a
0.023, em mdia). Como seu clculo pouco complexo se comparado com o da EDW,
considera-se interessante o uso das duas caractersticas combinadas, NCZ+EDW.
Tabela 13. AAC mdia (desvio padro) segundo o sensor considerado, para os vetores de caractersticas
de melhor desempenho.
Sensor
TOD
NCZ
EDW
NCZ+EDW
P01
0.961 (0.02)
0.89 (0.05)
0.958 (0.02)
0.958 (0.022)
P02
0.988 (0.01)
0.986 (0.01)
P03
0.98 (0.013)
P04
P05
P06
P07
P08
0.974 (0.019)
0.92 (0.042)
0.969 (0.02)
0.973 (0.018)
P09
0.978 (0.024)
0.958 (0.03)
0.968 (0.03)
0.974 (0.023)
P11
P12
P13
P14
0.972 (0.024)
P15
0.973 (0.02)
P16
0.969 (0.018)
0.89 (0.038)
0.968 (0.019)
0.97 (0.017)
Q01
0.92 (0.044)
0.892 (0.03)
0.885 (0.042)
0.905 (0.04)
Q02
0.904 (0.044)
0.78 (0.034)
Q03
Media
0.91 (0.047)
0.951 (0.03)
0.961 (0.023)
Quanto ao uso do sinal original (sem extrair caractersticas), SIN, como vetor de entrada para
o processo de classificao, cada exemplo considerado um ponto dentro de um espao de
dimenso 240, e para a definio de distncias, regras ou distribuies nos procedimentos de
treinamento dos classificadores o i-simo valor da srie comparado somente com o i-simo
das outras sries, sendo i = 1, 2... 240. Esse tipo de comparao ponto a ponto tem
desvantagens considerando que nos exemplos COM o vazamento acontece em diferentes
momentos dentro do intervalo de exemplo. O desempenho do sistema de reconhecimento de
padres usando o vetor SIN foi muito varivel dependendo do classificador utilizado, com
95
valores individuais de AAC desde 0.567 (sensor P16, classificador Bayesiano) at 0.997
(sensor P11, classificador 3NN). Assim, os valores de desvio relativos a SIN com cada sensor
mostrados na Tabela 11, de mdia 0.15 e mnimo 0.11, so maiores do que os desvios de
todas as outras alternativas de vetores de caractersticas, restando portanto confiabilidade aos
seus valores mdios. O tempo de processamento usando SIN foi muito maior do que com os
outros vetores de caractersticas, devido ao grande tamanho dos vetores envolvidos, embora
com essa alternativa seja economizado o tempo que leva a extrao de caractersticas. Como
apontado anteriormente, o uso do sinal sem extrair caractersticas somente possvel pelo fato
de todos os exemplos terem exatamente o mesmo tamanho. Se alguns dos exemplos tivessem
tamanho diferente, essa opo de uso do vetor SIN no seria aplicvel, enquanto o processo
de extrao de caractersticas no encontraria nenhum problema.
Assim, considerando que o uso do sinal diretamente como se fosse o vetor de caractersticas
no diminui o custo computacional, tm aplicao limitada, e gera desempenhos de menor
preciso e, em mdia, de menor acurcia, conclui-se que o uso da extrao de caractersticas
muito mais interessante do que o uso do sinal de entrada, SIN, diretamente.
7.4.TIPOS DE CLASSIFICADOR
Os seis diferentes tipos de classificador apresentados na seo 6.3 foram avaliados como
alternativas dentro do sistema de reconhecimento de padres criado, sendo eles:
Regra. Algoritmo de uma regra (One Rule), com mnimo seis elementos nos
segmentos;
SVM. Mquina de vetor suporte, com funes kernel lineares e sem incorporar pesos
diferenciados s duas classes;
FBR. Rede neural artificial com funes de base radial, com funes normalizadas
Gaussianas.
96
Sensor
3NN
rvore
Regra
Bayes
SVM
FBR
P01
0.967
0.952
0.932
0.985
0.935
0.980
P02
0.990
0.985
0.969
0.993
0.982
0.996
P03
0.985
0.970
0.963
0.991
0.974
0.996
P04
0.987
0.987
0.963
0.992
0.977
0.997
P05
0.974
0.962
0.924
0.988
0.955
0.987
P06
0.981
0.966
0.955
0.991
0.965
0.995
P07
0.983
0.976
0.934
0.994
0.969
0.995
P08
0.974
0.975
0.945
0.993
0.961
0.991
P09
0.981
0.972
0.931
0.994
0.974
0.994
P11
0.984
0.981
0.932
0.995
0.977
0.993
P12
0.987
0.972
0.955
0.991
0.973
0.996
P13
0.982
0.958
0.960
0.995
0.976
0.995
P14
0.979
0.953
0.934
0.993
0.960
0.990
P15
0.981
0.957
0.947
0.994
0.966
0.993
P16
0.971
0.969
0.945
0.991
0.958
0.984
Q01
0.963
0.925
0.865
0.931
0.865
0.884
Q02
0.961
0.962
0.885
0.869
0.777
0.952
Q03
0.906
0.874
0.823
0.859
0.842
0.899
Media
0.974
0.961
0.931
0.974
0.944
0.979
Desvo
0.019
0.026
0.038
0.043
0.057
0.034
97
O desempenho de todos os classificadores muito bom, de forma que as diferenas entre eles
so pequenas em relao ao resultado mdio. O classificador Bayes apresenta o melhor
resultado para nove dos sensores, enquanto o FBR o melhor para oito dos sensores e o 3NN
para os trs restantes. Mesmo com diferenas pequenas, os melhores resultados (maior valor
de AAC) correspondem aos classificadores FBR, Bayes e 3NN. O desempenho pior foi o da
regra de deciso, levemente superado pelo SVM e pela rvore.
Os classificadores de rvore, Regra e SVM, por terem desempenho mdio inferior, so
considerados menos interessantes. Mas antes de concluir sobre o classificador mais
conveniente, interessante analisar a aplicao dos diferentes tipos de classificadores desde as
suas idias de base. O classificador Naive Bayes, apresentado na seo 6.3.4, assume que os
dados fazem parte de uma distribuio de probabilidades cujos parmetros so definidos a
partir dos dados de treinamento e segundo eles decidida a resposta dos testes.
Adicionalmente, supe-se independncia estatstica entre as componentes do espao de
entrada. Comumente a hiptese de independncia no se verifica, mas tem sido comprovado
em aplicaes diversas que isso no prejudica o desempenho do classificador em quanto
98
99
100
P01
P02
P03
285
25
305
300
10
15
295
11
299
10
300
P04
P05
P06
301
297
13
297
13
303
19
291
11
299
P07
P08
P09
299
11
295
15
296
14
302
14
296
13
297
P11
P12
P13
299
11
301
299
11
302
302
304
P14
P15
P16
296
14
297
13
300
10
15
295
11
299
15
295
Q01
Q02
Q03
282
28
281
29
264
46
27
283
24
286
47
263
MDIA
294
16
15
295
Tanto as matrizes de confuso dos sensores individuais quanto a mdia mostram uma simetria
razovel com os erros balanceados entre falsos SEM (FS) e falsos COM (FC), descartando
vis na classificao. Com base nas matrizes e segundo as definies da seo 6.4.2, os
indicadores de desempenho foram calculados para cada um dos sensores e para o conjunto
todo, e so apresentados na Tabela 16 e na Tabela 17.
101
Tabela 16. Taxa de acerto, taxa de erro e sensibilidade do sistema, para cada sensor.
Sensor
Taxa acerto
Taxa erro
Sensibilidade
P01
0.935
0.065
0.919
P02
0.974
0.026
0.984
P03
0.968
0.032
0.968
P04
0.974
0.026
0.971
P05
0.948
0.052
0.958
P06
0.961
0.039
0.958
P07
0.969
0.031
0.965
P08
0.953
0.047
0.952
P09
0.956
0.044
0.955
P11
0.969
0.031
0.965
P12
0.973
0.027
0.971
P13
0.973
0.027
0.965
P14
0.953
0.047
0.955
P15
0.961
0.039
0.958
P16
0.960
0.040
0.968
Q01
0.911
0.089
0.910
Q02
0.915
0.085
0.906
Q03
0.850
0.150
0.852
Mdia
0.950
0.050
0.949
Desvio
0.031
0.031
0.032
O nvel geral de acurcia do sistema, medido pela taxa de acerto, maior que 0.91 para todos
os sensores com exceo do sensor Q03. O valor mdio, de 0.95, satisfatoriamente alto. A
taxa de erro o complemento da taxa de acerto, sendo assim sua mdia de 0.05. Quanto
sensibilidade ou taxa de verdadeiros positivos, mostra-se que a proporo de exemplos da
classe COM classificados acertadamente superior a 90% para dados de todos os sensores
com exceo do sensor Q03. Em mdia essa porcentagem de 94,9%, portanto somente 5,1%
dos exemplos COM foram classificados errados.
Os falsos positivos correspondem a exemplos SEM erroneamente classificados como COM, e
a taxa de ocorrncia desses casos de 0.048, em mdia. J a especificidade permite avaliar a
capacidade do sistema de identificar os exemplos SEM, calculando a proporo desses
exemplos classificados acertadamente, que de 0.952 em mdia. A preciso indica que a
102
Sensor
P01
Taxa falsos
Especificid.
positivos
0.048
0.952
Preciso
0.950
P02
0.035
0.965
0.965
P03
0.032
0.968
0.968
P04
0.023
0.977
0.977
P05
0.061
0.939
0.940
P06
0.035
0.965
0.964
P07
0.026
0.974
0.974
P08
0.045
0.955
0.955
P09
0.042
0.958
0.958
P11
0.026
0.974
0.974
P12
0.026
0.974
0.974
P13
0.019
0.981
0.980
P14
0.048
0.952
0.952
P15
0.035
0.965
0.964
P16
0.048
0.952
0.952
Q01
0.087
0.913
0.913
Q02
0.077
0.923
0.921
Q03
0.152
0.848
0.849
Mdia
0.048
0.952
0.952
Desvio
0.032
0.032
0.032
103
P02
P16
Q03
104
Sensor
rea abaixo
da curva ROC
P01
0.967
P02
0.990
P03
0.985
P04
0.987
P05
0.974
P06
0.981
P07
0.983
P08
0.974
P09
0.981
P11
0.984
P12
0.987
P13
0.982
P14
0.979
P15
0.981
P16
0.971
Q01
0.963
Q02
0.961
Q03
0.906
Mdia
0.974
Desvio
0.019
105
reconhecimento de padres criado, foi identificada a faixa de valores V/Q a que pertence cada
um dos exemplos usados na etapa de teste dentro do processo de validao cruzada.
Analisando os resultados da classificao de cada exemplo para todos os testes, foi calculado
o nmero de exemplos COM classificados acertadamente (VC) ou no (FS) para cada faixa de
valores V/Q, como apresentado na Tabela 19. A sensibilidade ou taxa de verdadeiros
positivos (definida na seo 6.4.2), apresentada na Tabela 20. A configurao do sistema de
reconhecimento de padres a resumida na seo anterior, e inclui segmentao e
padronizao, extrao do vetor de caractersticas NCZ+EDW e classificao com 3NN.
A tendncia geral que pode ser predita quanto sensibilidade do sistema de reconhecimento
de padres que seus valores sejam menores para exemplos com relao V/Q baixa e maiores
para os exemplos com relao V/Q maior. Porm, valores individuais em alguns sensores no
seguem essa tendncia. Por exemplo, a sensibilidade na faixa de 4% a 5% aparece inferior do
que a de 3% a 4% para os sinais de vrios sensores, sendo o mais crtico o Q01 que aparenta
diminuio da sensibilidade em 0.11. Para a faixa de V/Q de 9% a 10% aparece na maioria
dos sensores sensibilidade inferior da faixa anterior (8% a 9%), sendo que essa tendncia
negativa continua presente ainda nos resultados totais. Uma possvel explicao de esse
inesperado resultado poderia ser a ocorrncia dentro de essa faixa de exemplos extrados de
um experimento com algum erro que tenha gerado corrupo dos dados e dificulte sua
classificao, mas essa hiptese no foi comprovada nem levada em conta nas anlises
executadas com a mesma base de dados de exemplos.
Ao analisar unicamente os resultados de sensibilidade totais, que consideram todos os testes
de todos os sensores acumulados, v-se que, com exceo da faixa de V/Q de 9% a 10%, a
tendncia esperada comprovada, sendo que a sensibilidade do sistema de reconhecimento
maior para relaes altas de V/Q do que para relaes baixas. As diferenas mais importantes
esto nas faixas inferiores, notando que o incremento na sensibilidade ao aumentar a relao
V/Q muito mais marcado at as relaes de 6%, depois da qual a sensibilidade estabiliza-se.
No pode deixar de ser levado em considerao que, ainda para os exemplos com V/Q < 3% a
sensibilidade muito alta (0.83) e j com exemplos de V/Q de 4% essa sensibilidade atinge o
0.9. Assim, mesmo sensvel magnitude do vazamento, o desempenho do sistema de
reconhecimento de padres proposto mantm-se razovel mesmo para valores V/Q < 3%.
106
Indic.
>11
Total
<3
3-4
4-5
5-6
6-7
7-8
8-9
VC
29
40
37
30
36
29
35
32
15
285
FS
11
25
VC
36
52
35
28
34
33
36
29
14
305
FS
VC
10
31
45
36
32
39
29
31
34
15
302
FS
VC
10
32
49
36
30
36
29
32
32
15
301
FS
VC
26
47
38
30
36
29
35
32
15
295
FS
15
VC
29
53
38
34
32
31
31
32
12
301
FS
VC
10
31
45
40
30
38
23
32
33
13
295
FS
15
VC
28
47
39
30
36
29
34
32
15
298
FS
12
VC
26
44
39
37
36
29
34
29
16
296
FS
14
VC
32
46
38
30
36
29
31
32
15
298
FS
12
VC
11
30
50
37
24
32
34
34
32
17
301
FS
VC
30
46
38
30
36
29
35
32
15
300
FS
10
VC
24
48
41
28
33
26
37
34
16
296
FS
14
VC
10
32
47
38
30
36
29
34
30
14
300
FS
10
VC
10
30
48
37
30
36
29
32
31
14
297
FS
13
VC
32
44
37
29
36
29
35
32
15
295
FS
15
VC
28
46
36
26
31
32
35
28
16
284
FS
26
VC
32
50
34
30
35
25
30
26
14
283
FS
27
VC
147
538
847
674
538
634
523
603
562
266
FS
31
51
76
29
34
107
Tabela 20. Sensibilidade (taxa de verdadeiros positivos) para os diferentes valores de V/Q usados nos
testes.
Sensor
3-4
4-5
5-6
6-7
7-8
8-9
9 - 10 10 - 11
>11
P01
0.20
0.88
0.78
0.95
1.00
1.00
1.00
1.00
1.00
1.00
P02
1.00
1.00
0.98
0.97
1.00
1.00
1.00
0.92
1.00
1.00
P03
1.00
0.94
0.94
0.97
1.00
1.00
1.00
0.94
1.00
1.00
P04
1.00
0.97
0.96
0.92
1.00
1.00
1.00
0.91
1.00
1.00
P05
0.70
0.79
0.92
0.97
1.00
1.00
1.00
1.00
1.00
1.00
P06
0.90
0.94
0.96
0.97
1.00
1.00
1.00
0.91
1.00
1.00
P07
0.91
0.94
0.90
0.95
0.97
1.00
1.00
0.89
1.00
1.00
P08
0.80
0.85
0.92
1.00
1.00
1.00
1.00
0.97
1.00
1.00
P09
0.75
0.84
0.88
1.00
1.00
1.00
1.00
1.00
0.97
1.00
P11
0.90
0.97
0.90
0.97
1.00
1.00
1.00
0.89
1.00
1.00
P12
1.00
0.97
0.94
0.97
1.00
1.00
1.00
0.89
1.00
1.00
P13
0.90
0.91
0.90
0.97
1.00
1.00
1.00
1.00
1.00
1.00
P14
0.75
0.80
0.94
0.98
1.00
1.00
1.00
0.97
1.00
1.00
P15
1.00
0.97
0.92
0.97
1.00
1.00
1.00
0.97
0.94
0.93
P16
1.00
0.91
0.94
0.95
1.00
1.00
1.00
0.91
0.97
0.93
Q01
0.60
0.97
0.86
0.95
0.97
1.00
1.00
1.00
1.00
1.00
Q02
0.60
0.88
0.90
0.90
0.96
0.89
0.97
0.95
0.97
1.00
Q03
0.88
0.91
0.94
0.87
0.91
1.00
0.83
0.91
0.90
0.93
Total
0.83
0.91
0.92
0.96
0.99
0.99
0.99
0.95
0.99
0.99
Figura 28. Sensibilidade (taxa de verdadeiros positivos) para diferentes valores de V/Q, total.
108
8. CONCLUSES
109
determinar, com certo grau de acurcia, se um novo sinal corresponde com uma situao de
incio de vazamento ou no. No presente trabalho essa avaliao foi feita sempre sobre uma
base de dados conformada previamente, mas o sistema desenvolvido poderia ser aplicado
anlise de sinais contnuos, em tempo real, precisando para tanto ajustes na rotina
computacional.
Para as anlises referentes s diferentes componentes do sistema foi aplicado o processo de
treinamento e teste do sistema de reconhecimento completo, com os sinais adquiridos nos 18
sensores localizados ao longo do circuito independentemente, produzindo indicadores de
desempenho individuais. Adicionalmente, cada avaliao foi feita usando a metodologia de
validao cruzada com dez blocos, sendo a mdia das dez repeties o indicador utilizado em
cada caso.
Quanto s primeiras etapas do sistema de reconhecimento de padres, a segmentao e
padronizao, os sinais adquiridos foram divididos em segmentos de durao 1 minuto ou 240
valores (taxa de amostragem de 4 amostras/s) e cada segmento constitui um exemplo de uma
das classes. Visando a garantir a capacidade de generalizao do sistema, as anlises foram
focadas no comportamento dos sinais e no nas grandezas medidas; assim, cada exemplo foi
padronizado de forma que a mdia fosse 0 e os valores do sinal estivessem entre -1 e 1.
No referente extrao de caractersticas, comprovou-se que esta etapa permitiu converter um
sinal de grande dimenso a uma representao de dimenso muito menor (vetor de
caractersticas) e que permite a classificao com acurcia ainda maior que os sinais originais
(SIN). As caractersticas consideradas foram energia (ENE), entropia (ENT), nmero de
cruzamentos por zero (NCZ) e distribuio da energia nas componentes da decomposio
wavelet (EDW), sendo as trs primeiras calculadas no domnio do tempo e a ltima baseada
na transformada wavelet.
Em referncia ao clculo da caracterstica EDW, foi assumido o uso da funo Daubechies
(db 2), e avaliado o nvel de decomposio wavelet mais conveniente, considerando que
maiores nveis correspondem a maior resoluo na frequncia, mas maior custo
computacional alm de menor resoluo temporal. Conclui-se que o uso da decomposio at
o nvel 3, forneceu desempenho mdio maior ao fornecido pelo nvel 2 e equivalente aos
relativos aos nveis 4 e 5. Adicionalmente foi comparado o uso da transformada wavelet
packet ao invs da transformada wavelet discreta, com o intuito de obter maior detalhamento
para frequncias altas. Concluiu-se que as informaes adicionais fornecidas pela
transformada packet no conduziram a melhorias no desempenho do sistema de
110
reconhecimento. Foi notado que depois da decomposio wavelet (tanto discreta quanto
packet) a maior energia est concentrada na componente de menor frequncia para os
exemplos COM, ao contrrio dos exemplos SEM, sendo assim essa componente mostrou-se a
mais til na distino entre exemplos das duas classes. Considerando o anterior, foi concludo
que para o clculo da caracterstica EDW, na etapa de extrao de caractersticas do sistema
de reconhecimento de padres, fosse usada a decomposio wavelet discreta, com a funo
db2, at nvel 3.
Os valores de cada qual das quatro caractersticas nas duas classes foram analisadas e foi
tambm avaliado o desempenho do sistema de reconhecimento de padres com o uso das
caractersticas isoladas e combinadas. Concluiu-se que as caractersticas ENE e ENT foram as
menos interessantes para o sistema, enquanto a mais interessante foi EDW, seguida de NCZ.
Ao avaliar o uso do vetor de caractersticas TOD, conformado pela combinao das quatro
caractersticas, o desempenho do sistema foi equivalente ao obtido usando o vetor de
caractersticas da combinao NCZ+EDW; portanto, o aporte das caractersticas ENE e ENT
ao processo de reconhecimento no significativo. Foi concludo que na etapa de extrao de
caractersticas fosse calculado o vetor NCZ+EDW como representao de cada sinal.
Para a etapa de classificao foram avaliados seis algoritmos diferentes e foi comparado o
desempenho do sistema de reconhecimento de padres usando cada qual. Antes da
comparao, foi analisado o parmetro K do algoritmo KNN, ou nmero de vizinhos mais
prximos, concluindo pela utilizao do valor de K = 3. O desempenho do sistema com base
nos seis classificadores utilizados (3NN, rvore, Naive Bayes, SVM e FBR) alto, sendo que
as diferenas entre eles so de ordem de grandeza menor de cada resultado. Os
classificadores correspondentes aos melhores desempenhos mdios so o FBR (rede neural
com funes de base radial), Naive Bayes e 3NN (3 vizinhos mais prximos). Desempenho
mdio inferior foi obtido usando rvore de deciso, regra de deciso e SVM (Mquina de
vetor suporte). Analisando os classificadores de melhor desempenho, foi concludo que os
resultados com o Naive Bayes perdem confiabilidade por no serem cumpridas as hipteses
originais quanto distribuio de probabilidade dos valores das caractersticas utilizadas. Por
outro lado, tanto FBR quanto 3NN apresentam desempenhos semelhantes, mas nenhum dos
dois fornece um modelo interpretvel do sistema, razo pela qual a escolha foi feita pela
menor complexidade, concluindo o uso do algoritmo 3NN para a etapa de classificao.
Assim, foi concludo que a melhor arquitetura para o sistema de reconhecimento de padres
era: segmentao e padronizao, extrao do vetor de caractersticas NCZ+EDW, e
111
classificao com 3NN. O sistema foi avaliado com os sinais obtidos de cada sensor
individualmente, segundo diferentes indicadores de desempenho produzindo os seguintes
resultados mdios: taxa de acerto de 95.0%, sensibilidade de 94.9%, taxa de falsos positivos
de 4.8%, especificidade de 95.2%, preciso de 95.2% e rea abaixo da curva ROC (AAC) de
0.974. Tais resultados indicam um desempenho consistente e de alta acurcia do sistema de
reconhecimento de padres proposto.
Adicionalmente, foi avaliada a influncia da magnitude do vazamento sobre processo de
deteco. Para tanto, depois de treinar e testar o sistema de reconhecimento de padres com
todos os exemplos, foi calculada a sensibilidade (taxa de verdadeiros positivos) discriminada
segundo a relao V/Q dos exemplos de teste. Embora a variao no seja igual para todos os
sensores, em mdia verifica-se que o aumento na relao de V/Q est relacionado com um
aumento na sensibilidade. As diferenas mais importantes esto nos exemplos de menor
magnitude, com relaes V/Q de 3% at 6%, para relaes de valores superiores a 6% a
sensibilidade no aumentou significativamente. Porm, para relaes inferiores a 3%, a
sensibilidade mdia de 82.6% e para aqueles com V/Q > 4% a sensibilidade superior a
90%. Assim, mesmo sensvel magnitude do vazamento, o desempenho do sistema proposto
se mantm razovel mesmo para valores V/Q < 3%.
Como mostrado, o sistema de reconhecimento de padres proposto produziu resultados
animadores para o problema de deteco de vazamentos para o qual foi projetado. Por ser este
um trabalho de explorao de uma nova metodologia, foram estabelecidos limites ao
problema de deteco, desconsiderando, por exemplo, otimizao da segmentao para
aplicao em tempo real, as variaes nas condies do escoamento por razes diferentes ao
vazamento ou diferentes localizaes do vazamento. Recomenda-se a incorporao de novas
condies para comprovar a resposta do sistema proposto, com os ajustes necessrios.
Considerando os resultados obtidos e a grande quantidade de ferramentas de anlise de sinais
e aprendizado de mquina, das quais s algumas foram aplicadas neste trabalho, recomendase em geral a explorao dessas ferramentas de anlise para a deteco de vazamentos em
sistemas reais de distribuio de gua para abastecimento.
112
9. REFERNCIAS
113
FERRANTE, M.; BRUNONE, B. Pipe system diagnosis and leak detection by unsteady-state
tests. 2. Wavelet analysis. Advances in Water Resources, v. 26, n. 1, p. 107116, jan. 2003.
FERRANTE, M.; BRUNONE, B.; MENICONI, S. Wavelets for the Analysis of Transient
Pressure Signals for Leak Detection. Journal of hydraulic engineering, v. 133, n. 11, p.
12741282, 2007.
FERRANTE, M.; BRUNONE, B.; MENICONI, S. Leak detection in branched pipe systems
coupling wavelet analysis and a Lagrangian model. Journal of Water Supply: Research
and TechnologyAQUA, v. 58, n. 2, p. 95, mar. 2009.
GRAPS, A. An introduction to wavelets. IEE Computational Science and Engineering, v.
2, n. 2, 1995.
HOLTE, R. C. Very Simple Classification Rules Perform Well on Most Commonly Used
Datasets. Machine Learning, v. 11, p. 6390, 1 abr. 1993.
KAPELAN, Z.; SAVIC, D.; WALTERS, G. A hybrid inverse transient model for leakage
detection and roughness calibration in pipe networks. JOURNAL OF HYDRAULIC
RESEARCH, v. 41, n. 5, p. 481492, 2003.
LIGGETT, J. A.; CHEN, L.-C. Inverse transient analysis in pipe networks. Journal of
hydraulic engineering, v. 120, n. 8, p. 934955, 1994.
MALLAT, S. A Wavelet Tour of Signal Processing. 2. ed. London: Academic Press, 1999.
MENICONI, S. et al. Potential of transient tests to diagnose real supply pipe systems: What
can be done with a single extemporary test. Journal of Water Resources Planning and
Management, v. 137, n. 2, p. 238241, 2011.
MEYER, Y. Time-Frequency / Time-Scale Analysis. In: Wavelet Analysis and its
applications. London: Academic Press, 1999. v. Volume 10.
MISIUNAS, D. Burst Detection and Location in Pipelines and Pipe Networks with
application in water distribution systems. Lund: Lund University, 2003.
MISIUNAS, D. et al. Pipeline Break Detection Using Pressure Transient Monitoring. Journal
of Water Resources Planning and Management, v. 131, n. 4, p. 316325, 1 jul. 2005.
MOUNCE, S. R.; BOXALL, J. B.; MACHELL, J. Development and verification of an online
artificial intelligence system for detection of bursts and other abnormal flows. Journal of
Water Resources Planning and Management, v. 136, n. 3, p. 309318, 2010.
MPESHA, W.; GASSMAN, S. L.; CHAUDHRY, M. H. Leak detection in pipes by frequency
response method. Journal of hydraulic engineering, v. 127, n. 2, 2001.
NIXON, W. et al. Range of Validity of the Transient Damping Leakage. Journal of
hydraulic engineering, v. 132, n. 9, p. 944957, 2006.
114
PALAU, C. V.; ARREGUI, F. J.; CARLOS, M. Burst Detection in Water Networks Using
Principal Component Analysis. Journal of Water Resoucer planning and management, v.
138, n. 1, p. 4754, 2012.
PILCHER, R. Leak location and repair guidance notes and the never ending war against
leakageWater Loss. Anais...Bucareste, Romnia: 2007
POULAKIS, Z.; VALOUGEORGIS, D.; PAPADIMITRIOU, C. Leakage detection in water
pipe networks using a Bayesian probabilistic framework. Probabilistic Engineering
Mechanics, v. 18, n. 4, p. 315327, out. 2003.
PROAKIS, J. G.; MANOLAKIS, D. G. Digital Signal Processing. 4. ed. UpperSaddleRiver:
Pearson Education, 2007.
PUDAR, R. S.; LIGGETT, J. A. Leaks in Pipe Networks. Journal of Hydraulic
Engineering, v. 118, n. 7, p. 10311046, jul. 1992.
PUUST, R. et al. A review of methods for leakage management in pipe networks. Urban
Water Journal, v. 7, n. 1, p. 2545, fev. 2010.
QUINLAN, J. R. C4.5: programs for machine learning. San Francisco, CA, USA: Morgan
Kaufmann Publishers Inc., 1993.
REIS, L. F.; PORTO, R.; CHAUDHRY, F. Optimal location of control valves in pipe
networks by genetic algorithm. Journal of Water Resources Planning and Management, v.
123, n. 6, p. 317326, 1997.
REZENDE, S. O. Sistemas inteligentes. Fundamentos e Aplicaoes. Barueri: Manole,
2003.
ROMANO, M.; KAPELAN, Z.; SAVIC, D. Bayesian-based online burst detection in
water distribution systems10th International Conference on computing and control for the
Water Industry. Anais...Sheffield: 2009
ROMANO, M.; KAPELAN, Z.; SAVIC, D. Anomaly Detection Based in Bayesian
InferenceGBPCT/GB2010/000961, , 2010.
ROMANO, M.; KAPELAN, Z.; SAVIC, D. Automated Detection of pipe burst and other
events in water distribution systems. Journal of Water Resources Planning and
Management, 2012.
ROMANO, M.; KAPELAN, Z.; SAVIC, D. Testing of the system for detection of pipe
bursts and other events in a uk water distribution system14th Water Distribution System
Analysis Conference. Anais...Adelaide: 2012
SALDARRIAGA, J. G.; FUENTES, D. A. A.; GALVIS, L. F. C. Implementation of the
Hydraulic Transient and Steady Oscillatory Flow with Genetic Algorithms for Leakage
Detection in Real Water Distribution NetworksWater Distribution Systems Analysis
Symposium 2006Reston, VAASCE, , 13 mar. 2006.
115
116
ENE
160
80
80
0
0
20
40
60
80
100
120
ENT
160
40
60
80
100
120
ENT
80
0
2
NCZ
160
80
0
0
20
40
60
80
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
20
160
80
NCZ
80
0
0
20
40
60
80
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
60
EDW - D2
160
80
160
60
EDW - D2
160
80
0
0
10
20
30
40
50
60
70
EDW - D1
160
10
20
30
40
50
60
70
EDW - D1
160
80
80
0
CLASSE
COM
SEM
ENE
160
10
20
30
40
50
60
CLASSE
COM
SEM
10
20
30
40
50
60
117
ENE
160
80
80
0
0
20
40
60
80
100
120
ENT
160
40
60
80
100
120
ENT
80
NCZ
160
80
0
0
20
40
60
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
20
160
80
5
NCZ
160
80
0
0
20
40
60
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
60
EDW - D2
160
10
20
30
40
50
60
EDW - D2
160
80
80
0
0
10
20
30
40
50
60
70
EDW - D1
160
10
20
30
40
50
60
70
EDW - D1
160
80
80
0
CLASSE
COM
SEM
ENE
160
10
20
30
40
50
60
CLASSE
COM
SEM
10
20
30
40
50
60
118
ENE
160
80
80
0
0
20
40
60
80
100
120
ENT
160
40
60
80
100
120
ENT
80
0
2
NCZ
160
80
0
0
20
40
60
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
20
160
80
NCZ
80
0
0
20
40
60
80
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
60
EDW - D2
160
80
160
60
EDW - D2
160
80
0
0
10
20
30
40
50
60
70
EDW - D1
160
10
20
30
40
50
60
70
EDW - D1
160
80
80
0
CLASSE
COM
SEM
ENE
160
10
20
30
40
50
60
CLASSE
COM
SEM
10
20
30
40
50
60
119
ENE
160
80
80
20
40
60
80
100
120
ENT
160
40
60
80
100
120
ENT
80
0
NCZ
160
80
0
0
20
40
60
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
20
160
80
5
NCZ
160
80
0
0
20
40
60
80
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
60
EDW - D2
160
10
20
30
40
50
60
EDW - D2
160
80
80
0
0
10
20
30
40
50
60
70
EDW - D1
160
10
20
30
40
50
60
70
EDW - D1
160
80
80
0
CLASSE
COM
SEM
ENE
160
10
20
30
40
50
60
CLASSE
COM
SEM
10
20
30
40
50
60
120
ENE
160
80
80
0
0
20
40
60
80
100
120
ENT
160
40
60
80
100
120
ENT
80
0
2
NCZ
160
80
0
0
20
40
60
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
20
160
80
80
0
0
20
40
60
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
60
EDW - D2
160
80
5
NCZ
160
60
EDW - D2
160
80
0
0
10
20
30
40
50
60
70
EDW - D1
160
10
20
30
40
50
60
70
EDW - D1
160
80
80
0
CLASSE
COM
SEM
ENE
160
0
0
10
20
30
40
50
60
CLASSE
COM
SEM
10
20
30
40
50
60
121
ENE
160
80
80
0
0
20
40
60
80
100
120
ENT
160
40
60
80
100
120
ENT
80
NCZ
160
80
0
0
20
40
60
80
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
20
160
80
NCZ
80
0
0
20
40
60
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
60
EDW - D2
160
80
160
60
EDW - D2
160
80
0
0
10
20
30
40
50
60
70
EDW - D1
160
10
20
30
40
50
60
70
EDW - D1
160
80
80
0
CLASSE
COM
SEM
ENE
160
0
0
10
20
30
40
50
60
CLASSE
COM
SEM
10
20
30
40
50
60
122
ENE
160
80
80
0
0
20
40
60
80
100
120
ENT
160
40
60
80
100
120
ENT
80
NCZ
160
80
0
0
20
40
60
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
20
160
80
NCZ
80
0
0
20
40
60
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
60
EDW - D2
160
80
160
60
EDW - D2
160
80
0
0
10
20
30
40
50
60
70
EDW - D1
160
10
20
30
40
50
60
70
EDW - D1
160
80
80
0
CLASSE
COM
SEM
ENE
160
10
20
30
40
50
60
CLASSE
COM
SEM
10
20
30
40
50
60
123
ENE
160
80
80
0
0
20
40
60
80
100
120
ENT
160
40
60
80
100
120
ENT
80
0
2
NCZ
160
80
0
0
20
40
60
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
20
160
80
5
NCZ
160
80
0
0
20
40
60
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
60
EDW - D2
160
10
20
30
40
50
60
EDW - D2
160
80
80
0
0
10
20
30
40
50
60
70
EDW - D1
160
10
20
30
40
50
60
70
EDW - D1
160
80
80
0
CLASSE
COM
SEM
ENE
160
10
20
30
40
50
60
CLASSE
COM
SEM
10
20
30
40
50
60
124
ENE
160
80
80
20
40
60
80
100
120
40
60
80
100
120
ENT
160
80
80
NCZ
160
80
0
0
20
40
60
80
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
10
20
30
40
50
20
ENT
160
5
NCZ
160
80
0
0
20
40
60
EDW - A3
160
80
0
0
15
30
45
60
75
90
EDW - D3
160
80
0
0
60
EDW - D2
160
10
20
30
40
50
60
EDW - D2
160
80
80
0
0
10
20
30
40
50
60
70
EDW - D1
160
CLASSE
COM
SEM
ENE
160
80
10
20
30
40
20
50
60
CLASSE
COM
SEM
30
40
50
60
70
EDW - D1
160
80
10
10
20
30
40
50
60
125
Sensor
P01
P02
P03
P04
Itera.
VC
FS
FC
VS
% acerto
AAC
29
31
96.77%
0.965
28
29
30
30
26
27
30
28
28
31
31
31
30
30
31
31
31
30
29
31
31
31
30
30
30
29
31
29
28
31
31
31
30
29
31
30
30
29
29
3
2
1
1
5
4
1
3
3
0
0
0
1
1
0
0
0
1
2
0
0
0
1
1
1
2
0
2
3
0
0
0
1
2
0
1
1
2
2
2
1
2
0
1
6
0
0
3
0
0
1
2
2
1
1
1
1
2
0
0
2
2
1
1
2
0
1
1
0
0
2
1
1
1
1
0
0
1
29
30
29
31
30
25
31
31
28
31
31
30
29
29
30
30
30
30
29
31
31
29
29
30
30
29
31
30
30
31
31
29
30
30
30
30
31
31
30
91.94%
95.16%
95.16%
98.39%
90.32%
83.87%
98.39%
95.16%
90.32%
100.00%
100.00%
98.39%
95.16%
95.16%
98.39%
98.39%
98.39%
96.77%
93.55%
100.00%
100.00%
96.77%
95.16%
96.77%
96.77%
93.55%
100.00%
95.16%
93.55%
100.00%
100.00%
96.77%
96.77%
95.16%
98.39%
96.77%
98.39%
96.77%
95.16%
0.969
0.960
0.977
1.000
0.967
0.920
0.999
0.975
0.939
1.000
1.000
1.000
0.981
0.996
0.984
0.982
0.999
0.983
0.979
1.000
1.000
0.968
0.979
0.981
0.982
0.966
1.000
0.997
0.980
1.000
1.000
0.983
0.997
0.980
0.982
0.966
0.984
0.999
0.980
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
126
Sensor
P05
P06
P07
P08
P09
Itera.
VC
FS
FC
VS
% acerto
AAC
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
29
30
30
31
30
29
29
29
30
30
30
31
31
29
30
31
30
29
29
27
30
31
30
28
30
30
30
30
31
29
31
31
31
28
29
27
30
29
29
30
30
31
31
28
29
29
31
29
30
28
2
1
1
0
1
2
2
2
1
1
1
0
0
2
1
0
1
2
2
4
1
0
1
3
1
1
1
1
0
2
0
0
0
3
2
4
1
2
2
1
1
0
0
3
2
2
0
2
1
3
2
0
3
1
2
3
4
0
2
2
0
0
2
1
2
1
1
1
1
2
0
0
2
0
1
1
1
0
2
1
1
0
2
2
0
2
2
2
2
1
1
0
2
1
2
1
3
0
1
2
29
31
28
30
29
28
27
31
29
29
31
31
29
30
29
30
30
30
30
29
31
31
29
31
30
30
30
31
29
30
30
31
29
29
31
29
29
29
29
30
30
31
29
30
29
30
28
31
30
29
93.55%
98.39%
93.55%
98.39%
95.16%
91.94%
90.32%
96.77%
95.16%
95.16%
98.39%
100.00%
96.77%
95.16%
95.16%
98.39%
96.77%
95.16%
95.16%
90.32%
98.39%
100.00%
95.16%
95.16%
96.77%
96.77%
96.77%
98.39%
96.77%
95.16%
98.39%
100.00%
96.77%
91.94%
96.77%
90.32%
95.16%
93.55%
93.55%
96.77%
96.77%
100.00%
96.77%
93.55%
93.55%
95.16%
95.16%
96.77%
96.77%
91.94%
0.980
0.983
0.960
0.998
0.966
0.947
0.939
0.997
0.993
0.979
0.998
1.000
0.983
0.981
0.980
0.983
0.982
0.981
0.981
0.944
0.998
1.000
0.982
0.963
0.981
0.967
0.981
0.983
0.997
0.978
0.983
1.000
0.967
0.974
0.983
0.931
0.979
0.961
0.978
0.981
0.998
1.000
0.967
0.994
0.964
0.950
0.982
0.998
0.982
0.976
127
Sensor
P11
P12
P13
P14
P15
Itera.
VC
FS
FC
VS
% acerto
AAC
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
30
29
31
30
30
30
30
31
29
29
31
31
31
29
30
30
30
30
30
29
30
30
31
30
29
27
29
31
31
31
31
31
28
28
31
27
29
30
30
31
30
30
31
30
30
27
30
29
30
30
1
2
0
1
1
1
1
0
2
2
0
0
0
2
1
1
1
1
1
2
1
1
0
1
2
4
2
0
0
0
0
0
3
3
0
4
2
1
1
0
1
1
0
1
1
4
1
2
1
1
0
0
2
0
1
1
1
1
0
2
0
0
2
2
1
1
1
0
0
1
0
0
0
0
2
1
2
0
0
1
0
0
1
1
2
2
4
1
2
2
1
1
2
1
0
1
3
0
1
1
31
31
29
31
30
30
30
30
31
29
31
31
29
29
30
30
30
31
31
30
31
31
31
31
29
30
29
31
31
30
31
31
30
30
29
29
27
30
29
29
30
30
29
30
31
30
28
31
30
30
98.39%
96.77%
96.77%
98.39%
96.77%
96.77%
96.77%
98.39%
96.77%
93.55%
100.00%
100.00%
96.77%
93.55%
96.77%
96.77%
96.77%
98.39%
98.39%
95.16%
98.39%
98.39%
100.00%
98.39%
93.55%
91.94%
93.55%
100.00%
100.00%
98.39%
100.00%
100.00%
93.55%
93.55%
96.77%
90.32%
90.32%
96.77%
95.16%
96.77%
96.77%
96.77%
96.77%
96.77%
98.39%
91.94%
93.55%
96.77%
96.77%
96.77%
0.998
0.996
0.967
0.982
0.982
0.966
0.996
0.983
0.996
0.977
1.000
1.000
0.984
0.980
0.980
0.967
0.982
0.999
0.999
0.981
0.982
0.983
1.000
0.983
0.980
0.946
0.948
1.000
1.000
1.000
1.000
1.000
0.951
0.978
0.998
0.930
0.971
0.998
0.979
0.981
0.997
0.996
0.981
0.997
0.999
0.918
0.959
0.998
0.982
0.981
128
Sensor
P16
Q01
Q02
Q03
Itera.
VC
FS
FC
VS
% acerto
AAC
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
30
31
30
31
31
29
29
31
29
29
28
27
27
30
29
22
30
29
31
29
28
29
26
30
27
27
27
29
30
28
29
25
24
26
26
21
27
29
29
28
1
0
1
0
0
2
2
0
2
2
3
4
4
1
2
9
1
2
0
2
3
2
5
1
4
4
4
2
1
3
2
6
7
5
5
10
4
2
2
3
1
0
3
2
1
2
4
0
0
2
1
2
2
4
3
2
4
1
3
5
4
4
0
3
1
2
3
2
2
3
6
2
8
6
5
2
5
3
6
4
30
31
28
29
30
29
27
31
31
29
30
29
29
27
28
29
27
30
28
26
27
27
31
28
30
29
28
29
29
28
25
29
23
25
26
29
26
28
25
27
96.77%
100.00%
93.55%
96.77%
98.39%
93.55%
90.32%
100.00%
96.77%
93.55%
93.55%
90.32%
90.32%
91.94%
91.94%
82.26%
91.94%
95.16%
95.16%
88.71%
88.71%
90.32%
91.94%
93.55%
91.94%
90.32%
88.71%
93.55%
95.16%
90.32%
87.10%
87.10%
75.81%
82.26%
83.87%
80.65%
85.48%
91.94%
87.10%
88.71%
0.982
1.000
0.945
0.980
0.999
0.932
0.943
1.000
0.968
0.964
0.974
0.938
0.968
0.972
0.944
0.932
0.968
0.977
0.978
0.977
0.950
0.959
0.944
0.980
0.961
0.950
0.937
0.963
0.993
0.975
0.956
0.928
0.802
0.888
0.915
0.900
0.892
0.933
0.906
0.935
129
P01
P02
P03
P04
P05
P06
130
P07
P08
P09
P11
P12
P13
131
P14
P15
P16
Q01
Q02
Q03