2016 Mestrado Geofisica Caio PDF

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/325630486
O uso de redes neurais na caracterização geofísica de reservatórios
Thesis · June 2016
CITATIONS READS
0 198
2 authors, including:
Milton J. Porsani
Universidade Federal da Bahia
454 PUBLICATIONS 1,004 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Filtering methods - CPGG-UFBA & NTNU View project
Ground-roll attenuation View project
All content following this page was uploaded by Milton J. Porsani on 07 June 2018.
The user has requested enhancement of the downloaded file.

DISSERTAÇÃO DE MESTRADO
O USO DE REDES NEURAIS NA

CARACTERIZAÇÃO GEOFÍSICA
DE RESERVATÓRIOS
CAIO MANOEL LIRA DA COSTA FONTES
SALVADOR BAHIA
JUNHO 2016
A
Documento preparado com o sistema L TEX.
Documento elaborado com os recursos grácos e de informática do CPGG/UFBA
O Uso de Redes Neurais Na Caracterização Geofísica de
Reservatórios
por
Caio Manoel Lira da Costa Fontes

Bacharel em Geofísica (Universidade Federal da Bahia 2014)
Orientador: Prof. Dr. Milton José Porsani
DISSERTAÇÃO DE MESTRADO
Submetida em satisfação parcial dos requisitos ao grau de
MESTRE EM CIÊNCIAS
EM
GEOFÍSICA
ao
Conselho Acadêmico de Ensino
da
Universidade Federal da Bahia
Comissão Examinadora
Dr. Milton José Porsani
Dr. Marco Antônio Barsottelli Botelho
Dr. Michelângelo Gomes da Silva
Aprovada em 3 de junho de 2016

A presente pesquisa foi desenvolvida no Centro de Pesquisa em Geofísica e Geologia da UFBA,
com recursos próprios, da CAPES, da CNPq, da FAPESB
Q999 Fontes, Caio Manoel Lira da Costa,

O Uso de Redes Neurais Na Caracterização Geofísica de Re-
servatórios / Caio Manoel Lira da Costa Fontes. Salvador,
2016.
48 f.: il., mapas, fotos.
Orientador: Prof. Dr. Milton José Porsani
Dissertação (Mestrado) - Pós-Graduação em Geofísica. Insti-
tuto de Geociências da Universidade Federal da Bahia, 2016.
1. Bahia - Geofísica. I. Título.
911.6(813.8)(043)
"If I have seen further it is by
standing on the shoulders of
Giants."
Isaac Newton
Resumo
As Redes Neurais Articiais (RNAs) são sistemas de processamento de informação inspirados
na organização e funcionalidade dos sistemas biológicos. Elas são implementadas utilizando
exemplos de problemas previamente resolvidos, isso os torna valioso para problemas onde
existem nenhum algoritmo processual. Elas são cada vez mais populares na geofísica, pois
esta ferramenta pode aproximar qualquer função contínua com uma precisão arbitrária.
O trabalho foi desenvolvido com o intuito de mostrar o funcionamento das redes neurais
como ferramenta de auxílio na caracterização de reservatórios. Com isso, foram feitas duas
aplicações.
Uma aplicação em um dado de poço que contem os pers de GR (Raios Gama), ∆t

(Sônico), NPHI (Neutrônico) e ρb (Densidade) e foi realizado o treinamento com algumas
combinações entre GR, ∆t e NPHI para estimar o perl de ρb . Depois, com o treinamento
realizado, a rede foi aplicada com os mesmos dados de entrada e comparado com o perl
original para comparar o perl real com o perl estimado de ρb pela aplicação da rede neural.
Já a outra aplicação, em dado real 3D, foi feita a partir de 4 poços (com pers de GR,
∆t, ρb e porosidade - φ) em correlação com dados sísmico 3D (já invertido para impedância
acústica) para fazer a predição de propriedades petrofísicas, conhecidas ao redor do poço,
e mapeá-lo em no volume sísmico na região do reservatório de interesse. Foram feitas duas
aplicações: mapear a distribuição litológica e porosa. Onde o dado de entrada para treina-
mento da rede neural foi a impedância acústica do volume ao redor dos poços e o dado de
saída foi, respectivamente, GR e φ. Após o treinamento, a rede foi aplicada no volume e
mapeada as regiões onde se encontram a melhor região do reservatório, com baixo valor de
GR e alto valor de φ, onde o engenheiro de reservatório poderá fazer modelos de uxo para
explotar a reserva.
4
Abstract
The Articial Neural Networks (ANNs) are information processing systems inspired by the
organization and function of biological systems. They are implemented using examples
of previously solved problems, this makes them valuable for problems where there are no
procedural algorithm. They are becoming increasingly popular in geophysics, because this
tool can approximate some continuous function with an arbitrary precision.
The study was developed with the intention of show the functioning of neural networks
as a tool in reservoir characterization. With this, two applications were made.
An application in a well data that contains GR (Gamma Ray), ∆t (Sonic), NPHI (Neu-
tronic) e ρb (Density) proles, to estimate ρb prole. Then, with the training performed, the
network was applied to the same input data, for comparing the real prole with the ρb esti-
mated prole through the applying the neural network. This application can be extended to
create the prole in a nearby well that is missing some data well through this prole, which
be near and correlatable.
Already the other application, to the 3D data, was made from 4 wells (with GR, ∆t,
ρb and porosity φ proles) in correlation with 3D real seismic data (already inverted in
acoustic impedance) to the prediction of petrophysical properties, known around the well,
and map it on seismic volume in the region of the reservoir of interest. Two applications
were made: to map the lithology and porous distribution. Where the input to the neural
network training was the acoustic impedance volume around the wells and the output data
was gamma ray (GR) and porosity (φ), respectively. After training, the network was applied
in the volume and mapped the regions where the best area of the reservoir, with low GR
and high porosity value, where the reservoir engineer be able to make ow models to exploit
the reserves.
5
Índice
Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Índice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Índice de Tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Índice de Figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1 Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.1 Características relevantes das Redes Neurais Articiais . . . . . . . . 21
1.1.2 Modelo de um Neurônio . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.1.3 Tipos de Função de Ativação . . . . . . . . . . . . . . . . . . . . . . 25
1.1.4 Arquiteturas de Redes . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.2 Processos de Aprendizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.2.1 Aprendizado Supervisionado . . . . . . . . . . . . . . . . . . . . . . . 32
1.2.2 Aprendizado por Reforço . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.2.3 Aprendizado Não-Supervisionado . . . . . . . . . . . . . . . . . . . . 38
1.2.4 Tarefas de Aprendizagem . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.3 O Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1.4 Multilayer Perceptrons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.4.1 Sumário do Algoritmo Backpropagation e Sugestões Operacionais . . 47
2 Caracterização Geofísica de Reservatório . . . . . . . . . . . . . . . . . . 51
2.1 Perlagem Geofísica de Poço . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.1.1 Perl de Raio Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.1.2 Perl Sônico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6
Índice 7
2.1.3 Perl Neutrônico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.1.4 Perl de Densidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.2 Dado Sísmico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.2.1 Impedância Acústica . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.3 Modelagem de Reservatório . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3 Aplicações e Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.1 Dados de Poço . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.1.1 Utilizando a Equação de Gardner . . . . . . . . . . . . . . . . . . . . 65
3.1.2 Utilizando Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.1.3 Comparação dos Resultados . . . . . . . . . . . . . . . . . . . . . . . 75
3.2 Dado Sísmico 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.2.1 Pré-Processamento dos Dados de Treinamento . . . . . . . . . . . . . 82
3.2.2 Treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.2.3 Aplicação da Rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.2.4 Mapeamento de Propriedades Petrofísicas do Reservatório . . . . . . 90
4 Conclusões e Recomendações . . . . . . . . . . . . . . . . . . . . . . . . . 93
Agradecimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Apêndice A O Teorema da Convergência do Perceptron . . . . . . . . . . . 96
Apêndice B O Algoritmo Backpropagation . . . . . . . . . . . . . . . . . . . 104
Referências Bibliográcas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

Índice de Tabelas
3.1 Informações dos treinamentos das redes aplicadas . . . . . . . . . . . . . . . 85
A.1 Sumário do Algoritmo de Convergência do Perceptron . . . . . . . . . . . . . 102
8
Índice de Figuras
1.1 Representação do sistema nervoso em diagrama. . . . . . . . . . . . . . . . . 15
1.2 Neurônios do sistema nervoso central dos vertebrados: do lado esquerdo o
neurônio motor da célula espinhal; do lado direito a célula de Purkinje en-
contrada no cerebelo. Esta célula é notável pela extensa ramicação da sua
árvore dentrital, da qual apenas uma pequena parte é mostrada na gura,
podendo ultrapassar várias dezenas de vezes as dimensões do corpo celular. . 16
1.3 Organização estrutural de níveis no cérebro. . . . . . . . . . . . . . . . . . . 18
1.4 Exemplo de arquitetura de uma Rede Neural Articial. . . . . . . . . . . . . 20
1.5 Modelo não-linear de um neurônio. . . . . . . . . . . . . . . . . . . . . . . . 23
1.6 Transformação produzida pela polarização ou bias (vk = bk para uk = 0). . . 25
1.7 Outro modelo não-linear de um neurônio. . . . . . . . . . . . . . . . . . . . . 25
1.8 (a) Função Threshold, (b) Função Piecewise-linear, (c) Função Sigmóide. . . 26
1.9 Rede progressiva formada por uma única camada de neurônios (representada
com quatro nós na camada de entrada e quatro neurônios na camada de saída). 29
1.10 Rede progressiva multicamadas completamente conectada, formada por uma
única camada escondida de neurônios e uma única camada de saída (repre-
sentada com 10 nós fontes na camada de entrada, 4 neurônios escondidos e 2
neurônios na camada de saída). . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.11 Rede recorrente em que não há loops auto-realimentados, nem neurônios es-
condidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.12 Rede recorrente com neurônios escondidos e loops auto-realimentados. . . . . 31
1.13 Diagrama de Blocos representativo do aprendizado por meio de um tutor. . . 33
1.14 Superfície de Erro apresentando um ponto de mínimo local e um ponto de
mínimo global. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.15 Aprendizado por correção de erro. . . . . . . . . . . . . . . . . . . . . . . . . 35
1.16 Diagrama de blocos do aprendizado por reforço. . . . . . . . . . . . . . . . . 37
1.17 diagrama de blocos do aprendizado não-supervisionado. . . . . . . . . . . . . 38
1.18 Grafo de uxo de sinal do Perceptron. . . . . . . . . . . . . . . . . . . . . . 41
9
Índice de Figuras 10
1.19 Ilustração do hiperplano (neste caso, uma linha reta) como limite de decisão
para um problema de classicação de padrões de duas classes (bidimensional). 42
1.20 Arquitetura de uma rede neural multilayer perceptron com duas camadas es-
condidas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.21 Ilustração das direções dos dois uxos básicos de sinal em uma rede multilayer
perceptron : propagação direta dos sinais e retro-propagação dos sinais de erro. 47
57gure.caption.44
2.2 Esboço, passo-a-passo, da construção de um modelo geológico 3D de alta
resolução de um reservatório. Adaptado de Pérez (2008) . . . . . . . . . . . 62
3.1 Conjunto dos Pers de poços utilizados. . . . . . . . . . . . . . . . . . . . . 64
3.2 Pers de ∆t e ρb (Original e calculado pela equação de Gardner). . . . . . . 65
3.3 Gráco de performance do treinamento, onde o erro médio quadrático ( mse )

se estabilizou e foi parado o treinamento da rede com ∆t como dado de entrada. 66
3.4 Grácos de regressão para os dados utilizados para treinamento,teste, valida-
ção e todos juntos para a rede com ∆t como dado de entrada na rede e ρb
como dado alvo do treinamento. . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.5 Pers de ∆t e ρb original e estimado (através da rede com ∆t como dado de
entrada). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

se estabilizou e foi parado o treinamento da rede com ∆t e NPHI como dados
de entrada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
ção e todos juntos para a rede com ∆t e NPHI como dados de entrada na rede
e ρb como dado alvo do treinamento. . . . . . . . . . . . . . . . . . . . . . . 70
3.8 Pers de ∆t e NPHI, e ρb original e estimado (através da rede com ∆t e NPHI

como dados de entrada). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

se estabilizou e foi parado o treinamento da rede com ∆t, NPHI e GR como
dados de entrada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
ção e todos juntos para a rede com ∆t, NPHI e GR como dados de entrada
na rede e ρb como dado alvo do treinamento. . . . . . . . . . . . . . . . . . . 73
3.11 Pers de ∆t, NPHI e GR, e ρb original e estimado (através da rede com ∆t,
NPHI e GR como dados de entrada). . . . . . . . . . . . . . . . . . . . . . . 74
3.12 Comparação dos métodos para obtenção do perl de ρb por: Gardner; redes
neurais com ∆t como dado de entrada da rede; redes neurais com ∆t e NPHI
como dados de entrada da rede; e redes neurais com ∆t, NPHI e GR como
dados de entrada da rede; . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.13 Mapa com a localização da área de estudo no Mar do Norte e a ampliação
do mapa na região do dado, com localização dos poços dentro do volume.
Adaptado de Qayyum et al. (2013). . . . . . . . . . . . . . . . . . . . . . . . 77
3.14 Dimensão do cubo sísmico ( inline × crossline × profunidade em tempo) e a

disposição dos 4 poços nele. . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.15 Pers de GR e φ nos 4 poços na zona do reservatório. . . . . . . . . . . . . . 78
3.16 Visualisação ampla do dado, com a inline 442 (onde o poço F03-4 está contido)
composto com a crossline 387, (onde o poço F06-1 está contido). Reservatório
deltaico localizado entre o tempo 600 e 1100 ms, aproximadamente. . . . . . 79
3.17 Esquema da aplicação da rede neural para predição de propriedades, mos-
trando como o funcionamento e a forma de trabalho da rede, de forma sim-
plicada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.18 Cubo de impedância acústica (em kg/m3 × m/s) e os 4 poços contidos no
volume que tiveram seus pers utilizados como dado de entrada em cada rede
treinada e sua posterior aplicação. . . . . . . . . . . . . . . . . . . . . . . . . 81
3.19 Histograma do vetor de GR onde o parâmetro P DP C = 41. Que possui 4198
amostras coletadas dos 4 poços, onde o mínimo e o máximo são, respectiva-
mente, 31.66 e 80.28 GAP I . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.20 Histograma do vetor de φ onde o parâmetro P DP C = 42. Que possui 4195
amostras coletadas dos 4 poços, onde o mínimo e o máximo são, respectiva-
mente, 0.2507 e 0.3587 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.21 Cross-plot GR × AI. Ficando claro o comportamento não-linear e com grau
baixo de correlação (r = 0.23) entre os pares entrada × alvo. . . . . . . . . . 83
3.22 Cross-plot φ× AI. Ficando claro o comportamento não-linear e com um grau
de correlação médio (r = 0.59) entre os pares entrada × alvo. . . . . . . . . . 84
3.23 Curva de erro RM Snorm e gráco de dispersão no treinamento da rede de
GR, onde o treinamento foi parado com o valor do erro RMS normalizado do
treinamento igual a 0,578286. Com a representação dos dados treinados em
vermelho e dos dados de teste em azul. . . . . . . . . . . . . . . . . . . . . . 86
3.24 Curva de erro RM Snorm e gráco de dispersão no treinamento da rede de
φ, onde o treinamento foi parado com o valor do erro RMS normalizado do
treinamento igual a 0,712011.. Com a representação dos dados treinados em
vermelho e dos dados de teste em azul. . . . . . . . . . . . . . . . . . . . . . 87

3.25 Disposição do dado para visualização da área em estudo, por uma seção com-
posta de linhas passando pelos poços F03-2, F03-4 e F06-1 . . . . . . . . . . 88
3.26 Cubo de Impedância Acústica em kg/m3 ×m/s como dado de entrada da rede
neural. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.27 Volume sísmico com a propriedade petrofísica de GR, em GAP I , gerado pela
aplicação da rede que teve o volume de impedância acústica como dado de
entrada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.28 Volume sísmico com a propriedade petrofísica de φ, gerado pela aplicação da
rede que teve o volume de impedância acústica como dado de entrada. . . . . 89
3.29 Volume sísmico com região de baixo GR no reservatório, que consequente-
mente tem baixo conteúdo argiloso na sua matriz e poros, e que provavelmente
sejam arenitos de planície e frente deltaica. . . . . . . . . . . . . . . . . . . . 91
3.30 Volume sísmico com região de alta porosidade no reservatório, que consequen-
temente tem um maior grau de seleção dos grãos, aumentando seu volume
poroso, e que provalmente sejam arenitos de planície e frente deltaica. . . . . 91
3.31 Volume sísmico com de LGR, sobreposto a região de HPHI, no reservatório.
(LGR: Baixo GR, HPHI: Alta Porosidade; BR: Melhor Reservatório → LGR
∩ HPHI). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
3.32 Modelo geológico do reservatório caracterizado onde em amarelo tem-se os
melhores arenitos reservatórios que são de planície e frente deltaica. . . . . . 92
A.1 Grafo de uxo de sinal equivalente do Perceptron (a dependência do tempo
foi omitida por questões de clareza). . . . . . . . . . . . . . . . . . . . . . . . 96
A.2 (a) Um par de padrões linearmente separáveis. (b) Um par de padrões não-
linearmente separáveis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
B.1 Grafo de uxo de sinal no neurônio j. . . . . . . . . . . . . . . . . . . . . . . 107
B.2 Grafo de uxo de sinal mostrando os detalhes do neurônio de saída k comec-
tado ao neurônio escondido j. . . . . . . . . . . . . . . . . . . . . . . . . . . 109
B.3 Grafo de uxo de sinal mostrando o processo de retro-propagação dos sinais
de erro na camada de saída para um neurônio j da camada escondida imedi-
atamente à esquerda. mL é o número de neurônios da camada de saída. . . . 110

0 2
B.4 Gráco de ϕ(v) = a tanh(bv) e ϕ (v) = ab(1 − tanh (bv)) para a = 1.7159 e
b = 2/3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Introdução
As redes neurais são sistemas de processamento de informação inspirados na organização e
funcionalidade dos sistemas neurais biológicos. Elas têm capacidade de reconhecimento de
padrões poderosas e sosticadas que os tornam úteis para a análise de imagens e de classi-
cação problemas. Além disso, a única maneira na qual eles são implementados - utilizando
exemplos de problemas previamente resolvidos - os torna particularmente valioso para pro-
blemas no qual existe nenhum algoritmo processual. Muitas tarefas que são intuitivas ou de
natureza subjetiva e têm sido tradicionalmente pensado para residir totalmente dentro da
esfera humana de atividades agora podem ser realizadas utilizando redes neurais. A aceita-
ção do usuário de programas à base de redes neurais é bom, já que a rede imita o estilo de
análise do usuário que treinou (McCormack, 1991).
As redes neurais são cada vez mais popular em geofísica, porque eles são aproximadores
universais, esta ferramenta pode aproximar qualquer função contínua com uma precisão
arbitrária. Assim, elas podem produzir importantes contribuições para a busca de soluções
em uma variedade de aplicações na geofísica (Baan e Jutten, 2000).
As redes neurais ganharam popularidade na geofísica desde a década de 90. Ela tem sido
aplicada com sucesso em uma variedade de problemas. No domínio geofísico, as redes neurais
tem sido utilizadas para o reconhecimento da forma de onda e os picos de primeira quebra
(Murat e Rudman, 1992; McCormack et al., 1993); inversão eletromagnética (Poulton et al.,
1992), magnetotelúrica (Zhang e Paulson, 1997), e sísmica (Röth e Tarantola, 1994; Langer
et al., 1996; Macías et al., 1997); separação de onda S (Dai e MacBeth, 1994), análise de
perl de poço (Huang et al., 1996), edição de traços (McCormack et al., 1993), deconvolução
sísmica (Wang e Mendel, 1992; Macías et al., 1997), e classicação de eventos (Dowla et al.,
1990; Romeo, 1994); e para muitos outros problemas.
Com o avanço tecnológico ao passar dos anos, e com a melhoria na aquisição e processa-
mento de dados sísmicos, foi possível aumentar o conhecimento geológico de bacias explora-
tórias ao redor do mundo. Consequentemente, a resolução dos dados foram aumentando, de
caráter exploratório regional da bacia, passando para os plays exploratórios da bacia e poste-
13
Introdução 14
riormente passando para o nível de reservatório e sua distribuição espacial através de dados
sísmicos tridimensionais e dados de poços, fazendo uma extensão de propriedades petrofí-
sicas, conhecidas através do dado de poço, por todo o meio sismicamente imageado. Com
isso, a utilização das redes neurais na geofísica foram ganhando grande utilidade nesta área
de caracterização de reservatórios (Herrera et al., 2006; Marques, 2011). As redes neurais
tem sido usadas para predição de propriedades petrofísicas, como porosidade (AlBinHassan
e Wang, 2011) e litologia (Raeesi et al., 2012), através de volumes sísmicos e dados de poços.
Para o estudo das reservas petrolíferas, o planejamento de desenvolvimento de campos
petrolíferos e análise dos custos que podem estar envolvidos na exploração e/ou produção
destes campos surge a engenharia de reservatórios. É uma área de grande importância
para o estudo e desenvolvimento da atividade petrolífera, permitindo o surgimento de novas
metodologias para a pesquisa, extração e produção de petróleo. Para a caracterização de re-
servatórios é necessário que seja feita a distribuição quantitativa das propriedades do mesmo
e revelar as incertezas que podem estar associadas ao mesmo de acordo a sua variabilidade
espacial, este processo permitirá prever o comportamento do uxo no reservatório (Marques,
2011). Com isso, um dos principais objetivos da caracterização de reservatório é estudar
as propriedades geológicas e pretrofísicas de um sistema petrolífero para melhor explorar e
produzir no reservatório.
Os capítulos dessa dissertação se encontram estruturados da seguinte forma:
• No capítulo 1 será feita uma fundamentação teórica das redes neurais, sua origem,
modelos e como ela funciona.
• No capítulo 2 será feito uma fundamentação teórica dos objetos de estudos necessários
para se compreender como e por qual motivo é feita a caracterização de um reservatório,
e quais ferramentas e dados são necessários para que isso seja feito.
• No capítulo 3 será apresentado a metodologia do trabalho, suas consequentes aplicações
em um modelo com uma maior complexidade (3D real) onde será feita a predição de
propriedades físicas e litológicas do reservatório; por m, a interpretação e discussão
dos resultados obtidos.

1
Redes Neurais
1.1 Introdução
Uma Rede Neural Articial é uma estrutura computacional projetada para mimetizar a
maneira pela qual o cérebro desempenha uma particular tarefa de seu interesse.
As Redes Neurais Articiais têm analogia neurobiológica como fonte de inspiração. O
cérebro opera de uma forma altamente complexa, não-linear e paralela. O sistema nervoso
humano pode ser visto como um sistema de três estágios, conforme descrito no diagrama
mostrado na Figura 1.1. No centro do sistema está o cérebro, representado pela rede neu-
ral, o qual recebe continuamente informações, as percebe (compreende) e toma decisões
apropriadas.
Figura 1.1: Representação do sistema nervoso em diagrama.
Na Figura 1.1, as setas apontando da esquerda para a direita indicam transmissão pro-
gressiva de sinais de informação externa, através do sistema. As setas apontando da direita
para a esquerda signicam a presença de realimentação no sistema. Os receptores convertem
o estímulo vindo do corpo humano ou do ambiente externo em impulsos elétricos que condu-
zem informação para a rede neural, ou seja, o cérebro. Os atuadores convertem os impulsos
elétricos gerados pela rede neural em respostas discerníveis como saídas do sistema.
Desde o pioneiro trabalho de Ramon (1911), os neurônios são considerados as estrutu-
15
Redes Neurais 16
ras que constituem o cérebro. O cérebro tem a capacidade de organizar seus componentes
estruturais de forma a desempenhar certas operações, tais como reconhecimento de padrões,
controle de movimento, entre outros, e, muitas vezes mais rápido do que o mais rápido com-
putador digital existente. Os neurônios são de cinco a seis ordens de grandeza mais lentos
que as portas lógicas de silício; os eventos em um chip de silício acontecem na ordem de na-
−9 −3
nosegundos (10 s), enquanto eventos neurais acontecem no ordem de milisegundos (10 s).
Entretanto, o cérebro compensa a taxa de operação relativamente lenta de um neurônio atra-
vés de um, inacreditavelmente grande, número de neurônios, com densas interconexões entre
eles. Estima-se em aproximadamente 10 bilhões de neurônios no córtex humano, e 60 tri-
lhões de sinapses ou conexões. O cérebro é uma estrutura extremamente eciente, a eciência
energética do cérebro é de aproximadamente 10−16 J/operação/s, enquanto que o valor cor-
respondente para o melhor computador existente é de aproximadamente 10−6 J/operação/s.
Como qualquer célula biológica, o neurônio é delimitado por uma na membrana celular
que possui determinadas propriedades essenciais para o funcionamento elétrico da célular
nervosa. A partir do corpo celular (ou soma), que é o centro dos processos metabólicos
da célula nervosa, projetam-se extensões lamentares, que são os dentritos, e o axônio,
conforme pode ser visto na Figura 1.2. Os dentritos frequentemente cobrem um volume,
muitas vezes, maior do que o próprio corpo celular e formam uma árvore dentrital. A
outra projeção lamentar do corpo celular, o axônio, também referido como bra nervosa,
serve para conectar a célula nervosa a outras do sistema nervoso. Os axônios são linhas
de transmissão e os dentritos, zonas receptivas. O neurônio possui, geralmente, um único
axônio, embora este possa apresentar algumas ramicações.
Figura 1.2: Neurônios do sistema nervoso central dos vertebrados: do lado esquerdo o neurô-
nio motor da célula espinhal; do lado direito a célula de Purkinje encontrada no cerebelo.
Esta célula é notável pela extensa ramicação da sua árvore dentrital, da qual apenas uma
pequena parte é mostrada na gura, podendo ultrapassar várias dezenas de vezes as dimen-
sões do corpo celular.
O neurônio biológico é, basicamente, o dispositivo computacional elementar do sistema
nervoso, que possui (muitas) entradas e uma saída. As entradas ocorrem através das conexões
Redes Neurais 17
sinápticas, que conectam a árvore dentrital aos axônios de outras células nervosas. Os sinais
chegam aos axônios de outras células nervosas são pulsos elétricos conhecidos como impulsos
nervosos ou potenciais de ação e constituem a informação que o neurônio processará de
alguma forma para produzir como saída de um impulso nervoso no seu axônio. As sinapses
são regiões eletroquimicamente ativas, compreendidas entre duas membranas celulares: a
membrana pré-sináptica (por onde chega um estímulo proveniente de uma outra célula) e
a membrana pós-sináptica (que é a do dentrito). Nesta região intersináptica, o estímulo
nervoso, que chega à sinapse, é transferido à membrana dentrital através de substâncias
conhecidas como neurotransmissores. O resultado desta transferência é uma alteração no
potencial elétrico da membrana pós-sináptica. Dependendo do tipo de neurotransmissor,
a conexão sináptica será excitatória ou inibitória. Uma conexão excitatória provoca uma
alteração no potencial da membrana que contribui para a formação de um impulso nervoso
no axônio de saída, enquanto que uma conexão inibitória age no sentido oposto. Uma sinapse
pode impor excitação ou inibição (uma ou outra) sobre neurônio receptivo.
A maioria dos neurônios codica suas saídas como uma série de breves pulsos de tensão.
Esses pulsos, conhecidos como potencial de ativação, originam-se no próprio corpo celular
do neurônio (ou próximo a ele) e então se propagam através dos neurônios individuais à
velocidade e amplitude constantes.
No cérebro há organizações anatômicas em pequena escala e grande escala, e diferentes
funções acontecem em níveis inferiores e superiores. A Figura 1.3 mostra tais níveis en-
trelaçados de organização. As sinapses representam o nível mais fundamental, dependendo
de moléculas e íons para sua atuação. Nos próximos níveis temos microcircuitos neurais,
árvores de dentritos e, então, neurônios. Um microcircuito neural se refere a um agrupa-
mento de sinapses organizadas em padrões de conectividade para produzir uma operação
funcional de interesse. Um microcircuito neural ser comparado a um chip de silício feito
do agrupamento de transistores. Os microcircuitos neurais são agrupados para formarem
subunidades dentríticas dentro das árvores dentríticas de neurônios individuais. O neurônio
contém várias subunidades dentríticas. No próximo nível de complexidade temos os circuitos
locais feitos de neurônios com propriedades similares ou diferentes; estes agrupamentos de
neurônios desempenham operações características de uma região localizada no cérebro. Isto
é seguido pelos circuitos interregionais feitos de caminhos, colunas e mapas topográcos, que
envolvem regiões localizadas em diferentes partes do cérebro. Estes mapas topográcos são
organizados para responder a informações sensoriais que chegam, eles são frequentemente
arranjados em placas que são empilhadas em camadas adjacentes, de forma que estímulos
vindos de pontos correspondentes no espaço estão acima ou abaixo de outros (por exemplo,
mapas visuais e auditivos estão empilhados em camadas adjacentes). No nível nal de com-
Redes Neurais 18
plexidade, os mapas topográcos e outros circuitos interregionais mediam especícos tipos
de comportamento no sistema nervoso central.
Figura 1.3: Organização estrutural de níveis no cérebro.
Uma rede cerebral é, portanto, um dispositivo geral de processamento. A função que a
rede cerebral computa é determinada pelos padrões de conexões, ou seja, o análogo de um
programa de computador baseado em algoritmos totalmente desconhecidos, que são natu-
ralmente implementados no cérebro. Além disto, é importante reconhecer que os neurônios
articiais que usamos para construir nossas redes neurais articiais são muito primitivos, se
comparados aos neurônios encontrados no cérebro, e as redes neurais articiais que somos
capazes de projetar são primitivas se comparadas aos circuitos locais e circuitos interregi-
onais do cérebro. No entanto, com a profusão de novas teorias, tanto no estudo das redes
neurais articiais, quanto no estudo da siologia cerebral, espera-se que nos próximos anos
este ramo da ciência seja um estudo muito mais sosticado do que é atualmente.
Um exemplo de tarefa de processamento de informação realizada pelo cérebro é o sistema
visual. É a função do sistema visual prover uma representação do ambiente que nos cerca e,
mais importante ainda, suprir a informação de que necessitamos para interagir com o ambi-
ente. O cérebro rotineiramente realiza tarefas de reconhecimento perceptivo(por exemplo, o
reconhecimento de um rosto familiar em meio a uma cena não familiar) em aproximadamente
100 a 200 ms, enquanto que tarefas de complexidade muito menor podem levar dias em um
computador convencional. A questão é: como o cérebro humano executa tais tarefas?

Redes Neurais 19
No nascimento, um cérebro tem uma grande estrutura e a habilidade de construir suas
próprias regras através da experimentação continuada. A experiência construída ao longo
do tempo, com o desenvolvimento mais dramático do cérebro humano ocorrendo durante
os dois primeiros anos a partir do nascimento, mas o desenvolvimento continua muito além
daquele estágio. Neurônios em desenvolvimento são sinônimos de um cérebro plástico.
Esta capacidade plástica permite ao sistema nervoso em desenvolvimento se adaptar ao
ambiente que o cerca. Em um cérebro adulto, esta plasticidade pode ser responsável por
dois mecanismos: a criação de novas conexões sinápticas entre neurônios, e a modicação de
sinapses existentes.
Esta mesma plasticidade essencial ao funcionamento dos neurônios do cérebro hu-
mano como unidades de processamento de informação é utilizada pelas redes neurais arti-
ciais e seus neurônios articiais. Assim, podemos armar que as redes neurais articiais
assemelham-se ao cérebro humano em dois aspectos:
1. O conhecimento é adquirido pela rede neural articial através de um processo de apren-
dizado;
2. As transmitâncias das conexões interneurônios, conhecidas como pesos sinápticos, às
quais está submetido o uxo de informações através da rede, são utilizadas para arma-
zenar o conhecimento.
Uma rede neural articial nada mais é, portanto, do que uma máquina projetada para
modelar a maneira pela qual o cérebro desempenha funções de interesse.
A exemplo das redes neurais naturais, as redes articiais consistem da interconexão de
um grande número de unidades de processamento chamadas neurônios. As conexões entre
as unidades computacionais (ou neurônios) são chamadas sinapses ou pesos sinápticos.
A Figura 1.4 apresenta a arquitetura de uma rede neural articial composta de uma
camada de entrada e duas camadas de unidades de processamento, ou neurônios.
A camada de entrada, que conecta a rede ao ambiente externo, é composta por elementos
chamados nós de entrada ou nós fonte da rede. A segunda camada de neurônios, ou camada
escondida de neurônios, é conectada à camada de nós de entrada e à camada de neurônios
de saída por um conjunto de interconexões chamadas sinapses ou pesos sinápticos.
Tal rede, conforme mostrada na 1.4, é normalmente, referida na literatura como uma
rede neural articial de duas camadas (a camada de nós de entrada não conta como camada
de unidades processadoras ou neurônios), ou simplesmente referida como uma rede neural

Redes Neurais 20
articial que apresenta apenas uma camada escondida (cando naturalmente implícitas as
camadas de nós de entrada e de neurônios de saída).
Figura 1.4: Exemplo de arquitetura de uma Rede Neural Articial.
Conforme já sabemos, as redes neurais articiais têm a capacidade de obter conheci-
mento a partir de seu ambiente através de um processo de aprendizado. O conhecimento
obtido pelas redes neurais articiais é armazenado nos parâmetros livres da rede, que são
os pesos sinápticos e os parâmetros que denem a função de transferência das unidades
computacionais ou neurônios.
O procedimento utilizado para o processo de aprendizado é chamado algoritmo de apren-
dizagem e tem por função modicar de forma adaptativa os parâmetros livres da rede para
atingir um objetivo desejado. Em outras palavras, da mesma forma que em um ltro li-
near adaptativo convencional, as redes neurais articiais têm a capacidade de, através da
informação de uma resposta desejada, tentar aproximar um sinal alvo durante o processo de
aprendizagem. Esta aproximação é obtida através do ajuste, de forma sistemática, de um
conjunto de parâmetros livres, característicos de cada rede neural. Na verdade, o conjunto de
parâmetros livres provê um mecanismo para armazear o conteúdo de informação subjacente
presente nos dados que são apresentados à rede na fase de treinamento.

Redes Neurais 21
1.1.1 Características relevantes das Redes Neurais Articiais

O poder computacional de uma rede neural articial é devido basicamente a dois fatores:
sua estrutura paralela pesadamente distribuída e sua habilidade de aprender e, consequen-
temente, generalizar.
Algumas características relevantes das redes neurais articiais são descritas por Haykin
(2007) e Haykin (2009) e aqui citadas:
• Possibilidade de considerar o comportamento não-linear dos fenômenos físicos respon-
sáveis pela geração dos dados de entrada:
Um neurônio articial pode ser linear ou não-linear. Uma rede neural articial
constituída de interconexões de neurônios não-lineares é uma rede não-linear. É
importante observar que a não-linearidade de uma rede neural articial é distri-
buída por toda a rede. Não-linearidade é uma propriedade altamente importante,
particularmente se o mecanismo físico subjacente responsável pela geração do si-
nal de entrada é inerente não-linear, como é o caso, por exemplo, dos sinais de
voz.
• Necessidade de pouco conhecimento estatístico sobre o ambiente no qual a rede está
inserida:
Outra característica extremamente importante das redes neurais articiais é que,
diferentemente da análise estatística tradicional, as redes neurais não requerem
prévio conhecimento sobre a distribuição de dados, para analisá-los. Desde que
haja uma relação subjacente entre os dados, mesmo que desconhecida sua apre-
sentação analítica e/ou estatística, as redes neurais articiais podem apresentar
um melhor desempenho do que os métodos estatísticos tradicionais. Esta carac-
terística as torna de grande utilidade pois, em muitos casos de interesse cientíco
e/ou tecnológico é comum se estar tratando com processos sobre os quais muito
pouco ou nada se conhece de seu comportamento estatístico.
• Capacidade de aprendizagem, a qual é atingida através de uma sessão de treinamento
com exemplos entrada/saída que sejam representativos do ambiente:
O aprendizado supervisionado, ou aprendizado por meio de um tutor, envolve
a modicação dos pesos sinápticos da rede neural articial através da aplicação
de um conjunto de amostras de treino, para as quais se conhece previamente a
saída desejada da rede: cada exemplo consiste de um único sinal de entrada e
uma correspondente resposta desejada. Um exemplo tomado aleatoriamente do
conjunto de treino é apresentado à rede e os pesos sinápticos da rede (parâmetros

Redes Neurais 22
livres) são modicados de forma a minimizar a diferença entre a resposta desejada
e a resposta atual da rede, produzida pelo sinal de entrada, de acordo com algum
critério estatístico apropriado. O treinamento da rede é repetido para muitos
exemplos do conjunto de treino até que a rede atinja um estado onde não haja mais
mudanças signicativas nos pesos sinápticos. Os mesmos exemplos do conjunto
de treino podem ser reaplicados durante o processo de treinamento da rede, desde
que em outra ordem de apresentação.
• Habilidade de aproximar qualquer mapeamento entrada/saída de natureza contínua:
Devido à capacidade de aprendizado, uma rede neural articial tem a possibili-
dade de encontrar qualquer mapeamento entrada/saída, desde que os dados sejam
adequadamente representativos do processo que esteja sendo tratado, e desde que
sejam adequadamente escolhidos a arquitetura da rede e seu algoritmo de treina-
mento.
• Adaptatividade:
As redes neurais articiais são ferramentas extremamente exíveis em um ambi-
ente dinâmico. Elas têm a capacidade de aprender rapidamente padrões comple-
xos e tendências presentes nos dados e de se adaptar rapidamente às mudanças,
características estas que são extremamente desejáveis em uma ampla gama de
aplicações. As redes neurais articiais têm a capacidade de adaptar seus pesos si-
nápticos a mudanças no ambiente em que está inserida. Uma rede neural articial
treinada para operar em um ambiente especíco pode ser facilmente retreinada
para tratar com pequenas mudanças nas condições operacionais do ambiente.
Quando operando em um ambiente não-estacionário (onde a estatística do pro-
cesso muda com o tempo) uma rede neural articial pode ser projetada para
mudar seus pesos sinápticos em tempo real.
• Generalização:
Capacidade que permite às redes neurais articiais um desempenho satisfatório
(produzir saídas adequadas) em resposta a dados desconhecidos (não pertencentes
ao conjunto de treino, mas que estejam em sua vizinhança).
• Tolerância a falhas:
Característica que permite à rede continuar a apresentar resultados aceitáveis no
caso de falha de alguns neurônios (unidades computacionais básicas das redes neu-
rais articiais). O projeto de uma rede neural articial é motivado pela analogia
com o cérebro, que é a prova viva de que a tolerância à falhas no processamento
paralelo não é apenas sicamente possível, quanto rápida e poderosa.

Redes Neurais 23
• Informação contextual:
O conhecimento é representado pela própria estrutura da rede neural articial e
pelo seu estado de ativação. Cada neurônio da rede é potencialmente afetado pela
atividade global de todos os neurônios na rede. Consequentemente, informação
contextual é tratada com naturalidade pelas redes neurais articiais.
• Possibilidade da implementação em VLSI:
Esta característica permite considerar elevado grau de paralelismo no projeto
da rede. A natureza fortemente paralela das redes neurais articiais as tornam
potencialmente rápidas para computar determinadas tarefas. Esta mesma carac-
terística possibilita que sejam implementadas usando tecnologia VLSI ( very large
scale integrated ).
1.1.2 Modelo de um Neurônio

O diagrama de blocos mostrado na Figura 1.5 apresenta o modelo básico de um neurônio
utilizado no projeto de Redes Neurais Articiais. O modelo consiste de:
Figura 1.5: Modelo não-linear de um neurônio.
1. Um conjunto de sinapses, cada uma delas caracterizada por um peso característico.
Especicamente, um sinal xj na entrada da sinapse j, conectada ao neurônio k, é
multiplicado pelo peso sináptico wkj . Diferentemente de uma sinapse no cérebro, o
peso sináptico de um neurônio articial pode assumir valores positivos e negativos;
2. Um combinador linear para somar os sinais de entrada, ponderados pela respectiva
sinapse do neurônio;
3. Uma função de ativação para limitar a amplitude da saída do neurônio. A função de
ativação limita a faixa de amplitude permitida do sinal de saída a algum valor nito.
Redes Neurais 24
Tipicamente, a excursão da amplitude normalizada da saída de um neurônio é restrita
ao intervalo unitário fechado [0, 1] ou, alternativamente [−1, 1].
O modelo neural da Figura 1.5 inclui uma polarização externa ( bias ), denotada por bk .
A polarização bk tem o efeito de aumentar ou diminuir o argumento da função de ativação,
caso seja positivo ou negativo, respectivamente.
Em termos matemáticos, um neurônio k pode ser descrito pelas equações
m
X
uk = wkj xj (1.1)
j=1
yk = ϕ(uk + bk ), (1.2)
onde:
x1 , x2 , ..., xm são os sinais de entrada;
wk1 , wk2 , ..., wkm são os pesos sinápticos do neurônio k;

uk é a saída do combinador linear devida aos sinais de entrada;
bk é a polarização ou bias ;
ϕ(· ) é a função de ativação e
yk é o sinal de saída do neurônio.
O uso da polarização ou bias tem o efeito de aplicar uma transformação à saída uk do
combinador linear, conforme
vk = uk + bk . (1.3)
Dependendo do valor da polarização bk ser positivo ou negativo, a relação entre o poten-
cial de ativação vk , do neurônio k, e a saída do combinador linear uk é conforme mostrada
na Figura 1.6. Observe que, como resultado da transformação, o gráco de vk × uk não passa
mais pela origem.
A polarização é um parâmetro externo do neurônio articial k, conforme expressa a
Equação (1.2). Uma outra forma de expressar a presença da polarização é através da com-
binação das Equações (1.1) e (1.3):
m
X
vk = wkj xj (1.4)
j=0
yk = ϕ(vk ). (1.5)
Na realidade, adicionamos uma nova sinapse na Equação (1.4), cuja entrada é x0 = +1

e cujo peso é wk0 = bk . O modelo do neurônio reformulado de acordo com as Equações (1.4)
Redes Neurais 25
Figura 1.6: Transformação produzida pela polarização ou bias (vk = bk para uk = 0).
e (1.5) é mostrado na Figura 1.7. Embora os modelos pareçam diferentes, são matematica-
mente equivalentes.
Figura 1.7: Outro modelo não-linear de um neurônio.
1.1.3 Tipos de Função de Ativação

Conforme vimos na Seção 1.1.2, a função de ativação ϕ(v) dene a saída do neurônio em
termos de potencial de ativação v. A Figura 1.8 apresenta três tipos de função de ativação,
a Função Threshold, a Função Piecewise-linear e a Função Sigmóide.

Redes Neurais 26
Figura 1.8: (a) Função Threshold, (b) Função Piecewise-linear, (c) Função Sigmóide.
Função Threshold (Função Limiar):
Este tipo de função de ativação, mostrado na Figura 1.8 (a) é descrito por:

1, se v≥0
ϕ(v) = (1.6)
0, se v<0
Correspondentemente, a saída do neurônio k, empregando tal função Threshold é ex-
pressa por:

1, se vk ≥ 0
yk = , (1.7)
0, se vk < 0
onde vk é o potencial de ativação do neurônio dado por:
m
X
vk = wkj xj + bk . (1.8)
j=1
Redes Neurais 27
Um neurônio assim denido é conhecido como o modelo de M'cCulloch-Pitts (McCulloch
e Pitts, 1943). Neste modelo, a saída do neurônio assume o valor 1 se o potencial de ativação
do neurônio é não-negativo e zero caso contrário.
Função Piecewise-linear (Linear por Partes):
Este tipo de função de ativação, mostrado na Figura 1.8 (b) é descrito por:

 1, se v ≥ 12
ϕ(v) = v, se + 21 > v > − 12 , (1.9)
0, se v ≤ − 12

onde o fator de amplicação dentro da região linear de operação é assumido unitário. Esta
função de ativação pode ser vista como uma aproximação de uma amplicação não-linear.
Duas situações podem ser vistas como formas especiais da função Piecewise-linear :
• Um combinador linear (se a região linear de operação não saturar);
• A função Piecewise-linear se reduz a uma função Threshold se o fator de amplicação
da região linear for feito innitamente grande.
Função Sigmóide:
Este tipo de função de ativação cujo gráco se assemelha a uma curva em S , é a forma
de função de ativação mais utilizada na construção de redes neurais articiais. A função,
mostrada na Figura 1.8 (c), é denida como uma função estritamente crescente que exibe
um interessante balanço entre o comportamento linear e o comportamento não-linear. Um
exemplo de função sigmoidal é a função logística, denida por:
1
ϕ(v) = , (1.10)
1 + exp(−av)
onde a é o parâmetro declividade da função sigmoidal. Através da variação do parâmetro a
são obtidas funções sigmoidais de diferentes declividades, conforme pode ser observado na
Figura 1.8 (c). Na verdade, a declividade na origem é igual a a/4. No limite, quando o
parâmetro declividade se aproxima do innito, a função sigmoidal se torna, simplesmente,
em uma função Threshold. Enquanto uma função Threshold assume o valor 0 ou 1, uma
função sigmoidal assume um intervalo contínuo de valores de 0 a 1. É importante notar que
a função sigmoidal é diferenciável, enquanto que a função Threshold não.

Redes Neurais 28
As funções de ativação Threshold, Piecewise-linear e Sigmóide são denidas no intervalo
de 0 a 1. Algumas vezes é desejável funções de ativação denidas no intervalo de −1 a +1,

caso em que a função de ativação assume uma forma anti-simétrica com respeito à origem;
ou seja, a função de ativação é uma função ímpar do potencial de ativação. Especicamente,
a função Threshold é agora denida por:

 1, se v > 0
ϕ(v) = 0, se v = 0 , (1.11)
−1, se v < 0

que é comumente referida como função Signum.
Para permitir que a função de ativação do tipo sigmoidal assuma valores negativos,
utiliza-se a forma correspondente da função sigmoidal, a função tangente hiperbólica, que é
denida por:
ϕ(v) = tanh(v). (1.12)
1.1.4 Arquiteturas de Redes

O projeto de uma rede neural, ou seja, a maneira pela qual os neurônios da rede são estru-
turados, está intimamente relacionada ao algoritmo de aprendizagem usado para treinar a
rede (conforme cará provado mais adiante). Em geral, podemos identicar três diferentes
classes fundamentais de arquiteturas de redes:
Redes Single-Layer Feedforward :
As redes single-layer feedforward podem ser referidas como redes progressivas de uma única
camada. Esta arquitetura de redes neurais articiais é a forma mais simples de redes layered,
em que os neurônios são organizados em forma de camadas. Na rede progressiva de uma
única camada, temos uma arquitetura com uma camada de entrada de nós fontes conectada
a uma camada de saída constituída de neurônios (nós computacionais), conforme mostrado
na Figura 1.9.
Esta rede é estritamente progressiva, no sentido de que não há conexões no sentido
camada de saída → camada de nós fontes (não há elos de realimentalção entre as camadas).A
rede mostrada na Figura 1.9 é referida na literatura como uma rede neural articial de uma
única camada ( single-layered network ), pois a camada de nós de entrada não é contada, já
que não é formada por unidades processadoras, ou neurônios.

Redes Neurais 29
Figura 1.9: Rede progressiva formada por uma única camada de neurônios (representada
com quatro nós na camada de entrada e quatro neurônios na camada de saída).
Redes Multilayer Feedforward :
A segunda classe de redes progressivas (redes neurais progressivas multicamadas) tem por
característica possuir uma ou mais camadas escondidas, cujos nós computacionais ou neurô-
nios são correspondentemente chamados de neurônios escondidos ou unidades escondidas.
A função dos neurônios escondidos é intervir entre a camada externa de entrada e a saída
da rede de alguma forma útil. Adicionando uma ou mais camadas escondidas, a rede pode
extrair estatísticas de ordem superior. Pode-se dizer que a rede adquire uma perspectiva
global, apesar de sua conectividade local, devido ao conjunto extra de conexões sinápticas e
à dimensão extra de interações neurais.
Os nós fonte na camada de entrada da rede provêem os vetores de entrada, que cons-
tituem os sinais de entrada aplicados aos neurônios da segunda camada (primeira camada
escondida). Os sinais de saída da segunda camada são usados como entradas para a terceira
camada e assim sucessivamente para o resto da rede. O conjunto de sinais de saída dos
neurônios da camada de saída da rede constituem a resposta global da rede ao padrão de
ativação provido pelos nós fonte na camada de entrada.
A Figura 1.10 ilustra uma rede neural progressiva multicamadas, para o caso de uma
única camada escondida, em que cada nó, de cada camada da rede, é conectado a cada outo
nó da camada adjacente. Neste caso, a rede é dita completamente conectada. Se, no entanto,
algumas das conexões sinápticas estiverem faltando, a rede é dita parcialmente conectada.
Redes Neurais 30
Figura 1.10: Rede progressiva multicamadas completamente conectada, formada por uma
única camada escondida de neurônios e uma única camada de saída (representada com 10
nós fontes na camada de entrada, 4 neurônios escondidos e 2 neurônios na camada de saída).
Redes Recorrentes:
Uma rede neural recorrente difere de uma rede neural progressiva ( feedforward ), pelo fato
de possuir pelo menos um loop feedback loop ).

de realimentação (
Por exemplo, uma rede recorrente pode consistir de uma única camada de neurônios, em
que cada neurônio alimenta seu sinal de saída de volta para as entradas de todos os outros
neurônios, conforme ilustra a Figura 1.11.
Já a Figura 1.12 ilustra uma rede recorrente em que há uma camada de neurônios escon-
didos e em que as conexões de realimentação são originadas tanto dos neurônios escondidos,
quanto dos neurônios de saída.
A presença de loops de realimentação em estruturas recorrentes tem um grande impacto
na capacidade de aprendizagem da rede e em seu desempenho.
1.2 Processos de Aprendizado

A propriedade mais signicativa de uma Rede Neural Articial é, certamente, a habilidade
de aprender a partir do seu ambiente e melhorar seu desempenho através do aprendizado.
A melhora no desempenho de uma rede neural articial ocorre ao longo do aprendizado,

Redes Neurais 31
Figura 1.11: Rede recorrente em que não há loops auto-realimentados, nem neurônios escon-
didos.
Figura 1.12: Rede recorrente com neurônios escondidos e loops auto-realimentados.
de acordo com critérios especícos adotados para atingir tal propósito.
O problema do aprendizado em redes neurais articiais é simplesmente o problema de
encontrar, através de um processo interativo (relativo a uma aplicação na qual cada entrada
provoca uma resposta) e iterativo (reiterado) um conjunto de parâmetros livres que possibi-
lite à rede o desempenho desejado. Visto de uma forma ideal, o conhecimento de uma rede
neural articial sobre o ambiente em que está inserida deve aumentar a cada iteração do
Redes Neurais 32
processo de aprendizagem.
Uma interessante denição de aprendizado no contexto de redes neurais é feita por
Haykin (2009): Aprendizagem é um processo pelo qual os parâmetros livres de uma rede
neural articial são adaptados através de um processo de estimulação do ambiente no qual
a rede está inserida. O tipo de aprendizagem é determinado pela forma através da qual é
efetuada a mudança nos parâmetros.
Esta denição implica nos seguintes eventos sequenciais:
1. A rede é estimulada pelo ambiente;
2. A rede sofre mudanças nos seus parâmetros livres como resultado deste estímulo;
3. A rede responde de uma forma nova ao ambiente devido às mudanças que ocorreram
em sua estrutura interna.
Um algoritmo de aprendizagem é um conjunto de regras denidas para a solução do
problema de aprendizado. Vários algoritmos de aprendizagem são utilizados no projeto de
redes neurais articiais, cada um deles possuindo características e vantagens especícas.
As duas formas básicas de aprendizagem (referidas na literatura especíca de redes neu-
rais articiais como paradigmas de aprendizagem) são: o aprendizado através de um tutor
(aprendizado supervisionado) e o aprendizado sem um tutor (aprendizado não supervisio-
nado). Há ainda uma terceira forma de aprendizagem que utiliza um crítico (ou juiz) e é
chamada aprendizagem por reforço.
1.2.1 Aprendizado Supervisionado

O aprendizado supervisionado é o aprendizado obtido por meio de um tutor. A Figura 1.13
apresenta o diagrama de blocos representativos deste tipo de aprendizado. O tutor detém
o conhecimento do ambiente, o qual a rede neural desconhece. Um conjunto de exemplos
entrada/saída representa este conhecimento.
No processo de construção do conhecimento, a rede neural articial é exposta a um
vetor de treino extraído do ambiente e o tutor provê à rede uma resposta desejada para este
especíco vetor de treino. A resposta desejada é, portanto, o resultado ótimo que a rede
deveria apresentar para aquele determinado vetor do conjunto de treino.
Os parâmetros da rede são ajustados de forma iterativa, passo a passo, através da in-
uência combinada do vetor de treino e do sinal de erro. O sinal de erro é denido como a
Redes Neurais 33
Figura 1.13: Diagrama de Blocos representativo do aprendizado por meio de um tutor.
diferença entre a resposta desejada e a resposta efetivamente obtida na rede. Desta forma,
o quanto possível do conhecimento do ambiente disponível ao tutor é transferido para a
rede neural articial durante o treinamento. Quando esta condição é atingida, o tutor é
dispensado e a rede passa a lidar com o ambiente por si só.
O processo acima descrito dene o aprendizado por correção do erro, que será tratado
adiante. O sistema possui um elo fechado de realimentação ( closed-loop feedback ), mas o
ambiente desconhecido não faz parte do elo.
Como forma de avaliar do desempenho de tal sistema, pode-se considerar o erro médio
quadrático (MSE: Mean Square Error ) ou a soma dos erros quadráticos sobre o conjunto de
treinamento, denida como uma função dos parâmetros livres do sistema.
Superfícies de Erro
A função dos parâmetros livres do sistema utilizada para avaliar sua performance pode ser
vista como uma superfície de desempenho de erro multidimensional (denominada, simples-
mente, Superfície de Erro), tendo os parâmetros livres como coordenadas. A superfície de
erro, na verdade, é uma superfície média sobre todos os possíveis exemplos entrada/saída.
Qualquer operação do sistema sob a supervisão do tutor é representada como um ponto
sobre a superfície de erro.
Para que o sistema melhore seu desempenho ao longo do tempo e, portanto, aprenda a
partir do tutor, o ponto de operação tem que se mover sucessivamente em direção ao ponto
mínimo da superfície de erro. Uma característica extremamente importante a observar é que
este ponto de mínimo pode ser um ponto de mínimo local ou um ponto de mínimo global,
Redes Neurais 34
conforme ilustrado na Figura 1.14.
Figura 1.14: Superfície de Erro apresentando um ponto de mínimo local e um ponto de

mínimo global.
Na elaboração de algoritmos de treinamento de redes neurais articiais é necessário que
sejam tomados alguns cuidados para que o ponto de operação não que preso em um mínimo
local. Tal fato irá comprometer o desempenho do algoritmo, pois mascara o resultado,
fazendo parecer que foi encontrado o desejado mínimo global. Artifícios para escapar desta
armadilha serão comentados adiante.
Um sistema de aprendizado supervisionado executa esta operação (descer em direção
ao ponto de mínimo) a partir da informação do gradiente da superfície de erro associada
ao comportamento do sistema. O gradiente de uma superfície de erro em qualquer ponto
é o vetor que, partindo deste ponto, aponta na direção de descida mais íngreme ( steepest
descent ).
Existindo um algoritmo adequadamente projetado para minimizar a função de custo,
um apropriado conjunto de exemplos entrada/saída e tempo suciente para o treinamento,
um sistema supervisionado de aprendizado é usualmente capaz de desempenhar tarefas como
classicação de padrões e aproximações de funções.
Aprendizado por Correção do Erro
Consideremos o caso simples de um neurônio k, constituindo o único nó computacional na
camada de saída de uma rede neural articial progressiva, conforme ilustrado na Figura
1.15(a).
Redes Neurais 35
Figura 1.15: Aprendizado por correção de erro.
O neurônio k é estimulado por um vetor de sinais x(n) produzido por uma ou mais
camadas de neurônios escondidos, que são, por sua vez, estimuladas por um vetor de entrada
aplicado aos nós fonte da camada de entrada da rede neural articial. O argumento n denota
o tempo discreto, ou seja, o passo temporal de um processo iterativo envolvido em ajustar
os pesos sinápticos do neurônio k. O sinal de saída do neurônio k é denotado por yk (n).

Este sinal de saída (representando a única saída da rede neural articial) é comparado a
uma resposta desejada ou saída alvo, denotada por dk (n). Consequentemente, um sinal
de erro, denotado por ek (n), é produzido. Assim teremos:
ek (n) = dk (n) − yk (n). (1.13)
O sinal de erro ek (n) aciona um mecanismo de controle cujo propósito é aplicar uma
sequência de ajustes corretivos aos pesos sinápticos do neurônio k. Os ajustes corretivos
são projetados para aproximar, passo a passo, o sinal de saída yk (n) da resposta desejada
dk (n). Este objetivo é atingindo através de uma minimização de uma função custo também
chamada índice de desempenho, J(n), denida, em termos do sinal de erro ek (n), como:
Redes Neurais 36
1
J(n) = e2k (n). (1.14)
2
Observando a Equação (1.14), pode-se dizer que J(n) é o valor instantâneo da energia
do erro.
Os ajustes passo a passo dos pesos sinápticos do neurônio k continuam até que o sistema
tenha atingido um estado estável, ou seja, os pesos sinápticos tenham estabilizado. Neste
momento, o processo de aprendizagem está concluído.
A minimização da função custo J(n) conduz a uma regra de aprendizagem comumente
referida como Regra Delta ou Regra de Widrow-Ho. Seja wkj (n) o valor do peso sináptico
wkj , do neurônio k, excitado pelo elemento xj (n) do vetor de sinais x(n) no instante de
tempo n. De acordo com a Regra Delta, o ajuste ∆wkj (n) a ser aplicado ao peso sináptico
wkj no instante de tempo n é denido por:
∆wkj (n) = ηek (n)xj (n), (1.15)
onde o parâmetro η é uma constante positiva que determina a razão de aprendizado à medida
que envolvemos de um passo a outro no processo de aprendizagem.
A Regra Delta pode ser assim expressa: O ajuste feito a um peso sináptico de um
neurônio é proporcional ao produto do sinal de erro pelo sinal de entrada da sinapse em
questão.
A Regra Delta presume que o sinal de erro seja diretamente mensurável, ou seja, é
necessário que tenhamos uma forma de suprir a resposta desejada, a partir de alguma fonte
externa, que tenha acesso direto ao neurônio k (conforme pode ser observado na Figura
1.15(a)). A partir da mesma gura também se pode observar que o aprendizado por correção
de erro é, por natureza, local. Ou seja, os ajustes sinápticos feitos pela Regra Delta são
localizados ao redor do neurônio k.
Tendo computado o ajuste sináptico ∆wkj (n), o valor atualizado do peso sináptico wkj
é determinado por:
wkj (n + 1) = wkj (n) + ∆wkj (n), (1.16)
onde wkj (n) e wkj (n + 1) podem ser vistos, respectivamente, como o valor antigo e o valor
novo (atualizado) do peso sináptico wkj .
A Figura 1.15(b) mostra o grafo de uxo de sinal representativo do processo de apren-
dizado por correção de erro, focando a atividade ao redor do neurônio k. O sinal de entrada
Redes Neurais 37
xj e o potencial de ativação vk do neurônio k são chamados, respectivamente, de sinais
pré-sináptico e pós-sináptico da j -ésima sinapse do neurônio k.
Ainda observando a Figura 1.15(b), pode-se vericar que o processo de aprendizado
por correção de erro é um exemplo de um sistema realimentado de elo fechado ( closed-loop

feedback ) e, portanto, a estabilidade de tal sistema é determinada pelos parâmetros que cons-
tituem os elos de realimentação do sistema. No único elo fechado de realimentação existente
no processo, um parâmetro de particular interesse é o parâmetro razão de aprendizagem
η. Portanto, para que seja atingida a estabilidade ou convergência do processo de apren-
dizagem iterativo é preciso garantir que η seja cuidadosamente selecionado. Na prática, o
parâmetro η representa um papel importante na determinação do desempenho do processo
de aprendizagem por correção de erro.
1.2.2 Aprendizado por Reforço

Considerando agora um tipo de aprendizado em que não é utilizado um tutor, como no apren-
dizado supervisonado, mas sim um crítico (ou juíz). Neste tipo de aprendizado (denominado
aprendizado por reforço), o aprendizado de um mapeamento entrada/saída é desempenhado
através da interação continuada com o ambiente buscando minimizar um índice escalar de
desempenho.
Figura 1.16: Diagrama de blocos do aprendizado por reforço.
A Figura 1.16 mostra o diagrama de blocos de uma forma de sistema de aprendizagem
por reforço, construído em torno de um crítico que converte um sinal de reforço primário
recebido do ambiente em um sinal de reforço de maior qualidade chamado sinal de reforço
heurístico, ambos escalares.
Basicamente, o sistema é projetado para aprender a partir de um reforço atrasado, o
que signica que o sistema observa uma sequência temporal de estímulos (também recebida
Redes Neurais 38
do ambiente), a qual pode resultar na generalização do sinal de reforço heurístico. Em
consequência, busca-se minimizar uma função de custo que é dada pelo valor esperado do
custo cumulativo das ações tomadas sobre uma sequência de passos, ao invés de simplesmente
minimizar o custo imediato.
A importância do aprendizado por reforço é que ele provê as bases para o sistema interagir
com o ambiente e, por meio disso, desenvolver a habilidade de aprender a desempenhar uma
tarefa prescrita, somente com base nas saídas da sua própria experiência, resultante da
interação.
1.2.3 Aprendizado Não-Supervisionado

Em algoritmos de aprendizado não-supervisionado ou auto-organizado (como são frequente-
mente referidos na literatura de redes neurais articiais) não há um tutor externo ou crítico
para supervisionar o processo de aprendizado, como indica o diagrama de blocos mostrado na
Figura 1.17. Dito de outra forma, algoritmos de aprendizado não-supervisonado não reque-
rem o conhecimento de saídas desejadas, ou seja, não são utilizados exemplos entrada/saída
a serem aprendidos pela rede.
Figura 1.17: diagrama de blocos do aprendizado não-supervisionado.
Durante o treinamento, somente padrões de entrada são apresentados à rede neural
articial até que a rede se torne sintonizada às regularidades estatísticas dos dados de
entrada. A partir desta condição, a rede desenvolve a habilidade de formar representações
internas para codicar características da entrada (por exemplo, adaptar os pesos de suas
conexões para representar os padrões de entrada) e, por meio disto, agrupar os padrões de
entrada em grupos com características similares ou criar novos grupos automaticamente.
1.2.4 Tarefas de Aprendizagem

A escolha de um particular algoritmo de aprendizado é motivada pela tarefa que se deseja
que a rede neural articial desempenhe.

Redes Neurais 39
Reconhecimento de Padrões
É o processo através do qual um padrão (ou sinal) recebido é associado a alguma classe,
dentro de um pré-determinado número de classes.
A rede neural articial é submetida, primeiramente, a uma seção de treino, durante a
qual lhe são, repetidamente, apresentados um conjunto de padrões de entrada, cada um deles
associado à categoria particular a que pertence. Posteriormente, um padrão desconhecido é
apresentado à rede, mas que pertença à mesma população de padrões usados para treinar a
rede. A rede poderá identicar a que classe de padrões este novo padrão pertence, devido à
informação extraída do conjunto de treino. A extração de características é realizada pelas
unidades da(s) camada(s) escondida(s).
Aproximação de Funções
Processo através do qual a rede neural articial apresenta uma solução para o mapeamento
entrada/saída de interesse d = f (x), cuja função f (· ) que o descreve tem sua expressão
analítica desconhecida.
A rede projetada deve aproximar a função desconhecida, de tal forma que o mapeamento
entrada/saída, efetivamente realizado pela rede, aproxime f (· ) para todas as entradas. Para
construir o conhecimento sobre o mapeamento entrada/saída, a rede é provida de um con-
junto de exemplos representativos deste mapeamento.
Desde que o tamanho do conjunto de treino seja sucientemente grande e a rede dis-
ponha de um número adequado de parâmetros livres, o erro de aproximação obtido será
sucientemente pequeno para a tarefa proposta.
Controle de Processos
O controle de um processo (ou parte crítica de um sistema) através de uma rede neural
articial pode ser descrito como:
O sistema envolve o uso de um elo de realimentação ( feedback loop ) no processo a ser
controlado, ou seja, a saída do processo é alimentada de volta para a entrada. A saída do
processo é, então, subtraída de um sinal de referência provido por uma fonte externa. O sinal
de erro, assim produzido, é aplicado a um controlador neural com o propósito de ajustar
seus parâmetros livres.
O principal objetivo do controlador é prover entradas apropriadas ao processo para

Redes Neurais 40
que a saída acompanhe o sinal de referência. O contralador, na verdade, deve inverte o
comportamento entrada/saída do processo.
1.3 O Perceptron
No item anterior foi abordado algoritmos de aprendizagem supervisionados, nos quais o
aprendizado acontece através de um tutor.
O Perceptron é a forma mais simples de uma rede neural articial usada para classica-
ção de padrões linearmente separaveis, ou seja, padrões que estão em lados opostos de um
hiperplano. Consiste, basicamente, de um único neurônio com pesos sinápticos ajustáveis e
uma polarização ( bias ).

O algoritmo usado para ajustar os parâmetros livres desta rede neural articial foi apre-
sentado pela, primeira vez, no procedimento de aprendizagem desenvolvido por Rosenblatt
(1958), que provou que se os padrões (vetores) são usados para treinar o Perceptron são
retirada de duas classes linearmente separáveis, então o algoritmo Perceptron converge e
posiciona a superfície de decisão na forma de um hiperplano entre as duas classes. A prova
de convergência do algoritmo é conhecida como Teorema da Convergência do Perceptron.
O perceptron em um único neurônio é limitado a desempenhar classicação de padrões
com apenas duas classes (duas hipóteses). Através da expansão da camada computacional
de saída do Perceptron para incluir mais do que um neurônio, é possível classicar mais
do que duas classes. Entretanto, as classes têm que ser linearmente separáveis para que o
Perceptron tenha um desempenho adequado. Um ponto importante é que a evolução da
teoria básica do Perceptron a partir do caso de um neurônio para o caso de mais de um
neurônio é trivial.
O Perceptron é construído ao redor de um neurônio não-linear, que é o neurônio descrito
pelo modelo de McCulloch e Pitts (1943).
Conforme foi visto anteriormente, este modelo de neurônio consiste de um combinador
linear seguido de um limitador, desempenhando a função signum, conforme mostrado na
Figura 1.18.
O nó somador do modelo neural mostrado na Figura 1.18 computa uma combinação
linear das entradas aplicadas a suas sinapses com os pesos sinápticos associados, e também
incorpora uma polarização externamente aplicada. A soma resultante (que é o potencial
de ativação v) é aplicada a um limitador, representado por ϕ(v), que implementa a função
signum. Desta forma, o neurônio produz uma saída igual a (+1) se a entrada do limitador
Redes Neurais 41
Figura 1.18: Grafo de uxo de sinal do Perceptron.
é positiva, e (−1) se é negativa.
No grafo de uxo de sinal mostrado na Figura 1.18, os pesos sinápticos do Perceptron são
denotados por w1 , w2 , . . . , wm . De forma correspondente, as entradas aplicadas ao Perceptron
são denotadas por x1 , x2 , . . . , xm . A polarização (ou bias ) é aplicada externamente e denotada

por b. A partir do modelo verica-se que a entrada do limitador, ou o potencial de ativação
v do neurônio, é:
m
X
v= xi wi = b. (1.17)
i=1
O objetivo do Perceptron é classicar corretamente o conjunto de estímulos externos
aplicados x1 , x2 , . . . , xm em uma de duas classes, C1 ou C2 . A regra de decisão para a
classicação é atribuir o ponto representado pelas entradas x1 , x2 , . . . , xm à classe C1 se a
saída y do Perceptron for (+1) e à classe C2 se for (−1).
Para compreender o comportamento de um classicador de padrões, costuma-se plotar
um mapa das regiões de decisão no espaço de sinal m-dimensional gerado pelas m variáveis
de entrada x1 , x2 , . . . , xm . Na forma mais simples do Perceptron há duas regiões de decisão
separadas por um hiperplano denido por:
m
X
xi wi + b = 0, (1.18)
i=1
conforme ilustrado na Figura 1.19 para o caso de duas variáveis de entrada x1 e x2 , para as
quais o limite de decisão assume a forma de uma linha reta. Um ponto (x1 , x2 ) que esteja
acima da linha limítrofe é atribuído à classe C1 e um ponto (x1 , x2 ) que esteja abaixo da
linha limítrofe é atribuído à classe C2 . O efeito da polarização (ou bias) é simplesmente
deslocar o limite de decisão para longe da origem.

Redes Neurais 42
Figura 1.19: Ilustração do hiperplano (neste caso, uma linha reta) como limite de decisão
para um problema de classicação de padrões de duas classes (bidimensional).
Os pesos sinápticos w1 , w2 , . . . , wm do Perceptron podem ser adaptados de iteração a
iteração. Para a adaptação pode-se usar a regra de correção de erro conhecida como algoritmo
de convergência do Perceptron. Para melhor detalhamento e compreensão, foi colocado em
anexo (Apêndice A) o teorema e convergência do perceptron onde é explicado o processo de
obtenção dos pesos sinápticos do modelo de perceptron.
1.4 Multilayer Perceptrons

As redes Multilayer Perceptron (MLPs) têm sido aplicadas com sucesso em uma variedade de
áreas, desempenhando tarefas tais como: classicação de padrões (reconhecimento), controle
e processamento de sinais.
Uma rede neural articial do tipo MLP é constituída por um conjunto de nós fonte, os
quais formam a camada de entrada da rede ( input layer ), uma ou mais camadas escondidas
(hidden layers ) e uma camada de saída (output layer ). Com exceção da camada de entrada,
todas as outras camadas são constituídas por neurônios e, portanto, apresentam capacidade
computacional. O MLP é uma generalização do Perceptron que foi visto anteriormente.
A Figura 1.20 mostra a arquitetura de uma rede neural MLP com uma camada de
entrada, 2 camadas escondidas e uma camada de saída.
Duas características de tal estrutura são imediatamente aparentes:

Redes Neurais 43
Figura 1.20: Arquitetura de uma rede neural multilayer perceptron com duas camadas es-
condidas.
1. Uma rede multilayer perceptron é uma rede progressiva. Conforme foi visto anteri-
ormente, uma rede neural articial é dita progressiva ( feedforward ) quando as saídas
dos neurônios em qualquer particular camada se conectam unicamente às entradas dos
neurônios da camada seguinte, sem a presença de laços de realimentação. Consequen-
temente, o sinal de entrada se propaga através da rede, camada a camada, em um
sentido progressivo.
2. A rede pode ser completamente conectada, caso em que cada nó (computacional ou não)
em uma camada é conectado a todos os outros nós da camada adjacente. De forma
alternativa, uma rede MLP pode ser parcialmente conectada, caso em que algumas
sinapses poderão estar faltando. Redes localmente conectadas representam um tipo
importante de redes parcialmente conectadas. O termo local se refere à conectividade
de um neurônio em uma camada da rede com relação a somente um sub-conjunto de
todas as possíveis entradas. Na prática, a falta de uma determinada sinapse em um
MLP é emulada fazendo-se sua transmitância constante e igual a zero. Neste estudo,
no entanto, consideraremos apenas MLPs completamente conectados.
O número de nós fonte na camada de entrada da rede é determinado pela dimensiona-
lidade do espaço de observação, que é responsável pela geração dos sinais de entrada. O
número de neurônios na camada de saída é determinado pela dimensionalidade requerida
da resposta desejada. Assim, o projeto de uma rede MLP requer a consideração de três
aspectos:
i. A determinação do número de camadas escondidas;
ii. A determinação do número de neurônios em cada uma das camadas escondi-

Redes Neurais 44
das;
iii. A especicação dos pesos sinápticos que interconectam os neurônios nas di-
ferentes camadas da rede.
Os aspectos (i) e (ii) determinam a complexidade do modelo de rede neural articial
escolhido e, infelizmente, não há regras determinadas para tal especicação. A função das
camadas escondidas em uma rede neural articial é a de inuir na relação entrada-saída da
rede de uma forma ampla. Uma rede neural articial com uma ou mais camadas escondidas
é apta a extrair as estatísticas de ordem superior de algum desconhecido processo aleatório
subjacente, responsável pelo comportamento dos dados de entrada, processo sobre o qual a
rede está tentando adquirir conhecimento. A rede neural articial adquire uma perspectiva
global do processo aleatório, apesar de sua conectividade local, em virtude do conjunto
adicional de pesos sinápticos e da dimensão adicional de interações neurais proporcionada
pelas camadas escondidas.
O aspecto (iii) envolve a utilização de algoritmos de treino supervisionados. As redes
neurais articiais MLPs têm sido aplicadas na solução de diversos e difíceis problemas atra-
vés da utilização de tais algoritmos. O algoritmo de treino quase universalmente utilizado
para tanto é o algoritmo de retro-propagação do erro, conhecido na literatura como Back-

propagation Algorithm ou, simplesmente, Backprop.
O algoritmo backpropagation baseia-se na heurística do aprendizado por correção de erro
(em que o erro é retro-propagado da camada de saída para as camadas intermediárias da
rede neural articial). Este algoritmo pode ser visto como uma generalização do Algoritmo
Least Mean Square (LMS).
O termo backpropagation surgiu após 1985. No entanto, a idéia básica foi primeiramente
descrita por Werbos (1974). Em 1986, foi redescoberto por Rumelhart, Hinton e Williams e
popularizado através da publicação do livro Parallel Distributed Processing de McClelland
et al. (1986).
O desenvolvimento do backpropagation representa um marco fundamental em redes neu-
rais, pois é um método computacionalmente eciente para o treinamento de redes MLPs e
por ter resolvido o problema de realizar a propagação reversa do erro em redes neurais arti-
ciais com múltiplas camadas, problema este que atrasou por muitos anos o desenvolvimento
da área de redes neurais articiais.
O desenvolvimento do backpropagation representa um marco fundamental em redes neu-
rais, pois é um método computacionalmente eciente para o treinamento de redes MLPs e
por ter resolvido o problema de realizar a propagação reversa do erro em redes neurais arti-
Redes Neurais 45
ciais com múltiplas camadas, problema este que atrasou por muitos anos o desenvolvimento
da área de redes neurais articiais.
Basicamente, o algoritmo backpropagation consiste de dois passos através das diferentes
camadas do MLP: um passo direto e um passo reverso.
No passo direto um padrão de atividade do processo a ser aprendido (ou vetor de entrada)
é aplicado aos nós de entrada do MLP e o seu efeito se propaga através da rede, camada por
camada, produzindo na camada de saída a resposta do MLP à excitação aplicada (vetor de
saída). Durante o passo direto os pesos sinápticos são todos xos.
Durante o passo reverso os pesos sinápticos são todos ajustados de acordo com a regra
de aprendizado por correção de erro. Especicamente, a resposta do MLP à excitação é
subtraída de um padrão de resposta desejado para aquela excitação aplicada, de forma a
produzir um sinal de erro, de forma semelhante ao algoritmo LMS. Este sinal de erro é,
então, propagado de volta através dos mesmos neurônios utilizados no passo direto, mas no
caminho contrário do uxo de sinal nas conexões sinápticas (daí o nome backpropagation ). Os
pesos sinápticos são, então, ajustados de forma que a resposta obtida do MLP aproxime-se
mais do padrão de resposta desejado.
Uma rede MLP apresenta três características distintas, de cuja combinação com a habi-
lidade de aprender através da experiência (através do treinamento), deriva sua capacidade
computacional:
1. O modelo de cada neurônio do MLP inclui uma função de ativação não-linear. É
importante salientar que esta não-linearidade é suave (ou seja, a função é diferenciável
em qualquer ponto), ao contrário da função utilizada no modelo do Perceptron de
Rosenblatt (função signum). Uma forma comumente utilizada de não-linearidade que
satisfaz este requisito é a não-linearidade sigmoidal denida pela função logística:
1
yj = , (1.19)
1 + exp(−vj )
onde vj é o potencial de ativação (isto é, a soma ponderada de todas as entradas
sinápticas mais a polarização) do neurônio j, e yj é a saída do neurônio.
2. O MLP contém uma ou mais camadas de neurônios escondidos que não são parte
da camada de entrada ou da camada de saída da rede. Estes neurônios escondidos
possibilitam que a rede aprenda tarefas complexas, extraindo progressivamente mais
características signicativas dos padrões de entrada (vetores de entrada).
3. A rede MLP exibe um alto grau de conectividade, determinado pelas sinapses da rede.
Redes Neurais 46
Uma mudança na conectividade da rede requer uma mudança na população de conexões
sinápticas, ou pesos sinápticos.
Estas mesmas características, entretanto, são também responsáveis pelas diculdades
encontradas na análise de tais redes. Por exemplo, a presença das não-linearidades distri-
buídas e a alta conectividade tornam difícil a análise teórica das redes MLPs. Em uma rede
MLP, o conhecimento aprendido sobre o ambiente é representado pelos valores assumidos
pelos pesos sinápticos da rede. A natureza distribuída deste conhecimento ao longo da rede
a torna de difícil interpretação. Além disso, o uso de neurônios escondidos torna o processo
de aprendizado mais difícil de ser visualizado na estrutura da rede.
Observe, na Figura 1.20 que o sinal ui através da rede MLP no sentido direto, da
esquerda para a direita e de camada a camada. A Figura 1.21 apresenta um detalhe parcial
de uma rede MLP. Dois tipos de sinais são identicados nesta rede:
1. Sinais funcionais: São estímulos que chegam aos nós de entrada da rede, se propagam
de forma direta (neurônio a neurônio) através da rede e emergem da camada de saída
da rede como sinais de saída. Cada neurônio de um MLP tem aplicado às suas entradas
um conjunto de sinais funcionais que gera um sinal funcional na saída do respectivo
neurônio . Na camada de entrada de um MLP o conjunto de sinais funcionais aplicado
a cada neurônio é o próprio conjunto de sinais de entrada (vetor de entrada). A
denominação sinal funcional decorre do fato de que estes sinais são obtidos na saída
de cada neurônio como uma função dos sinais de entrada do respectivo neurônio.
2. Sinais de Erro: Um sinal de erro se origina em um neurônio de saída da rede MLP e se
propaga de volta (camada a camada) através da rede. Este sinal é referido como sinal
de erro porque seu cálculo, a cada neurônio da rede, envolve algum tipo de função de
erro.
Cada neurônio de cada camada escondida ou da camada de saída de uma rede neural
articial MLP desempenha duas operações computacionais:
1. A computação do sinal funcional na saída de cada neurônio, o qual é expresso como
uma função contínua não-linear do sinal funcional de entrada e dos pesos sinápticos
associados com aquele neurônio.
2. A computação de uma estimativa do vetor gradiente (isto é, os gradientes da superfície
de erro com respeito aos pesos conectados às entradas de um neurônio), cálculo este
que é necessário para o passo reverso através da rede MLP.

Redes Neurais 47
Figura 1.21: Ilustração das direções dos dois uxos básicos de sinal em uma rede multilayer
perceptron : propagação direta dos sinais e retro-propagação dos sinais de erro.
Para maior detalhamento e compreensão, foi colocado anexo (Apêndice B) o algoritmo
backpropagation onde é explicado o funcionamento dele.
1.4.1 Sumário do Algoritmo Backpropagation e Sugestões Operaci-

onais
I - Inicialização:
Dene-se o número de camadas do MLP. Em geral, sob o ponto de vista de rapidez de
redução do MSE, é preferível utilizar poucas camadas escondidas com muitos neurônios por
camada do que muitas camadas escondidas com poucos neurônios por camada. Isto porque
o uso de muitas camadas escondidas dilui o efeito corretivo da retro-propagação dos sinais
de erro sobre as sinapses ao longo do backward pass. Em conseqüência, o MLP demorará
mais Épocas para atingir um MSE sucientemente baixo. Por outro lado, um número maior
de camadas escondidas habilita o MLP a captar melhor as estatísticas de ordem superior do
processo a ser aprendido, melhorando, assim, a capacidade de generalização do MLP. Isto
ocorre porque um maior número de camadas escondidas torna o mapeamento <m1 → <mL
realizado pelo MLP um mapeamento com maior não-linearidade recursiva, sendo m1 e
mL , respectivamente, o número de nós de entrada e saída do MLP. A informação sobre o
processo a ser aprendido pelo MLP ca armazenada nas sinapses dos neurônios de cada
camada, e as saídas de cada camada recursivamente alimentam as entradas da camada
seguinte durante a fase de treino. Cada camada executa uma operação não-linear devido
a função de ativação, portanto, a medida que uma camada alimenta a seguinte uma nova
instância da operação não-linear é efetuada. A operação não-linear efetuada pela função de
ativação é denida pela função exponencial ex (ou por uma combinação de exponenciais no
Redes Neurais 48
caso da Tangente Hiperbólica) , sendo ex passível de ser expandida na série de potências

x 1 2 1 3 1 4 1
e =1+ 2
x + 6
x + 24
x + 120
x5 + ···.
Ora, como a informação é recursivamente acumulada nas sinapses do MLP, sendo proces-
sada através de várias instâncias recursivas de uma série de potências durante o treino, ca
implícito que o MLP acumula informação na forma de estruturas de correlação estatística de
ordem superior, isto é, após a fase de treino do MLP a informação armazenada no conjunto
de sinapses está associada à E{xi ⊗ xj } + E{xi ⊗ xj ⊗ xk } + E{xi ⊗ xj ⊗ xk ⊗ xl } + · · · onde
xi , xj , . . . representam individualmente todos os possíveis N vetores existentes no conjunto
de treino, E{· } é o operador média estatística; xi ⊗ xj representa a matriz m × m formada

pelos m2 produtos entre os m componentes do vetor xi pelos m componentes do vetor xj ,
x x
T
xx x x x 3
isto é, i ⊗ j = i j ; i ⊗ j ⊗ k representa a estrutura cúbica em < formada pelos m
3
2
x x
produtos entre os m elementos da matriz i ⊗ j e os m componentes do vetor k ; e assim x
sucessivamente.
1. Subtrai-se o vetor média do conjunto de N vetores de treino.
2. Normaliza-se a i-ésima componente de cada vetor de treino pelo desvio padrão do
conjunto de N valores formado pela i-ésima componente de todos os N vetores de
treino.
3. Normaliza-se o conjunto de N saídas desejadas para o intervalo [−1, +1].
4. Denem-se os parâmetros a e b da função de ativação. Em geral, a = 1.7159 e b = 2/3

são valores adequados para ϕ(v) = a tanh(bv), de modo que ϕ0 (0) = ab = 1.14 ≈ 1.
5. Inicializam-se os pesos sinápticos com valores aleatórios de distribuição uniforme. Uma
possível heurística é adotar uma inicialização randômica com valores compreendidos no
intervalo [−2.4/F i, +2.4/F i] onde Fi é o fan-in ou o número total de nós de entrada
(sinapses) do neurônio. Outra possível heurística é adotar uma inicialização randômica
com conjunto de valores de média zero e variância denida por 1/Fi .
6. Denem-se o momento 0<α<1 e a razão de aprendizado 0<η<1 por camada do
MLP.
7. Visto que os neurônios próximos da camada de saída tendem a ter maiores gradientes
locais, atribui-se a eles usualmente razões de aprendizado menores. Outro critério a
ser considerado simultaneamente é que neurônios com muitas entradas devem ter η
menores.
Redes Neurais 49
II - Treinamento:
1. Apresenta-se cada exemplo (vetor de entrada) do conjunto de treino ao MLP. Denindo
como Γ : <m1 → <mL o mapeamento ou processo a ser aprendido pelo MLP, sendo m1 e
mL , respectivamente, o número de nós de entrada e saída do MLP, o conjunto de treino
deve conter uma parcela sucientemente signicativa do universo de vetores-exemplo
que descrevem o processo Γ, caso contrário, após o treino o MLP não terá condições
de inferir um resultado correto quando a ele for apresentado um vetor de Γ que não
encontrava-se no conjunto de treino. Em outras palavras, o conjunto de treino deve
conter uma parcela sucientemente signicativa do universo de vetores-exemplo que
descrevem o processo Γ para não prejudicar a capacidade de generalização do MLP.
2. Para cada exemplo executa-se completamente um ciclo passo direto - passo reverso,
mantendo-se o vetor de entrada aplicado à entrada do MLP.
3. O nal da apresentação de todos os exemplos do conjunto de treino dene uma Época.
A cada determinado número de Épocas em que for observado uma signicativa queda
no MSE, aumenta-se o momento α e/ou a razão de aprendizado η.
4. Prossegue-se o treino do MLP de Época em Época, eventualmente ajustando α e η,

até que se atinja o Critério de Parada.
III - Critério de Parada:
O critério de parada no treino de uma rede MLP é subjetivo, já que não existe prova de que
o algoritmo backpropagation tenha convergido para o mínimo global da superfície de erro (se
é que existe o mínimo global).
Sugere-se como critério de parada o seguinte procedimento:
1. O valor do MSE atingiu um valor sucientemente baixo e/ou
2. A razão de variação do MSE atingiu um valor sucientemente baixo em valor absoluto
e negativo.
Quando qualquer uma das condições acima é atingida, considera-se que o MLP não
necessita mais ser treinado. Note que o critério 2 pode signicar que o backpropagation cou
preso em um mínimo local e não global.

Redes Neurais 50
É importante observar que um MSE baixo ao nal do treino não necessariamente implica
em uma alta capacidade de generalização. Se o conjunto de treino escolhido para represen-
tar o processo Γ a ser aprendido pelo MLP constituir um sub-conjunto cujas propriedades
estatísticas não correspondem às de Γ, então o MLP falhará em inferir o resultado correto
quando um vetor de Γ que não pertence ao conjunto de treino for apresentado ao MLP.
2
Caracterização Geofísica de Reservatório
A arquitetura dos reservatórios petrolíferos, ou seja, a base geométrica que dene sua estru-
tura externa, é uma das fontes de heterogeneidades que precisa ser modelada com precisão
para auxiliar no processo de previsão de performance de urn campo. Portanto, devido à
presença de fatores que inuenciam o comportamento do uxo, a elaboração de modelos que
honrem a arquitetura dos reservatórios deve ser considerada uma etapa de vital importância
no seu desenvolvimento.
Os modelos elaborados serão tão melhores quanto melhor for o processo de caracteriza-
ção de reservatórios. Esse processo pode ser denido como a determinação quantitativa e
tridimensional, do limite, volume, heterogeneidades e distribuição das propriedades de rocha
e uido, tendo como objetivo nal a construção de um modelo capaz de prever o compor-
tamento do reservatório onde se pode então planejar de maneira mais eciente a locação de
poços, reduzindo assim os custos inerentes a perfuração (Bankhead, 2000).
Neste processo é necessário combinar conhecimentos de geocientistas (petrofísicos, geó-
logos e geofísicos) e engenheiros de petróleo, com o objetivo de construir um modelo onde
se possa incorporar todas as informações e dados disponíveis sobre o reservatório. Esses
modelos integrados são importantes para prever, monitorar e otimizar a performance de um
campo durante todo o seu ciclo de vida. Alem de poderem ser disponibilizados para estudos
de simulação de uxo onde se pode identicar zonas de maior e menor permeabilidade, mo-
nitorar o movimento de uxo dentro dos reservatórios além de gerar mapas de propriedades
que auxiliam na determinação da estratégia de produção a ser adotada. De posse de todas
essas informações pode-se caracterizar e gerenciar de maneira efetiva um reservatório (Biondi
et al., 1998).
51
Caracterização Geofísica de Reservatório 52
Para a realização desse processo, a comunicação das diversas áreas torna-se importante,
pois os dados provenientes do reservatório são de duas naturezas distintas que precisam ser
integradas, a saber: os dados hard soft. Pers de poços, análise de testemunhos e

e os dados
dados de produção são considerados dados hard. Eles representam urna amostragem esparsa
do reservatório, e contém propriedades conhecidas em Iocalizações especícas. Os dados
sísmicos 3-D são os mais conhecidos entre os dados denominados soft. Eles são densamente
adquiridos e são correlacionados com as propriedades provenientes da informação hard. Na
caracterização de reservatórios os dados soft sao utilizados para auxiliar na identicação
de alvos nas regiões onde os dados hard não estão disponíveis, por meio de técnicas de
interpolação. Essa integração de dados hard e soft tem ocorrido principalmente a partir da
década de 80, onde a sísmica tem sido usada para ajudar na modelagem de reservatórios,
fornecendo modelos mais representativos do que os obtidos anteriormente onde somente
dados de poços eram utilizados (Sancevero, 2003).
Ao se utilizar o dado sísmico convencional de amplitude no processo de modelagem,
grandes erros podem ocorrer na estimativa das propriedades do reservatório, pois nessas
circunstâncias esse tipo de informação não permite um completo entendimento do campo
em estudo. Além disso, nos reservatórios se necessita ter uma alta taxa de recuperação de óleo
in place de modo a retornar os investimentos realizados com perfuração e produção. Assim,
tanto as heterogeneidades como as incertezas associadas ao processo exploratório devem ser
quanticadas de maneira correta para que se conheça com maior precisão as regiões a serem
exploradas, reduzindo assim o risco (Caers et al., 2001).
Para se otimizar o entendimento desses reservatórios é necessário combinar em um único
modelo todas as informações, conhecimentos e dados disponíveis sobre o campo. Entre as
informações utilizadas pode-se incluir, modelos geológicos conceituais, dados sísmicos 3D,
dados de pers, dados de testemunhos e históricos de produção. Cada um desses dados car-
rega informações adquiridas em diferentes escalas e com diferentes graus de precisão. Desse
modo a tarefa de se integrar todos os dados em um único modelo não é fácil de ser realizada
na prática. O desao é então combinar todas as informações em um modelo unicado e
consistente, onde as previsões quantitativas sobre o comportamento do reservatório podem
ser realizadas (Buiting e Bacon, 1997).
De acordo com Riel (2000), do ponto de vista da geofísica, o processo de caracterização de
reservatórios e a consequente geração de modelos precisos utilizava de maneira tradicional os
dados de amplitude sísmica. Esse tipo de dado era usado para a detecção dos chamados bright
spots, com os quais se podia determinar as estruturas dos reservatórios em estudo. A partir
do momento em que o processo exploratório começou a investigar horizontes mais complexos,

o limite para a utilização do dado sísmico de amplitude para a caracterização de reservatórios
foi alcançado. Desse modo, foi necessário desenvolver técnicas para se recuperar de maneira
direta parâmetros petrofísicos capazes de caracterizar esses novos alvos exploratórios.
2.1 Perlagem Geofísica de Poço

Podemos denir Perlagem Geofísica de Poços, em sua concepção atual, como: O campo
da geociências que estuda o registro contínuo das propriedades geológicas e petrofísicas das
rochas, medidas por uma ferramenta ao percorrer um poço.
Pers de poços são formas de representar as variações das propriedades físicas medidas
ao longo da profundidade de um poço. Os dados para o registro dos pers são coletados
no deslocamento ascensional e contínuo do equipamento que está sendo usado na perlagem
(sensores, por exemplo). Esta curva representa o registro de propriedades elétricas, ra-
dioativas, acústicas, térmicas, magnéticas ou texturais/estruturais das rochas, podendo ser
também referentes à geometria e estado de preservação dos elementos articiais/operacionais
do poço (revestimento, reboco, etc.). Cada amostra que compôes um perl representa não
só um ponto, mas a média ponderada de uma dada propriedade para o volume de rocha
investigado pela ferramenta de perlagem.
Serão discutidos a seguir os tipos de pers de poços que serão utilizados neste trabalho.
2.1.1 Perl de Raio Gama

Trata-se de um método nuclear que mede a radioatividade natural das formações, a partir
da interação da radiação gama emitida naturalmente pelas rochas. O sinal é composto
de emissões de vários níveis energéticos de radioisótopos, especialmente na faixa energética

40 232 238
dos elementos K, Th e U e dos elementos resultantes de seus decaimentos. Embora
emita radiação num menor nível energético do que os outros dois elementos citados(existem
ferramentas mais sosticadas, que descriminam e totalizam a contagem correspondente de

40
cada um dos três elementos), o K é bastante abundante nos minerais mais comuns da
crosta terrestre, como o K-feldspato, micas (muscovita, biotita, etc.) e sais de potássio.
Em rochas sedimentares, os valores de GR ( Gamma Ray ) são interpretados como uma
função do teor do volume de folhelhos (que além de concentrar matéria orgânica, são consti-
40
tuídos de minerais ricos em K e por este motivo, apresentam maior atividade radioativa) e
por correspondência, do tamanho dos grãos (folhelhos são compostos de minerais de granulo-
metria argila, isto é, fração na). É comum então, na prática, associar-se que nos intervalos
de maior contagem do GR estão localizados os folhelhos e nos intervalos de menor contagem
estão os não-folhelhos, que podem ser os reservatórios (carbonatos, arenitos, etc.). É claro
que se trata de uma aproximação.
Nery (2013) cita alguns dos principais usos do perl de raios gama convencional:
• Denição da litologia com base no que seja folhelho e não-folhelho;
• Denição eventual de ambientes de deposição;
• Correlação entre poços vizinhos.
2.1.2 Perl Sônico

Esse perl está agrupado nos pers acústicos, sendo aquele que mede o tempo gasto por
uma onda compressional ao percorrer uma dada espessura de uma formação. As velocidades
das ondas sonoras variam de acordo com o meio em que estão se propagando, sendo mais
rápidas em sólidos do que em líquidos e gases. Sendo assim, uma onda compressional levaria
mais tempo para percorrer uma determinada espessura de um meio gasoso ou líquido, do
que para percorrer a mesma espessura em um meio sólido. Pode-se perceber que, ao xar-se
a distância percorrida pelas ondas acústicas, a velocidade pode ser escrita em função de uma
medida de tempo. Este é o princípio da ferramenta sônica, registrando, assim, intervalos de
tempo.
O perl sônico é muito importante no estudo de reservatórios, devido ao fato de serem
possíveis cálculos de aproximação da porosidade utilizando o mesmo, além de se poder cal-
cular alguns parâmetros elásticos, bem como velocidades intervalares (dados úteis à sísmica
de exploração).
Nery (2013) cita alguns dos principais usos do perl sônico:
• Calculo da porosidade intergranular;
• Detecção de ocasionais zonas de fraturas;
• Auxílio à sísmica de superfície (correlação sísmica-poço).
2.1.3 Perl Neutrônico

O Neutrônico é um perl radioativo, útil para obter o valor das porosidades das formações,
a partir da ferramenta do tipo mandril e excentralizada. Neste caso, uma fonte bombardeia
com nêutrons em velocidade os elementos não radioativos da formação, resultando numa
perda de energia dos nêutrons ocasionada pelos sucessivos choques com os núcleos dos ele-
mentos. As ferramentas capturam esses nêutrons amortecidos.
Os nêutrons colidem com os núcleos atômicos na rocha. Quando os núcleos tem muito
mais massa que os nêutrons, estes retornam aos receptores com pouca perda de energia.
No entanto, o íon de hidrogênio tem praticamente a mesma massa que um nêutron e, neste
caso, a colisão transfere muita energia cinética, tornando o nêutron lento ou levando-o a um
estado termal, coincidente com o existente no meio ambiente, passível de ser detectado pela
ferramenta que traduz em medida do Índice de Hidrogênio da rocha, ou IH .
Em arenitos e calcários, os íons de hidrogênio estão presentes nos uidos das rochas,
de forma que sua concentração é inteiramente dependente da porosidade. Nos folhelhos,
entretanto, o hidrogênio pode resultar dos íons H+ adsorvidos pela água intersticial dos
minerais de argila. Assim, a ferramenta neutrônica é dependente da calibração em função
da litologia. A estimativa da porosidade é calculada pela ferramenta, com base no IH e na
litologia considerada.
A sua unidade é dada é Unidade de Porosidade ( Porosity Unit - P U) relativas a uma
litologia de calibração a qual vem explicitada no cabeçalho do perl.
Nery (2013) cita alguns dos principais usos do perl neutrônico:
• Calculo da porosidade em poço aberto;
• Calculo da porosidade em poço revestido.
2.1.4 Perl de Densidade

O perl de densidade é um registro contínuo da variação de densidade das rochas que estão
ao redor do poço. A medição da densidade total da rocha a partir do perl de densidade é
feita através do bombardeamento das paredes do poço com feixes monoenergéticos de raios
gama de intensidade xa. Esses feixes, ao saírem da fonte, chocam-se com os elétrons da
formação por efeito Compton. A energia dos fótons liberados vai ser atenuada, devido a
3
densidade eletrônica (eletrons/cm ) das formações que, por sua vez, é função da densidade.
Com isso, é possível fazer uma estimativa da densidade das rochas, medindo a proporção de
radiação gama induzida e registrada pelo detector na ferramenta.
Nery (2013) cita alguns dos principais usos do perl de densidade:
• Calculo da porosidade total das camadas;

• Quando usado em conjunto com o sônico:
Determinação da litologia;
Cálculo das constantes elásticas;
Cálculo do coeciente de reexão e impedância, para a confecção de sismogramas
sintéticos para a sísmica.
Perl de Porosidade
O perl de porosidade pode ser estimado de diversas formas. Uma forma é através do perl de
densidade. De posse dos valores de densidade é possível fazer uma estimativa da porosidade
(φ) das rochas, considerando a densidade da rocha (ρb ), como uma soma das contribuições
da densidade da matriz (ρm ) e dos uidos nos poros (ρf ). Assim:
ρb = φρf + (1 − φ)ρm . (2.1)
Logo:
ρm − ρb
φ= , (2.2)
ρm − ρf
onde ρb é o valor da leitura da densidade (g/cm3 ) na profundidade a calcular e φ a porosidade.
Equação de Gardner
A Equação de Gardner (Gardner et al., 1974) é uma equação empírica, que relaciona a
densidade com a velocidade da onda P na rocha:
ρ = 0, 23V 0,25 , (2.3)
onde V é a velocidade em f t/s e ρ a densidade em g/cm3 .
A Figura 2.1 mostra que a a equação 2.3 se ajusta para densidade das ondas compressi-
onais nas rochas.
Entretanto ele tem algumas limitações. Um problema a ser encarado é que a densi-
dade depende diretamente da porosidade do meio, e, por sua vez, pequenas alterações na
porosidade vão causar grandes variações na velocidade das ondas. Essa equação (2.3) é
muito usada quando a densidade e a velocidade são as principais propriedades medidas. O
que no processo de interpretação dos dados e caracterização do reservatório são de extrema
importância, pois servem para realizar a correlação de sísmica com o poço.

Figura 2.1: Relação Densidade-Velocidade empíricas em rochas de diferentes litologias (Gard-

ner et al., 1974).
2.2 Dado Sísmico

Levantamentos sísmicos tridimensionais provaram ser ferramentas poderosas para geração
de imagens do subsuperfícies desde a sua introdução em meados da década de 1970. Hoje,
prospecções sísmicas 3D demonstram altos índices de custo/benefício, reduzindo o risco
poços secos e fornecendo uma melhor locação de poços para aumentar as taxas de uxo e
de drenagem. Outros benefícios incluem melhoria das estimativas de reservas e ciclos mais
curtos de tempo para o planejamento de avaliação e desenvolvimento do projeto. Além disso,
campos antigos com pers de produção em declínio conseguiram ter uma recuperação maior.
Prospecções sísmicas 3D revolucionaram a indústria geofísica, com efeitos de longo alcance
sobre o negócio de exploração e produção em todo o mundo (Nestvold, 1996).
As companhias de petróleo estão procurando maneiras de baixo risco para aumentar as
reservas. O impacto da tecnologia sísmica 3D tem sido a de aumentar as reservas e, assim fa-
zendo, para reduzir os custos de encontrar (para exploração) e os custos de desenvolvimento
(para a produção), melhorando a taxa de perfuração sucesso dramaticamente. Na verdade, o
impacto dos dados sísmicos 3D se estende para além perfuração em locais e dimensionamento
das plataformas de produção (oshore) e instalações de produção de superfície (onshore).
Além disso, dados sísmicos 3D têm tido um impacto importante nas tecnologias de integra-
ção, porque todas as áreas de atuação direta com o campo de produção (como a geofísica,
a geologia e a engenharia de reservatório) estão usando levantamentos 3D como base para a
modelagem de reservatório durante a história de vida cada campo. Em muitos casos, como
campos em produção, os modelos de reservatório serão atualizado continuamente com base
em todos os dados de campo, incluindo pesquisas repetidas 3D (sísmica 4D, ou time lapse ).
2.2.1 Impedância Acústica

Os dados sísmicos representam uma propriedade de interface em que eventos de reexão são
vistos devido a alterações relativas na impedância acústica das camadas de rocha adjacentes.
As mudanças de amplitude observadas, no entanto, não pode indicar se as mudanças de
amplitude referem-se a variações da litologia acima ou abaixo de uma interface. Impedância
acústica é uma propriedade física rocha, obtido pelo produto da densidade e velocidade.
Pers de poços medem essas duas unidades diretamente, de modo que, dividindo o registo
de densidade pelo registo sonoro, o perl de impedância acústica é obtida. Assim, enquanto
a impedância acústica é uma propriedade de camada, amplitudes sísmicas são atributos de
limites da camada. Com isso, se qualquer interpretação quantitativa dos dados sísmicos,
em termos de propriedades (impedância) de intervalo estratais nas, deve ser tentada, em
seguida, em vez das propriedades da interface de reexão é para ser utilizada a inversão
(inversão acústica, inversão sparse-spike, inversão estratigráca, inversão estocástica). Seja
qual for a técnica seja adotada para inverter o volume de dados sísmicos, o volume de
impedância prova ser muito útil (Chopra, 2001).
Inversão sísmica para a impedância acústica é amplamente utilizado na indústria de
hoje, principalmente devido à facilidade e precisão de interpretação dos dados de impedância
(Latimer et al., 2000). Além disso, a inversão de dados sísmicos para a impedância acústica
permite uma abordagem integrada para a interpretação geológica.

Sendo então um dado que se refere às camadas de rocha, a impedância acústica possui
várias vantagens. De acordo com um modelo de impedância de boa qualidade contém mais
informação que o dado sísmico, pois, esse modelo possui todas as informações contidas no
dado sísmico, além de possuir a informação adicional dos dados de pers de poços. O volume
de impedância acústica, dependendo do método aplicado para a sua obtenção, é o resultado
da integração de dados provenientes de diferentes fontes, normalmente o dado sísmico, os
dados de poços e/ou os modelos de velocidade. Assim, construir um modelo de impedância
acústica é a maneira mais natural de se integrar as informações, gerando ao nal do processo
um modelo que pode ser compreendido por geofísicos, geólogos e engenheiros. É comum
encontrar relações empíricas entre a impedância acústica e as propriedades de rocha. Os
modelos de impedância acústica podem fornecer a base para a geração de modelos tridimen-
sionais de facies e de propriedades petrofísicas. Por m, os modelos de impedância acústica
suportam interpretações rápidas, onde as análises estratigrácas podem ser realizadas, per-
mitindo assim uma eciente delineação de alvos exploratórios na escala sísmica.
2.3 Modelagem de Reservatório

Para a exploração e explotação racional dos reservatórios é necessário o entendimento da
distribuição das heterogeneidades , que ocorrem nas escalas em diversas escalas (Galloway
e Sharp Jr, 1998). Entretanto, o reconhecimento da dimensão, geometria e orientação dos
corpos sedimentares em macro e megaescala são considerados elementos críticos no desenvol-
vimento de campos petrolíferos. Estas heterogeneidades são inuenciadas por causas diversas
como, por exemplo, a diferença nas propriedades permoporosas das rochas, que por sua vez,
dependem das condições deposicionais do reservatório e inuenciam o comportamento do
uxo de uidos. Heterogeneidades de reservatórios podem ser denidas como o resultado da
variação espacial das propriedades do reservatórios nas diversas escalas, cujo as principais são
a faciologia, geometrias externa e interna e a conectividade entre os corpos. Também pode
ser expressa como uma função da arquitetura do reservatório reetindo o estilo deposicional
original e subsequentes modicações diagenética e estruturais.
Os métodos tradicionais de descrever o reservatório como mapas e contorno de parâ-
metros não estão totalmente hábeis para representar adequadamente as heterogeneidades
interna dos reservatórios, pois são baseados em dados poços, que geralmente são muito es-
paçados entre si, geralmente, não sendo possível correlacionar um mesmo corpo entre dois
poços. Isso representa um incerteza grande de impacto na modelagem de reservatórios. Daí,
a grande importância em se ter um imageamento tridimensional do reservatório entre os po-
ços com dados sísmicos; para se ter uma maior informação a respeito da disposição espacial e
fazer inferências de propriedades petrofísicas a partir de uma correlação dos dados de poços
em conjunto com a sísmica e extrapolar, com um baixo grau de incerteza, essas propriedades
para todo o volume do reservatório em estudo.
Desde a descoberta de um reservatório de hidrocarbonetos até o momento da produção do
último barril de óleo, os modelos têm um papel fundamental na predição do comportamento
do uxo nos reservatórios. A costrução de um modelo em si, jamais deve ser objetivo único
do trabalho. Os modelos têm por objetivo principal calcular o volume de óleo in place
(VOIP) e, portanto, cubar a reserva bem como selecionar locais para perfuração de novos
poços em áreas geológicas mais promissoras e determinar os melhores métodos de otimização
da produção e recuperação de hidrocarbonetos (Gauw, 2008).
Existem muitos benefícios na construção dos modelos 3D já que os mesmos são resultados
da integração dos conhecimentos, assim como, da junção de dados variados. Diversos tipos
de dados são empregados na modelagem de reservatórios, sendo os mais importantes (Caers,
2005):
• Dados Geológicos (todos aqueles que estão relacionados com o estilo deposicional):
Testemunhos (dados de fácies, porosidade, permeabilidade);
Interpretações sedimentológicas e estratigrácas da área;
Dados de análogos.
• Dados Geofísicos (todo dado relacionado com levantamentos geofísicos):
Pers geofísicos (conjunto de pers que indiquem a litologia, petrofísica e o tipo
de uidos).
Interpretação de horizontes e falhas na sísmica;
Atributos sísmicos;
Dados das propriedades físicas das rochas.
• Dados de Engenharia de Reservatório (todo dado relacionado com comportamento do
uxo no meio poroso):
Dado de Pressão/Temperatura (PVT) dos reservvatórios;
Dados de testes de produção;
Dados de produção (vazão, etc.);

Os dados de entrada dos modelos podem ser classicados como estáticos e dinâmicos.
Os dados estáticos são independentes do tempo e não estão associados com o transporte de
uidos. É onde se encaixa o dado geológico e geofísico do reservatório. Os dados dinâmicos
são os intrinsecamente relacionados ao tempo e ao uxo de uidos no reservatório.
Uma típica rotina de trabalho de modelagem de reservatório é realizado no sentido da
grande para a pequena escala e geralmente dos métodos determinísticos para os estocásticos
(Pyrcz et al., 2005). Seguindo, aproximadamente, os seguintes passos:
1. Estabelecer uma estruturação em larga escala, determinando topo, base e zonas do
reservatório;
2. Em cada zona, preencher com as fácies usando simulação de variáveis discretas para
obter realizações equiprováveis da distribuição desse parâmetro;
3. Preencher o reservatório com a porosidade e permeabilidade condicionando a distri-
buição faciológica usando simulação de ariáveis contínuas.
A denição de um modelo geológico para o reservatório é a fase mais importante em
uma típica rotina de trabalho de estudo de reservatórios (Figura 2.2) e tem impacto direto
no resultado nal (Pérez, 2008).
A caracterização de reservatórios, com o estudo faciológico e a modelagem das fácies
deposicionais de um determinado reservatório é de extrema importância para guiar a distri-
buição das características petrofísicas do reservatório que tem impacto no cálculo de volume
de hidrocarboneto in place e no modelo de uxo de uidos (Lima et al., 2005).
O cálculo de volume de óleo in place é o resultado nal do estudo e modelagem de
reservatórios e é totalmente inuenciada por cada um dos passo envolvidos na modelagem.
Pois o volume é calculado multiplicando a saturação de óleo pelo espaço poroso, que por sua
vez é dependente da faciologia e da modelagem estrutural, ou seja, a distribuição de como
os sedimentos foram depositados para a formação do reservatório em estudo.
Com isso, o trabalho em conjunto do geofísico e geólogo de reservatório é de fundamental
importância para a modelagem que venha a ser realizada pelo engenheiro. Entender como
o reservatório foi formado, com base nos dados de poços e sísmicos, ajuda a entender como
estão distribuídos a litologia e a porosidade, fazendo assim uma estimativa mais próxima
da realidade do modelo de reservatório, que vai ser de fundamental importância para fazer
estudos e simulações de uxos, assim fazer uma estratégia de locação de poços produtores e
injetores que venham minimizar os gastos e maximizar a vazão de uídos no reservatório.

Figura 2.2: Esboço, passo-a-passo, da construção de um modelo geológico 3D de alta reso-

lução de um reservatório. Adaptado de Pérez (2008)
3
Aplicações e Resultados
Neste trabalho foi utilizado o método de redes neurais para duas diferentes aplicações em
dois diferentes momentos dentro da caracterização geofísica de reservatório.
A primeira aplicação foi para testar o método de redes neurais para predição de um perl
de poço que é conhecido, para poder avaliar o método e ver se o resultado foi condizente com
o perl real. Em um primeiro momento foi utilizado um dado de poço real para aplicação do
problema onde nele existia pers de GR, ∆t, NPHI e ρb , onde foi feito um estudo avaliativo
das redes neurais e a sua capacidade de recuperar um dado de poço conhecido, através do
treinamento da rede com diversos níveis de dados de entrada com os pers de GR, ∆t e
NPHI, e com o dado alvo / de teste (para treinamento / para saída) da rede com o perl de
ρb . Essa parte do trabalho foi toda realizada com o módulo de Redes Neurais do Software
MALTAB, onde esse módulo fornece funções e aplicativos para a modelagem de sistemas não-
lineares complexos que não são facilmente modelados como uma equação de forma fechada.
Essa metodologia pode ser aplicada em campo petrolífero onde se tenha alguns poços nas
proximidades de um poço existente no campo, onde se tenha pers de poços conáveis para
realizar o treinamento do dado e aplicá-los em poços vizinhos onde falte essa informação,
assim podendo ter uma maior estimativa espacial do reservatório entre os poços e as suas
informações petrofísicas ao redor do poço de forma real (para poços conhecidos) e estimada
(para poços onde serão usados a aplicação da rede treinada para obtenção do perl).
A segunda aplicação foi a aplicação de uma rede neural para a predição de propriedades
petrofísicas de reservatório, para ter conhecimento da distribuição espacial dessa propriedade
e assim conseguir criar modelos mais condizentes com o meio, para o engenheiro de reserva-
tório fazer simulações mais realísticas de como explotar melhor a reserva, colocando poços
63
Aplicações e Resultados 64
produtores e injetores num local mais propício para uma maior extração do hidrocarboneto
contido no reservatório em estudo. A aplicação foi feita em um dado sísmico tridimensional
real, onde se tem o cubo de impedância já calculado na zona do reservatório de interesse
para a aplicação, e os dados de 4 poços localizados dentro desse volume, onde foram feitos
o treinamento de duas redes, as quais terão como dado de treinamento, junto com a impe-
dância (como dado de entrada), o perl de porosidade e a outra rede com o perl de GR
(como dado alvo), com isso tendo-se uma ideia de propriedades importantes do reservatório,
como a porosidade e a litologia. Essa etapa foi realizada com dado com um grau maior
de complexidade e foi utilizado um conjunto de dados disponíveis no Software OpendTect,

onde tem um plugin de Redes Neurais para a predição de propriedades a partir de poços,
desenvolvido pela dGB Earth Sciences.
3.1 Dados de Poço

O conjunto dos dados de poços contém os pers de GR, ∆t, NPHI e ρb registrados em uma
zona de reservatório que se localiza entre as profundidades 3463 e 3499 m, como visto na
Figura 3.1, que é caracterizada como reservatório por ter baixo GR.
Figura 3.1: Conjunto dos Pers de poços utilizados.

3.1.1 Utilizando a Equação de Gardner

Em um primeiro momento foi utilizado a fórmula de Gardner (Equação 2.3) para se fazer uma
estimativa do perl de ρb a partir dos valores de ∆t. O resultado pode ser visto na Figura X.
Onde ca perceptível que esse a utilização dessa equação nesse perl traria prejuízos enormes
à interpretação de propriedades petrofísicas da região estudada no poço.
Figura 3.2: Pers de ∆t e ρb (Original e calculado pela equação de Gardner).
3.1.2 Utilizando Redes Neurais

Então o uso das redes neurais foi feito para o treinamento e aplicação para a estimativa
do perl de ρb , onde ele foi utilizado com dado alvo da rede no treinamento (e dado de
saída na aplicação). Para melhor comparar melhor apenas a inuência da rede neural, foram
utilizados os mesmo parâmetros nas redes para diferentes quantidades de dados de entrada.
Foram utilizados 70% dos dados para treinamento, 15% para validação e 15% para teste das
redes.
Dados de ∆t como entrada da rede

Em um primeiro momento foi utilizado apenas o perl de ∆t como entrada na rede.
Observando a Figura 3.3, pode ser visto que após 8 iterações, o erro do treinamento da
rede foi minimizado e estabilizado com o valor do erro médio quadrático ( mse ) da faixa de
0, 00867.
Figura 3.3: Gráco de performance do treinamento, onde o erro médio quadrático ( mse ) se
estabilizou e foi parado o treinamento da rede com ∆t como dado de entrada.
Na Figura 3.4 são plotadas as retas de regressão para os dados treinados (azul), para
os dados de validação (verde), para os dados de teste (vermelho) e de todo o dado (preto).
Onde ca evidente que o treinamento realizado pela rede não foi satisfatório, tendo como
base a observação da regressão dos dados treinados, que tiveram o valor do coeciente de
correlação R = 0, 55436, onde teve uma faixa de valores de dado de saída (≈ ρb = 2, 49)
que teve vários valores de dados alvo e uma faixa dos valores de dado alvo (≈ ρb = 2, 55)
que teve vários valores de dados de saída, o que acarretou num maior erro ao modelo a ser
estimado.
Após o treinamento, a foi aplicada a rede e encontrado o resultado representado na
Figura 3.5. Onde o modelo estimado conseguiu ajustar a relação na parte inicial; na parte
entre intermediária (entre 3466 e 3487 m) e na parte nal (entre 3497 e 3510 m) houveram
erros consideráveis entre as curvas.

Figura 3.4: Grácos de regressão para os dados utilizados para treinamento,teste, validação
e todos juntos para a rede com ∆t como dado de entrada na rede e ρb como dado alvo do
treinamento.
Figura 3.5: Pers de ∆t e ρb original e estimado (através da rede com ∆t como dado de
entrada).
Dados de ∆t e NPHI como entrada da rede

Em seguida foi feito o treinamento utilizando os pers de ∆t e NPHI como dados entrada
na rede.
0, 0088955.
estabilizou e foi parado o treinamento da rede com ∆t e NPHI como dados de entrada.
correlação R = 0, 65561, onde teve uma faixa de valores de dado alvo (≈ ρb = 2, 55) que teve
vários valores de dados de saída, o que acarretou num maior erro ao modelo a ser estimado.
Figura 3.8. Onde o modelo estimado conseguiu ajustar a relação na parte inicial; na parte
entre intermediária (entre 3466 e 3487 m) e na parte nal (entre 3497 e 3510 m) houveram
erros consideráveis entre as curvas, porém menores que o modelo estimado com apenas ∆t
como dado de entrada na rede.
e todos juntos para a rede com ∆t e NPHI como dados de entrada na rede e ρb como dado
alvo do treinamento.
Figura 3.8: Pers de ∆t e NPHI, e ρb original e estimado (através da rede com ∆t e NPHI
como dados de entrada).
Dados de ∆t, NPHI e GR como entrada da rede

Por m, foi feito o treinamento utilizando os pers de ∆t, NPHI e GR como dados entrada
na rede.
0, 0035329.
estabilizou e foi parado o treinamento da rede com ∆t, NPHI e GR como dados de entrada.
correlação R = 0, 89117, o que representa um modelo muito bem ajustado e de excelente
treinamento realizado.
Figura ??. Onde o modelo estimado conseguiu um bom ajuste com o dado original, onde
a curva estimada segue a mesma tendência da curva original e teve melhor ajuste que os
modelo estimado com apenas ∆t como dado de entrada na rede e com ∆t e PHIN como
dados de entrada da rede.

e todos juntos para a rede com ∆t, NPHI e GR como dados de entrada na rede e ρb como
dado alvo do treinamento.
Figura 3.11: Pers de ∆t, NPHI e GR, e ρb original e estimado (através da rede com ∆t,
NPHI e GR como dados de entrada).
3.1.3 Comparação dos Resultados

Com todos esses resultados, podemos observar na Figura 3.12 que o modelo estimado através
da equação de Gardner se mostrou o pior modelo estimado, com erros grandes em principal-
mente na parte inicial (entre 3449 e 3465 m) e nal (entre 3497 e 3510 m).
No modelo estimado utilizando redes neurais com os dados de ∆t como dado de entrada,
o modelo estimado conseguiu ajustar a relação na parte inicial; na parte entre intermediária
(entre 3466 e 3487 m) e na parte nal (entre 3497 e 3510 m) houveram erros consideráveis
entre as curvas.
No modelo estimado utilizando redes neurais com os dados de ∆t e NPHI como dados
de entrada, o modelo estimado conseguiu um ajuste considerável a relação na parte inicial;
na parte entre intermediária (entre 3466 e 3487 m) e na parte nal (entre 3497 e 3510 m)
houveram erros consideráveis entre as curvas, porém relativamente menores que no modelo
com apenas ∆t como dado de entrada.
No modelo estimado utilizando redes neurais com os dados de ∆t, NPHI e GR como
dados de entrada, o modelo estimado foi o melhor entre todos os estimados, com a curva
estimada seguindo uma certa tendência do dado original. Atentando apenas para algumas
partes que não conseguiram se relacionar bem, mas, no geral, pode ser considerada uma
estimativa boa, pois no teste dessa rede o R = 0, 89117.
Com isso, cou demonstrado que a utilização de redes neurais para a estimativa de um
perl, através do treinamento realizado entre a maior quantidade de dados de entrada que foi
possível e coerente de serem usadas e o dado alvo conhecido, tem uma certa conabilidade e
maior precisão quando comparado a uma fórmula empírica que tem suas limitações e é muito
abrangente, e redes com menores dados de entrada, logo menos exemplos de treinamento para
a rede.
Figura 3.12: Comparação dos métodos para obtenção do perl de ρb por: Gardner; redes
neurais com ∆t como dado de entrada da rede; redes neurais com ∆t e NPHI como dados
de entrada da rede; e redes neurais com ∆t, NPHI e GR como dados de entrada da rede;
3.2 Dado Sísmico 3D

O conjunto de dados utilizados estão localizados no Mar do Norte com a localização aproxi-
mada indicada na Figura 3.13; neles estão contidos um volume sísmico (empilhado e migrado
em tempo - Post-Stack Time Migration ) com a dimensão de 651 inlines × 951 crosslines
× 463 z-slices. Além disso, dentro do volume sísmico, estão contidos 4 poços, visualizados
espacialmente dentro do cubo pela Figura 3.14, onde teremos informações das propriedades
petrofísicas ao redor do poço.
Figura 3.13: Mapa com a localização da área de estudo no Mar do Norte e a ampliação do
mapa na região do dado, com localização dos poços dentro do volume. Adaptado de Qayyum
et al. (2013).
Os poços contém as informações de alguns pers, onde os de interesse são os pers de
GR e φ (calculado a partir o perl de densidade ρb através da equação 2.2), que estão
representados na Figura 3.15, os quais são pers que podemos fazer, respectivamente, uma
estimativa de litologia (folhelho/não-folhelho) e uma estimativa da porosidade (que é uma
propriedade petrofísica de grande valia na caracterização do reservatório), entretanto apenas
ao longo do poço e não em todo o volume do reserva.
O reservatório localizado no volume, e que será o objeto de estudo e aplicação desse
trabalho, é descrito por um reservatório deltáico, caracterizado por suas clinoformas pro-
gradantes no seu topo e que tem uma geometria sigmoidal, como pode ser visto na Figura
3.16 (entre o tempo 500 e 1100 ms, aproximadamente). Com isso, já é possível ter ideia do
Figura 3.14: Dimensão do cubo sísmico ( inline × crossline × profunidade em tempo) e a

disposição dos 4 poços nele.
Figura 3.15: Pers de GR e φ nos 4 poços na zona do reservatório.
comportamento litológico, onde, segundo Silva et al. (2008), teremos da base para o topo
um padrão de argilosidade decrescente, marcando a progradação da frente deltáica arenosa
sobre o prodelta argiloso, com um padrão de anamento para cima (granodecrescência as-
cendente). Com esses conhecimentos, já é possível ter noção de distribuição da litologia e

da sua porosidade, baseada no processo deposicional de um delta. Onde teremos os arenitos
mais próximos ao topo da deposição do delta com uma melhor porosidade e um melhor uxo
de uidos, devido a um maior grau de seleção dos grãos e uma menor presença de argila nos
poros.
Figura 3.16: Visualisação ampla do dado, com a inline 442 (onde o poço F03-4 está contido)
composto com a crossline 387, (onde o poço F06-1 está contido). Reservatório deltaico
localizado entre o tempo 600 e 1100 ms, aproximadamente.
Todo esse resultado é geologicamente esperado, porém para o engenheiro de reservatório
conseguir gerar seus modelos para entender a melhor forma de colocar o reservatório para
produzir, ele precisa de valores mais próximos a realidade das propriedades petrofísicas no
reservatório, que são obtidas fazendo a correlação entre os dados de poços e o dado sísmico
3D.
Entretanto, a representação tridimensional do reservatório em impedância acústica não
é o suciente para ser feita alguma simulação de interesse no reservatório. Então buscamos
formas mais seguras e diretas para predizer ou inferir as propriedades que interessam para o
modelagem do reservatório e mapeá-las. O conhecimento dessas propriedades são pontuais
e conhecidas apenas ao redor do poço, logo é preciso buscar uma forma de extrapolar essa
informação para todo o volume do reservatório. Uma ferramenta que pode fazer esse trabalho
é a rede neural. Elas são boas interpoladoras, mas não tão boas extrapoladoras, mas para
ocorrer uma boa extrapolação do dado de poço para o volume sísmico, algumas condições
tem que ser satisfeitas:
• A amarração do poço com a sísmica tem que estar bem calibrada (entre topo e base
do reservatório), pois eles se encontram em escalas diferentes (a sísmica em tempo e o
poço em profundidade);
• Obter o cubo de impedância acústica do volume na área do reservatório, pois o dado
em amplitude é propriedade de interface entre as camadas, e a impedância acústica
é uma propriedade de camada e é uma propriedade física da rocha. Esse processo de
obtenção do volume de impedância acústica é feito através de inversão sísmica.
Se essas condições não ocorrerem de forma satisfatória, então é preferivel que não se use
o método de redes neurais para predição de propriedades petrofísicas do reservatório, pois
poderá estar se usando informações do poço e do volume que estarão deslocadas uma da
outra.
No dado em questão foi feita uma amarração entre poço e sísmica (que também foi usado
para gerar o modelo em impedância acústica) de boa qualidade, o que deu segurança para
aplicar o método de redes neurais.
A rede neural será treinada por dois vetores de dados, um de entrada da rede e outro de
saída (ou alvo). O parâmetro de entrada é aquele que se tem conhecimento por todo o volume
em estudo (mas que no treinamento será utilizado apenas a informação ao redor do poço),
tendo uma representação visual da distribuição volumétrica de impedância acústica na Figura
3.18; para predizer a propriedade, usamos o perl de poço (Figura 3.15), da propriedade
petrofísica de interesse, como dado saída (alvo no treinamento e saída da aplicação da rede)
para treinar a rede, juntamente com os dados de entrada. Esse esquema encontra-se resumido
na Figura 3.17; ele é o uxo de utilização dos dados nesse trabalho para treinamento e
aplicação da rede.
Figura 3.17: Esquema da aplicação da rede neural para predição de propriedades, mostrando
como o funcionamento e a forma de trabalho da rede, de forma simplicada.
Figura 3.18: Cubo de impedância acústica (em kg/m3 × m/s) e os 4 poços contidos no
volume que tiveram seus pers utilizados como dado de entrada em cada rede treinada e sua
posterior aplicação.
3.2.1 Pré-Processamento dos Dados de Treinamento

Após realizar a entrada dos vetores para treinamento da rede, é feita uma investigação e
análise dos dados. A primeira etapa desse pré-processamento foi a eliminação de entradas
para o treinamento (no par entrada × alvo) cujo valores fossem muito discrepantes e pe-
trofísicamente improváveis. Depois foi feita uma normalização dos dados. A normaliza dos
vetores de entrada é modicada a m de obter uma distribuição at (suavizada), no con-
junto de dados de treinamento. O perl irá mostrar os valores contínuos entre o mínimo e
um máximo. Baseado no histograma deve ajustar-se o nível de saída para a distribuição at
usando o parâmetro de pontos de dados por classe (P DP C ). As classes mais representadas
serão decimadas para o parâmetro P DP C e as classes sub-representadas serão duplicadas
até o parâmetro P DP C , com uma pequena alteração no valor de destino para cada vetor
duplicado. Tudo isso é feito com o intuito de evitar que grandes variações dos valores de
entrada para o treinamento dicultem o aprendizado da rede, além de aumentar a eciência
do algoritmo de treinamento.
Com isso, foi feito o pré-processamento nas duas redes e obtido os seguintes histogramas
(Figuras 3.19 e 3.20):
Figura 3.19: Histograma do vetor de GR onde o parâmetro P DP C = 41. Que possui 4198
amostras coletadas dos 4 poços, onde o mínimo e o máximo são, respectivamente, 31.66 e
80.28 GAP I
Então utilizamos os pares de entrada e alvo do treinamento da rede para, através da
rede neural, encontrar uma função não-linear que melhor descreva essa relação entre as duas
propriedades, para posterior aplicação no volume.

Figura 3.20: Histograma do vetor de φ onde o parâmetro P DP C = 42. Que possui 4195
amostras coletadas dos 4 poços, onde o mínimo e o máximo são, respectivamente, 0.2507 e
0.3587
3.2.2 Treinamento
Os dados de entrada para o treinamento da rede foram os pares entrada (AI) × saída (GR,
para predição litológica e φ parar predição de porosidade), conforme mostram as Figuras
3.21 e 3.22, respectivamente. Onde ca claro o comportamento não-linear e disperso entre o
dado de entrada e os dados alvo do treinamento nas duas redes.
Figura 3.21: Cross-plot GR × AI. Ficando claro o comportamento não-linear e com grau
baixo de correlação (r = 0.23) entre os pares entrada × alvo.
Figura 3.22: Cross-plot φ× AI. Ficando claro o comportamento não-linear e com um grau
de correlação médio (r = 0.59) entre os pares entrada × alvo.
As redes foram simples, com apenas 2 nós na camada escondida, onde foram utilizados
70% dos dados para treinamento e 30% para teste; foram supervisionadas pela curva de Erro
RMS Normalizada (RM Snorm ) e pelo gráco de dispersão.
As curvas de RM Snorm indicam o erro global nos conjuntos de treino e teste, em vermelho
e azul, respectivamente. Numa escala de 0 (nenhum erro) a 1 (erro máximo). Quando a
curva de teste sobe novamente, a rede já tem o treinamento ajustado. O treinamento deve
ser interrompido quando isso acontece (de preferência antes). Tipicamente, segundo dGB
Earth Science (2015), um valor ecaz de RM S na faixa de 0, 8 é considerado razoável, entre
0, 8 e 0, 6 bom, entre 0, 6 e 0, 4 excelente e abaixo de 0,4 perfeito. O Erro RMS Normalizado
(RM Snorm ) pode ser calculado como:
RM S
RM Snorm = q P (3.1)
1 n
n i=1 (ti − t)
onde v
u n
u1 X
RM S = t (ti − ei )2 (3.2)
n i=1
e
n
1X
t= ti . (3.3)
n i=1
O gráco de dispersão mostra os dados alvos (no eixo horizontal) e os dados alvo preditos
(no eixo vertical) pela rede neural naquele momento. Idealmente, após o treino necessário,
todos os pontos devem estar na diagonal, isso signicaria que a rede treinada previu corre-
tamente todos os exemplos.
A curva de RM Snorm e o gráco de dispersão dos treinamentos para as duas redes foram
obtidas e no treinamento das redes. Podemos concluir, através da Figura 3.23, que o treina-
mento, para a rede de GR, foi feito com sucesso. Através da Figura 3.24, concluímos também
que o treinamento, para a rede de φ, foi realizado com sucesso também. Pois o gráco das
curvas de erro RM Snorm de treinamento e de teste, de ambas redes, caram (de acordo com
a Tabela 3.1), respectivamente, em 0.58 (considerada excelente) e 0.71 (considerada boa); e
o gráco de regressão mostra que os pontos plotados caram em regiões nas proximidades
da diagonal, parando o treinamento da rede e considerando-as prontas para aplicação em
um maior volume de dados a partir da relação de aprendizagem obtida no treinamento.
GR PHI
Treinamento Teste Treinamento Teste
Vetores Utilizados 998 354 1109 476
Média 49,7153 54,2624 0,305262 0,309636
Desvio Padrão 15,2486 13,9542 0,368622 0,032299
Mínimo 29,2134 30,7425 0,246253 0,248962
Máximo 82,0356 80,993 0,369607 0,361957
Erro RMS 8,81807 9,17556 0,0248223 0,0199612
Erro RMS normalisado 0,578286 0,657547 0,712011 0,618012
Erro Médio absoluto 6,38711 6,95496 0,0196585 0,0167304
Erro Máximo absoluto 40,6579 26,8038 0,0982128 0,0606684
Tabela 3.1: Informações dos treinamentos das redes aplicadas
3.2.3 Aplicação da Rede

Para simplicação, os volumes foram visualizados em uma seção composta entre as linhas
que passam pelos poços F03-2, F03-4 e F06-1 (Figura 3.25), para ser visto o comportamento
no sentido dip e strike do reservatório,além de ver os resultados das aplicações das redes entre
poços usados no treinamento da rede, onde se tem uma maior conabilidade do resultado.
Com a rede treinada, foi feita a aplicação dela em todo o volume, usando como entrada o
cubo de impedância acústica (AI), para predizer a propriedade usada no treinamento da rede
como alvo (GR e φ), obtendo assim seus respectivos volumes. É perceptível que já se podem
ser feitas inferências de litologia na seção composta em visualização na Figura 3.26, com
base no modelo deposicional dos deltas, pois a impedância acústica é uma propriedade de
camada (dependente dos valores de densidade, ρb , e dos valores da velocidade acústica, VP ,

Figura 3.23: Curva de erro RM Snorm e gráco de dispersão no treinamento da rede de GR,
onde o treinamento foi parado com o valor do erro RMS normalizado do treinamento igual
a 0,578286. Com a representação dos dados treinados em vermelho e dos dados de teste em
azul.
na camada), tendo os o seu valor crescendo dos arenitos mais puros para os folhelhos, como
é visto na Figura 3.26, podendo as camadas em tons de lilás e azul (com maior impedância)
serem caracterizadas como folhelhos de prodelta e as camadas entre os tons entre verde e a
amarelo (com baixa impedância) serem caracterizadas como arenitos da frente deltáica.
Entretanto, o volume de GR é mais caracterizante de litologias, que a impedância acús-
tica, por medir uma propriedade petrofísica que mede indiretamente o quão argilosa é a
matriz rochosa camada, já que a medida da impedância acústica pode sofrer inuência da
presença de uidos no seu volume poroso.
No volume de GR gerado pela aplicação da rede os valores variaram entre 38 e 80 GAP I .

De acordo com a seção do volume de GR, na Figura 3.27, podemos concluir que o resultado
Figura 3.24: Curva de erro RM Snorm e gráco de dispersão no treinamento da rede de φ,

onde o treinamento foi parado com o valor do erro RMS normalizado do treinamento igual
a 0,712011.. Com a representação dos dados treinados em vermelho e dos dados de teste em
azul.
foi dentro do esperado para o modelo geológico do reservatório deltáico, onde os arenitos
de frente deltaica, que tem uma menor presença de argilosidade, tem valores baixo de GR
com suas camada sendo representadas pelas camadas em tons de amarelos, as quais podemos
considerar que possuem uma melhor característica de reservatório; e os folhelhos de prodelta,
que são predominantemente compostos por arenitos com uma matriz de arenitos de grãos
menos selecionados que os arenitos de prodelta (e com o seu espaço poroso preenchido com
uma quantidade considerável de argilosidade) e folhelhos, tem altos valores de GR com suas
camadas representadas em tons de laranja para vermelho, sendo essas camadas prováveis
barreiras de uxo no reservatório.
No volume de φ gerado pela aplicação da rede os valores variaram entre 0.27 a 0.35. De
Figura 3.25: Disposição do dado para visualização da área em estudo, por uma seção com-
posta de linhas passando pelos poços F03-2, F03-4 e F06-1
Figura 3.26: Cubo de Impedância Acústica em kg/m3 × m/s como dado de entrada da rede
neural.
acordo com a seção do volume de φ, representada pela Figura 3.28, podemos concluir que o
resultado foi dentro do esperado para o modelo geológico do reservatório deltáico, onde os
arenitos de frente deltáica, que tem uma matriz de arenitos com um bom grau de seleção
dos seus grão, tem altos valores de φ, com suas camada sendo representadas pelas camadas
em tons de laranja a vermelho, sendo essa camada a que tem melhor característica de um
Figura 3.27: Volume sísmico com a propriedade petrofísica de GR, em GAP I , gerado pela
aplicação da rede que teve o volume de impedância acústica como dado de entrada.
reservatório deltáico; e os folhelhos de prodelta, que são predominantemente compostos por
arenitos com uma matriz de arenitos de grãos menos selecionados que os arenitos de prodelta
(e com o seu espaço poroso preenchido com uma quantidade considerável de argilosidade) e
folhelhos, que tem baixos valores de porosidade, com suas camadas representadas em tons
de azul a verde.
Figura 3.28: Volume sísmico com a propriedade petrofísica de φ, gerado pela aplicação da
rede que teve o volume de impedância acústica como dado de entrada.
3.2.4 Mapeamento de Propriedades Petrofísicas do Reservatório

Para mapear as propriedades petrofísicas de interesse no volume do reservatório, foram uti-
lizados os volumes obtidos dos treinamentos. Através do mapeamento de litologias, além
de poder prever o modelo geológico, é possível inferir e prever possíveis barreiras de per-
meabilidade, alterando assim o modelo de escoamento e uxo do reservatório. Através do
mapeamento de porosidade é possível gerar modelos com valores mais próximos da realidade
dessa propriedade petrofísica de grande importância na caracterização do reservatório, pois
o quanticação do volume poroso do reservatório inuencia diretamente no cálculo do valor
do volume in place, que caso seja um valor errado pode acabar comprometendo o orçamento
de toda uma produção da reserva.
Para fazer o mapeamento das melhores zonas de reservatório foram feitos modelos, a
partir dos volumes gerados de GR e φ. Onde o melhor reservatório foi mapeado na região onde
valor de GR entre 38 e 59 GAP I (modelo da Figura 3.29), tendo seus valores caracterizados
em tom de verde, e o valor de φ entre 0.31 e 0.35 (modelo da Figura 3.30), tendo seus valores
caracterizados em tom de vermelho.
Com isso foi sobreposto um modelo no outro e gerado um modelo, representado na
Figura 3.31, onde a região de interseção entre os modelos de GR e φ é compreendida como a

região que tem as melhores condições de reservatório: baixa argilosidade (consequentemente,
nesse modelo, arenito) e alta porosidade (grãos mais selecionados, com maior espaço poroso
entre a matriz) que no reservatório deltáico é arenito da planicie e da frente deltáica. O que
é coerente com o modelo de deposição de um delta e pôde ser culminado em um modelo
geológico simplicado do reservatório na Figura 3.32, onde em amarelo está representado
esse arenito de planície e frente deltáica e em verde o folhelho de prodelta.

Figura 3.29: Volume sísmico com região de baixo GR no reservatório, que consequentemente
tem baixo conteúdo argiloso na sua matriz e poros, e que provavelmente sejam arenitos de
planície e frente deltaica.
Figura 3.30: Volume sísmico com região de alta porosidade no reservatório, que consequen-
temente tem um maior grau de seleção dos grãos, aumentando seu volume poroso, e que
provalmente sejam arenitos de planície e frente deltaica.
Figura 3.31: Volume sísmico com de LGR, sobreposto a região de HPHI, no reservatório.
(LGR: Baixo GR, HPHI: Alta Porosidade; BR: Melhor Reservatório → LGR ∩ HPHI).
Figura 3.32: Modelo geológico do reservatório caracterizado onde em amarelo tem-se os

melhores arenitos reservatórios que são de planície e frente deltaica.
4
Conclusões e Recomendações
Com os resultados apresentados, cou claro a ecácia da utilização das redes neurais na
caracterização geofísica de reservatórios.
Na aplicação feita em dados de poços, cou claro que a opção em fazer o treinamento da
rede com mais elementos no dado de entrada, cou melhor com o aumento desses elementos.
Além disso, o método se mostrou mais ecaz quando comparado à aplicações de formulas
empíricas (como exemplo da Equação de Gardner). A exemplo da aplicação feita, em um
mesmo campo de petróleo é possível usar as redes neurais para treinar o dado em um poço
com conhecimento de um conjunto de propriedades e um dado alvo para treinar a rede, que
será o dado de saída na aplicação da rede, e aplicar esse treinamento em um poço vizinho
(ao que se tem todo conhecimento) para inferir esse perl que falta, que pode ser de grande
valia na caracterização petrofísica e de suma importância em etapas da interpretação sísmica
e caracterização do reservatório.
As Redes Neurais também mostraram-se ecientes para predizer e mapear proprieda-
des petrofísicas em reservatórios como um primeiro modelo mais realista para o engenheiro
de reservatório. O que torna-se uma ferramenta eciente para o entendimento geológico e
petrofísico do reservatório, bem como gerar modelos de escoamento e uxo do reservatório
em todo o seu volume com os valores mais dedignos da porosidade e mapear os barreiras
litológicas de uxos dentro do reservatório, tentando assim maximizar a explotação do reser-
vatório. O método utilizado conseguiu mapear com clareza de acordo com o esperado pelo
modelo de deposição, o reservatório em estudo, onde pôde perceber-se que a melhor área de
reservatório ca na parte superior, onde possui baixo GR e alta porosidade, pois trata-se
possivelmente de um arenito com uma melhor seleção de grãos e com menos argilosidade nos
93
Conclusões e Recomendações 94
poros, que no modelo de deposição de um delta é caracterizado como arenitos de planície e
frente deltaica. Com essa estimativa das distribuições espaciais e valores das propriedades
do reservatório, o engenheiro conseguirá gerar modelos mais realistas da área.
Para futuros trabalhos nessa vertente de redes neurais, cam como sugestões:
• Realizar o treinamento da rede com mais de um dado de entrada, podendo ser um
atributo onde se utilize diversos janelamentos desse atributo, para fazer um treinamento
com inuências de maior tendência da região, bem como de maior detalhamento;
• Utilizar redes com outros tipos de processos de aprendizado da rede;
• Fazer aplicações para o reconhecimento de padrões, tanto a nível de predição de pro-
priedades quanto a nível de criação de meta-atributos no reconhecimento de falhas e
mapeamento de horizontes.
Agradecimentos
Agradeço a todos aqueles que foram fundamentais na trajetória que culminou nesse trabalho.
À minha família, por todo apoio nos mais adversos momentos. Meus pais, Ivete e Julio,
por sempre me apoiarem em qualquer decisão que eu tenha tomado ou venha a tomar. À
Paloma, minha irmã, que também se tornou colega de prossão (sem nenhum incentivo ou
pressão da minha parte na escolha).
À minha companheira Michelle, por todo incentivo, apoio e paciência ao longo desse
tempo.
Ao meu orientador, Professor Porsani, por ser uma pessoa aberta à sugestões e novas
ideias, que acolhe qualquer aluno no mestrado que tenha disposição de pesquisar.
Aos meus amigos ao longo desse tempo de graduação e mestrado: Daniel Bono (Ca-
vanha), Leonardo Mocitaiba (Mocita), Paulo Augusto (Curió), Rafael Manenti e Wilker
Eduardo (Duzão). Por sempre estarem dispostos a ajudar no trabalho sempre que solicita-
dos. A Vinicius e Edric por todas as ajudas com o OpendTect.
95
Apêndice A
O Teorema da Convergência do
Perceptron
Para derivar o algoritmo de aprendizagem por correção de erro para o Perceptron, considere-
mos o modelo do grafo de uxo de sinal modicado mostrado na Figura A.1. Neste modelo,
equivalente ao da Figura 1.18, a polarização b(n) é tratada como um peso sináptico cuja
entrada é xa em +1 (conforme foi visto anteriormente).
Figura A.1: Grafo de uxo de sinal equivalente do Perceptron (a dependência do tempo foi
omitida por questões de clareza).
Pode-se, então, denir o vetor de entrada [(m + 1) × 1]-dimensional como:
x(n) = [+1 x1 (n) x2 (n) · · · xm (n)]T , (A.1)
onde n denota o passo da iteração do algoritmo. De forma correspondente, podemos denir
96
O Teorema da Convergência do Perceptron 97
o vetor de pesos [(m + 1) × 1]-dimensional como:
w(n) = [b(n) w1 (n) w2 (n) · · · wm (n)]T , (A.2)
da mesma forma, a saída do combinador linear pode ser escrita na forma compacta como:
m
wi (n)xi (n) = wT (n)x(n),
X
v(n) = (A.3)
i=0
onde w0 (n) representa a polarização b(n). Para n xo, a equação wT x = 0, plotada em um

espaço m-dimensional (e para algum bias prescrito) com coordenadas x1 , x2 , . . . , xm , dene
um hiperplano como a superfície de decisão entre duas diferentes classes de entradas (vide
Figura 1.19).
Para que o Perceptron funcione adequadamente, as duas classes C1 e C2 precisam ser
linearmente separáveis, o que signica dizer que os padrões a serem classicados devem ser
sucientemente separados uns dos outros para garantir que a superfície de decisão consista
de um hiperplano.
Este requerimento é ilustrado na Figura A.2 para o caso de um Perceptron bidimensional.
Na Figura A.2(a), as duas classes C1 e C2 são sucientemente separáveis uma da outra, de
tal forma que é possível desenhar um hiperplano (neste caso uma linha reta) como limite
de decisão. Se, entretanto, as duas classes C1 e C2 tivessem se aproximado tanto uma da
outra (como mostrado na Figura A.2(b)) teriam se tornado não-linearmente separáveis, uma
situação que está além da capacidade computacional do Perceptron.
Figura A.2: (a) Um par de padrões linearmente separáveis. (b) Um par de padrões não-
linearmente separáveis.
Suponhamos então que as variáveis de entrada do Perceptron tenham se originado de
duas classes linearmente separáveis. Seja X1 o sub-conjunto de vetores de treino [x1 (1), x1 (2), . . .]
que pertençam à classe C1 , e seja X2 o sub-conjunto de vetores de treino [x2 (1), x2 (2), . . .]
que pertençam à classe C2 . A união de X1 e X2 é o conjunto de treino completo .
Dados os conjuntos de vetores X1 e X2 para treinar o classicador, o processo de treino
envolve o ajuste do vetor de pesos w, de tal forma que as duas classes C1 e C2 sejam
linearmente separáveis. Ou seja, exista um vetor de pesos w tal que possamos armar:
wT x > 0 para cada vetor de entrada x pertencente à classe C1

. (A.4)
wT x ≤ 0 para cada vetor de entrada x pertencente à classe C2
Observe que, na segunda linha da Equação (A.4), foi escolhido arbitrariamente que o
vetor de entrada x pertencesse à classe C2 se wT x = 0.

Dados os sub-conjuntos de vetores de treino X1 e X2 , o problema de treinamento para o
Perceptron elementar é, então, encontrar um vetor de pesos w tal que as duas inigualdades
da Equações (A.4) sejam satisfeitas.
O algoritmo para adaptar o vetor de pesos do Perceptron elementar pode ser agora
formulado conforme segue:
1. Se o n-ésimo membro do conjunto de treino, x(n), é corretamente classicado pelo
vetor de pesos w(n) computado na n-ésima iteração do algoritmo, nenhuma correção
é feita no vetor de pesos do Perceptron de acordo com a regra:
w(n + 1) = w(n), wT (n)x(n) > 0 e x(n) pertence à classe C1

se
; (A.5)
w(n + 1) = w(n), se w (n)x(n) ≤ 0 e x(n) pertence à classe C2
T
2. Em caso contrário, o vetor de pesos do Perceptron é atualizado de acordo com a regra:
w(n + 1) = w(n) − η(n)x(n) se wT (n)x(n) > 0 e x(n) pertence à classe C2

, (A.6)
w(n + 1) = w(n) − η(n)x(n) se wT (n)x(n) ≤ 0 e x(n) pertence à classe C1
onde o parâmetr-o razão de aprendizado η(n) controla o ajuste aplicado ao vetor de
pesos na iteração n.
Para o caso particular em que η(n) = η > 0 (onde η é uma constante independente do
número da iteração n), temos uma regra de adaptação de incrementos xos para o Perceptron.
Desejamos primeiro provar a convergência de uma regra de adaptação de incrementos
xos, com η = 1. Claramente o valor de η não é importante, enquanto for positivo. Um
valor de η 6= 1 simplesmente escala os vetores sem afetar sua separabilidade.
O caso de uma razão de aprendizado η(n) variável será considerado posteriormente.

Convergência da Regra de Adaptação de Incremento Fixo

(Razão de Aprendizado η Fixa)
A prova é apresentada para a condição inicial w(0) = 0.
Suponha que wT (n)x(n) < 0 para n = 1, 2, . . ., e o vetor de entrada x(n) pertença ao
sub-conjunto X1 .
Ou seja, nesta condição, o Perceptron classicou de forma incorreta os vetores x(1), x(2), . . .,
desde que a segunda condição, dada pela Equação (A.4), foi violada.
Então, com a constante η(n) = 1, podemos usar a segunda linha da Equação (A.6) para
escrever
w(n + 1) = w(n) + x(n) para x(n) pertencente à classe C1 . (A.7)
Dada a condição inicial w(0) = 0 , podemos iterativamente resolver esta equação para
w(n + 1), obtendo o resultado
w(n + 1) = x(1) + x(2) + · · · + x(n). (A.8)
Desde que as classes C1 e C2 são assumidas linearmente separáveis, existe uma solução
w0 para a qual w x(n) > 0 para os vetores x(1), x(2), . . . , x(n) pertencentes ao subconjunto
T
X1 . Para uma solução xa w0 , podemos então denir um número positivo α como
α = min wT0 x(n), (A.9)

x(n)∈X1
Multiplicando ambos os lados da Equação (A.8) pelo vetor linha wT0 teremos
wT0 w(n + 1) = wT0 x(1) + wT0 x(2) + · · · + wT0 x(n). (A.10)
De acordo com a denição dada na Equação (A.9), teremos
wT0 w(n + 1) ≥ nα. (A.11)
Dados dois vetores w0 e w(n + 1), a inigualdade de Cauchy-Schwarz, arma que
k w0 k2 k w(n + 1) k≥ wT0 w(n + 1) ,

2
(A.12)
onde k· k denota a norma Euclidiana do vetor argumento, e o produto interno wT0 w(n + 1)
é uma quantidade escalar.
wT0 w(n + 1) é igual ou maior que n2 α2 .

2
A partir da Equação (A.11) observa-se que
A partir da Equação (A.12) observa-se que k w0 k2 k w(n + 1) k é igual ou maior que

wT0 w(n + 1)
2
. Segue, portanto, que
k w0 k2 k w(n + 1) k≥ n2 α2 , (A.13)
ou equivalentemente,
n2 α 2
k w(n + 1) k ≥ 2
. (A.14)
k w0 k
Seguindo, agora, uma nova rota de desenvolvimento, rescreveremos a Equação (A.7) sob
a forma:
w(k + 1) = w(k) + x(k) para k = 1, . . . , n e x(k) ∈ X1 . (A.15)
Tomando o quadrado da norma Euclidiana de ambos os lados da Equação (A.15), obte-
remos:
k w(k + 1) k2 =k w(k) k2 + k x(k) k2 +2wT (k) x(k). (A.16)
Mas, tendo sido assumido que o Perceptron classica incorretamente um vetor de en-
trada x(k) pertencente ao sub-conjunto X1 , teremos que wT (k)x(k) < 0. Portanto, pode-se
deduzir, a partir da Equação (A.16) que:
k w(k + 1) k2 ≤k w(k) k2 + k x(k) k2 , (A.17)
ou, de forma equivalente,
k w(k + 1) k2 − ≤k w(k) k2 ≤k x(k) k2 , k = 1, . . . , n. (A.18)
Adicionando estas inigualdades para k = 1, . . . , n e invocando a condição inicial assumida

w(0) = 0, chegamos à seguinte inigualdade:
n
k w(k + 1) k2 ≤ k x(k) k2 ≤ nβ,
X
(A.19)
k=1
onde
β = max k x(k) k2 . (A.20)

x(k)∈X1
A Equação (A.19) arma que o quadrado da a norma Euclidiana do vetor de pesos
w(n + 1) cresce no máximo linearmente com o número de iterações n.

O segundo resultado da Equação (A.19) está claramente em conito com o resultado
anterior da Equação (A.14) para valores de n sucientemente grandes.
Na verdade, pode-se armar que n não pode ser maior do que algum valor nmax para o
qual as Equações (A.14) e (A.19) são ambas satisfeitas com o sinal de igualdade. Ou seja,
nmax é a solução da equação
n2max α2
= nmax β. (A.21)
k w0 k2
Resolvendo para nmax , dado um vetor solução w0 ,encontraremos:
β k w0 k2
nmax = . (A.22)
α2
Temos, assim, provado que para η(n) = 1 para todo n, w(0) = 0 e dado que existe um
vetor solução w0 , a regra para adaptação dos pesos sinápticos do Perceptron deve terminar
após, no máximo, nmax iterações. Note também a partir das Equações (A.9), (A.20) e (A.22)
que não há uma única solução para w0 ou nmax .
Podemos, agora, armar que o teorema da convergência da regra de adaptação de incre-
mento xo para o Perceptron como segue:
• Sejam os sub-conjuntos de vetores de treino X1 e X2 linearmente separáveis;
• Sejam as entradas apresentadas ao Perceptron originadas destes dois sub-conjuntos;
Isso implica que o Perceptron converge após algumas iterações n0 , no sentido de que
w(n0) = w(n0 + 1) = w(n0 + 2) = · · · é um vetor solução para n0 ≤ nmax .
Convergência da Regra de Adaptação de Incremento Va-

riável (Razão de Aprendizado η(n) Variável)
Consideremos agora o procedimento de correção de erro absoluto para a adaptação de um
Perceptron de uma única camada, para o qual η(n) é variável. Em particular, seja η(n) o
menor inteiro para o qual:
η(n)xT (n)x(n) >|wT (n)x(n)|. (A.23)
Com este procedimento podemos armar que: se o produto interno wT (n)x(n) na itera-
ção n tem um sinal incorreto, então wT (n + 1)x(n) na iteração n + 1 pode ter o sinal correto.
Isto sugere que, se wT (n)x(n) tem um sinal incorreto, podemos modicar a sequência de
treino na iteração n+1 fazendo x(n + 1) = x(n).
Em outras palavras, cada padrão é apresentado repetidamente ao Perceptron até que o
padrão seja classicado corretamente.
Note também que o uso de um valor inicial w(0) diferente de zero meramente resulta no
decréscimo ou acréscimo do número de iterações requeridas para convergência dependendo
de como w(0) se relaciona com a solução w0 . Indiferentemente do valor atribuído a w(0), o

Perceptron tem sua convergência garantida.
Variáveis e Parâmetros:
- Vetor de entrada x(n) de dimensão [(m + 1) × 1]:
x(n) = [+1 x1 (n) x2 (n) · · · xm (n)]T
- Vetor de pesos w(n) de dimensão [(m + 1) × 1]:
w(n) = [b(n) w1 (n) w2 (n) · · · wm (n)]T
- Bias: b(n)
- Resposta atual (quantizada): y(n)
- Resposta desejada: d(n)
- Parâmetro razão de aprendizado (constante positiva < 1): η
Inicialização:
1
- Faça w(0) = 0.
- Então execute as etapas seguintes do algoritmo para os instantes de tempo n = 1, 2, . . .
Ativação:
2
No instante de tempo n ative o Perceptron aplicando o vetor de entrada x(n) e a resposta desejada d(n).
Cômputo da Resposta Atual:
3 Compute a resposta atual do Perceptron através de

w x

y(n) = sgn T (n) (n) ,
onde sgn(· ) é a função signum.
Adaptação do Vetor de Pesos:
Atualize o vetor de pesos do Perceptron através de

4 w(n + 1) = w(n) + η [d(n) − y(n)]
onde
x(n) pertence à classe C1

+1 se
d(n) =
−1 se x(n) pertence à classe C2
Continução:
5
Fazer n=n+1 e voltar à etapa 2.
Tabela A.1: Sumário do Algoritmo de Convergência do Perceptron

Na Tabela A.1 é apresentado um sumário do algoritmo de convergência do Perceptron. O
símbolo sgn(· ), usado no passo 3 da tabela para computar a resposta atual do Perceptron,
representa a função signum, descrita anteriormente.
Podemos, então, expressar a resposta quantizada y(n) do Perceptron na forma compacta:
y(n) = sgn wT (n)x(n)

(A.24)
Note que o vetor de entrada x(n) é um vetor [(m + 1) × 1], cujo primeiro elemento é
xo em (+1) ao longo de todo o processo computacional. De forma correspondente, o vetor
de pesos w(n) é um vetor [(m + 1) × 1], cujo primeiro elemento é igual ao bias b(n). Outro
ponto a salientar na Tabela A.1 é a introdução de uma resposta desejada quantizada d(n),
denida por:
x(n) pertence à classe C1

+1 se
d(n) = . (A.25)
−1 se x(n) pertence à classe C2
Então, a adaptação do vetor de pesos w(n) pode ser sumarizada na forma da regra de
aprendizado por correção de erro:
w(n + 1) = w(n) + η[d(n)y(n)]x(n) (A.26)
onde η é o parâmetro razão de aprendizado, e a diferença d(n) − y(n) representa um sinal
de erro. O parâmetro razão de aprendizado é uma constante positiva limitada ao intervalo
0 < η ≤ 1. Na escolha de um valor para η, dentro deste intervalo, é preciso considerar dois
requisitos conitantes:
• Manter a estabilidade da trajetória (estimativas estáveis para os pesos) requer valores
pequenos para η;
• Adaptação rápida com respeito às mudanças reais nas distribuições subjacentes do
processo responsável pela geração do vetor de entrada x requer valores grandes para
η.
Apêndice B
O Algoritmo Backpropagation
Assim como o algoritmo LMS é considerado o mais renomado dos algoritmos utilizados em
ltragem linear adaptativa, o algoritmo backpropagation foi estabelecido como o mais popular
algoritmo utilizado no contexto do aprendizado de redes neurais articiais MLP.
A popularidade do algoritmo backpropagation resulta de sua relativa simplicidade de
implementação e do fato de ser um poderoso dispositivo para armazenar o conteúdo de
informação (adquirido pela rede MLP a partir do conjunto de dados) nos pesos sinápticos
da rede.
Na medida em que o conjunto de dados usado para treinar uma rede neural articial
MLP seja grande o suciente para ser representativo do ambiente no qual a rede está inse-
rida, a rede MLP treinada através do algoritmo backpropagation desenvolverá a capacidade
de generalizar. Especicamente, esta capacidade permite à rede MLP apresentar um desem-
penho satisfatório quando é alimentada com dados de teste retirados do mesmo espaço de
entrada que os dados de treino, mas não previamente apresentados ao MLP.
Antes de passarmos à descrição do algoritmo backpropagation, é conveniente fazermos
algumas considerações quanto à notação que será utilizada:
• Os índices i, j e k se referem a diferentes neurônios no MLP. Os sinais funcionais se
propagam através da rede, da esquerda para a direita, sendo que o neurônio j está na
camada à direita do neurônio i, e o neurônio k está na camada à direita do neurônio
j, quando o neurônio j é uma unidade escondida.
• Na iteração n, o n-ésimo padrão de treino (vetor-exemplo) é apresentado ao MLP.
104
O Algoritmo Backpropagation 105
• O símbolo ε(n) se refere à soma instantânea dos erros quadráticos nos nós de saída do
MLP (ou energia do erro) na iteração n. A média de ε(n) sobre todos os valores de n
(isto é, o conjunto de treino inteiro) representa a energia média do erro εav .
• O símbolo ej (n) se refere ao sinal de erro na saída do neurônio j para a iteração n.
• O símbolo dj (n) se refere à resposta desejada para o neurônio j e é usado para computar
ej (n).
• O símbolo yj (n) se refere ao sinal funcional encontrado na saída do neurônio j, na
iteração n.
• O símbolo wji (n) denota o peso sináptico que conecta a saída do neurônio i à entrada
do neurônio j , na iteração n. A correção aplicada a este peso na iteração n é denotada

por ∆wji (n) .
• O potencial de ativação (isto é, a soma ponderada de todas as entradas sinápticas
mais a polarização) do neurônio j na iteração n é denotado por vj (n) e constitui o
sinal aplicado à função de ativação associada ao neurônio j.
• A função de ativação que descreve a relação funcional entrada-saída da não-linearidade
associada ao neurônio j é denotada por ϕj (. ).
• A polarização aplicada ao neurônio j é denotada por bj ; seu efeito é representado por
uma sinapse de peso wj0 = bj conectada a uma entrada xa igual a (+1). Alternati-
vamente, a polarização pode ser gerada por uma sinapse de peso wj0 = θj conectada a
uma entrada de valor xo e igual a (−1), quando recebe o nome de threshold. A nível de
operação do MLP, para todos os ns práticos as duas alternativas apresentam os mes-
mos resultados. Neste estudo consideraremos apenas o nome genérico polarização, a
qual pode ser originada de um valor xo positivo (+1) ou negativo (−1).
• O i-ésimo componente do vetor de entrada do MLP é denotado por xi (n).
• O k -ésimo componente do vetor de saída do MLP é denotado por ok (n).
• O parâmetro razão de aprendizado é denotado por η.
Tendo estabelecido a notação, inicialmente apenas descreveremos as equações de deni-
ção do algoritmo backpropagation e sua forma de operação. Posteriormente, deduziremos as
equações que regem sua operação.
Seja o sinal de erro na saída do neurônio j da camada de saída na iteração n (isto é, na
apresentação do n-ésimo vetor de treinamento) denido por

ej (n) = dj (n) − yj (n). (B.1)
1 2
Dene-se o valor instantâneo do erro quadrático para o neurônio j como e (n).
2 j
Correspondentemente, o valor instantâneo da soma dos erros quadráticos ε(n) é obtida

1 2
somando ej (n) sobre todos os neurônios da camada de saída. Estes são os únicos neurônios
2
visíveis para os quais os sinais de erro podem ser calculados de forma direta. A soma
instantânea dos erros quadráticos na camada de saída do MLP é então escrita como
1X 2
ε(n) = e (n), (B.2)
2 j∈C j
onde o conjunto C inclui todos os neurônios na camada de saída.
Seja N o número total de padrões (vetores-exemplo) contidos no conjunto de treino. O
erro médio quadrático (MSE) é obtido somando ε(n) sobre todo n e então normalizando com
respeito ao tamanho N do conjunto de treino, conforme:
N −1
1 X
εav = ε(n). (B.3)
N − 1 n=0
O valor instantâneo da soma dos erros quadráticos ε(n), e portanto o MSE denotado por
εav , é função de todos os parâmetros livres (isto é, pesos sinápticos e níveis de polarização)
do MLP. Para um dado conjunto de treino, εav representa a Função de Custo do processo
de minimização do erro de aprendizado, constituindo uma medida inversa do desempenho
do processo de aprendizado a partir do conjunto de treino. Para minimizar εav os pesos
sinápticos são atualizados a cada apresentação n de um novo padrão ao MLP através do vetor
de entrada até o término de uma Época. Uma Época consiste no intervalo correspondente
à apresentação de todos os N vetores-exemplo do conjunto de treino à camada de entrada
do MLP. O ajuste dos pesos é feito de acordo com os respectivos erros computados para
cada padrão apresentado ao MLP. A média aritmética destas alterações individuais nos
pesos sobre o conjunto de treino é portanto uma estimativa da verdadeira alteração que
resultaria a partir da alteração de pesos baseada na minimização da função custo εav sobre
todo conjunto de treino.
Considere a Figura B.1, a qual descreve o neurônio j sendo alimentado por um conjunto
de sinais produzidos na saída dos neurônios da camada à sua esquerda.
O potencial de ativação vj (n) aplicado na entrada da não-linearidade associada ao neurô-

nio j é, portanto:
Figura B.1: Grafo de uxo de sinal no neurônio j.
m
X
vj (n) = wji (n)yi (n), (B.4)
i=0
onde m é o número total de entradas (excluindo a polarização) aplicadas ao neurônio j. O
peso sináptico wj0 (correspondente à entrada xa y0 = −1) dene a polarização θj aplicada
ao neurônio j . wji (n) é o peso sináptico conectando a saída do neurônio i ao neurônio j e
yi (n) é o sinal no i-ésimo nó de entrada do neurônio j , ou equivalentemente, o sinal na saída
do neurônio i. Portanto o sinal yj (n) resultante na saída do neurônio j na iteração n é:
yj (n) = ϕj (vj (n)). (B.5)
De maneira similar ao algoritmo LMS, o algoritmo backpropagation aplica a correção
∆wji (n) ao peso sináptico wji (n), tendo como base a direção contrária do gradiente local da
superfície de erro ε(w) relativo ao peso sináptico.
Se, para uma dada variação no peso sináptico, o algoritmo movimenta-se em uma traje-
tória ascendente na superfície ε(w), então signica que esta variação deve ser aplicada com
o sinal invertido sobre o peso sináptico, já que houve um aumento do erro, e objetiva-se uma
diminuição do erro.
Por outro lado, se para uma dada variação no peso sináptico o algoritmo movimenta-se
em uma trajetória descendente na superfície ε(w), então signica que esta variação deve ser
aplicada com o sinal positivo sobre o peso sináptico, já que houve uma diminuição do erro
e, portanto, o movimento deve ser encorajado naquela direção.

Este método de correção dos pesos sinápticos é denominado de Regra Delta. No algo-
ritmo LMS, estudado anteriormente, a Regra Delta é denida pela já conhecida expressão
w ~ w ~ (n)) = ∂J( w
(n)) w
∂ [ 21 e2 (n)]
∆ (n) = −η ∇J( (n)), onde ∇J( ∂ (n)
= ∂ (n) w w
é o gradiente local da superfí-
1 2
cie de erro gerada pela função de custo J = J(w(n)) = e (n) a ser minimizada no instante
2
n.
No caso do MLP, o gradiente local da superfície de erro ε(w) relativo ao peso sináptico
wji representa, portanto, um fator de sensibilidade, determinando a direção de movimento
no espaço de pesos sinápticos para o valor do peso sináptico wji que minimiza ε(w).
A correção ∆wji aplicada a wji (n), ditada pela Regra Delta, é denida por:
∂ε(n)
∆wji = wji (n + 1) − wji (n) = −η , (B.6)
∂wji (n)
onde η é a constante que determina a razão de aprendizado do algoritmo backpropagation.
O uso do sinal negativo em (B.6) impõe a movimentação contrária à direção apontada
pelo gradiente na superfície de erro denida no espaço de pesos sinápticos.
O algoritmo backpropagation estabelece o aprendizado de um MLP através da Regra
Delta como sendo a correção efetuada em suas sinapses através de
∆wji (n) = ηδj (n)yi (n), (B.7)
onde ∆wji (n) é a correção aplicada à i-ésima sinapse do neurônio j , yi (n) é o sinal de
entrada no i-ésimo nó de entrada do neurônio j (que é igual ao sinal na saída do neurônio
i, pertencente à camada à esquerda da que pertence o neurônio j, se este não estiver na
primeira camada escondida se o neurônio j estiver na primeira camada escondida então
yi (n) corresponde ao i-ésimo nó de entrada xi (n) do MLP) e δj (n) é o gradiente local do
neurônio j, denido por
ϕ0j (vj (n))eP

j (n) , neurônio j é de saída
δj (n) = 0 (B.8)
ϕj (vj (n)) k δk (n)wkj (n) , neurônio j é escondido
De acordo com (B.8) o gradiente local δj (n) para o neurônio de saída j é igual ao produto
0
do correspondente sinal de erro ej (n) pela derivada ϕj (vj (n)) da função de ativação associada.
Neste caso o fator chave necessário envolvido no cálculo do ajuste dos pesos ∆wji (n) é o sinal
de erro ej (n) na saída do neurônio j.
Quando o neurônio j está localizado em uma camada escondida, conforme mostra a Fi-
gura B.2, mesmo não sendo diretamente acessíveis, tais neurônios dividem a responsabilidade
pelo erro resultante na camada de saída. A questão, no entanto, é saber como penalizar ou
recompensar os pesos sinápticos de tais neurônios pela sua parcela de responsabilidade, já
que não existe resposta desejada especicada neste local do MLP e, portanto, não há como
calcular o sinal de erro.
A solução, dada pela equação (B.8), é computar o sinal de erro recursivamente para o
neurônio escondido j retro-propagando os sinais de erro de todos os neurônios à direita do
neurônio j, aos quais a saída deste encontra-se conectado.
Figura B.2: Grafo de uxo de sinal mostrando os detalhes do neurônio de saída k comectado
ao neurônio escondido j.
O fator ϕ0j (vj (n)) envolvido na computação do gradiente local δj (n) na equação (B.8)
depende somente da função de ativação associada com o neurônio escondido j. Os de-
mais fatores envolvidos no somatório sobre k em (B.8) dependem de dois conjuntos de
termos. O primeiro, δk (n), requer conhecimento dos sinais de erro ek (n) recursivamente
retro-propagados, conforme veremos adiante, a partir de todos aqueles neurônios localizados
na camada imediatamente à direita do neurônio escondido j e que estão diretamente conec-
tados a ele (observar a Figura B.2). O segundo conjunto de termos, wkj (n), consiste dos
pesos sinápticos dos neurônios à direita do neurônio j e que com ele estabelecem conexão.
Os Dois Passos Computacionais do Algoritmo Backpro-

pagation
Na aplicação do algoritmo backpropagation, dois passos computacionais distintos podem ser

identicados, um passo direto e um passo reverso.
Figura B.3: Grafo de uxo de sinal mostrando o processo de retro-propagação dos sinais de
erro na camada de saída para um neurônio j da camada escondida imediatamente à esquerda.
mL é o número de neurônios da camada de saída.
No passo direto ( forward pass ) os pesos sinápticos permanecem inalterados em todo
MLP e os sinais são propagados da entrada da rede para a saída, de neurônio a neurônio.
O sinal que resulta na saída do neurônio j é computado por:
yj (n) = ϕ(vj (n)), (B.9)
onde vj (n) é o potencial de ativação do neurônio j, denido por:
m
X
vj (n) = wji (n)yi (n), (B.10)
i=0
sendo m o número total de entradas (excluindo a polarização) aplicadas ao neurônio j ; wji (n)
é o peso sináptico conectando a saída do neurônio i ao neurônio j ; e yi (n) é o sinal de entrada
do neurônio j, ou equivalentemente, o sinal na saída do neurônio i. Se o neurônio j está na
primeira camada escondida do MLP, então o índice i refere-se ao i-ésimo nó de entrada do
MLP, para o qual escreve-se:
yi (n) = xi (n), (B.11)
onde xi (n) é o i-ésimo componente do vetor de entrada do neurônio j. Se, por outro lado,
o neurônio j está na camada de saída, o índice j refere-se ao j -ésimo nó de saída do MLP,
para o qual escreve-se:

yj (n) = oj (n), (B.12)
sendo oj (n) o j -ésimo componente do vetor de saída.
Esta saída é comparada com a resposta desejada dj (n) sendo obtido o sinal de erro ej (n)
para o j -ésimo neurônio de saída.
Portanto, o passo direto começa na primeira camada escondida pela apresentação do
vetor de entrada a ela e termina na camada de saída com a determinação do sinal de erro
para cada neurônio desta camada.
O passo reverso ( backward pass ) começa na camada de saída, propagando os sinais de
erro na direção contrária através do MLP (de volta para a entrada retro-propagando), de
camada em camada, e recursivamente computando os gradientes locais para cada neurônio.
Este processo recursivo de determinação dos gradientes locais permite que sejam exe-
cutadas correções nos pesos sinápticos do MLP de acordo com a Regra Delta (Equação
(B.7)).
Para um neurônio localizado na camada de saída, o gradiente local é simplesmente o
sinal de erro daquele neurônio multiplicado pela primeira derivada de sua não-linearidade
(Equação (B.8)).
A partir do gradiente local de cada neurônio da camada de saída, usa-se a equação (B.7)
para computar as mudanças em todas as sinapses (conexões) que alimentam a camada de
saída.
Obtidos os gradientes locais para os neurônios da camada de saída, usa-se a equação
(B.8) para computar o gradiente local de cada neurônio na camada à esquerda.
A partir do gradiente local de cada neurônio da camada à esquerda, usa-se a equação
(B.7) para computar as mudanças em todas as sinapses (conexões) que alimentam esta
camada.
Este procedimento é continuado recursivamente, propagando correções nos pesos sináp-
ticos camada por camada, até a camada de entrada.
Note que durante cada ciclo passo direto - passo reverso ao longo da apresentação do
conjunto de treino ao MLP, o vetor de entrada para aquele ciclo é mantido xo.
A Derivada da Função de Ativação

A determinação do gradiente local para cada neurônio do MLP requer o conhecimento da
derivada ϕ0 (· ) da função ativação ϕ(· ) associada com o neurônio, conforme se infere da
equação (B.8). Para que esta derivada exista, é necessário que a função de ativação ϕ(· )
seja contínua. Uma função de ativação não-linear continuamente diferenciável, comumente
aplicada em redes MLP é a função sigmoidal, já descrita anteriormente. Duas formas da
função sigmoidal são aqui tratadas:
• Função Logística
Esta forma de não-linearidade sigmoidal é denida por:
1
ϕj (vj (n)) = , (B.13)
1 + exp(−avj (n))
com a > 0 e −∞ < vj (n) < ∞; onde vj (n) é o potencial de ativação do neurônio
j. De acordo com esta não-linearidade, a amplitude da saída ca restrita ao intervalo
0 ≤ yj ≤ 1.
Omitindo os índices n e j por simplicidade, e derivando a função de ativação expressa
em (B.13) com respeito a vj (n), temos:

0 d 1 a exp(−av) 2 1
ϕ (v) = = = aϕ (v) −1 , (B.14)
dv 1 + exp(−av) [1 + exp(−av)]2 ϕ(v)
e como yj (n) = ϕ(vj (n)), logo:
d
ϕ0 (v) = ϕ(vj (n)) = ayj (n)[1 − yj (n)]. (B.15)
dv
Note na Equação (B.15) que a derivada atinge valor máximo em yj (n) = 0.5, e seu
valor mínimo (igual a zero) em yj (n) = 0 , ou yj (n) = 1.0.

Já que a quantidade de mudança em um peso sináptico do MLP é proporcional à
derivada, segue que, para uma função de ativação sigmoidal, os pesos sinápticos sofrem
a maior alteração para aqueles neurônios no MLP onde os sinais assumem valores no
meio de seu intervalo de variação. Esta é uma característica que contribui para a
estabilidade do algoritmo de aprendizagem.
• Função Tangente Hiperbólica
Esta forma de não-linearidade sigmoidal é denida por:


1 − exp(−2 b vj (n))
ϕj (vj (n)) = a tanh(b vj (n)) = a , (B.16)
1 − exp(−2 b vj (n))
com a, b > 0.
De acordo com esta não-linearidade, a amplitude da saída ca restrita ao intervalo
a −a ≤ yj ≤ a. Omitindo os índices n e j por simplicidade, a derivada da função
ativação pode ser obtida através de
2
0 d 2 2 a tanh(bv)
ϕ (v) = dv
a tanh(bv)= a b sech (bv) = ab(1 − tanh (bv)) = ab 1 − = a
h 2
i h 2
i 2
2 2

= ab 1 − (a tanh(bv))
a2
= ab 1 − ϕ a(v)
2 = ab 1 − ay2 = ab a a−y
2 = ab (a2 − y 2 ) =
= ab (a + y)(a − y).
(B.17)
Portanto:
d b
ϕ0 (v) = ϕ(vj (n)) = (a + yj (n))(a − yj (n)). (B.18)
dv a
A Figura B.4 mostra o gráco da função tangente hiperbólica e de sua derivada para
a = 1.7159 e b = 2/3.
Figura B.4: Gráco de ϕ(v) = a tanh(bv) e ϕ0 (v) = ab(1 − tanh2 (bv)) para a = 1.7159 e
b = 2/3.
Observe que, ao utilizarmos a Equação (B.15) como derivada da função logística e a
Equação (B.18) como derivada da função tangente hiperbólica, o gradiente local δj

dado por (B.8) pode ser calculado sem o uso explícito da denição analítica da função
de ativação.
Razão de Aprendizado e Fator de Momento

O algoritmo backpropagation provê uma aproximação da trajetória de movimento sobre a
superfície de erro no espaço de pesos sinápticos a qual, a cada ponto da superfície, segue a
direção de descida mais íngreme.
Quanto menor for feita a razão de aprendizado η, menores serão as correções aplicadas
aos pesos sinápticos do MLP de uma iteração para a próxima e mais suave será a trajetória
no espaço de pesos. Isto é obtido sob o custo de uma lenta convergência do algoritmo até
um valor de erro pequeno o suciente para ser aceitável.
Se, por outro lado, a razão de aprendizado η é feita grande, de modo a acelerar a conver-
gência do algoritmo, as correções feitas nos pesos sinápticos podem resultar demasiadamente
grandes, de modo que o algoritmo se torna instável (oscilatório).
Um método simples utilizado para acelerar a convergência e manter a trajetória estável
é o acréscimo do chamado Fator de Momento à Regra Delta (mostrada na Equação (B.6)).
Assim, teremos:
∆wji (n) = α ∆wji (n − 1) + η δj (n) yi (n), (B.19)
onde a constante α é denominada de Constante de Momento com 0 < α < 1. Seu efeito é
aumentar a velocidade da trajetória no espaço de pesos na direção da descida mais íngreme.
Da equação (B.19) nota-se que se a correção aplicada em determinado peso sináptico
mantém o mesmo sinal algébrico durante várias iterações consecutivas, situação que ocorre
quando a trajetória na superfície de erro desenrola-se ao longo de um caminho em descida
íngreme, a correção do peso sináptico é acelerada pelo fator de momento, já que, sendo o
caminho uma descida íngreme, o mínimo deve estar longe ainda. Um eventual mínimo local
encontrado ao longo desta descida acelerada pode, então, ser facilmente transpassado. Isto
ocorre porque, imaginando que a trajetória das coordenadas do vetor de pesos sinápticos Wj
de um neurônio j qualquer seja a trajetória de um móvel de grande massa descendo uma
ladeira irregular (isto é, com vários mínimos locais), em consequência do alto momento de
inércia (energia cinética) do móvel devido à sua massa, as irregularidades (mínimos locais)
não conseguem parar o movimento do móvel.
Por outro lado, se a correção aplicada em determinado peso sináptico troca o sinal
algébrico durante várias iterações consecutivas, situação esperada ocorrer quando a trajetória
na superfície de erro desenrola-se ao longo de um caminho próximo ao mínimo global, a
correção do peso sináptico é freada pela redução do valor absoluto médio do fator de momento
acrescentado, já que um mínimo (provavelmente global) está próximo e uma alta velocidade
poderia desestabilizar o algoritmo em torno do mínimo.

Referências Bibliográcas
AlBinHassan, N. M. e Wang, Y. (2011) Porosity prediction using the group method of data
handling, Geophysics, 76(5):O15O22.

Baan, M. V. d. e Jutten, C. (2000) Neural networks in geophysical applications, Geophysics,
65(4):10321047.
Bankhead, B. (2000) Integration the key to reservoir characterization, Oshore, 60(5):140.
Biondi, B.; Mavko, G.; Mukerji, T.; Rickett, J.; Lumley, D.; Deutsch, C.; Gundesø, R.
e Thiele, M. (1998) Reservoir monitoring: A multidisciplinary feasibility study, The
Leading Edge, 17(10):14041414.

Buiting, J. e Bacon, M. (1997) Using geophysical, geological, and petrophysical data to
characterize reservoirs in the north sea, In: 5th Conference on Petroleum Geology of NW
Europe.
Caers, J. (2005) Petroleum geostatistics, Richardson, TX: Society of Petroleum Engineers.
Caers, J.; Avseth, P. e Mukerji, T. (2001) Geostatistical integration of rock physics, seis-
mic amplitudes, and geologic models in north sea turbidite systems, The Leading Edge,
20(3):308312.
Chopra, S. (2001) Integrating coherence cube imaging and seismic inversion, The Leading
Edge, 20(4):354362.
Dai, H. e MacBeth, C. (1994) Split shear-wave analysis using an articial neural network,
First Break, 12(12):605613.

Dowla, F. U.; Taylor, S. R. e Anderson, R. W. (1990) Seismic discrimination with arti-
cial neural networks: preliminary results with regional spectral data, Bulletin of the
Seismological Society of America, 80(5):13461373.

dGB Earth Science (2015) OpendTect Pro Plugins Documentation - 6.0.0, http://static.
opendtect.org/images/PDF/dgb_userdoc.pdf, Acessado: 11/ 05/2016.
Galloway, W. E. e Sharp Jr, J. M. (1998) Characterizing aquifer heterogeneity within terrige-
nous clastic depositional systems, Hydrogeologic Models of Sedimentary Aquifers (Fraser,
116
Referências Bibliográcas 117
GS; Dowis, JM; editors). Society of Sedimentary Geologists, pp. 8590.
Gardner, G.; Gardner, L. e Gregory, A. (1974) Formation velocity and density-the diagnostic
basics for stratigraphic traps, Geophysics, 39(6):770780.

Gauw, D. S. d. (2008) Estudo integrado de análogo a reservatórios petrolíferos uviais:
caracterização, parametrização e modelagem tridimensional de depósitos recentes do rio
assu (rio grande do norte/brasil).
Haykin, S. (2007) Adaptive lter theory, Pearson Education India.
Haykin, S. (2009) Neural networks and learning machines, vol. 3, Pearson Education Upper
Saddle River.
Herrera, V. M.; Russell, B. e Flores, A. (2006) Neural networks in reservoir characterization,
The Leading Edge, 25(4):402411.

Huang, Z.; Shimeld, J.; Williamson, M. e Katsube, J. (1996) Permeability prediction with
articial neural network modeling in the venture gas eld, oshore eastern canada, Ge-
ophysics, 61(2):422436.
Langer, H.; Nunnari, G. e Occhipinti, L. (1996) Estimation of seismic waveform governing
parameters with neural networks, Journal of Geophysical Research: Solid Earth (1978
2012), 101(B9):2010920118.
Latimer, R. B.; Davidson, R. e Van Riel, P. (2000) An interpreter's guide to understanding
and working with seismic-derived acoustic impedance data, The leading edge, 19(3):242
256.
Lima, G. A.; Vidal, A. C.; Suslick, S. B. e de Análises Geoeconômicas, P. d. L. (2005) Esti-
mativa da incerteza na porosidade presente em dados de petrofísica e geofísica de poço,
In:XXVI Inerian Latin American Congresso n Computational Methods in Engineering.

Guarapari, ES, Brasil.
Macías, C. C.; Sen, M. K. e Stoa, P. L. (1997) Hopeld neural networks, and mean eld
annealing for seismic deconvolution and multiple attenuation, Geophysics, 62(3):992

1002.
Marques, E. A. R. (2011) Caracterização de Reservatórios Petrolíferos, Dissertação de Mes-
trado em Engenharia Geológica e de Minas, Universidade Técnica de Lisboa, Portugal.
McClelland, J. L.; Rumelhart, D. E. e Hinton, G. E. (1986) The appeal of parallel distributed
processing, Cambridge, MA: MIT Press.
McCormack, M. D. (1991) Neural computing in geophysics, The Leading Edge, 10(1):1115.

McCormack, M. D.; Zaucha, D. E. e Dushek, D. W. (1993) First-break refraction event
picking and seismic data trace editing using neural networks, 58(1):6778.
McCulloch, W. S. e Pitts, W. (1943) A logical calculus of idea's immanent in nervous activity,
In: Bulletin of Mathematical Biophysics 5, pp. 115133, Reprinted in Anderson, J. A.
and Roseneld, E. (1988) Neurocomputing: Foundations of Research, Cambridge MIT
Press.
Murat, M. E. e Rudman, A. J. (1992) Automated rst arrival picking: A neural network
approach, Geophysical Prospecting, 40(6):587604.

Nery, G. (2013) Perlagem geofísica em poço aberto: fundamentos básicos com ênfase em
petróleo, SBGF, Rj, Brasil.
Nestvold, E. (1996) The impact of 3-d seismic data on exploration, eld development, and
production, Applications of, 3:17.

Pérez, Y. A. R. (2008) Caracterização geométrica e parametrização de depósitos transacionais
recentes e sua aplicação na modelagem de reservatórios petrolíferos, Tese de Doutorado,
Universidade Federal do Rio Grande do Norte.
Poulton, M. M.; Sternberg, B. K. e Glass, C. E. (1992) Location of subsurface targets in
geophysical data using neural networks, Geophysics, 57(12):15341544.

Pyrcz, M. J.; Catuneanu, O. e Deutsch, C. V. (2005) Stochastic surface-based modeling of
turbidite lobes, AAPG bulletin, 89(2):177191.

Qayyum, F.; Hemstra, N.; Singh, R. et al. (2013) A modern approach to build 3d sequence
stratigraphic framework, Oil & Gas Journal, 111(10):4646.

Raeesi, M.; Moradzadeh, A.; Ardejani, F. D. e Rahimi, M. (2012) Classication and identi-
cation of hydrocarbon reservoir lithofacies and their heterogeneity using seismic attri-
butes, logs data and articial neural networks, Journal of Petroleum Science and engine-
ering, 82:151165.
Ramon, C. y. (1911) Histologie du systeme nerveux de l'homme et des vertebras, Paris:
Maloine, 2.
Riel, P. V. (2000) The past, present, and future of quantitative reservoir characterization,
The leading edge, 19(8):878881.

Romeo, G. (1994) Seismic signals detection and classication using artiricial neural networks,
Annals of Geophysics, 37(3).

Rosenblatt, F. (1958) The perceptron: a probabilistic model for information storage and
organization in the brain., Psychological review, 65(6):386.

Röth, G. e Tarantola, A. (1994) Neural networks and inversion of seismic data, Journal of
Geophysical Research: Solid Earth (19782012), 99(B4):67536768.

Sancevero, S. S. (2003) Modelagem sismica de corpos turbiditicos sinteticos gerados por
simulação booleana.
Silva, A. P.; Aragão, M. e Magalhães, A. (2008) Ambientes de sedimentação siliciclástica do
brasil, Beca-BALL Edições.
Wang, L.-X. e Mendel, J. M. (1992) Adaptive minimum prediction-error deconvolution and
source wavelet estimation using hopeld neural networks, Geophysics, 57(5):670679.

Werbos, P. (1974) Beyond regression: new tools for prediction and analysis in the beha-
vioral sciences: unpubl, Tese de Doutorado, Masters thesis, Harvard Univ. Cambridge,
Massachusetts.
Zhang, Y. e Paulson, K. (1997) Magnetotelluric inversion using regularized hopeld neural
networks, Geophysical prospecting, 45(5):725743.
View publication stats

2016 Mestrado Geofisica Caio PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

2016 Mestrado Geofisica Caio PDF

Transféré par

Droits d'auteur :

Formats disponibles

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

O uso de redes neurais na caracterização geofísica de reservatórios

Thesis · June 2016

Filtering methods - CPGG-UFBA & NTNU View project

Ground-roll attenuation View project

The user has requested enhancement of the downloaded file.

O USO DE REDES NEURAIS NA

CAIO MANOEL LIRA DA COSTA FONTES

Caio Manoel Lira da Costa Fontes

Orientador: Prof. Dr. Milton José Porsani

Conselho Acadêmico de Ensino

Universidade Federal da Bahia

Dr. Milton José Porsani

Dr. Marco Antônio Barsottelli Botelho

Dr. Michelângelo Gomes da Silva

Aprovada em 3 de junho de 2016

Q999 Fontes, Caio Manoel Lira da Costa,

As Redes Neurais Articiais (RNAs) são sistemas de processamento de informação inspirados

na organização e funcionalidade dos sistemas biológicos. Elas são implementadas utilizando

Uma aplicação em um dado de poço que contem os pers de GR (Raios Gama), ∆t

acústica) para fazer a predição de propriedades petrofísicas, conhecidas ao redor do poço,

e mapeá-lo em no volume sísmico na região do reservatório de interesse. Foram feitas duas

saída foi, respectivamente, GR e φ. Após o treinamento, a rede foi aplicada no volume e

tool can approximate some continuous function with an arbitrary precision.

as a tool in reservoir characterization. With this, two applications were made.

be near and correlatable.

1.1.1 Características relevantes das Redes Neurais Articiais . . . . . . . . 21

1.1.2 Modelo de um Neurônio . . . . . . . . . . . . . . . . . . . . . . . . . 23

1.1.3 Tipos de Função de Ativação . . . . . . . . . . . . . . . . . . . . . . 25

1.1.4 Arquiteturas de Redes . . . . . . . . . . . . . . . . . . . . . . . . . . 28

1.2 Processos de Aprendizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

1.2.1 Aprendizado Supervisionado . . . . . . . . . . . . . . . . . . . . . . . 32

1.2.2 Aprendizado por Reforço . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.2.3 Aprendizado Não-Supervisionado . . . . . . . . . . . . . . . . . . . . 38

1.2.4 Tarefas de Aprendizagem . . . . . . . . . . . . . . . . . . . . . . . . . 38

1.4 Multilayer Perceptrons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

1.4.1 Sumário do Algoritmo Backpropagation e Sugestões Operacionais . . 47

2 Caracterização Geofísica de Reservatório . . . . . . . . . . . . . . . . . . 51

2.1 Perlagem Geofísica de Poço . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

2.1.1 Perl de Raio Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

2.1.2 Perl Sônico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.1.3 Perl Neutrônico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.1.4 Perl de Densidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

2.2 Dado Sísmico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

2.2.1 Impedância Acústica . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

2.3 Modelagem de Reservatório . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.1 Dados de Poço . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

3.1.1 Utilizando a Equação de Gardner . . . . . . . . . . . . . . . . . . . . 65

3.1.2 Utilizando Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . . . 65

3.1.3 Comparação dos Resultados . . . . . . . . . . . . . . . . . . . . . . . 75

3.2 Dado Sísmico 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

3.2.1 Pré-Processamento dos Dados de Treinamento . . . . . . . . . . . . . 82

3.2.3 Aplicação da Rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

3.2.4 Mapeamento de Propriedades Petrofísicas do Reservatório . . . . . . 90

Apêndice A O Teorema da Convergência do Perceptron . . . . . . . . . . . 96

Apêndice B O Algoritmo Backpropagation . . . . . . . . . . . . . . . . . . . 104

Referências Bibliográcas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

3.1 Informações dos treinamentos das redes aplicadas . . . . . . . . . . . . . . . 85

A.1 Sumário do Algoritmo de Convergência do Perceptron . . . . . . . . . . . . . 102

1.1 Representação do sistema nervoso em diagrama. . . . . . . . . . . . . . . . . 15

1.2 Neurônios do sistema nervoso central dos vertebrados: do lado esquerdo o

neurônio motor da célula espinhal; do lado direito a célula de Purkinje en-

contrada no cerebelo. Esta célula é notável pela extensa ramicação da sua

As Redes Neurais Articiais (RNAs) são sistemas de processamento de informação inspirados

Uma aplicação em um dado de poço que contem os pers de GR (Raios Gama), ∆t

1.1.1 Características relevantes das Redes Neurais Articiais . . . . . . . . 21

2.1 Perlagem Geofísica de Poço . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

2.1.1 Perl de Raio Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

2.1.2 Perl Sônico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.1.3 Perl Neutrônico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.1.4 Perl de Densidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

Referências Bibliográcas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

contrada no cerebelo. Esta célula é notável pela extensa ramicação da sua

árvore dentrital, da qual apenas uma pequena parte é mostrada na gura,

1.4 Exemplo de arquitetura de uma Rede Neural Articial. . . . . . . . . . . . . 20

1.18 Grafo de uxo de sinal do Perceptron. . . . . . . . . . . . . . . . . . . . . . 41

para um problema de classicação de padrões de duas classes (bidimensional). 42

3.1 Conjunto dos Pers de poços utilizados. . . . . . . . . . . . . . . . . . . . . 64

3.2 Pers de ∆t e ρb (Original e calculado pela equação de Gardner). . . . . . . 65

3.3 Gráco de performance do treinamento, onde o erro médio quadrático ( mse )

3.4 Grácos de regressão para os dados utilizados para treinamento,teste, valida-

3.5 Pers de ∆t e ρb original e estimado (através da rede com ∆t como dado de

3.6 Gráco de performance do treinamento, onde o erro médio quadrático ( mse )

3.7 Grácos de regressão para os dados utilizados para treinamento,teste, valida-

3.8 Pers de ∆t e NPHI, e ρb original e estimado (através da rede com ∆t e NPHI

3.9 Gráco de performance do treinamento, onde o erro médio quadrático ( mse )

3.10 Grácos de regressão para os dados utilizados para treinamento,teste, valida-

3.15 Pers de GR e φ nos 4 poços na zona do reservatório. . . . . . . . . . . . . . 78

3.23 Curva de erro RM Snorm e gráco de dispersão no treinamento da rede de

3.24 Curva de erro RM Snorm e gráco de dispersão no treinamento da rede de