Vous êtes sur la page 1sur 123

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/325630486

O uso de redes neurais na caracterização geofísica de reservatórios

Thesis · June 2016

CITATIONS READS

0 198

2 authors, including:

Milton J. Porsani
Universidade Federal da Bahia
454 PUBLICATIONS   1,004 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Filtering methods - CPGG-UFBA & NTNU View project

Ground-roll attenuation View project

All content following this page was uploaded by Milton J. Porsani on 07 June 2018.

The user has requested enhancement of the downloaded file.


DISSERTAÇÃO DE MESTRADO

O USO DE REDES NEURAIS NA


CARACTERIZAÇÃO GEOFÍSICA
DE RESERVATÓRIOS

CAIO MANOEL LIRA DA COSTA FONTES

SALVADOR  BAHIA
JUNHO  2016
A
Documento preparado com o sistema L TEX.
Documento elaborado com os recursos grácos e de informática do CPGG/UFBA
O Uso de Redes Neurais Na Caracterização Geofísica de
Reservatórios

por

Caio Manoel Lira da Costa Fontes


Bacharel em Geofísica (Universidade Federal da Bahia  2014)

Orientador: Prof. Dr. Milton José Porsani

DISSERTAÇÃO DE MESTRADO
Submetida em satisfação parcial dos requisitos ao grau de

MESTRE EM CIÊNCIAS
EM
GEOFÍSICA
ao

Conselho Acadêmico de Ensino

da

Universidade Federal da Bahia

Comissão Examinadora

Dr. Milton José Porsani

Dr. Marco Antônio Barsottelli Botelho

Dr. Michelângelo Gomes da Silva

Aprovada em 3 de junho de 2016


A presente pesquisa foi desenvolvida no Centro de Pesquisa em Geofísica e Geologia da UFBA,
com recursos próprios, da CAPES, da CNPq, da FAPESB

Q999 Fontes, Caio Manoel Lira da Costa,


O Uso de Redes Neurais Na Caracterização Geofísica de Re-
servatórios / Caio Manoel Lira da Costa Fontes.  Salvador,
2016.
48 f.: il., mapas, fotos.
Orientador: Prof. Dr. Milton José Porsani
Dissertação (Mestrado) - Pós-Graduação em Geofísica. Insti-
tuto de Geociências da Universidade Federal da Bahia, 2016.
1. Bahia - Geofísica. I. Título.
911.6(813.8)(043)
"If I have seen further it is by
standing on the shoulders of
Giants."
Isaac Newton
Resumo

As Redes Neurais Articiais (RNAs) são sistemas de processamento de informação inspirados

na organização e funcionalidade dos sistemas biológicos. Elas são implementadas utilizando

exemplos de problemas previamente resolvidos, isso os torna valioso para problemas onde

existem nenhum algoritmo processual. Elas são cada vez mais populares na geofísica, pois

esta ferramenta pode aproximar qualquer função contínua com uma precisão arbitrária.

O trabalho foi desenvolvido com o intuito de mostrar o funcionamento das redes neurais

como ferramenta de auxílio na caracterização de reservatórios. Com isso, foram feitas duas

aplicações.

Uma aplicação em um dado de poço que contem os pers de GR (Raios Gama), ∆t


(Sônico), NPHI (Neutrônico) e ρb (Densidade) e foi realizado o treinamento com algumas

combinações entre GR, ∆t e NPHI para estimar o perl de ρb . Depois, com o treinamento

realizado, a rede foi aplicada com os mesmos dados de entrada e comparado com o perl

original para comparar o perl real com o perl estimado de ρb pela aplicação da rede neural.

Já a outra aplicação, em dado real 3D, foi feita a partir de 4 poços (com pers de GR,

∆t, ρb e porosidade - φ) em correlação com dados sísmico 3D (já invertido para impedância

acústica) para fazer a predição de propriedades petrofísicas, conhecidas ao redor do poço,

e mapeá-lo em no volume sísmico na região do reservatório de interesse. Foram feitas duas

aplicações: mapear a distribuição litológica e porosa. Onde o dado de entrada para treina-

mento da rede neural foi a impedância acústica do volume ao redor dos poços e o dado de

saída foi, respectivamente, GR e φ. Após o treinamento, a rede foi aplicada no volume e

mapeada as regiões onde se encontram a melhor região do reservatório, com baixo valor de

GR e alto valor de φ, onde o engenheiro de reservatório poderá fazer modelos de uxo para

explotar a reserva.

4
Abstract

The Articial Neural Networks (ANNs) are information processing systems inspired by the

organization and function of biological systems. They are implemented using examples

of previously solved problems, this makes them valuable for problems where there are no

procedural algorithm. They are becoming increasingly popular in geophysics, because this

tool can approximate some continuous function with an arbitrary precision.

The study was developed with the intention of show the functioning of neural networks

as a tool in reservoir characterization. With this, two applications were made.

An application in a well data that contains GR (Gamma Ray), ∆t (Sonic), NPHI (Neu-

tronic) e ρb (Density) proles, to estimate ρb prole. Then, with the training performed, the

network was applied to the same input data, for comparing the real prole with the ρb esti-

mated prole through the applying the neural network. This application can be extended to

create the prole in a nearby well that is missing some data well through this prole, which

be near and correlatable.

Already the other application, to the 3D data, was made from 4 wells (with GR, ∆t,
ρb and porosity  φ  proles) in correlation with 3D real seismic data (already inverted in

acoustic impedance) to the prediction of petrophysical properties, known around the well,

and map it on seismic volume in the region of the reservoir of interest. Two applications

were made: to map the lithology and porous distribution. Where the input to the neural

network training was the acoustic impedance volume around the wells and the output data

was gamma ray (GR) and porosity (φ), respectively. After training, the network was applied

in the volume and mapped the regions where the best area of the reservoir, with low GR

and high porosity value, where the reservoir engineer be able to make ow models to exploit

the reserves.

5
Índice

Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Índice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

Índice de Tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

Índice de Figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1 Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.1.1 Características relevantes das Redes Neurais Articiais . . . . . . . . 21

1.1.2 Modelo de um Neurônio . . . . . . . . . . . . . . . . . . . . . . . . . 23

1.1.3 Tipos de Função de Ativação . . . . . . . . . . . . . . . . . . . . . . 25

1.1.4 Arquiteturas de Redes . . . . . . . . . . . . . . . . . . . . . . . . . . 28

1.2 Processos de Aprendizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

1.2.1 Aprendizado Supervisionado . . . . . . . . . . . . . . . . . . . . . . . 32

1.2.2 Aprendizado por Reforço . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.2.3 Aprendizado Não-Supervisionado . . . . . . . . . . . . . . . . . . . . 38

1.2.4 Tarefas de Aprendizagem . . . . . . . . . . . . . . . . . . . . . . . . . 38

1.3 O Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

1.4 Multilayer Perceptrons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

1.4.1 Sumário do Algoritmo Backpropagation e Sugestões Operacionais . . 47

2 Caracterização Geofísica de Reservatório . . . . . . . . . . . . . . . . . . 51

2.1 Perlagem Geofísica de Poço . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

2.1.1 Perl de Raio Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

2.1.2 Perl Sônico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

6
Índice 7

2.1.3 Perl Neutrônico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.1.4 Perl de Densidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

2.2 Dado Sísmico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

2.2.1 Impedância Acústica . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

2.3 Modelagem de Reservatório . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3 Aplicações e Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.1 Dados de Poço . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

3.1.1 Utilizando a Equação de Gardner . . . . . . . . . . . . . . . . . . . . 65

3.1.2 Utilizando Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . . . 65

3.1.3 Comparação dos Resultados . . . . . . . . . . . . . . . . . . . . . . . 75

3.2 Dado Sísmico 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

3.2.1 Pré-Processamento dos Dados de Treinamento . . . . . . . . . . . . . 82

3.2.2 Treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

3.2.3 Aplicação da Rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

3.2.4 Mapeamento de Propriedades Petrofísicas do Reservatório . . . . . . 90

4 Conclusões e Recomendações . . . . . . . . . . . . . . . . . . . . . . . . . 93

Agradecimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

Apêndice A O Teorema da Convergência do Perceptron . . . . . . . . . . . 96

Apêndice B O Algoritmo Backpropagation . . . . . . . . . . . . . . . . . . . 104

Referências Bibliográcas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116


Índice de Tabelas

3.1 Informações dos treinamentos das redes aplicadas . . . . . . . . . . . . . . . 85

A.1 Sumário do Algoritmo de Convergência do Perceptron . . . . . . . . . . . . . 102

8
Índice de Figuras

1.1 Representação do sistema nervoso em diagrama. . . . . . . . . . . . . . . . . 15

1.2 Neurônios do sistema nervoso central dos vertebrados: do lado esquerdo o

neurônio motor da célula espinhal; do lado direito a célula de Purkinje en-

contrada no cerebelo. Esta célula é notável pela extensa ramicação da sua

árvore dentrital, da qual apenas uma pequena parte é mostrada na gura,

podendo ultrapassar várias dezenas de vezes as dimensões do corpo celular. . 16

1.3 Organização estrutural de níveis no cérebro. . . . . . . . . . . . . . . . . . . 18

1.4 Exemplo de arquitetura de uma Rede Neural Articial. . . . . . . . . . . . . 20

1.5 Modelo não-linear de um neurônio. . . . . . . . . . . . . . . . . . . . . . . . 23

1.6 Transformação produzida pela polarização ou bias (vk = bk para uk = 0). . . 25

1.7 Outro modelo não-linear de um neurônio. . . . . . . . . . . . . . . . . . . . . 25

1.8 (a) Função Threshold, (b) Função Piecewise-linear, (c) Função Sigmóide. . . 26

1.9 Rede progressiva formada por uma única camada de neurônios (representada

com quatro nós na camada de entrada e quatro neurônios na camada de saída). 29

1.10 Rede progressiva multicamadas completamente conectada, formada por uma

única camada escondida de neurônios e uma única camada de saída (repre-

sentada com 10 nós fontes na camada de entrada, 4 neurônios escondidos e 2

neurônios na camada de saída). . . . . . . . . . . . . . . . . . . . . . . . . . 30

1.11 Rede recorrente em que não há loops auto-realimentados, nem neurônios es-

condidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

1.12 Rede recorrente com neurônios escondidos e loops auto-realimentados. . . . . 31

1.13 Diagrama de Blocos representativo do aprendizado por meio de um tutor. . . 33

1.14 Superfície de Erro apresentando um ponto de mínimo local e um ponto de

mínimo global. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

1.15 Aprendizado por correção de erro. . . . . . . . . . . . . . . . . . . . . . . . . 35

1.16 Diagrama de blocos do aprendizado por reforço. . . . . . . . . . . . . . . . . 37

1.17 diagrama de blocos do aprendizado não-supervisionado. . . . . . . . . . . . . 38

1.18 Grafo de uxo de sinal do Perceptron. . . . . . . . . . . . . . . . . . . . . . 41

9
Índice de Figuras 10

1.19 Ilustração do hiperplano (neste caso, uma linha reta) como limite de decisão

para um problema de classicação de padrões de duas classes (bidimensional). 42

1.20 Arquitetura de uma rede neural multilayer perceptron com duas camadas es-

condidas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

1.21 Ilustração das direções dos dois uxos básicos de sinal em uma rede multilayer
perceptron : propagação direta dos sinais e retro-propagação dos sinais de erro. 47

57gure.caption.44

2.2 Esboço, passo-a-passo, da construção de um modelo geológico 3D de alta

resolução de um reservatório. Adaptado de Pérez (2008) . . . . . . . . . . . 62

3.1 Conjunto dos Pers de poços utilizados. . . . . . . . . . . . . . . . . . . . . 64

3.2 Pers de ∆t e ρb (Original e calculado pela equação de Gardner). . . . . . . 65

3.3 Gráco de performance do treinamento, onde o erro médio quadrático ( mse )


se estabilizou e foi parado o treinamento da rede com ∆t como dado de entrada. 66

3.4 Grácos de regressão para os dados utilizados para treinamento,teste, valida-

ção e todos juntos para a rede com ∆t como dado de entrada na rede e ρb
como dado alvo do treinamento. . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.5 Pers de ∆t e ρb original e estimado (através da rede com ∆t como dado de

entrada). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

3.6 Gráco de performance do treinamento, onde o erro médio quadrático ( mse )


se estabilizou e foi parado o treinamento da rede com ∆t e NPHI como dados
de entrada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

3.7 Grácos de regressão para os dados utilizados para treinamento,teste, valida-

ção e todos juntos para a rede com ∆t e NPHI como dados de entrada na rede
e ρb como dado alvo do treinamento. . . . . . . . . . . . . . . . . . . . . . . 70

3.8 Pers de ∆t e NPHI, e ρb original e estimado (através da rede com ∆t e NPHI


como dados de entrada). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

3.9 Gráco de performance do treinamento, onde o erro médio quadrático ( mse )


se estabilizou e foi parado o treinamento da rede com ∆t, NPHI e GR como

dados de entrada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

3.10 Grácos de regressão para os dados utilizados para treinamento,teste, valida-

ção e todos juntos para a rede com ∆t, NPHI e GR como dados de entrada

na rede e ρb como dado alvo do treinamento. . . . . . . . . . . . . . . . . . . 73

3.11 Pers de ∆t, NPHI e GR, e ρb original e estimado (através da rede com ∆t,
NPHI e GR como dados de entrada). . . . . . . . . . . . . . . . . . . . . . . 74
Índice de Figuras 11

3.12 Comparação dos métodos para obtenção do perl de ρb por: Gardner; redes

neurais com ∆t como dado de entrada da rede; redes neurais com ∆t e NPHI

como dados de entrada da rede; e redes neurais com ∆t, NPHI e GR como

dados de entrada da rede; . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

3.13 Mapa com a localização da área de estudo no Mar do Norte e a ampliação

do mapa na região do dado, com localização dos poços dentro do volume.

Adaptado de Qayyum et al. (2013). . . . . . . . . . . . . . . . . . . . . . . . 77

3.14 Dimensão do cubo sísmico ( inline × crossline × profunidade em tempo) e a


disposição dos 4 poços nele. . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

3.15 Pers de GR e φ nos 4 poços na zona do reservatório. . . . . . . . . . . . . . 78

3.16 Visualisação ampla do dado, com a inline 442 (onde o poço F03-4 está contido)
composto com a crossline 387, (onde o poço F06-1 está contido). Reservatório

deltaico localizado entre o tempo 600 e 1100 ms, aproximadamente. . . . . . 79

3.17 Esquema da aplicação da rede neural para predição de propriedades, mos-

trando como o funcionamento e a forma de trabalho da rede, de forma sim-

plicada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

3.18 Cubo de impedância acústica (em kg/m3 × m/s) e os 4 poços contidos no

volume que tiveram seus pers utilizados como dado de entrada em cada rede

treinada e sua posterior aplicação. . . . . . . . . . . . . . . . . . . . . . . . . 81

3.19 Histograma do vetor de GR onde o parâmetro P DP C = 41. Que possui 4198

amostras coletadas dos 4 poços, onde o mínimo e o máximo são, respectiva-

mente, 31.66 e 80.28 GAP I . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

3.20 Histograma do vetor de φ onde o parâmetro P DP C = 42. Que possui 4195

amostras coletadas dos 4 poços, onde o mínimo e o máximo são, respectiva-

mente, 0.2507 e 0.3587 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

3.21 Cross-plot GR × AI. Ficando claro o comportamento não-linear e com grau

baixo de correlação (r = 0.23) entre os pares entrada × alvo. . . . . . . . . . 83

3.22 Cross-plot φ× AI. Ficando claro o comportamento não-linear e com um grau

de correlação médio (r = 0.59) entre os pares entrada × alvo. . . . . . . . . . 84

3.23 Curva de erro RM Snorm e gráco de dispersão no treinamento da rede de

GR, onde o treinamento foi parado com o valor do erro RMS normalizado do

treinamento igual a 0,578286. Com a representação dos dados treinados em

vermelho e dos dados de teste em azul. . . . . . . . . . . . . . . . . . . . . . 86

3.24 Curva de erro RM Snorm e gráco de dispersão no treinamento da rede de

φ, onde o treinamento foi parado com o valor do erro RMS normalizado do

treinamento igual a 0,712011.. Com a representação dos dados treinados em

vermelho e dos dados de teste em azul. . . . . . . . . . . . . . . . . . . . . . 87


Índice de Figuras 12

3.25 Disposição do dado para visualização da área em estudo, por uma seção com-

posta de linhas passando pelos poços F03-2, F03-4 e F06-1 . . . . . . . . . . 88

3.26 Cubo de Impedância Acústica em kg/m3 ×m/s como dado de entrada da rede
neural. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

3.27 Volume sísmico com a propriedade petrofísica de GR, em GAP I , gerado pela

aplicação da rede que teve o volume de impedância acústica como dado de

entrada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

3.28 Volume sísmico com a propriedade petrofísica de φ, gerado pela aplicação da

rede que teve o volume de impedância acústica como dado de entrada. . . . . 89

3.29 Volume sísmico com região de baixo GR no reservatório, que consequente-

mente tem baixo conteúdo argiloso na sua matriz e poros, e que provavelmente

sejam arenitos de planície e frente deltaica. . . . . . . . . . . . . . . . . . . . 91

3.30 Volume sísmico com região de alta porosidade no reservatório, que consequen-

temente tem um maior grau de seleção dos grãos, aumentando seu volume

poroso, e que provalmente sejam arenitos de planície e frente deltaica. . . . . 91

3.31 Volume sísmico com de LGR, sobreposto a região de HPHI, no reservatório.

(LGR: Baixo GR, HPHI: Alta Porosidade; BR: Melhor Reservatório → LGR

∩ HPHI). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

3.32 Modelo geológico do reservatório caracterizado onde em amarelo tem-se os

melhores arenitos reservatórios que são de planície e frente deltaica. . . . . . 92

A.1 Grafo de uxo de sinal equivalente do Perceptron (a dependência do tempo

foi omitida por questões de clareza). . . . . . . . . . . . . . . . . . . . . . . . 96

A.2 (a) Um par de padrões linearmente separáveis. (b) Um par de padrões não-

linearmente separáveis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

B.1 Grafo de uxo de sinal no neurônio j. . . . . . . . . . . . . . . . . . . . . . . 107

B.2 Grafo de uxo de sinal mostrando os detalhes do neurônio de saída k comec-

tado ao neurônio escondido j. . . . . . . . . . . . . . . . . . . . . . . . . . . 109

B.3 Grafo de uxo de sinal mostrando o processo de retro-propagação dos sinais

de erro na camada de saída para um neurônio j da camada escondida imedi-

atamente à esquerda. mL é o número de neurônios da camada de saída. . . . 110


0 2
B.4 Gráco de ϕ(v) = a tanh(bv) e ϕ (v) = ab(1 − tanh (bv)) para a = 1.7159 e

b = 2/3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Introdução

As redes neurais são sistemas de processamento de informação inspirados na organização e

funcionalidade dos sistemas neurais biológicos. Elas têm capacidade de reconhecimento de

padrões poderosas e sosticadas que os tornam úteis para a análise de imagens e de classi-

cação problemas. Além disso, a única maneira na qual eles são implementados - utilizando

exemplos de problemas previamente resolvidos - os torna particularmente valioso para pro-

blemas no qual existe nenhum algoritmo processual. Muitas tarefas que são intuitivas ou de

natureza subjetiva e têm sido tradicionalmente pensado para residir totalmente dentro da

esfera humana de atividades agora podem ser realizadas utilizando redes neurais. A aceita-

ção do usuário de programas à base de redes neurais é bom, já que a rede imita o estilo de

análise do usuário que treinou (McCormack, 1991).

As redes neurais são cada vez mais popular em geofísica, porque eles são aproximadores

universais, esta ferramenta pode aproximar qualquer função contínua com uma precisão

arbitrária. Assim, elas podem produzir importantes contribuições para a busca de soluções

em uma variedade de aplicações na geofísica (Baan e Jutten, 2000).

As redes neurais ganharam popularidade na geofísica desde a década de 90. Ela tem sido

aplicada com sucesso em uma variedade de problemas. No domínio geofísico, as redes neurais

tem sido utilizadas para o reconhecimento da forma de onda e os picos de primeira quebra

(Murat e Rudman, 1992; McCormack et al., 1993); inversão eletromagnética (Poulton et al.,

1992), magnetotelúrica (Zhang e Paulson, 1997), e sísmica (Röth e Tarantola, 1994; Langer

et al., 1996; Macías et al., 1997); separação de onda S (Dai e MacBeth, 1994), análise de

perl de poço (Huang et al., 1996), edição de traços (McCormack et al., 1993), deconvolução

sísmica (Wang e Mendel, 1992; Macías et al., 1997), e classicação de eventos (Dowla et al.,

1990; Romeo, 1994); e para muitos outros problemas.

Com o avanço tecnológico ao passar dos anos, e com a melhoria na aquisição e processa-

mento de dados sísmicos, foi possível aumentar o conhecimento geológico de bacias explora-

tórias ao redor do mundo. Consequentemente, a resolução dos dados foram aumentando, de

caráter exploratório regional da bacia, passando para os plays exploratórios da bacia e poste-

13
Introdução 14

riormente passando para o nível de reservatório e sua distribuição espacial através de dados

sísmicos tridimensionais e dados de poços, fazendo uma extensão de propriedades petrofí-

sicas, conhecidas através do dado de poço, por todo o meio sismicamente imageado. Com

isso, a utilização das redes neurais na geofísica foram ganhando grande utilidade nesta área

de caracterização de reservatórios (Herrera et al., 2006; Marques, 2011). As redes neurais

tem sido usadas para predição de propriedades petrofísicas, como porosidade (AlBinHassan

e Wang, 2011) e litologia (Raeesi et al., 2012), através de volumes sísmicos e dados de poços.

Para o estudo das reservas petrolíferas, o planejamento de desenvolvimento de campos

petrolíferos e análise dos custos que podem estar envolvidos na exploração e/ou produção

destes campos surge a engenharia de reservatórios. É uma área de grande importância

para o estudo e desenvolvimento da atividade petrolífera, permitindo o surgimento de novas

metodologias para a pesquisa, extração e produção de petróleo. Para a caracterização de re-

servatórios é necessário que seja feita a distribuição quantitativa das propriedades do mesmo

e revelar as incertezas que podem estar associadas ao mesmo de acordo a sua variabilidade

espacial, este processo permitirá prever o comportamento do uxo no reservatório (Marques,

2011). Com isso, um dos principais objetivos da caracterização de reservatório é estudar

as propriedades geológicas e pretrofísicas de um sistema petrolífero para melhor explorar e

produzir no reservatório.

Os capítulos dessa dissertação se encontram estruturados da seguinte forma:

• No capítulo 1 será feita uma fundamentação teórica das redes neurais, sua origem,

modelos e como ela funciona.

• No capítulo 2 será feito uma fundamentação teórica dos objetos de estudos necessários

para se compreender como e por qual motivo é feita a caracterização de um reservatório,

e quais ferramentas e dados são necessários para que isso seja feito.

• No capítulo 3 será apresentado a metodologia do trabalho, suas consequentes aplicações

em um modelo com uma maior complexidade (3D real) onde será feita a predição de

propriedades físicas e litológicas do reservatório; por m, a interpretação e discussão

dos resultados obtidos.


1
Redes Neurais

1.1 Introdução
Uma Rede Neural Articial é uma estrutura computacional projetada para mimetizar a

maneira pela qual o cérebro desempenha uma particular tarefa de seu interesse.

As Redes Neurais Articiais têm analogia neurobiológica como fonte de inspiração. O

cérebro opera de uma forma altamente complexa, não-linear e paralela. O sistema nervoso

humano pode ser visto como um sistema de três estágios, conforme descrito no diagrama

mostrado na Figura 1.1. No centro do sistema está o cérebro, representado pela rede neu-

ral, o qual recebe continuamente informações, as percebe (compreende) e toma decisões

apropriadas.

Figura 1.1: Representação do sistema nervoso em diagrama.

Na Figura 1.1, as setas apontando da esquerda para a direita indicam transmissão pro-

gressiva de sinais de informação externa, através do sistema. As setas apontando da direita

para a esquerda signicam a presença de realimentação no sistema. Os receptores convertem

o estímulo vindo do corpo humano ou do ambiente externo em impulsos elétricos que condu-

zem informação para a rede neural, ou seja, o cérebro. Os atuadores convertem os impulsos

elétricos gerados pela rede neural em respostas discerníveis como saídas do sistema.

Desde o pioneiro trabalho de Ramon (1911), os neurônios são considerados as estrutu-

15
Redes Neurais 16

ras que constituem o cérebro. O cérebro tem a capacidade de organizar seus componentes

estruturais de forma a desempenhar certas operações, tais como reconhecimento de padrões,

controle de movimento, entre outros, e, muitas vezes mais rápido do que o mais rápido com-

putador digital existente. Os neurônios são de cinco a seis ordens de grandeza mais lentos

que as portas lógicas de silício; os eventos em um chip de silício acontecem na ordem de na-
−9 −3
nosegundos (10 s), enquanto eventos neurais acontecem no ordem de milisegundos (10 s).

Entretanto, o cérebro compensa a taxa de operação relativamente lenta de um neurônio atra-

vés de um, inacreditavelmente grande, número de neurônios, com densas interconexões entre

eles. Estima-se em aproximadamente 10 bilhões de neurônios no córtex humano, e 60 tri-

lhões de sinapses ou conexões. O cérebro é uma estrutura extremamente eciente, a eciência

energética do cérebro é de aproximadamente 10−16 J/operação/s, enquanto que o valor cor-

respondente para o melhor computador existente é de aproximadamente 10−6 J/operação/s.

Como qualquer célula biológica, o neurônio é delimitado por uma na membrana celular

que possui determinadas propriedades essenciais para o funcionamento elétrico da célular

nervosa. A partir do corpo celular (ou soma), que é o centro dos processos metabólicos

da célula nervosa, projetam-se extensões lamentares, que são os dentritos, e o axônio,

conforme pode ser visto na Figura 1.2. Os dentritos frequentemente cobrem um volume,

muitas vezes, maior do que o próprio corpo celular e formam uma árvore dentrital. A

outra projeção lamentar do corpo celular, o axônio, também referido como bra nervosa,

serve para conectar a célula nervosa a outras do sistema nervoso. Os axônios são linhas

de transmissão e os dentritos, zonas receptivas. O neurônio possui, geralmente, um único

axônio, embora este possa apresentar algumas ramicações.

Figura 1.2: Neurônios do sistema nervoso central dos vertebrados: do lado esquerdo o neurô-
nio motor da célula espinhal; do lado direito a célula de Purkinje encontrada no cerebelo.
Esta célula é notável pela extensa ramicação da sua árvore dentrital, da qual apenas uma
pequena parte é mostrada na gura, podendo ultrapassar várias dezenas de vezes as dimen-
sões do corpo celular.

O neurônio biológico é, basicamente, o dispositivo computacional elementar do sistema

nervoso, que possui (muitas) entradas e uma saída. As entradas ocorrem através das conexões
Redes Neurais 17

sinápticas, que conectam a árvore dentrital aos axônios de outras células nervosas. Os sinais

chegam aos axônios de outras células nervosas são pulsos elétricos conhecidos como impulsos

nervosos ou potenciais de ação e constituem a informação que o neurônio processará de

alguma forma para produzir como saída de um impulso nervoso no seu axônio. As sinapses

são regiões eletroquimicamente ativas, compreendidas entre duas membranas celulares: a

membrana pré-sináptica (por onde chega um estímulo proveniente de uma outra célula) e

a membrana pós-sináptica (que é a do dentrito). Nesta região intersináptica, o estímulo

nervoso, que chega à sinapse, é transferido à membrana dentrital através de substâncias

conhecidas como neurotransmissores. O resultado desta transferência é uma alteração no

potencial elétrico da membrana pós-sináptica. Dependendo do tipo de neurotransmissor,

a conexão sináptica será excitatória ou inibitória. Uma conexão excitatória provoca uma

alteração no potencial da membrana que contribui para a formação de um impulso nervoso

no axônio de saída, enquanto que uma conexão inibitória age no sentido oposto. Uma sinapse

pode impor excitação ou inibição (uma ou outra) sobre neurônio receptivo.

A maioria dos neurônios codica suas saídas como uma série de breves pulsos de tensão.

Esses pulsos, conhecidos como potencial de ativação, originam-se no próprio corpo celular

do neurônio (ou próximo a ele) e então se propagam através dos neurônios individuais à

velocidade e amplitude constantes.

No cérebro há organizações anatômicas em pequena escala e grande escala, e diferentes

funções acontecem em níveis inferiores e superiores. A Figura 1.3 mostra tais níveis en-

trelaçados de organização. As sinapses representam o nível mais fundamental, dependendo

de moléculas e íons para sua atuação. Nos próximos níveis temos microcircuitos neurais,

árvores de dentritos e, então, neurônios. Um microcircuito neural se refere a um agrupa-

mento de sinapses organizadas em padrões de conectividade para produzir uma operação

funcional de interesse. Um microcircuito neural ser comparado a um chip de silício feito

do agrupamento de transistores. Os microcircuitos neurais são agrupados para formarem

subunidades dentríticas dentro das árvores dentríticas de neurônios individuais. O neurônio

contém várias subunidades dentríticas. No próximo nível de complexidade temos os circuitos

locais feitos de neurônios com propriedades similares ou diferentes; estes agrupamentos de

neurônios desempenham operações características de uma região localizada no cérebro. Isto

é seguido pelos circuitos interregionais feitos de caminhos, colunas e mapas topográcos, que

envolvem regiões localizadas em diferentes partes do cérebro. Estes mapas topográcos são

organizados para responder a informações sensoriais que chegam, eles são frequentemente

arranjados em placas que são empilhadas em camadas adjacentes, de forma que estímulos

vindos de pontos correspondentes no espaço estão acima ou abaixo de outros (por exemplo,

mapas visuais e auditivos estão empilhados em camadas adjacentes). No nível nal de com-
Redes Neurais 18

plexidade, os mapas topográcos e outros circuitos interregionais mediam especícos tipos

de comportamento no sistema nervoso central.

Figura 1.3: Organização estrutural de níveis no cérebro.

Uma rede cerebral é, portanto, um dispositivo geral de processamento. A função que a

rede cerebral computa é determinada pelos padrões de conexões, ou seja, o análogo de um

programa de computador baseado em algoritmos totalmente desconhecidos, que são natu-

ralmente implementados no cérebro. Além disto, é importante reconhecer que os neurônios

articiais que usamos para construir nossas redes neurais articiais são muito primitivos, se

comparados aos neurônios encontrados no cérebro, e as redes neurais articiais que somos

capazes de projetar são primitivas se comparadas aos circuitos locais e circuitos interregi-

onais do cérebro. No entanto, com a profusão de novas teorias, tanto no estudo das redes

neurais articiais, quanto no estudo da siologia cerebral, espera-se que nos próximos anos

este ramo da ciência seja um estudo muito mais sosticado do que é atualmente.

Um exemplo de tarefa de processamento de informação realizada pelo cérebro é o sistema

visual. É a função do sistema visual prover uma representação do ambiente que nos cerca e,

mais importante ainda, suprir a informação de que necessitamos para interagir com o ambi-

ente. O cérebro rotineiramente realiza tarefas de reconhecimento perceptivo(por exemplo, o

reconhecimento de um rosto familiar em meio a uma cena não familiar) em aproximadamente

100 a 200 ms, enquanto que tarefas de complexidade muito menor podem levar dias em um

computador convencional. A questão é: como o cérebro humano executa tais tarefas?


Redes Neurais 19

No nascimento, um cérebro tem uma grande estrutura e a habilidade de construir suas

próprias regras através da experimentação continuada. A experiência construída ao longo

do tempo, com o desenvolvimento mais dramático do cérebro humano ocorrendo durante

os dois primeiros anos a partir do nascimento, mas o desenvolvimento continua muito além

daquele estágio. Neurônios em desenvolvimento são sinônimos de um cérebro plástico.

Esta capacidade plástica permite ao sistema nervoso em desenvolvimento se adaptar ao

ambiente que o cerca. Em um cérebro adulto, esta plasticidade pode ser responsável por

dois mecanismos: a criação de novas conexões sinápticas entre neurônios, e a modicação de

sinapses existentes.

Esta mesma plasticidade essencial ao funcionamento dos neurônios do cérebro hu-

mano como unidades de processamento de informação é utilizada pelas redes neurais arti-

ciais e seus neurônios articiais. Assim, podemos armar que as redes neurais articiais

assemelham-se ao cérebro humano em dois aspectos:

1. O conhecimento é adquirido pela rede neural articial através de um processo de apren-

dizado;

2. As transmitâncias das conexões interneurônios, conhecidas como pesos sinápticos, às

quais está submetido o uxo de informações através da rede, são utilizadas para arma-

zenar o conhecimento.

Uma rede neural articial nada mais é, portanto, do que uma máquina projetada para

modelar a maneira pela qual o cérebro desempenha funções de interesse.

A exemplo das redes neurais naturais, as redes articiais consistem da interconexão de

um grande número de unidades de processamento chamadas neurônios. As conexões entre

as unidades computacionais (ou neurônios) são chamadas sinapses ou pesos sinápticos.

A Figura 1.4 apresenta a arquitetura de uma rede neural articial composta de uma

camada de entrada e duas camadas de unidades de processamento, ou neurônios.

A camada de entrada, que conecta a rede ao ambiente externo, é composta por elementos

chamados nós de entrada ou nós fonte da rede. A segunda camada de neurônios, ou camada

escondida de neurônios, é conectada à camada de nós de entrada e à camada de neurônios

de saída por um conjunto de interconexões chamadas sinapses ou pesos sinápticos.

Tal rede, conforme mostrada na 1.4, é normalmente, referida na literatura como uma

rede neural articial de duas camadas (a camada de nós de entrada não conta como camada

de unidades processadoras ou neurônios), ou simplesmente referida como uma rede neural


Redes Neurais 20

articial que apresenta apenas uma camada escondida (cando naturalmente implícitas as

camadas de nós de entrada e de neurônios de saída).

Figura 1.4: Exemplo de arquitetura de uma Rede Neural Articial.

Conforme já sabemos, as redes neurais articiais têm a capacidade de obter conheci-

mento a partir de seu ambiente através de um processo de aprendizado. O conhecimento

obtido pelas redes neurais articiais é armazenado nos parâmetros livres da rede, que são

os pesos sinápticos e os parâmetros que denem a função de transferência das unidades

computacionais ou neurônios.

O procedimento utilizado para o processo de aprendizado é chamado algoritmo de apren-

dizagem e tem por função modicar de forma adaptativa os parâmetros livres da rede para

atingir um objetivo desejado. Em outras palavras, da mesma forma que em um ltro li-

near adaptativo convencional, as redes neurais articiais têm a capacidade de, através da

informação de uma resposta desejada, tentar aproximar um sinal alvo durante o processo de

aprendizagem. Esta aproximação é obtida através do ajuste, de forma sistemática, de um

conjunto de parâmetros livres, característicos de cada rede neural. Na verdade, o conjunto de

parâmetros livres provê um mecanismo para armazear o conteúdo de informação subjacente

presente nos dados que são apresentados à rede na fase de treinamento.


Redes Neurais 21

1.1.1 Características relevantes das Redes Neurais Articiais


O poder computacional de uma rede neural articial é devido basicamente a dois fatores:

sua estrutura paralela pesadamente distribuída e sua habilidade de aprender e, consequen-

temente, generalizar.

Algumas características relevantes das redes neurais articiais são descritas por Haykin

(2007) e Haykin (2009) e aqui citadas:

• Possibilidade de considerar o comportamento não-linear dos fenômenos físicos respon-

sáveis pela geração dos dados de entrada:

Um neurônio articial pode ser linear ou não-linear. Uma rede neural articial

constituída de interconexões de neurônios não-lineares é uma rede não-linear. É

importante observar que a não-linearidade de uma rede neural articial é distri-

buída por toda a rede. Não-linearidade é uma propriedade altamente importante,

particularmente se o mecanismo físico subjacente responsável pela geração do si-

nal de entrada é inerente não-linear, como é o caso, por exemplo, dos sinais de

voz.

• Necessidade de pouco conhecimento estatístico sobre o ambiente no qual a rede está

inserida:

Outra característica extremamente importante das redes neurais articiais é que,

diferentemente da análise estatística tradicional, as redes neurais não requerem

prévio conhecimento sobre a distribuição de dados, para analisá-los. Desde que

haja uma relação subjacente entre os dados, mesmo que desconhecida sua apre-

sentação analítica e/ou estatística, as redes neurais articiais podem apresentar

um melhor desempenho do que os métodos estatísticos tradicionais. Esta carac-

terística as torna de grande utilidade pois, em muitos casos de interesse cientíco

e/ou tecnológico é comum se estar tratando com processos sobre os quais muito

pouco ou nada se conhece de seu comportamento estatístico.

• Capacidade de aprendizagem, a qual é atingida através de uma sessão de treinamento

com exemplos entrada/saída que sejam representativos do ambiente:

O aprendizado supervisionado, ou aprendizado por meio de um tutor, envolve

a modicação dos pesos sinápticos da rede neural articial através da aplicação

de um conjunto de amostras de treino, para as quais se conhece previamente a

saída desejada da rede: cada exemplo consiste de um único sinal de entrada e

uma correspondente resposta desejada. Um exemplo tomado aleatoriamente do

conjunto de treino é apresentado à rede e os pesos sinápticos da rede (parâmetros


Redes Neurais 22

livres) são modicados de forma a minimizar a diferença entre a resposta desejada

e a resposta atual da rede, produzida pelo sinal de entrada, de acordo com algum

critério estatístico apropriado. O treinamento da rede é repetido para muitos

exemplos do conjunto de treino até que a rede atinja um estado onde não haja mais

mudanças signicativas nos pesos sinápticos. Os mesmos exemplos do conjunto

de treino podem ser reaplicados durante o processo de treinamento da rede, desde

que em outra ordem de apresentação.

• Habilidade de aproximar qualquer mapeamento entrada/saída de natureza contínua:

Devido à capacidade de aprendizado, uma rede neural articial tem a possibili-

dade de encontrar qualquer mapeamento entrada/saída, desde que os dados sejam

adequadamente representativos do processo que esteja sendo tratado, e desde que

sejam adequadamente escolhidos a arquitetura da rede e seu algoritmo de treina-

mento.

• Adaptatividade:

As redes neurais articiais são ferramentas extremamente exíveis em um ambi-

ente dinâmico. Elas têm a capacidade de aprender rapidamente padrões comple-

xos e tendências presentes nos dados e de se adaptar rapidamente às mudanças,

características estas que são extremamente desejáveis em uma ampla gama de

aplicações. As redes neurais articiais têm a capacidade de adaptar seus pesos si-

nápticos a mudanças no ambiente em que está inserida. Uma rede neural articial

treinada para operar em um ambiente especíco pode ser facilmente retreinada

para tratar com pequenas mudanças nas condições operacionais do ambiente.

Quando operando em um ambiente não-estacionário (onde a estatística do pro-

cesso muda com o tempo) uma rede neural articial pode ser projetada para

mudar seus pesos sinápticos em tempo real.

• Generalização:

Capacidade que permite às redes neurais articiais um desempenho satisfatório

(produzir saídas adequadas) em resposta a dados desconhecidos (não pertencentes

ao conjunto de treino, mas que estejam em sua vizinhança).

• Tolerância a falhas:

Característica que permite à rede continuar a apresentar resultados aceitáveis no

caso de falha de alguns neurônios (unidades computacionais básicas das redes neu-

rais articiais). O projeto de uma rede neural articial é motivado pela analogia

com o cérebro, que é a prova viva de que a tolerância à falhas no processamento

paralelo não é apenas sicamente possível, quanto rápida e poderosa.


Redes Neurais 23

• Informação contextual:

O conhecimento é representado pela própria estrutura da rede neural articial e

pelo seu estado de ativação. Cada neurônio da rede é potencialmente afetado pela

atividade global de todos os neurônios na rede. Consequentemente, informação

contextual é tratada com naturalidade pelas redes neurais articiais.

• Possibilidade da implementação em VLSI:

Esta característica permite considerar elevado grau de paralelismo no projeto

da rede. A natureza fortemente paralela das redes neurais articiais as tornam

potencialmente rápidas para computar determinadas tarefas. Esta mesma carac-

terística possibilita que sejam implementadas usando tecnologia VLSI ( very large
scale integrated ).

1.1.2 Modelo de um Neurônio


O diagrama de blocos mostrado na Figura 1.5 apresenta o modelo básico de um neurônio

utilizado no projeto de Redes Neurais Articiais. O modelo consiste de:

Figura 1.5: Modelo não-linear de um neurônio.

1. Um conjunto de sinapses, cada uma delas caracterizada por um peso característico.

Especicamente, um sinal xj na entrada da sinapse j, conectada ao neurônio k, é

multiplicado pelo peso sináptico wkj . Diferentemente de uma sinapse no cérebro, o

peso sináptico de um neurônio articial pode assumir valores positivos e negativos;

2. Um combinador linear para somar os sinais de entrada, ponderados pela respectiva

sinapse do neurônio;

3. Uma função de ativação para limitar a amplitude da saída do neurônio. A função de

ativação limita a faixa de amplitude permitida do sinal de saída a algum valor nito.
Redes Neurais 24

Tipicamente, a excursão da amplitude normalizada da saída de um neurônio é restrita

ao intervalo unitário fechado [0, 1] ou, alternativamente [−1, 1].

O modelo neural da Figura 1.5 inclui uma polarização externa ( bias ), denotada por bk .
A polarização bk tem o efeito de aumentar ou diminuir o argumento da função de ativação,

caso seja positivo ou negativo, respectivamente.

Em termos matemáticos, um neurônio k pode ser descrito pelas equações

m
X
uk = wkj xj (1.1)
j=1

yk = ϕ(uk + bk ), (1.2)

onde:

x1 , x2 , ..., xm são os sinais de entrada;

wk1 , wk2 , ..., wkm são os pesos sinápticos do neurônio k;


uk é a saída do combinador linear devida aos sinais de entrada;

bk é a polarização ou bias ;
ϕ(· ) é a função de ativação e

yk é o sinal de saída do neurônio.

O uso da polarização ou bias tem o efeito de aplicar uma transformação à saída uk do

combinador linear, conforme

vk = uk + bk . (1.3)

Dependendo do valor da polarização bk ser positivo ou negativo, a relação entre o poten-

cial de ativação vk , do neurônio k, e a saída do combinador linear uk é conforme mostrada

na Figura 1.6. Observe que, como resultado da transformação, o gráco de vk × uk não passa

mais pela origem.

A polarização é um parâmetro externo do neurônio articial k, conforme expressa a

Equação (1.2). Uma outra forma de expressar a presença da polarização é através da com-

binação das Equações (1.1) e (1.3):

m
X
vk = wkj xj (1.4)
j=0

yk = ϕ(vk ). (1.5)

Na realidade, adicionamos uma nova sinapse na Equação (1.4), cuja entrada é x0 = +1


e cujo peso é wk0 = bk . O modelo do neurônio reformulado de acordo com as Equações (1.4)
Redes Neurais 25

Figura 1.6: Transformação produzida pela polarização ou bias (vk = bk para uk = 0).

e (1.5) é mostrado na Figura 1.7. Embora os modelos pareçam diferentes, são matematica-

mente equivalentes.

Figura 1.7: Outro modelo não-linear de um neurônio.

1.1.3 Tipos de Função de Ativação


Conforme vimos na Seção 1.1.2, a função de ativação ϕ(v) dene a saída do neurônio em

termos de potencial de ativação v. A Figura 1.8 apresenta três tipos de função de ativação,

a Função Threshold, a Função Piecewise-linear e a Função Sigmóide.


Redes Neurais 26

Figura 1.8: (a) Função Threshold, (b) Função Piecewise-linear, (c) Função Sigmóide.

Função Threshold (Função Limiar):

Este tipo de função de ativação, mostrado na Figura 1.8 (a) é descrito por:


1, se v≥0
ϕ(v) = (1.6)
0, se v<0

Correspondentemente, a saída do neurônio k, empregando tal função Threshold é ex-

pressa por:


1, se vk ≥ 0
yk = , (1.7)
0, se vk < 0
onde vk é o potencial de ativação do neurônio dado por:

m
X
vk = wkj xj + bk . (1.8)
j=1
Redes Neurais 27

Um neurônio assim denido é conhecido como o modelo de M'cCulloch-Pitts (McCulloch

e Pitts, 1943). Neste modelo, a saída do neurônio assume o valor 1 se o potencial de ativação
do neurônio é não-negativo e zero caso contrário.

Função Piecewise-linear (Linear por Partes):

Este tipo de função de ativação, mostrado na Figura 1.8 (b) é descrito por:


 1, se v ≥ 12
ϕ(v) = v, se + 21 > v > − 12 , (1.9)
0, se v ≤ − 12

onde o fator de amplicação dentro da região linear de operação é assumido unitário. Esta

função de ativação pode ser vista como uma aproximação de uma amplicação não-linear.

Duas situações podem ser vistas como formas especiais da função Piecewise-linear :

• Um combinador linear (se a região linear de operação não saturar);

• A função Piecewise-linear se reduz a uma função Threshold se o fator de amplicação

da região linear for feito innitamente grande.

Função Sigmóide:

Este tipo de função de ativação cujo gráco se assemelha a uma curva em  S , é a forma

de função de ativação mais utilizada na construção de redes neurais articiais. A função,

mostrada na Figura 1.8 (c), é denida como uma função estritamente crescente que exibe

um interessante balanço entre o comportamento linear e o comportamento não-linear. Um

exemplo de função sigmoidal é a função logística, denida por:

1
ϕ(v) = , (1.10)
1 + exp(−av)
onde a é o parâmetro declividade da função sigmoidal. Através da variação do parâmetro a
são obtidas funções sigmoidais de diferentes declividades, conforme pode ser observado na

Figura 1.8 (c). Na verdade, a declividade na origem é igual a a/4. No limite, quando o

parâmetro declividade se aproxima do innito, a função sigmoidal se torna, simplesmente,

em uma função Threshold. Enquanto uma função Threshold assume o valor 0 ou 1, uma

função sigmoidal assume um intervalo contínuo de valores de 0 a 1. É importante notar que

a função sigmoidal é diferenciável, enquanto que a função Threshold não.


Redes Neurais 28

As funções de ativação Threshold, Piecewise-linear e Sigmóide são denidas no intervalo

de 0 a 1. Algumas vezes é desejável funções de ativação denidas no intervalo de −1 a +1,


caso em que a função de ativação assume uma forma anti-simétrica com respeito à origem;

ou seja, a função de ativação é uma função ímpar do potencial de ativação. Especicamente,

a função Threshold é agora denida por:


 1, se v > 0
ϕ(v) = 0, se v = 0 , (1.11)
−1, se v < 0

que é comumente referida como função Signum.

Para permitir que a função de ativação do tipo sigmoidal assuma valores negativos,

utiliza-se a forma correspondente da função sigmoidal, a função tangente hiperbólica, que é

denida por:

ϕ(v) = tanh(v). (1.12)

1.1.4 Arquiteturas de Redes


O projeto de uma rede neural, ou seja, a maneira pela qual os neurônios da rede são estru-

turados, está intimamente relacionada ao algoritmo de aprendizagem usado para treinar a

rede (conforme cará provado mais adiante). Em geral, podemos identicar três diferentes

classes fundamentais de arquiteturas de redes:

Redes Single-Layer Feedforward :

As redes single-layer feedforward podem ser referidas como redes progressivas de uma única

camada. Esta arquitetura de redes neurais articiais é a forma mais simples de redes layered,
em que os neurônios são organizados em forma de camadas. Na rede progressiva de uma

única camada, temos uma arquitetura com uma camada de entrada de nós fontes conectada

a uma camada de saída constituída de neurônios (nós computacionais), conforme mostrado

na Figura 1.9.

Esta rede é estritamente progressiva, no sentido de que não há conexões no sentido

camada de saída → camada de nós fontes (não há elos de realimentalção entre as camadas).A
rede mostrada na Figura 1.9 é referida na literatura como uma rede neural articial de uma

única camada ( single-layered network ), pois a camada de nós de entrada não é contada, já

que não é formada por unidades processadoras, ou neurônios.


Redes Neurais 29

Figura 1.9: Rede progressiva formada por uma única camada de neurônios (representada
com quatro nós na camada de entrada e quatro neurônios na camada de saída).

Redes Multilayer Feedforward :

A segunda classe de redes progressivas (redes neurais progressivas multicamadas) tem por

característica possuir uma ou mais camadas escondidas, cujos nós computacionais ou neurô-

nios são correspondentemente chamados de neurônios escondidos ou unidades escondidas.

A função dos neurônios escondidos é intervir entre a camada externa de entrada e a saída

da rede de alguma forma útil. Adicionando uma ou mais camadas escondidas, a rede pode

extrair estatísticas de ordem superior. Pode-se dizer que a rede adquire uma perspectiva

global, apesar de sua conectividade local, devido ao conjunto extra de conexões sinápticas e

à dimensão extra de interações neurais.

Os nós fonte na camada de entrada da rede provêem os vetores de entrada, que cons-

tituem os sinais de entrada aplicados aos neurônios da segunda camada (primeira camada

escondida). Os sinais de saída da segunda camada são usados como entradas para a terceira

camada e assim sucessivamente para o resto da rede. O conjunto de sinais de saída dos

neurônios da camada de saída da rede constituem a resposta global da rede ao padrão de

ativação provido pelos nós fonte na camada de entrada.

A Figura 1.10 ilustra uma rede neural progressiva multicamadas, para o caso de uma

única camada escondida, em que cada nó, de cada camada da rede, é conectado a cada outo

nó da camada adjacente. Neste caso, a rede é dita completamente conectada. Se, no entanto,

algumas das conexões sinápticas estiverem faltando, a rede é dita parcialmente conectada.
Redes Neurais 30

Figura 1.10: Rede progressiva multicamadas completamente conectada, formada por uma
única camada escondida de neurônios e uma única camada de saída (representada com 10
nós fontes na camada de entrada, 4 neurônios escondidos e 2 neurônios na camada de saída).

Redes Recorrentes:

Uma rede neural recorrente difere de uma rede neural progressiva ( feedforward ), pelo fato

de possuir pelo menos um loop feedback loop ).


de realimentação (

Por exemplo, uma rede recorrente pode consistir de uma única camada de neurônios, em

que cada neurônio alimenta seu sinal de saída de volta para as entradas de todos os outros

neurônios, conforme ilustra a Figura 1.11.

Já a Figura 1.12 ilustra uma rede recorrente em que há uma camada de neurônios escon-

didos e em que as conexões de realimentação são originadas tanto dos neurônios escondidos,

quanto dos neurônios de saída.

A presença de loops de realimentação em estruturas recorrentes tem um grande impacto

na capacidade de aprendizagem da rede e em seu desempenho.

1.2 Processos de Aprendizado


A propriedade mais signicativa de uma Rede Neural Articial é, certamente, a habilidade

de aprender a partir do seu ambiente e melhorar seu desempenho através do aprendizado.

A melhora no desempenho de uma rede neural articial ocorre ao longo do aprendizado,


Redes Neurais 31

Figura 1.11: Rede recorrente em que não há loops auto-realimentados, nem neurônios escon-
didos.

Figura 1.12: Rede recorrente com neurônios escondidos e loops auto-realimentados.

de acordo com critérios especícos adotados para atingir tal propósito.

O problema do aprendizado em redes neurais articiais é simplesmente o problema de

encontrar, através de um processo interativo (relativo a uma aplicação na qual cada entrada

provoca uma resposta) e iterativo (reiterado) um conjunto de parâmetros livres que possibi-

lite à rede o desempenho desejado. Visto de uma forma ideal, o conhecimento de uma rede

neural articial sobre o ambiente em que está inserida deve aumentar a cada iteração do
Redes Neurais 32

processo de aprendizagem.

Uma interessante denição de aprendizado no contexto de redes neurais é feita por

Haykin (2009): Aprendizagem é um processo pelo qual os parâmetros livres de uma rede

neural articial são adaptados através de um processo de estimulação do ambiente no qual

a rede está inserida. O tipo de aprendizagem é determinado pela forma através da qual é

efetuada a mudança nos parâmetros.

Esta denição implica nos seguintes eventos sequenciais:

1. A rede é estimulada pelo ambiente;

2. A rede sofre mudanças nos seus parâmetros livres como resultado deste estímulo;

3. A rede responde de uma forma nova ao ambiente devido às mudanças que ocorreram

em sua estrutura interna.

Um algoritmo de aprendizagem é um conjunto de regras denidas para a solução do

problema de aprendizado. Vários algoritmos de aprendizagem são utilizados no projeto de

redes neurais articiais, cada um deles possuindo características e vantagens especícas.

As duas formas básicas de aprendizagem (referidas na literatura especíca de redes neu-

rais articiais como paradigmas de aprendizagem) são: o aprendizado através de um tutor

(aprendizado supervisionado) e o aprendizado sem um tutor (aprendizado não supervisio-

nado). Há ainda uma terceira forma de aprendizagem que utiliza um crítico (ou juiz) e é

chamada aprendizagem por reforço.

1.2.1 Aprendizado Supervisionado


O aprendizado supervisionado é o aprendizado obtido por meio de um tutor. A Figura 1.13

apresenta o diagrama de blocos representativos deste tipo de aprendizado. O tutor detém

o conhecimento do ambiente, o qual a rede neural desconhece. Um conjunto de exemplos

entrada/saída representa este conhecimento.

No processo de construção do conhecimento, a rede neural articial é exposta a um

vetor de treino extraído do ambiente e o tutor provê à rede uma resposta desejada para este

especíco vetor de treino. A resposta desejada é, portanto, o resultado ótimo que a rede

deveria apresentar para aquele determinado vetor do conjunto de treino.

Os parâmetros da rede são ajustados de forma iterativa, passo a passo, através da in-

uência combinada do vetor de treino e do sinal de erro. O sinal de erro é denido como a
Redes Neurais 33

Figura 1.13: Diagrama de Blocos representativo do aprendizado por meio de um tutor.

diferença entre a resposta desejada e a resposta efetivamente obtida na rede. Desta forma,

o quanto possível do conhecimento do ambiente disponível ao tutor é transferido para a

rede neural articial durante o treinamento. Quando esta condição é atingida, o tutor é

dispensado e a rede passa a lidar com o ambiente por si só.

O processo acima descrito dene o aprendizado por correção do erro, que será tratado

adiante. O sistema possui um elo fechado de realimentação ( closed-loop feedback ), mas o

ambiente desconhecido não faz parte do elo.

Como forma de avaliar do desempenho de tal sistema, pode-se considerar o erro médio

quadrático (MSE: Mean Square Error ) ou a soma dos erros quadráticos sobre o conjunto de
treinamento, denida como uma função dos parâmetros livres do sistema.

Superfícies de Erro

A função dos parâmetros livres do sistema utilizada para avaliar sua performance pode ser

vista como uma superfície de desempenho de erro multidimensional (denominada, simples-

mente, Superfície de Erro), tendo os parâmetros livres como coordenadas. A superfície de

erro, na verdade, é uma superfície média sobre todos os possíveis exemplos entrada/saída.

Qualquer operação do sistema sob a supervisão do tutor é representada como um ponto

sobre a superfície de erro.

Para que o sistema melhore seu desempenho ao longo do tempo e, portanto, aprenda a

partir do tutor, o ponto de operação tem que se mover sucessivamente em direção ao ponto

mínimo da superfície de erro. Uma característica extremamente importante a observar é que

este ponto de mínimo pode ser um ponto de mínimo local ou um ponto de mínimo global,
Redes Neurais 34

conforme ilustrado na Figura 1.14.

Figura 1.14: Superfície de Erro apresentando um ponto de mínimo local e um ponto de


mínimo global.

Na elaboração de algoritmos de treinamento de redes neurais articiais é necessário que

sejam tomados alguns cuidados para que o ponto de operação não que preso em um mínimo

local. Tal fato irá comprometer o desempenho do algoritmo, pois mascara o resultado,

fazendo parecer que foi encontrado o desejado mínimo global. Artifícios para escapar desta

armadilha serão comentados adiante.

Um sistema de aprendizado supervisionado executa esta operação (descer em direção

ao ponto de mínimo) a partir da informação do gradiente da superfície de erro associada

ao comportamento do sistema. O gradiente de uma superfície de erro em qualquer ponto

é o vetor que, partindo deste ponto, aponta na direção de descida mais íngreme ( steepest
descent ).
Existindo um algoritmo adequadamente projetado para minimizar a função de custo,

um apropriado conjunto de exemplos entrada/saída e tempo suciente para o treinamento,

um sistema supervisionado de aprendizado é usualmente capaz de desempenhar tarefas como

classicação de padrões e aproximações de funções.

Aprendizado por Correção do Erro

Consideremos o caso simples de um neurônio k, constituindo o único nó computacional na

camada de saída de uma rede neural articial progressiva, conforme ilustrado na Figura

1.15(a).
Redes Neurais 35

Figura 1.15: Aprendizado por correção de erro.

O neurônio k é estimulado por um vetor de sinais x(n) produzido por uma ou mais

camadas de neurônios escondidos, que são, por sua vez, estimuladas por um vetor de entrada

aplicado aos nós fonte da camada de entrada da rede neural articial. O argumento n denota
o tempo discreto, ou seja, o passo temporal de um processo iterativo envolvido em ajustar

os pesos sinápticos do neurônio k. O sinal de saída do neurônio k é denotado por yk (n).


Este sinal de saída (representando a única saída da rede neural articial) é comparado a

uma resposta desejada ou saída alvo, denotada por dk (n). Consequentemente, um sinal

de erro, denotado por ek (n), é produzido. Assim teremos:

ek (n) = dk (n) − yk (n). (1.13)

O sinal de erro ek (n) aciona um mecanismo de controle cujo propósito é aplicar uma

sequência de ajustes corretivos aos pesos sinápticos do neurônio k. Os ajustes corretivos

são projetados para aproximar, passo a passo, o sinal de saída yk (n) da resposta desejada

dk (n). Este objetivo é atingindo através de uma minimização de uma função custo também

chamada índice de desempenho, J(n), denida, em termos do sinal de erro ek (n), como:
Redes Neurais 36

1
J(n) = e2k (n). (1.14)
2

Observando a Equação (1.14), pode-se dizer que J(n) é o valor instantâneo da energia

do erro.

Os ajustes passo a passo dos pesos sinápticos do neurônio k continuam até que o sistema

tenha atingido um estado estável, ou seja, os pesos sinápticos tenham estabilizado. Neste

momento, o processo de aprendizagem está concluído.

A minimização da função custo J(n) conduz a uma regra de aprendizagem comumente

referida como Regra Delta ou Regra de Widrow-Ho. Seja wkj (n) o valor do peso sináptico

wkj , do neurônio k, excitado pelo elemento xj (n) do vetor de sinais x(n) no instante de

tempo n. De acordo com a Regra Delta, o ajuste ∆wkj (n) a ser aplicado ao peso sináptico

wkj no instante de tempo n é denido por:

∆wkj (n) = ηek (n)xj (n), (1.15)

onde o parâmetro η é uma constante positiva que determina a razão de aprendizado à medida
que envolvemos de um passo a outro no processo de aprendizagem.

A Regra Delta pode ser assim expressa: O ajuste feito a um peso sináptico de um

neurônio é proporcional ao produto do sinal de erro pelo sinal de entrada da sinapse em

questão.

A Regra Delta presume que o sinal de erro seja diretamente mensurável, ou seja, é

necessário que tenhamos uma forma de suprir a resposta desejada, a partir de alguma fonte

externa, que tenha acesso direto ao neurônio k (conforme pode ser observado na Figura

1.15(a)). A partir da mesma gura também se pode observar que o aprendizado por correção

de erro é, por natureza, local. Ou seja, os ajustes sinápticos feitos pela Regra Delta são

localizados ao redor do neurônio k.

Tendo computado o ajuste sináptico ∆wkj (n), o valor atualizado do peso sináptico wkj
é determinado por:

wkj (n + 1) = wkj (n) + ∆wkj (n), (1.16)

onde wkj (n) e wkj (n + 1) podem ser vistos, respectivamente, como o valor antigo e o valor

novo (atualizado) do peso sináptico wkj .

A Figura 1.15(b) mostra o grafo de uxo de sinal representativo do processo de apren-

dizado por correção de erro, focando a atividade ao redor do neurônio k. O sinal de entrada
Redes Neurais 37

xj e o potencial de ativação vk do neurônio k são chamados, respectivamente, de sinais

pré-sináptico e pós-sináptico da j -ésima sinapse do neurônio k.

Ainda observando a Figura 1.15(b), pode-se vericar que o processo de aprendizado

por correção de erro é um exemplo de um sistema realimentado de elo fechado ( closed-loop


feedback ) e, portanto, a estabilidade de tal sistema é determinada pelos parâmetros que cons-
tituem os elos de realimentação do sistema. No único elo fechado de realimentação existente

no processo, um parâmetro de particular interesse é o parâmetro razão de aprendizagem

η. Portanto, para que seja atingida a estabilidade ou convergência do processo de apren-

dizagem iterativo é preciso garantir que η seja cuidadosamente selecionado. Na prática, o

parâmetro η representa um papel importante na determinação do desempenho do processo

de aprendizagem por correção de erro.

1.2.2 Aprendizado por Reforço


Considerando agora um tipo de aprendizado em que não é utilizado um tutor, como no apren-

dizado supervisonado, mas sim um crítico (ou juíz). Neste tipo de aprendizado (denominado

aprendizado por reforço), o aprendizado de um mapeamento entrada/saída é desempenhado

através da interação continuada com o ambiente buscando minimizar um índice escalar de

desempenho.

Figura 1.16: Diagrama de blocos do aprendizado por reforço.

A Figura 1.16 mostra o diagrama de blocos de uma forma de sistema de aprendizagem

por reforço, construído em torno de um crítico que converte um sinal de reforço primário

recebido do ambiente em um sinal de reforço de maior qualidade chamado sinal de reforço

heurístico, ambos escalares.

Basicamente, o sistema é projetado para aprender a partir de um reforço atrasado, o

que signica que o sistema observa uma sequência temporal de estímulos (também recebida
Redes Neurais 38

do ambiente), a qual pode resultar na generalização do sinal de reforço heurístico. Em

consequência, busca-se minimizar uma função de custo que é dada pelo valor esperado do

custo cumulativo das ações tomadas sobre uma sequência de passos, ao invés de simplesmente

minimizar o custo imediato.

A importância do aprendizado por reforço é que ele provê as bases para o sistema interagir

com o ambiente e, por meio disso, desenvolver a habilidade de aprender a desempenhar uma

tarefa prescrita, somente com base nas saídas da sua própria experiência, resultante da

interação.

1.2.3 Aprendizado Não-Supervisionado


Em algoritmos de aprendizado não-supervisionado ou auto-organizado (como são frequente-

mente referidos na literatura de redes neurais articiais) não há um tutor externo ou crítico

para supervisionar o processo de aprendizado, como indica o diagrama de blocos mostrado na

Figura 1.17. Dito de outra forma, algoritmos de aprendizado não-supervisonado não reque-

rem o conhecimento de saídas desejadas, ou seja, não são utilizados exemplos entrada/saída

a serem aprendidos pela rede.

Figura 1.17: diagrama de blocos do aprendizado não-supervisionado.

Durante o treinamento, somente padrões de entrada são apresentados à rede neural

articial até que a rede se torne sintonizada às regularidades estatísticas dos dados de

entrada. A partir desta condição, a rede desenvolve a habilidade de formar representações

internas para codicar características da entrada (por exemplo, adaptar os pesos de suas

conexões para representar os padrões de entrada) e, por meio disto, agrupar os padrões de

entrada em grupos com características similares ou criar novos grupos automaticamente.

1.2.4 Tarefas de Aprendizagem


A escolha de um particular algoritmo de aprendizado é motivada pela tarefa que se deseja

que a rede neural articial desempenhe.


Redes Neurais 39

Reconhecimento de Padrões

É o processo através do qual um padrão (ou sinal) recebido é associado a alguma classe,

dentro de um pré-determinado número de classes.

A rede neural articial é submetida, primeiramente, a uma seção de treino, durante a

qual lhe são, repetidamente, apresentados um conjunto de padrões de entrada, cada um deles

associado à categoria particular a que pertence. Posteriormente, um padrão desconhecido é

apresentado à rede, mas que pertença à mesma população de padrões usados para treinar a

rede. A rede poderá identicar a que classe de padrões este novo padrão pertence, devido à

informação extraída do conjunto de treino. A extração de características é realizada pelas

unidades da(s) camada(s) escondida(s).

Aproximação de Funções

Processo através do qual a rede neural articial apresenta uma solução para o mapeamento

entrada/saída de interesse d = f (x), cuja função f (· ) que o descreve tem sua expressão

analítica desconhecida.

A rede projetada deve aproximar a função desconhecida, de tal forma que o mapeamento

entrada/saída, efetivamente realizado pela rede, aproxime f (· ) para todas as entradas. Para

construir o conhecimento sobre o mapeamento entrada/saída, a rede é provida de um con-

junto de exemplos representativos deste mapeamento.

Desde que o tamanho do conjunto de treino seja sucientemente grande e a rede dis-

ponha de um número adequado de parâmetros livres, o erro de aproximação obtido será

sucientemente pequeno para a tarefa proposta.

Controle de Processos

O controle de um processo (ou parte crítica de um sistema) através de uma rede neural

articial pode ser descrito como:

O sistema envolve o uso de um elo de realimentação ( feedback loop ) no processo a ser

controlado, ou seja, a saída do processo é alimentada de volta para a entrada. A saída do

processo é, então, subtraída de um sinal de referência provido por uma fonte externa. O sinal

de erro, assim produzido, é aplicado a um controlador neural com o propósito de ajustar

seus parâmetros livres.

O principal objetivo do controlador é prover entradas apropriadas ao processo para


Redes Neurais 40

que a saída acompanhe o sinal de referência. O contralador, na verdade, deve inverte o

comportamento entrada/saída do processo.

1.3 O Perceptron
No item anterior foi abordado algoritmos de aprendizagem supervisionados, nos quais o

aprendizado acontece através de um tutor.

O Perceptron é a forma mais simples de uma rede neural articial usada para classica-

ção de padrões linearmente separaveis, ou seja, padrões que estão em lados opostos de um

hiperplano. Consiste, basicamente, de um único neurônio com pesos sinápticos ajustáveis e

uma polarização ( bias ).


O algoritmo usado para ajustar os parâmetros livres desta rede neural articial foi apre-

sentado pela, primeira vez, no procedimento de aprendizagem desenvolvido por Rosenblatt

(1958), que provou que se os padrões (vetores) são usados para treinar o Perceptron são

retirada de duas classes linearmente separáveis, então o algoritmo Perceptron converge e

posiciona a superfície de decisão na forma de um hiperplano entre as duas classes. A prova

de convergência do algoritmo é conhecida como Teorema da Convergência do Perceptron.

O perceptron em um único neurônio é limitado a desempenhar classicação de padrões

com apenas duas classes (duas hipóteses). Através da expansão da camada computacional

de saída do Perceptron para incluir mais do que um neurônio, é possível classicar mais

do que duas classes. Entretanto, as classes têm que ser linearmente separáveis para que o

Perceptron tenha um desempenho adequado. Um ponto importante é que a evolução da

teoria básica do Perceptron a partir do caso de um neurônio para o caso de mais de um

neurônio é trivial.

O Perceptron é construído ao redor de um neurônio não-linear, que é o neurônio descrito

pelo modelo de McCulloch e Pitts (1943).

Conforme foi visto anteriormente, este modelo de neurônio consiste de um combinador

linear seguido de um limitador, desempenhando a função signum, conforme mostrado na

Figura 1.18.

O nó somador do modelo neural mostrado na Figura 1.18 computa uma combinação

linear das entradas aplicadas a suas sinapses com os pesos sinápticos associados, e também

incorpora uma polarização externamente aplicada. A soma resultante (que é o potencial

de ativação v) é aplicada a um limitador, representado por ϕ(v), que implementa a função

signum. Desta forma, o neurônio produz uma saída igual a (+1) se a entrada do limitador
Redes Neurais 41

Figura 1.18: Grafo de uxo de sinal do Perceptron.

é positiva, e (−1) se é negativa.

No grafo de uxo de sinal mostrado na Figura 1.18, os pesos sinápticos do Perceptron são

denotados por w1 , w2 , . . . , wm . De forma correspondente, as entradas aplicadas ao Perceptron

são denotadas por x1 , x2 , . . . , xm . A polarização (ou bias ) é aplicada externamente e denotada


por b. A partir do modelo verica-se que a entrada do limitador, ou o potencial de ativação

v do neurônio, é:

m
X
v= xi wi = b. (1.17)
i=1

O objetivo do Perceptron é classicar corretamente o conjunto de estímulos externos

aplicados x1 , x2 , . . . , xm em uma de duas classes, C1 ou C2 . A regra de decisão para a

classicação é atribuir o ponto representado pelas entradas x1 , x2 , . . . , xm à classe C1 se a

saída y do Perceptron for (+1) e à classe C2 se for (−1).

Para compreender o comportamento de um classicador de padrões, costuma-se plotar

um mapa das regiões de decisão no espaço de sinal m-dimensional gerado pelas m variáveis

de entrada x1 , x2 , . . . , xm . Na forma mais simples do Perceptron há duas regiões de decisão

separadas por um hiperplano denido por:

m
X
xi wi + b = 0, (1.18)
i=1

conforme ilustrado na Figura 1.19 para o caso de duas variáveis de entrada x1 e x2 , para as

quais o limite de decisão assume a forma de uma linha reta. Um ponto (x1 , x2 ) que esteja

acima da linha limítrofe é atribuído à classe C1 e um ponto (x1 , x2 ) que esteja abaixo da

linha limítrofe é atribuído à classe C2 . O efeito da polarização (ou bias) é simplesmente

deslocar o limite de decisão para longe da origem.


Redes Neurais 42

Figura 1.19: Ilustração do hiperplano (neste caso, uma linha reta) como limite de decisão
para um problema de classicação de padrões de duas classes (bidimensional).

Os pesos sinápticos w1 , w2 , . . . , wm do Perceptron podem ser adaptados de iteração a

iteração. Para a adaptação pode-se usar a regra de correção de erro conhecida como algoritmo

de convergência do Perceptron. Para melhor detalhamento e compreensão, foi colocado em

anexo (Apêndice A) o teorema e convergência do perceptron onde é explicado o processo de

obtenção dos pesos sinápticos do modelo de perceptron.

1.4 Multilayer Perceptrons


As redes Multilayer Perceptron (MLPs) têm sido aplicadas com sucesso em uma variedade de
áreas, desempenhando tarefas tais como: classicação de padrões (reconhecimento), controle

e processamento de sinais.

Uma rede neural articial do tipo MLP é constituída por um conjunto de nós fonte, os

quais formam a camada de entrada da rede ( input layer ), uma ou mais camadas escondidas
(hidden layers ) e uma camada de saída (output layer ). Com exceção da camada de entrada,

todas as outras camadas são constituídas por neurônios e, portanto, apresentam capacidade

computacional. O MLP é uma generalização do Perceptron que foi visto anteriormente.

A Figura 1.20 mostra a arquitetura de uma rede neural MLP com uma camada de

entrada, 2 camadas escondidas e uma camada de saída.

Duas características de tal estrutura são imediatamente aparentes:


Redes Neurais 43

Figura 1.20: Arquitetura de uma rede neural multilayer perceptron com duas camadas es-
condidas.

1. Uma rede multilayer perceptron é uma rede progressiva. Conforme foi visto anteri-

ormente, uma rede neural articial é dita progressiva ( feedforward ) quando as saídas

dos neurônios em qualquer particular camada se conectam unicamente às entradas dos

neurônios da camada seguinte, sem a presença de laços de realimentação. Consequen-

temente, o sinal de entrada se propaga através da rede, camada a camada, em um

sentido progressivo.

2. A rede pode ser completamente conectada, caso em que cada nó (computacional ou não)

em uma camada é conectado a todos os outros nós da camada adjacente. De forma

alternativa, uma rede MLP pode ser parcialmente conectada, caso em que algumas

sinapses poderão estar faltando. Redes localmente conectadas representam um tipo

importante de redes parcialmente conectadas. O termo local se refere à conectividade

de um neurônio em uma camada da rede com relação a somente um sub-conjunto de

todas as possíveis entradas. Na prática, a falta de uma determinada sinapse em um

MLP é emulada fazendo-se sua transmitância constante e igual a zero. Neste estudo,

no entanto, consideraremos apenas MLPs completamente conectados.

O número de nós fonte na camada de entrada da rede é determinado pela dimensiona-

lidade do espaço de observação, que é responsável pela geração dos sinais de entrada. O

número de neurônios na camada de saída é determinado pela dimensionalidade requerida

da resposta desejada. Assim, o projeto de uma rede MLP requer a consideração de três

aspectos:

i. A determinação do número de camadas escondidas;

ii. A determinação do número de neurônios em cada uma das camadas escondi-


Redes Neurais 44

das;

iii. A especicação dos pesos sinápticos que interconectam os neurônios nas di-

ferentes camadas da rede.

Os aspectos (i) e (ii) determinam a complexidade do modelo de rede neural articial

escolhido e, infelizmente, não há regras determinadas para tal especicação. A função das

camadas escondidas em uma rede neural articial é a de inuir na relação entrada-saída da

rede de uma forma ampla. Uma rede neural articial com uma ou mais camadas escondidas

é apta a extrair as estatísticas de ordem superior de algum desconhecido processo aleatório

subjacente, responsável pelo comportamento dos dados de entrada, processo sobre o qual a

rede está tentando adquirir conhecimento. A rede neural articial adquire uma perspectiva

global do processo aleatório, apesar de sua conectividade local, em virtude do conjunto

adicional de pesos sinápticos e da dimensão adicional de interações neurais proporcionada

pelas camadas escondidas.

O aspecto (iii) envolve a utilização de algoritmos de treino supervisionados. As redes

neurais articiais MLPs têm sido aplicadas na solução de diversos e difíceis problemas atra-

vés da utilização de tais algoritmos. O algoritmo de treino quase universalmente utilizado

para tanto é o algoritmo de retro-propagação do erro, conhecido na literatura como Back-


propagation Algorithm ou, simplesmente, Backprop.
O algoritmo backpropagation baseia-se na heurística do aprendizado por correção de erro

(em que o erro é retro-propagado da camada de saída para as camadas intermediárias da

rede neural articial). Este algoritmo pode ser visto como uma generalização do Algoritmo

Least Mean Square (LMS).

O termo backpropagation surgiu após 1985. No entanto, a idéia básica foi primeiramente

descrita por Werbos (1974). Em 1986, foi redescoberto por Rumelhart, Hinton e Williams e

popularizado através da publicação do livro Parallel Distributed Processing de McClelland

et al. (1986).

O desenvolvimento do backpropagation representa um marco fundamental em redes neu-

rais, pois é um método computacionalmente eciente para o treinamento de redes MLPs e

por ter resolvido o problema de realizar a propagação reversa do erro em redes neurais arti-

ciais com múltiplas camadas, problema este que atrasou por muitos anos o desenvolvimento

da área de redes neurais articiais.

O desenvolvimento do backpropagation representa um marco fundamental em redes neu-

rais, pois é um método computacionalmente eciente para o treinamento de redes MLPs e

por ter resolvido o problema de realizar a propagação reversa do erro em redes neurais arti-
Redes Neurais 45

ciais com múltiplas camadas, problema este que atrasou por muitos anos o desenvolvimento

da área de redes neurais articiais.

Basicamente, o algoritmo backpropagation consiste de dois passos através das diferentes

camadas do MLP: um passo direto e um passo reverso.

No passo direto um padrão de atividade do processo a ser aprendido (ou vetor de entrada)

é aplicado aos nós de entrada do MLP e o seu efeito se propaga através da rede, camada por

camada, produzindo na camada de saída a resposta do MLP à excitação aplicada (vetor de

saída). Durante o passo direto os pesos sinápticos são todos xos.

Durante o passo reverso os pesos sinápticos são todos ajustados de acordo com a regra

de aprendizado por correção de erro. Especicamente, a resposta do MLP à excitação é

subtraída de um padrão de resposta desejado para aquela excitação aplicada, de forma a

produzir um sinal de erro, de forma semelhante ao algoritmo LMS. Este sinal de erro é,

então, propagado de volta através dos mesmos neurônios utilizados no passo direto, mas no

caminho contrário do uxo de sinal nas conexões sinápticas (daí o nome backpropagation ). Os

pesos sinápticos são, então, ajustados de forma que a resposta obtida do MLP aproxime-se

mais do padrão de resposta desejado.

Uma rede MLP apresenta três características distintas, de cuja combinação com a habi-

lidade de aprender através da experiência (através do treinamento), deriva sua capacidade

computacional:

1. O modelo de cada neurônio do MLP inclui uma função de ativação não-linear. É

importante salientar que esta não-linearidade é suave (ou seja, a função é diferenciável

em qualquer ponto), ao contrário da função utilizada no modelo do Perceptron de

Rosenblatt (função signum). Uma forma comumente utilizada de não-linearidade que

satisfaz este requisito é a não-linearidade sigmoidal denida pela função logística:

1
yj = , (1.19)
1 + exp(−vj )

onde vj é o potencial de ativação (isto é, a soma ponderada de todas as entradas

sinápticas mais a polarização) do neurônio j, e yj é a saída do neurônio.

2. O MLP contém uma ou mais camadas de neurônios escondidos que não são parte

da camada de entrada ou da camada de saída da rede. Estes neurônios escondidos

possibilitam que a rede aprenda tarefas complexas, extraindo progressivamente mais

características signicativas dos padrões de entrada (vetores de entrada).

3. A rede MLP exibe um alto grau de conectividade, determinado pelas sinapses da rede.
Redes Neurais 46

Uma mudança na conectividade da rede requer uma mudança na população de conexões

sinápticas, ou pesos sinápticos.

Estas mesmas características, entretanto, são também responsáveis pelas diculdades

encontradas na análise de tais redes. Por exemplo, a presença das não-linearidades distri-

buídas e a alta conectividade tornam difícil a análise teórica das redes MLPs. Em uma rede

MLP, o conhecimento aprendido sobre o ambiente é representado pelos valores assumidos

pelos pesos sinápticos da rede. A natureza distribuída deste conhecimento ao longo da rede

a torna de difícil interpretação. Além disso, o uso de neurônios escondidos torna o processo

de aprendizado mais difícil de ser visualizado na estrutura da rede.

Observe, na Figura 1.20 que o sinal ui através da rede MLP no sentido direto, da

esquerda para a direita e de camada a camada. A Figura 1.21 apresenta um detalhe parcial

de uma rede MLP. Dois tipos de sinais são identicados nesta rede:

1. Sinais funcionais: São estímulos que chegam aos nós de entrada da rede, se propagam

de forma direta (neurônio a neurônio) através da rede e emergem da camada de saída

da rede como sinais de saída. Cada neurônio de um MLP tem aplicado às suas entradas

um conjunto de sinais funcionais que gera um sinal funcional na saída do respectivo

neurônio . Na camada de entrada de um MLP o conjunto de sinais funcionais aplicado

a cada neurônio é o próprio conjunto de sinais de entrada (vetor de entrada). A

denominação sinal funcional decorre do fato de que estes sinais são obtidos na saída

de cada neurônio como uma função dos sinais de entrada do respectivo neurônio.

2. Sinais de Erro: Um sinal de erro se origina em um neurônio de saída da rede MLP e se

propaga de volta (camada a camada) através da rede. Este sinal é referido como sinal

de erro porque seu cálculo, a cada neurônio da rede, envolve algum tipo de função de

erro.

Cada neurônio de cada camada escondida ou da camada de saída de uma rede neural

articial MLP desempenha duas operações computacionais:

1. A computação do sinal funcional na saída de cada neurônio, o qual é expresso como

uma função contínua não-linear do sinal funcional de entrada e dos pesos sinápticos

associados com aquele neurônio.

2. A computação de uma estimativa do vetor gradiente (isto é, os gradientes da superfície

de erro com respeito aos pesos conectados às entradas de um neurônio), cálculo este

que é necessário para o passo reverso através da rede MLP.


Redes Neurais 47

Figura 1.21: Ilustração das direções dos dois uxos básicos de sinal em uma rede multilayer
perceptron : propagação direta dos sinais e retro-propagação dos sinais de erro.

Para maior detalhamento e compreensão, foi colocado anexo (Apêndice B) o algoritmo

backpropagation onde é explicado o funcionamento dele.

1.4.1 Sumário do Algoritmo Backpropagation e Sugestões Operaci-


onais
I - Inicialização:

Dene-se o número de camadas do MLP. Em geral, sob o ponto de vista de rapidez de

redução do MSE, é preferível utilizar poucas camadas escondidas com muitos neurônios por

camada do que muitas camadas escondidas com poucos neurônios por camada. Isto porque

o uso de muitas camadas escondidas dilui o efeito corretivo da retro-propagação dos sinais

de erro sobre as sinapses ao longo do backward pass. Em conseqüência, o MLP demorará

mais Épocas para atingir um MSE sucientemente baixo. Por outro lado, um número maior

de camadas escondidas habilita o MLP a captar melhor as estatísticas de ordem superior do

processo a ser aprendido, melhorando, assim, a capacidade de generalização do MLP. Isto

ocorre porque um maior número de camadas escondidas torna o mapeamento <m1 → <mL
realizado pelo MLP um mapeamento com maior não-linearidade recursiva, sendo m1 e

mL , respectivamente, o número de nós de entrada e saída do MLP. A informação sobre o

processo a ser aprendido pelo MLP ca armazenada nas sinapses dos neurônios de cada

camada, e as saídas de cada camada recursivamente alimentam as entradas da camada

seguinte durante a fase de treino. Cada camada executa uma operação não-linear devido

a função de ativação, portanto, a medida que uma camada alimenta a seguinte uma nova

instância da operação não-linear é efetuada. A operação não-linear efetuada pela função de

ativação é denida pela função exponencial ex (ou por uma combinação de exponenciais no
Redes Neurais 48

caso da Tangente Hiperbólica) , sendo ex passível de ser expandida na série de potências


x 1 2 1 3 1 4 1
e =1+ 2
x + 6
x + 24
x + 120
x5 + ···.

Ora, como a informação é recursivamente acumulada nas sinapses do MLP, sendo proces-

sada através de várias instâncias recursivas de uma série de potências durante o treino, ca

implícito que o MLP acumula informação na forma de estruturas de correlação estatística de

ordem superior, isto é, após a fase de treino do MLP a informação armazenada no conjunto

de sinapses está associada à E{xi ⊗ xj } + E{xi ⊗ xj ⊗ xk } + E{xi ⊗ xj ⊗ xk ⊗ xl } + · · · onde

xi , xj , . . . representam individualmente todos os possíveis N vetores existentes no conjunto

de treino, E{· } é o operador média estatística; xi ⊗ xj representa a matriz m × m formada


pelos m2 produtos entre os m componentes do vetor xi pelos m componentes do vetor xj ,

x x
T
xx x x x 3
isto é, i ⊗ j = i j ; i ⊗ j ⊗ k representa a estrutura cúbica em < formada pelos m
3

2
x x
produtos entre os m elementos da matriz i ⊗ j e os m componentes do vetor k ; e assim x
sucessivamente.

1. Subtrai-se o vetor média do conjunto de N vetores de treino.

2. Normaliza-se a i-ésima componente de cada vetor de treino pelo desvio padrão do

conjunto de N valores formado pela i-ésima componente de todos os N vetores de

treino.

3. Normaliza-se o conjunto de N saídas desejadas para o intervalo [−1, +1].

4. Denem-se os parâmetros a e b da função de ativação. Em geral, a = 1.7159 e b = 2/3


são valores adequados para ϕ(v) = a tanh(bv), de modo que ϕ0 (0) = ab = 1.14 ≈ 1.

5. Inicializam-se os pesos sinápticos com valores aleatórios de distribuição uniforme. Uma

possível heurística é adotar uma inicialização randômica com valores compreendidos no

intervalo [−2.4/F i, +2.4/F i] onde Fi é o fan-in ou o número total de nós de entrada

(sinapses) do neurônio. Outra possível heurística é adotar uma inicialização randômica

com conjunto de valores de média zero e variância denida por 1/Fi .

6. Denem-se o momento 0<α<1 e a razão de aprendizado 0<η<1 por camada do

MLP.

7. Visto que os neurônios próximos da camada de saída tendem a ter maiores gradientes

locais, atribui-se a eles usualmente razões de aprendizado menores. Outro critério a

ser considerado simultaneamente é que neurônios com muitas entradas devem ter η
menores.
Redes Neurais 49

II - Treinamento:

1. Apresenta-se cada exemplo (vetor de entrada) do conjunto de treino ao MLP. Denindo

como Γ : <m1 → <mL o mapeamento ou processo a ser aprendido pelo MLP, sendo m1 e
mL , respectivamente, o número de nós de entrada e saída do MLP, o conjunto de treino
deve conter uma parcela sucientemente signicativa do universo de vetores-exemplo

que descrevem o processo Γ, caso contrário, após o treino o MLP não terá condições

de inferir um resultado correto quando a ele for apresentado um vetor de Γ que não

encontrava-se no conjunto de treino. Em outras palavras, o conjunto de treino deve

conter uma parcela sucientemente signicativa do universo de vetores-exemplo que

descrevem o processo Γ para não prejudicar a capacidade de generalização do MLP.

2. Para cada exemplo executa-se completamente um ciclo passo direto - passo reverso,

mantendo-se o vetor de entrada aplicado à entrada do MLP.

3. O nal da apresentação de todos os exemplos do conjunto de treino dene uma Época.

A cada determinado número de Épocas em que for observado uma signicativa queda

no MSE, aumenta-se o momento α e/ou a razão de aprendizado η.

4. Prossegue-se o treino do MLP de Época em Época, eventualmente ajustando α e η,


até que se atinja o Critério de Parada.

III - Critério de Parada:

O critério de parada no treino de uma rede MLP é subjetivo, já que não existe prova de que

o algoritmo backpropagation tenha convergido para o mínimo global da superfície de erro (se

é que existe o mínimo global).

Sugere-se como critério de parada o seguinte procedimento:

1. O valor do MSE atingiu um valor sucientemente baixo e/ou

2. A razão de variação do MSE atingiu um valor sucientemente baixo em valor absoluto

e negativo.

Quando qualquer uma das condições acima é atingida, considera-se que o MLP não

necessita mais ser treinado. Note que o critério 2 pode signicar que o backpropagation cou

preso em um mínimo local e não global.


Redes Neurais 50

É importante observar que um MSE baixo ao nal do treino não necessariamente implica

em uma alta capacidade de generalização. Se o conjunto de treino escolhido para represen-

tar o processo Γ a ser aprendido pelo MLP constituir um sub-conjunto cujas propriedades

estatísticas não correspondem às de Γ, então o MLP falhará em inferir o resultado correto

quando um vetor de Γ que não pertence ao conjunto de treino for apresentado ao MLP.
2
Caracterização Geofísica de Reservatório

A arquitetura dos reservatórios petrolíferos, ou seja, a base geométrica que dene sua estru-

tura externa, é uma das fontes de heterogeneidades que precisa ser modelada com precisão

para auxiliar no processo de previsão de performance de urn campo. Portanto, devido à

presença de fatores que inuenciam o comportamento do uxo, a elaboração de modelos que

honrem a arquitetura dos reservatórios deve ser considerada uma etapa de vital importância

no seu desenvolvimento.

Os modelos elaborados serão tão melhores quanto melhor for o processo de caracteriza-

ção de reservatórios. Esse processo pode ser denido como a determinação quantitativa e

tridimensional, do limite, volume, heterogeneidades e distribuição das propriedades de rocha

e uido, tendo como objetivo nal a construção de um modelo capaz de prever o compor-

tamento do reservatório onde se pode então planejar de maneira mais eciente a locação de

poços, reduzindo assim os custos inerentes a perfuração (Bankhead, 2000).

Neste processo é necessário combinar conhecimentos de geocientistas (petrofísicos, geó-

logos e geofísicos) e engenheiros de petróleo, com o objetivo de construir um modelo onde

se possa incorporar todas as informações e dados disponíveis sobre o reservatório. Esses

modelos integrados são importantes para prever, monitorar e otimizar a performance de um

campo durante todo o seu ciclo de vida. Alem de poderem ser disponibilizados para estudos

de simulação de uxo onde se pode identicar zonas de maior e menor permeabilidade, mo-

nitorar o movimento de uxo dentro dos reservatórios além de gerar mapas de propriedades

que auxiliam na determinação da estratégia de produção a ser adotada. De posse de todas

essas informações pode-se caracterizar e gerenciar de maneira efetiva um reservatório (Biondi

et al., 1998).

51
Caracterização Geofísica de Reservatório 52

Para a realização desse processo, a comunicação das diversas áreas torna-se importante,

pois os dados provenientes do reservatório são de duas naturezas distintas que precisam ser

integradas, a saber: os dados hard soft. Pers de poços, análise de testemunhos e


e os dados

dados de produção são considerados dados hard. Eles representam urna amostragem esparsa

do reservatório, e contém propriedades conhecidas em Iocalizações especícas. Os dados

sísmicos 3-D são os mais conhecidos entre os dados denominados soft. Eles são densamente

adquiridos e são correlacionados com as propriedades provenientes da informação hard. Na

caracterização de reservatórios os dados soft sao utilizados para auxiliar na identicação

de alvos nas regiões onde os dados hard não estão disponíveis, por meio de técnicas de
interpolação. Essa integração de dados hard e soft tem ocorrido principalmente a partir da

década de 80, onde a sísmica tem sido usada para ajudar na modelagem de reservatórios,

fornecendo modelos mais representativos do que os obtidos anteriormente onde somente

dados de poços eram utilizados (Sancevero, 2003).

Ao se utilizar o dado sísmico convencional de amplitude no processo de modelagem,

grandes erros podem ocorrer na estimativa das propriedades do reservatório, pois nessas

circunstâncias esse tipo de informação não permite um completo entendimento do campo

em estudo. Além disso, nos reservatórios se necessita ter uma alta taxa de recuperação de óleo

in place de modo a retornar os investimentos realizados com perfuração e produção. Assim,

tanto as heterogeneidades como as incertezas associadas ao processo exploratório devem ser

quanticadas de maneira correta para que se conheça com maior precisão as regiões a serem

exploradas, reduzindo assim o risco (Caers et al., 2001).

Para se otimizar o entendimento desses reservatórios é necessário combinar em um único

modelo todas as informações, conhecimentos e dados disponíveis sobre o campo. Entre as

informações utilizadas pode-se incluir, modelos geológicos conceituais, dados sísmicos 3D,

dados de pers, dados de testemunhos e históricos de produção. Cada um desses dados car-

rega informações adquiridas em diferentes escalas e com diferentes graus de precisão. Desse

modo a tarefa de se integrar todos os dados em um único modelo não é fácil de ser realizada

na prática. O desao é então combinar todas as informações em um modelo unicado e

consistente, onde as previsões quantitativas sobre o comportamento do reservatório podem

ser realizadas (Buiting e Bacon, 1997).

De acordo com Riel (2000), do ponto de vista da geofísica, o processo de caracterização de

reservatórios e a consequente geração de modelos precisos utilizava de maneira tradicional os

dados de amplitude sísmica. Esse tipo de dado era usado para a detecção dos chamados bright
spots, com os quais se podia determinar as estruturas dos reservatórios em estudo. A partir

do momento em que o processo exploratório começou a investigar horizontes mais complexos,


Caracterização Geofísica de Reservatório 53

o limite para a utilização do dado sísmico de amplitude para a caracterização de reservatórios

foi alcançado. Desse modo, foi necessário desenvolver técnicas para se recuperar de maneira

direta parâmetros petrofísicos capazes de caracterizar esses novos alvos exploratórios.

2.1 Perlagem Geofísica de Poço


Podemos denir Perlagem Geofísica de Poços, em sua concepção atual, como: O campo

da geociências que estuda o registro contínuo das propriedades geológicas e petrofísicas das

rochas, medidas por uma ferramenta ao percorrer um poço.

Pers de poços são formas de representar as variações das propriedades físicas medidas

ao longo da profundidade de um poço. Os dados para o registro dos pers são coletados

no deslocamento ascensional e contínuo do equipamento que está sendo usado na perlagem

(sensores, por exemplo). Esta curva representa o registro de propriedades elétricas, ra-

dioativas, acústicas, térmicas, magnéticas ou texturais/estruturais das rochas, podendo ser

também referentes à geometria e estado de preservação dos elementos articiais/operacionais

do poço (revestimento, reboco, etc.). Cada amostra que compôes um perl representa não

só um ponto, mas a média ponderada de uma dada propriedade para o volume de rocha

investigado pela ferramenta de perlagem.

Serão discutidos a seguir os tipos de pers de poços que serão utilizados neste trabalho.

2.1.1 Perl de Raio Gama


Trata-se de um método nuclear que mede a radioatividade natural das formações, a partir

da interação da radiação gama emitida naturalmente pelas rochas. O sinal é composto

de emissões de vários níveis energéticos de radioisótopos, especialmente na faixa energética


40 232 238
dos elementos K, Th e U e dos elementos resultantes de seus decaimentos. Embora

emita radiação num menor nível energético do que os outros dois elementos citados(existem

ferramentas mais sosticadas, que descriminam e totalizam a contagem correspondente de


40
cada um dos três elementos), o K é bastante abundante nos minerais mais comuns da

crosta terrestre, como o K-feldspato, micas (muscovita, biotita, etc.) e sais de potássio.

Em rochas sedimentares, os valores de GR ( Gamma Ray ) são interpretados como uma

função do teor do volume de folhelhos (que além de concentrar matéria orgânica, são consti-
40
tuídos de minerais ricos em K e por este motivo, apresentam maior atividade radioativa) e

por correspondência, do tamanho dos grãos (folhelhos são compostos de minerais de granulo-

metria argila, isto é, fração na). É comum então, na prática, associar-se que nos intervalos
Caracterização Geofísica de Reservatório 54

de maior contagem do GR estão localizados os folhelhos e nos intervalos de menor contagem

estão os não-folhelhos, que podem ser os reservatórios (carbonatos, arenitos, etc.). É claro

que se trata de uma aproximação.

Nery (2013) cita alguns dos principais usos do perl de raios gama convencional:

• Denição da litologia com base no que seja folhelho e não-folhelho;

• Denição eventual de ambientes de deposição;

• Correlação entre poços vizinhos.

2.1.2 Perl Sônico


Esse perl está agrupado nos pers acústicos, sendo aquele que mede o tempo gasto por

uma onda compressional ao percorrer uma dada espessura de uma formação. As velocidades

das ondas sonoras variam de acordo com o meio em que estão se propagando, sendo mais

rápidas em sólidos do que em líquidos e gases. Sendo assim, uma onda compressional levaria

mais tempo para percorrer uma determinada espessura de um meio gasoso ou líquido, do

que para percorrer a mesma espessura em um meio sólido. Pode-se perceber que, ao xar-se

a distância percorrida pelas ondas acústicas, a velocidade pode ser escrita em função de uma

medida de tempo. Este é o princípio da ferramenta sônica, registrando, assim, intervalos de

tempo.

O perl sônico é muito importante no estudo de reservatórios, devido ao fato de serem

possíveis cálculos de aproximação da porosidade utilizando o mesmo, além de se poder cal-

cular alguns parâmetros elásticos, bem como velocidades intervalares (dados úteis à sísmica

de exploração).

Nery (2013) cita alguns dos principais usos do perl sônico:

• Calculo da porosidade intergranular;

• Detecção de ocasionais zonas de fraturas;

• Auxílio à sísmica de superfície (correlação sísmica-poço).

2.1.3 Perl Neutrônico


O Neutrônico é um perl radioativo, útil para obter o valor das porosidades das formações,

a partir da ferramenta do tipo mandril e excentralizada. Neste caso, uma fonte bombardeia
Caracterização Geofísica de Reservatório 55

com nêutrons em velocidade os elementos não radioativos da formação, resultando numa

perda de energia dos nêutrons ocasionada pelos sucessivos choques com os núcleos dos ele-

mentos. As ferramentas capturam esses nêutrons amortecidos.

Os nêutrons colidem com os núcleos atômicos na rocha. Quando os núcleos tem muito

mais massa que os nêutrons, estes retornam aos receptores com pouca perda de energia.

No entanto, o íon de hidrogênio tem praticamente a mesma massa que um nêutron e, neste

caso, a colisão transfere muita energia cinética, tornando o nêutron lento ou levando-o a um

estado termal, coincidente com o existente no meio ambiente, passível de ser detectado pela

ferramenta que traduz em medida do Índice de Hidrogênio da rocha, ou IH .

Em arenitos e calcários, os íons de hidrogênio estão presentes nos uidos das rochas,

de forma que sua concentração é inteiramente dependente da porosidade. Nos folhelhos,

entretanto, o hidrogênio pode resultar dos íons H+ adsorvidos pela água intersticial dos

minerais de argila. Assim, a ferramenta neutrônica é dependente da calibração em função

da litologia. A estimativa da porosidade é calculada pela ferramenta, com base no IH e na

litologia considerada.

A sua unidade é dada é Unidade de Porosidade ( Porosity Unit - P U) relativas a uma

litologia de calibração a qual vem explicitada no cabeçalho do perl.

Nery (2013) cita alguns dos principais usos do perl neutrônico:

• Calculo da porosidade em poço aberto;

• Calculo da porosidade em poço revestido.

2.1.4 Perl de Densidade


O perl de densidade é um registro contínuo da variação de densidade das rochas que estão

ao redor do poço. A medição da densidade total da rocha a partir do perl de densidade é

feita através do bombardeamento das paredes do poço com feixes monoenergéticos de raios

gama de intensidade xa. Esses feixes, ao saírem da fonte, chocam-se com os elétrons da

formação por efeito Compton. A energia dos fótons liberados vai ser atenuada, devido a
3
densidade eletrônica (eletrons/cm ) das formações que, por sua vez, é função da densidade.

Com isso, é possível fazer uma estimativa da densidade das rochas, medindo a proporção de

radiação gama induzida e registrada pelo detector na ferramenta.

Nery (2013) cita alguns dos principais usos do perl de densidade:

• Calculo da porosidade total das camadas;


Caracterização Geofísica de Reservatório 56

• Quando usado em conjunto com o sônico:

 Determinação da litologia;

 Cálculo das constantes elásticas;

 Cálculo do coeciente de reexão e impedância, para a confecção de sismogramas

sintéticos para a sísmica.

Perl de Porosidade

O perl de porosidade pode ser estimado de diversas formas. Uma forma é através do perl de

densidade. De posse dos valores de densidade é possível fazer uma estimativa da porosidade

(φ) das rochas, considerando a densidade da rocha (ρb ), como uma soma das contribuições

da densidade da matriz (ρm ) e dos uidos nos poros (ρf ). Assim:

ρb = φρf + (1 − φ)ρm . (2.1)

Logo:

ρm − ρb
φ= , (2.2)
ρm − ρf
onde ρb é o valor da leitura da densidade (g/cm3 ) na profundidade a calcular e φ a porosidade.

Equação de Gardner

A Equação de Gardner (Gardner et al., 1974) é uma equação empírica, que relaciona a

densidade com a velocidade da onda P na rocha:

ρ = 0, 23V 0,25 , (2.3)

onde V é a velocidade em f t/s e ρ a densidade em g/cm3 .

A Figura 2.1 mostra que a a equação 2.3 se ajusta para densidade das ondas compressi-

onais nas rochas.

Entretanto ele tem algumas limitações. Um problema a ser encarado é que a densi-

dade depende diretamente da porosidade do meio, e, por sua vez, pequenas alterações na

porosidade vão causar grandes variações na velocidade das ondas. Essa equação (2.3) é

muito usada quando a densidade e a velocidade são as principais propriedades medidas. O

que no processo de interpretação dos dados e caracterização do reservatório são de extrema

importância, pois servem para realizar a correlação de sísmica com o poço.


Caracterização Geofísica de Reservatório 57

Figura 2.1: Relação Densidade-Velocidade empíricas em rochas de diferentes litologias (Gard-


ner et al., 1974).

2.2 Dado Sísmico


Levantamentos sísmicos tridimensionais provaram ser ferramentas poderosas para geração

de imagens do subsuperfícies desde a sua introdução em meados da década de 1970. Hoje,

prospecções sísmicas 3D demonstram altos índices de custo/benefício, reduzindo o risco

poços secos e fornecendo uma melhor locação de poços para aumentar as taxas de uxo e

de drenagem. Outros benefícios incluem melhoria das estimativas de reservas e ciclos mais

curtos de tempo para o planejamento de avaliação e desenvolvimento do projeto. Além disso,

campos antigos com pers de produção em declínio conseguiram ter uma recuperação maior.
Caracterização Geofísica de Reservatório 58

Prospecções sísmicas 3D revolucionaram a indústria geofísica, com efeitos de longo alcance

sobre o negócio de exploração e produção em todo o mundo (Nestvold, 1996).

As companhias de petróleo estão procurando maneiras de baixo risco para aumentar as

reservas. O impacto da tecnologia sísmica 3D tem sido a de aumentar as reservas e, assim fa-

zendo, para reduzir os custos de encontrar (para exploração) e os custos de desenvolvimento

(para a produção), melhorando a taxa de perfuração sucesso dramaticamente. Na verdade, o

impacto dos dados sísmicos 3D se estende para além perfuração em locais e dimensionamento

das plataformas de produção (oshore) e instalações de produção de superfície (onshore).

Além disso, dados sísmicos 3D têm tido um impacto importante nas tecnologias de integra-

ção, porque todas as áreas de atuação direta com o campo de produção (como a geofísica,

a geologia e a engenharia de reservatório) estão usando levantamentos 3D como base para a

modelagem de reservatório durante a história de vida cada campo. Em muitos casos, como

campos em produção, os modelos de reservatório serão atualizado continuamente com base

em todos os dados de campo, incluindo pesquisas repetidas 3D (sísmica 4D, ou time lapse ).

2.2.1 Impedância Acústica


Os dados sísmicos representam uma propriedade de interface em que eventos de reexão são

vistos devido a alterações relativas na impedância acústica das camadas de rocha adjacentes.

As mudanças de amplitude observadas, no entanto, não pode indicar se as mudanças de

amplitude referem-se a variações da litologia acima ou abaixo de uma interface. Impedância

acústica é uma propriedade física rocha, obtido pelo produto da densidade e velocidade.

Pers de poços medem essas duas unidades diretamente, de modo que, dividindo o registo

de densidade pelo registo sonoro, o perl de impedância acústica é obtida. Assim, enquanto

a impedância acústica é uma propriedade de camada, amplitudes sísmicas são atributos de

limites da camada. Com isso, se qualquer interpretação quantitativa dos dados sísmicos,

em termos de propriedades (impedância) de intervalo estratais nas, deve ser tentada, em

seguida, em vez das propriedades da interface de reexão é para ser utilizada a inversão

(inversão acústica, inversão sparse-spike, inversão estratigráca, inversão estocástica). Seja

qual for a técnica seja adotada para inverter o volume de dados sísmicos, o volume de

impedância prova ser muito útil (Chopra, 2001).

Inversão sísmica para a impedância acústica é amplamente utilizado na indústria de

hoje, principalmente devido à facilidade e precisão de interpretação dos dados de impedância

(Latimer et al., 2000). Além disso, a inversão de dados sísmicos para a impedância acústica

permite uma abordagem integrada para a interpretação geológica.


Caracterização Geofísica de Reservatório 59

Sendo então um dado que se refere às camadas de rocha, a impedância acústica possui

várias vantagens. De acordo com um modelo de impedância de boa qualidade contém mais

informação que o dado sísmico, pois, esse modelo possui todas as informações contidas no

dado sísmico, além de possuir a informação adicional dos dados de pers de poços. O volume

de impedância acústica, dependendo do método aplicado para a sua obtenção, é o resultado

da integração de dados provenientes de diferentes fontes, normalmente o dado sísmico, os

dados de poços e/ou os modelos de velocidade. Assim, construir um modelo de impedância

acústica é a maneira mais natural de se integrar as informações, gerando ao nal do processo

um modelo que pode ser compreendido por geofísicos, geólogos e engenheiros. É comum

encontrar relações empíricas entre a impedância acústica e as propriedades de rocha. Os

modelos de impedância acústica podem fornecer a base para a geração de modelos tridimen-

sionais de facies e de propriedades petrofísicas. Por m, os modelos de impedância acústica

suportam interpretações rápidas, onde as análises estratigrácas podem ser realizadas, per-

mitindo assim uma eciente delineação de alvos exploratórios na escala sísmica.

2.3 Modelagem de Reservatório


Para a exploração e explotação racional dos reservatórios é necessário o entendimento da

distribuição das heterogeneidades , que ocorrem nas escalas em diversas escalas (Galloway

e Sharp Jr, 1998). Entretanto, o reconhecimento da dimensão, geometria e orientação dos

corpos sedimentares em macro e megaescala são considerados elementos críticos no desenvol-

vimento de campos petrolíferos. Estas heterogeneidades são inuenciadas por causas diversas

como, por exemplo, a diferença nas propriedades permoporosas das rochas, que por sua vez,

dependem das condições deposicionais do reservatório e inuenciam o comportamento do

uxo de uidos. Heterogeneidades de reservatórios podem ser denidas como o resultado da

variação espacial das propriedades do reservatórios nas diversas escalas, cujo as principais são

a faciologia, geometrias externa e interna e a conectividade entre os corpos. Também pode

ser expressa como uma função da arquitetura do reservatório reetindo o estilo deposicional

original e subsequentes modicações diagenética e estruturais.

Os métodos tradicionais de descrever o reservatório como mapas e contorno de parâ-

metros não estão totalmente hábeis para representar adequadamente as heterogeneidades

interna dos reservatórios, pois são baseados em dados poços, que geralmente são muito es-

paçados entre si, geralmente, não sendo possível correlacionar um mesmo corpo entre dois

poços. Isso representa um incerteza grande de impacto na modelagem de reservatórios. Daí,

a grande importância em se ter um imageamento tridimensional do reservatório entre os po-

ços com dados sísmicos; para se ter uma maior informação a respeito da disposição espacial e
Caracterização Geofísica de Reservatório 60

fazer inferências de propriedades petrofísicas a partir de uma correlação dos dados de poços

em conjunto com a sísmica e extrapolar, com um baixo grau de incerteza, essas propriedades

para todo o volume do reservatório em estudo.

Desde a descoberta de um reservatório de hidrocarbonetos até o momento da produção do

último barril de óleo, os modelos têm um papel fundamental na predição do comportamento

do uxo nos reservatórios. A costrução de um modelo em si, jamais deve ser objetivo único

do trabalho. Os modelos têm por objetivo principal calcular o volume de óleo in place
(VOIP) e, portanto, cubar a reserva bem como selecionar locais para perfuração de novos

poços em áreas geológicas mais promissoras e determinar os melhores métodos de otimização

da produção e recuperação de hidrocarbonetos (Gauw, 2008).

Existem muitos benefícios na construção dos modelos 3D já que os mesmos são resultados

da integração dos conhecimentos, assim como, da junção de dados variados. Diversos tipos

de dados são empregados na modelagem de reservatórios, sendo os mais importantes (Caers,

2005):

• Dados Geológicos (todos aqueles que estão relacionados com o estilo deposicional):

 Testemunhos (dados de fácies, porosidade, permeabilidade);

 Interpretações sedimentológicas e estratigrácas da área;

 Dados de análogos.

• Dados Geofísicos (todo dado relacionado com levantamentos geofísicos):

 Pers geofísicos (conjunto de pers que indiquem a litologia, petrofísica e o tipo

de uidos).

 Interpretação de horizontes e falhas na sísmica;

 Atributos sísmicos;

 Dados das propriedades físicas das rochas.

• Dados de Engenharia de Reservatório (todo dado relacionado com comportamento do

uxo no meio poroso):

 Dado de Pressão/Temperatura (PVT) dos reservvatórios;

 Dados de testes de produção;

 Dados de produção (vazão, etc.);


Caracterização Geofísica de Reservatório 61

Os dados de entrada dos modelos podem ser classicados como estáticos e dinâmicos.

Os dados estáticos são independentes do tempo e não estão associados com o transporte de

uidos. É onde se encaixa o dado geológico e geofísico do reservatório. Os dados dinâmicos

são os intrinsecamente relacionados ao tempo e ao uxo de uidos no reservatório.

Uma típica rotina de trabalho de modelagem de reservatório é realizado no sentido da

grande para a pequena escala e geralmente dos métodos determinísticos para os estocásticos

(Pyrcz et al., 2005). Seguindo, aproximadamente, os seguintes passos:

1. Estabelecer uma estruturação em larga escala, determinando topo, base e zonas do

reservatório;

2. Em cada zona, preencher com as fácies usando simulação de variáveis discretas para

obter realizações equiprováveis da distribuição desse parâmetro;

3. Preencher o reservatório com a porosidade e permeabilidade condicionando a distri-

buição faciológica usando simulação de ariáveis contínuas.

A denição de um modelo geológico para o reservatório é a fase mais importante em

uma típica rotina de trabalho de estudo de reservatórios (Figura 2.2) e tem impacto direto

no resultado nal (Pérez, 2008).

A caracterização de reservatórios, com o estudo faciológico e a modelagem das fácies

deposicionais de um determinado reservatório é de extrema importância para guiar a distri-

buição das características petrofísicas do reservatório que tem impacto no cálculo de volume

de hidrocarboneto in place e no modelo de uxo de uidos (Lima et al., 2005).

O cálculo de volume de óleo in place é o resultado nal do estudo e modelagem de

reservatórios e é totalmente inuenciada por cada um dos passo envolvidos na modelagem.

Pois o volume é calculado multiplicando a saturação de óleo pelo espaço poroso, que por sua

vez é dependente da faciologia e da modelagem estrutural, ou seja, a distribuição de como

os sedimentos foram depositados para a formação do reservatório em estudo.

Com isso, o trabalho em conjunto do geofísico e geólogo de reservatório é de fundamental

importância para a modelagem que venha a ser realizada pelo engenheiro. Entender como

o reservatório foi formado, com base nos dados de poços e sísmicos, ajuda a entender como

estão distribuídos a litologia e a porosidade, fazendo assim uma estimativa mais próxima

da realidade do modelo de reservatório, que vai ser de fundamental importância para fazer

estudos e simulações de uxos, assim fazer uma estratégia de locação de poços produtores e

injetores que venham minimizar os gastos e maximizar a vazão de uídos no reservatório.


Caracterização Geofísica de Reservatório 62

Figura 2.2: Esboço, passo-a-passo, da construção de um modelo geológico 3D de alta reso-


lução de um reservatório. Adaptado de Pérez (2008)
3
Aplicações e Resultados

Neste trabalho foi utilizado o método de redes neurais para duas diferentes aplicações em

dois diferentes momentos dentro da caracterização geofísica de reservatório.

A primeira aplicação foi para testar o método de redes neurais para predição de um perl

de poço que é conhecido, para poder avaliar o método e ver se o resultado foi condizente com

o perl real. Em um primeiro momento foi utilizado um dado de poço real para aplicação do

problema onde nele existia pers de GR, ∆t, NPHI e ρb , onde foi feito um estudo avaliativo

das redes neurais e a sua capacidade de recuperar um dado de poço conhecido, através do

treinamento da rede com diversos níveis de dados de entrada com os pers de GR, ∆t e

NPHI, e com o dado alvo / de teste (para treinamento / para saída) da rede com o perl de

ρb . Essa parte do trabalho foi toda realizada com o módulo de Redes Neurais do Software

MALTAB, onde esse módulo fornece funções e aplicativos para a modelagem de sistemas não-

lineares complexos que não são facilmente modelados como uma equação de forma fechada.

Essa metodologia pode ser aplicada em campo petrolífero onde se tenha alguns poços nas

proximidades de um poço existente no campo, onde se tenha pers de poços conáveis para

realizar o treinamento do dado e aplicá-los em poços vizinhos onde falte essa informação,

assim podendo ter uma maior estimativa espacial do reservatório entre os poços e as suas

informações petrofísicas ao redor do poço de forma real (para poços conhecidos) e estimada

(para poços onde serão usados a aplicação da rede treinada para obtenção do perl).

A segunda aplicação foi a aplicação de uma rede neural para a predição de propriedades

petrofísicas de reservatório, para ter conhecimento da distribuição espacial dessa propriedade

e assim conseguir criar modelos mais condizentes com o meio, para o engenheiro de reserva-

tório fazer simulações mais realísticas de como explotar melhor a reserva, colocando poços

63
Aplicações e Resultados 64

produtores e injetores num local mais propício para uma maior extração do hidrocarboneto

contido no reservatório em estudo. A aplicação foi feita em um dado sísmico tridimensional

real, onde se tem o cubo de impedância já calculado na zona do reservatório de interesse

para a aplicação, e os dados de 4 poços localizados dentro desse volume, onde foram feitos

o treinamento de duas redes, as quais terão como dado de treinamento, junto com a impe-

dância (como dado de entrada), o perl de porosidade e a outra rede com o perl de GR

(como dado alvo), com isso tendo-se uma ideia de propriedades importantes do reservatório,

como a porosidade e a litologia. Essa etapa foi realizada com dado com um grau maior

de complexidade e foi utilizado um conjunto de dados disponíveis no Software OpendTect,


onde tem um plugin de Redes Neurais para a predição de propriedades a partir de poços,

desenvolvido pela dGB Earth Sciences.

3.1 Dados de Poço


O conjunto dos dados de poços contém os pers de GR, ∆t, NPHI e ρb registrados em uma

zona de reservatório que se localiza entre as profundidades 3463 e 3499 m, como visto na

Figura 3.1, que é caracterizada como reservatório por ter baixo GR.

Figura 3.1: Conjunto dos Pers de poços utilizados.


Aplicações e Resultados 65

3.1.1 Utilizando a Equação de Gardner


Em um primeiro momento foi utilizado a fórmula de Gardner (Equação 2.3) para se fazer uma

estimativa do perl de ρb a partir dos valores de ∆t. O resultado pode ser visto na Figura X.

Onde ca perceptível que esse a utilização dessa equação nesse perl traria prejuízos enormes

à interpretação de propriedades petrofísicas da região estudada no poço.

Figura 3.2: Pers de ∆t e ρb (Original e calculado pela equação de Gardner).

3.1.2 Utilizando Redes Neurais


Então o uso das redes neurais foi feito para o treinamento e aplicação para a estimativa

do perl de ρb , onde ele foi utilizado com dado alvo da rede no treinamento (e dado de

saída na aplicação). Para melhor comparar melhor apenas a inuência da rede neural, foram

utilizados os mesmo parâmetros nas redes para diferentes quantidades de dados de entrada.

Foram utilizados 70% dos dados para treinamento, 15% para validação e 15% para teste das

redes.
Aplicações e Resultados 66

Dados de ∆t como entrada da rede


Em um primeiro momento foi utilizado apenas o perl de ∆t como entrada na rede.

Observando a Figura 3.3, pode ser visto que após 8 iterações, o erro do treinamento da

rede foi minimizado e estabilizado com o valor do erro médio quadrático ( mse ) da faixa de

0, 00867.

Figura 3.3: Gráco de performance do treinamento, onde o erro médio quadrático ( mse ) se
estabilizou e foi parado o treinamento da rede com ∆t como dado de entrada.

Na Figura 3.4 são plotadas as retas de regressão para os dados treinados (azul), para

os dados de validação (verde), para os dados de teste (vermelho) e de todo o dado (preto).

Onde ca evidente que o treinamento realizado pela rede não foi satisfatório, tendo como

base a observação da regressão dos dados treinados, que tiveram o valor do coeciente de

correlação R = 0, 55436, onde teve uma faixa de valores de dado de saída (≈ ρb = 2, 49)
que teve vários valores de dados alvo e uma faixa dos valores de dado alvo (≈ ρb = 2, 55)
que teve vários valores de dados de saída, o que acarretou num maior erro ao modelo a ser

estimado.

Após o treinamento, a foi aplicada a rede e encontrado o resultado representado na

Figura 3.5. Onde o modelo estimado conseguiu ajustar a relação na parte inicial; na parte

entre intermediária (entre 3466 e 3487 m) e na parte nal (entre 3497 e 3510 m) houveram

erros consideráveis entre as curvas.


Aplicações e Resultados 67

Figura 3.4: Grácos de regressão para os dados utilizados para treinamento,teste, validação
e todos juntos para a rede com ∆t como dado de entrada na rede e ρb como dado alvo do
treinamento.
Aplicações e Resultados 68

Figura 3.5: Pers de ∆t e ρb original e estimado (através da rede com ∆t como dado de
entrada).
Aplicações e Resultados 69

Dados de ∆t e NPHI como entrada da rede


Em seguida foi feito o treinamento utilizando os pers de ∆t e NPHI como dados entrada

na rede.

Observando a Figura 3.3, pode ser visto que após 15 iterações, o erro do treinamento da

rede foi minimizado e estabilizado com o valor do erro médio quadrático ( mse ) da faixa de

0, 0088955.

Figura 3.6: Gráco de performance do treinamento, onde o erro médio quadrático ( mse ) se
estabilizou e foi parado o treinamento da rede com ∆t e NPHI como dados de entrada.

Na Figura 3.7 são plotadas as retas de regressão para os dados treinados (azul), para

os dados de validação (verde), para os dados de teste (vermelho) e de todo o dado (preto).

Onde ca evidente que o treinamento realizado pela rede não foi satisfatório, tendo como

base a observação da regressão dos dados treinados, que tiveram o valor do coeciente de

correlação R = 0, 65561, onde teve uma faixa de valores de dado alvo (≈ ρb = 2, 55) que teve
vários valores de dados de saída, o que acarretou num maior erro ao modelo a ser estimado.

Após o treinamento, a foi aplicada a rede e encontrado o resultado representado na

Figura 3.8. Onde o modelo estimado conseguiu ajustar a relação na parte inicial; na parte

entre intermediária (entre 3466 e 3487 m) e na parte nal (entre 3497 e 3510 m) houveram

erros consideráveis entre as curvas, porém menores que o modelo estimado com apenas ∆t
como dado de entrada na rede.
Aplicações e Resultados 70

Figura 3.7: Grácos de regressão para os dados utilizados para treinamento,teste, validação
e todos juntos para a rede com ∆t e NPHI como dados de entrada na rede e ρb como dado
alvo do treinamento.
Aplicações e Resultados 71

Figura 3.8: Pers de ∆t e NPHI, e ρb original e estimado (através da rede com ∆t e NPHI
como dados de entrada).
Aplicações e Resultados 72

Dados de ∆t, NPHI e GR como entrada da rede


Por m, foi feito o treinamento utilizando os pers de ∆t, NPHI e GR como dados entrada

na rede.

Observando a Figura 3.3, pode ser visto que após 15 iterações, o erro do treinamento da

rede foi minimizado e estabilizado com o valor do erro médio quadrático ( mse ) da faixa de

0, 0035329.

Figura 3.9: Gráco de performance do treinamento, onde o erro médio quadrático ( mse ) se
estabilizou e foi parado o treinamento da rede com ∆t, NPHI e GR como dados de entrada.

Na Figura 3.10 são plotadas as retas de regressão para os dados treinados (azul), para

os dados de validação (verde), para os dados de teste (vermelho) e de todo o dado (preto).

Onde ca evidente que o treinamento realizado pela rede não foi satisfatório, tendo como

base a observação da regressão dos dados treinados, que tiveram o valor do coeciente de

correlação R = 0, 89117, o que representa um modelo muito bem ajustado e de excelente

treinamento realizado.

Após o treinamento, a foi aplicada a rede e encontrado o resultado representado na

Figura ??. Onde o modelo estimado conseguiu um bom ajuste com o dado original, onde

a curva estimada segue a mesma tendência da curva original e teve melhor ajuste que os

modelo estimado com apenas ∆t como dado de entrada na rede e com ∆t e PHIN como

dados de entrada da rede.


Aplicações e Resultados 73

Figura 3.10: Grácos de regressão para os dados utilizados para treinamento,teste, validação
e todos juntos para a rede com ∆t, NPHI e GR como dados de entrada na rede e ρb como
dado alvo do treinamento.
Aplicações e Resultados 74

Figura 3.11: Pers de ∆t, NPHI e GR, e ρb original e estimado (através da rede com ∆t,
NPHI e GR como dados de entrada).
Aplicações e Resultados 75

3.1.3 Comparação dos Resultados


Com todos esses resultados, podemos observar na Figura 3.12 que o modelo estimado através

da equação de Gardner se mostrou o pior modelo estimado, com erros grandes em principal-

mente na parte inicial (entre 3449 e 3465 m) e nal (entre 3497 e 3510 m).

No modelo estimado utilizando redes neurais com os dados de ∆t como dado de entrada,
o modelo estimado conseguiu ajustar a relação na parte inicial; na parte entre intermediária

(entre 3466 e 3487 m) e na parte nal (entre 3497 e 3510 m) houveram erros consideráveis

entre as curvas.

No modelo estimado utilizando redes neurais com os dados de ∆t e NPHI como dados

de entrada, o modelo estimado conseguiu um ajuste considerável a relação na parte inicial;

na parte entre intermediária (entre 3466 e 3487 m) e na parte nal (entre 3497 e 3510 m)
houveram erros consideráveis entre as curvas, porém relativamente menores que no modelo

com apenas ∆t como dado de entrada.

No modelo estimado utilizando redes neurais com os dados de ∆t, NPHI e GR como

dados de entrada, o modelo estimado foi o melhor entre todos os estimados, com a curva

estimada seguindo uma certa tendência do dado original. Atentando apenas para algumas

partes que não conseguiram se relacionar bem, mas, no geral, pode ser considerada uma

estimativa boa, pois no teste dessa rede o R = 0, 89117.

Com isso, cou demonstrado que a utilização de redes neurais para a estimativa de um

perl, através do treinamento realizado entre a maior quantidade de dados de entrada que foi

possível e coerente de serem usadas e o dado alvo conhecido, tem uma certa conabilidade e

maior precisão quando comparado a uma fórmula empírica que tem suas limitações e é muito

abrangente, e redes com menores dados de entrada, logo menos exemplos de treinamento para

a rede.
Aplicações e Resultados 76

Figura 3.12: Comparação dos métodos para obtenção do perl de ρb por: Gardner; redes
neurais com ∆t como dado de entrada da rede; redes neurais com ∆t e NPHI como dados
de entrada da rede; e redes neurais com ∆t, NPHI e GR como dados de entrada da rede;
Aplicações e Resultados 77

3.2 Dado Sísmico 3D


O conjunto de dados utilizados estão localizados no Mar do Norte com a localização aproxi-

mada indicada na Figura 3.13; neles estão contidos um volume sísmico (empilhado e migrado

em tempo - Post-Stack Time Migration ) com a dimensão de 651 inlines × 951 crosslines
× 463 z-slices. Além disso, dentro do volume sísmico, estão contidos 4 poços, visualizados
espacialmente dentro do cubo pela Figura 3.14, onde teremos informações das propriedades

petrofísicas ao redor do poço.

Figura 3.13: Mapa com a localização da área de estudo no Mar do Norte e a ampliação do
mapa na região do dado, com localização dos poços dentro do volume. Adaptado de Qayyum
et al. (2013).

Os poços contém as informações de alguns pers, onde os de interesse são os pers de

GR e φ (calculado a partir o perl de densidade  ρb  através da equação 2.2), que estão

representados na Figura 3.15, os quais são pers que podemos fazer, respectivamente, uma

estimativa de litologia (folhelho/não-folhelho) e uma estimativa da porosidade (que é uma

propriedade petrofísica de grande valia na caracterização do reservatório), entretanto apenas

ao longo do poço e não em todo o volume do reserva.

O reservatório localizado no volume, e que será o objeto de estudo e aplicação desse

trabalho, é descrito por um reservatório deltáico, caracterizado por suas clinoformas pro-

gradantes no seu topo e que tem uma geometria sigmoidal, como pode ser visto na Figura

3.16 (entre o tempo 500 e 1100 ms, aproximadamente). Com isso, já é possível ter ideia do
Aplicações e Resultados 78

Figura 3.14: Dimensão do cubo sísmico ( inline × crossline × profunidade em tempo) e a


disposição dos 4 poços nele.

Figura 3.15: Pers de GR e φ nos 4 poços na zona do reservatório.

comportamento litológico, onde, segundo Silva et al. (2008), teremos da base para o topo

um padrão de argilosidade decrescente, marcando a progradação da frente deltáica arenosa

sobre o prodelta argiloso, com um padrão de anamento para cima (granodecrescência as-

cendente). Com esses conhecimentos, já é possível ter noção de distribuição da litologia e


Aplicações e Resultados 79

da sua porosidade, baseada no processo deposicional de um delta. Onde teremos os arenitos

mais próximos ao topo da deposição do delta com uma melhor porosidade e um melhor uxo

de uidos, devido a um maior grau de seleção dos grãos e uma menor presença de argila nos

poros.

Figura 3.16: Visualisação ampla do dado, com a inline 442 (onde o poço F03-4 está contido)
composto com a crossline 387, (onde o poço F06-1 está contido). Reservatório deltaico
localizado entre o tempo 600 e 1100 ms, aproximadamente.

Todo esse resultado é geologicamente esperado, porém para o engenheiro de reservatório

conseguir gerar seus modelos para entender a melhor forma de colocar o reservatório para

produzir, ele precisa de valores mais próximos a realidade das propriedades petrofísicas no

reservatório, que são obtidas fazendo a correlação entre os dados de poços e o dado sísmico

3D.

Entretanto, a representação tridimensional do reservatório em impedância acústica não

é o suciente para ser feita alguma simulação de interesse no reservatório. Então buscamos

formas mais seguras e diretas para predizer ou inferir as propriedades que interessam para o
Aplicações e Resultados 80

modelagem do reservatório e mapeá-las. O conhecimento dessas propriedades são pontuais

e conhecidas apenas ao redor do poço, logo é preciso buscar uma forma de extrapolar essa

informação para todo o volume do reservatório. Uma ferramenta que pode fazer esse trabalho

é a rede neural. Elas são boas interpoladoras, mas não tão boas extrapoladoras, mas para

ocorrer uma boa extrapolação do dado de poço para o volume sísmico, algumas condições

tem que ser satisfeitas:

• A amarração do poço com a sísmica tem que estar bem calibrada (entre topo e base

do reservatório), pois eles se encontram em escalas diferentes (a sísmica em tempo e o

poço em profundidade);

• Obter o cubo de impedância acústica do volume na área do reservatório, pois o dado

em amplitude é propriedade de interface entre as camadas, e a impedância acústica

é uma propriedade de camada e é uma propriedade física da rocha. Esse processo de

obtenção do volume de impedância acústica é feito através de inversão sísmica.

Se essas condições não ocorrerem de forma satisfatória, então é preferivel que não se use

o método de redes neurais para predição de propriedades petrofísicas do reservatório, pois

poderá estar se usando informações do poço e do volume que estarão deslocadas uma da

outra.

No dado em questão foi feita uma amarração entre poço e sísmica (que também foi usado

para gerar o modelo em impedância acústica) de boa qualidade, o que deu segurança para

aplicar o método de redes neurais.

A rede neural será treinada por dois vetores de dados, um de entrada da rede e outro de

saída (ou alvo). O parâmetro de entrada é aquele que se tem conhecimento por todo o volume

em estudo (mas que no treinamento será utilizado apenas a informação ao redor do poço),

tendo uma representação visual da distribuição volumétrica de impedância acústica na Figura

3.18; para predizer a propriedade, usamos o perl de poço (Figura 3.15), da propriedade

petrofísica de interesse, como dado saída (alvo no treinamento e saída da aplicação da rede)

para treinar a rede, juntamente com os dados de entrada. Esse esquema encontra-se resumido

na Figura 3.17; ele é o uxo de utilização dos dados nesse trabalho para treinamento e

aplicação da rede.
Aplicações e Resultados 81

Figura 3.17: Esquema da aplicação da rede neural para predição de propriedades, mostrando
como o funcionamento e a forma de trabalho da rede, de forma simplicada.

Figura 3.18: Cubo de impedância acústica (em kg/m3 × m/s) e os 4 poços contidos no
volume que tiveram seus pers utilizados como dado de entrada em cada rede treinada e sua
posterior aplicação.
Aplicações e Resultados 82

3.2.1 Pré-Processamento dos Dados de Treinamento


Após realizar a entrada dos vetores para treinamento da rede, é feita uma investigação e

análise dos dados. A primeira etapa desse pré-processamento foi a eliminação de entradas

para o treinamento (no par entrada × alvo) cujo valores fossem muito discrepantes e pe-

trofísicamente improváveis. Depois foi feita uma normalização dos dados. A normaliza dos

vetores de entrada é modicada a m de obter uma distribuição at (suavizada), no con-

junto de dados de treinamento. O perl irá mostrar os valores contínuos entre o mínimo e

um máximo. Baseado no histograma deve ajustar-se o nível de saída para a distribuição at
usando o parâmetro de pontos de dados por classe (P DP C ). As classes mais representadas

serão decimadas para o parâmetro P DP C e as classes sub-representadas serão duplicadas

até o parâmetro P DP C , com uma pequena alteração no valor de destino para cada vetor

duplicado. Tudo isso é feito com o intuito de evitar que grandes variações dos valores de

entrada para o treinamento dicultem o aprendizado da rede, além de aumentar a eciência

do algoritmo de treinamento.

Com isso, foi feito o pré-processamento nas duas redes e obtido os seguintes histogramas

(Figuras 3.19 e 3.20):

Figura 3.19: Histograma do vetor de GR onde o parâmetro P DP C = 41. Que possui 4198
amostras coletadas dos 4 poços, onde o mínimo e o máximo são, respectivamente, 31.66 e
80.28 GAP I

Então utilizamos os pares de entrada e alvo do treinamento da rede para, através da

rede neural, encontrar uma função não-linear que melhor descreva essa relação entre as duas

propriedades, para posterior aplicação no volume.


Aplicações e Resultados 83

Figura 3.20: Histograma do vetor de φ onde o parâmetro P DP C = 42. Que possui 4195
amostras coletadas dos 4 poços, onde o mínimo e o máximo são, respectivamente, 0.2507 e
0.3587

3.2.2 Treinamento
Os dados de entrada para o treinamento da rede foram os pares entrada (AI) × saída (GR,

para predição litológica e φ parar predição de porosidade), conforme mostram as Figuras

3.21 e 3.22, respectivamente. Onde ca claro o comportamento não-linear e disperso entre o

dado de entrada e os dados alvo do treinamento nas duas redes.

Figura 3.21: Cross-plot GR × AI. Ficando claro o comportamento não-linear e com grau
baixo de correlação (r = 0.23) entre os pares entrada × alvo.
Aplicações e Resultados 84

Figura 3.22: Cross-plot φ× AI. Ficando claro o comportamento não-linear e com um grau
de correlação médio (r = 0.59) entre os pares entrada × alvo.

As redes foram simples, com apenas 2 nós na camada escondida, onde foram utilizados

70% dos dados para treinamento e 30% para teste; foram supervisionadas pela curva de Erro

RMS Normalizada (RM Snorm ) e pelo gráco de dispersão.

As curvas de RM Snorm indicam o erro global nos conjuntos de treino e teste, em vermelho
e azul, respectivamente. Numa escala de 0 (nenhum erro) a 1 (erro máximo). Quando a

curva de teste sobe novamente, a rede já tem o treinamento ajustado. O treinamento deve

ser interrompido quando isso acontece (de preferência antes). Tipicamente, segundo dGB

Earth Science (2015), um valor ecaz de RM S na faixa de 0, 8 é considerado razoável, entre

0, 8 e 0, 6 bom, entre 0, 6 e 0, 4 excelente e abaixo de 0,4 perfeito. O Erro RMS Normalizado

(RM Snorm ) pode ser calculado como:

RM S
RM Snorm = q P (3.1)
1 n
n i=1 (ti − t)

onde v
u n
u1 X
RM S = t (ti − ei )2 (3.2)
n i=1
e
n
1X
t= ti . (3.3)
n i=1

O gráco de dispersão mostra os dados alvos (no eixo horizontal) e os dados alvo preditos
Aplicações e Resultados 85

(no eixo vertical) pela rede neural naquele momento. Idealmente, após o treino necessário,

todos os pontos devem estar na diagonal, isso signicaria que a rede treinada previu corre-

tamente todos os exemplos.

A curva de RM Snorm e o gráco de dispersão dos treinamentos para as duas redes foram

obtidas e no treinamento das redes. Podemos concluir, através da Figura 3.23, que o treina-

mento, para a rede de GR, foi feito com sucesso. Através da Figura 3.24, concluímos também

que o treinamento, para a rede de φ, foi realizado com sucesso também. Pois o gráco das

curvas de erro RM Snorm de treinamento e de teste, de ambas redes, caram (de acordo com

a Tabela 3.1), respectivamente, em 0.58 (considerada excelente) e 0.71 (considerada boa); e

o gráco de regressão mostra que os pontos plotados caram em regiões nas proximidades

da diagonal, parando o treinamento da rede e considerando-as prontas para aplicação em

um maior volume de dados a partir da relação de aprendizagem obtida no treinamento.

GR PHI
Treinamento Teste Treinamento Teste
Vetores Utilizados 998 354 1109 476
Média 49,7153 54,2624 0,305262 0,309636
Desvio Padrão 15,2486 13,9542 0,368622 0,032299
Mínimo 29,2134 30,7425 0,246253 0,248962
Máximo 82,0356 80,993 0,369607 0,361957
Erro RMS 8,81807 9,17556 0,0248223 0,0199612
Erro RMS normalisado 0,578286 0,657547 0,712011 0,618012
Erro Médio absoluto 6,38711 6,95496 0,0196585 0,0167304
Erro Máximo absoluto 40,6579 26,8038 0,0982128 0,0606684

Tabela 3.1: Informações dos treinamentos das redes aplicadas

3.2.3 Aplicação da Rede


Para simplicação, os volumes foram visualizados em uma seção composta entre as linhas

que passam pelos poços F03-2, F03-4 e F06-1 (Figura 3.25), para ser visto o comportamento

no sentido dip e strike do reservatório,além de ver os resultados das aplicações das redes entre
poços usados no treinamento da rede, onde se tem uma maior conabilidade do resultado.

Com a rede treinada, foi feita a aplicação dela em todo o volume, usando como entrada o

cubo de impedância acústica (AI), para predizer a propriedade usada no treinamento da rede

como alvo (GR e φ), obtendo assim seus respectivos volumes. É perceptível que já se podem

ser feitas inferências de litologia na seção composta em visualização na Figura 3.26, com

base no modelo deposicional dos deltas, pois a impedância acústica é uma propriedade de

camada (dependente dos valores de densidade, ρb , e dos valores da velocidade acústica, VP ,


Aplicações e Resultados 86

Figura 3.23: Curva de erro RM Snorm e gráco de dispersão no treinamento da rede de GR,
onde o treinamento foi parado com o valor do erro RMS normalizado do treinamento igual
a 0,578286. Com a representação dos dados treinados em vermelho e dos dados de teste em
azul.

na camada), tendo os o seu valor crescendo dos arenitos mais puros para os folhelhos, como

é visto na Figura 3.26, podendo as camadas em tons de lilás e azul (com maior impedância)

serem caracterizadas como folhelhos de prodelta e as camadas entre os tons entre verde e a

amarelo (com baixa impedância) serem caracterizadas como arenitos da frente deltáica.

Entretanto, o volume de GR é mais caracterizante de litologias, que a impedância acús-

tica, por medir uma propriedade petrofísica que mede indiretamente o quão argilosa é a

matriz rochosa camada, já que a medida da impedância acústica pode sofrer inuência da

presença de uidos no seu volume poroso.

No volume de GR gerado pela aplicação da rede os valores variaram entre 38 e 80 GAP I .


De acordo com a seção do volume de GR, na Figura 3.27, podemos concluir que o resultado
Aplicações e Resultados 87

Figura 3.24: Curva de erro RM Snorm e gráco de dispersão no treinamento da rede de φ,


onde o treinamento foi parado com o valor do erro RMS normalizado do treinamento igual
a 0,712011.. Com a representação dos dados treinados em vermelho e dos dados de teste em
azul.

foi dentro do esperado para o modelo geológico do reservatório deltáico, onde os arenitos

de frente deltaica, que tem uma menor presença de argilosidade, tem valores baixo de GR

com suas camada sendo representadas pelas camadas em tons de amarelos, as quais podemos

considerar que possuem uma melhor característica de reservatório; e os folhelhos de prodelta,

que são predominantemente compostos por arenitos com uma matriz de arenitos de grãos

menos selecionados que os arenitos de prodelta (e com o seu espaço poroso preenchido com

uma quantidade considerável de argilosidade) e folhelhos, tem altos valores de GR com suas

camadas representadas em tons de laranja para vermelho, sendo essas camadas prováveis

barreiras de uxo no reservatório.

No volume de φ gerado pela aplicação da rede os valores variaram entre 0.27 a 0.35. De
Aplicações e Resultados 88

Figura 3.25: Disposição do dado para visualização da área em estudo, por uma seção com-
posta de linhas passando pelos poços F03-2, F03-4 e F06-1

Figura 3.26: Cubo de Impedância Acústica em kg/m3 × m/s como dado de entrada da rede
neural.

acordo com a seção do volume de φ, representada pela Figura 3.28, podemos concluir que o

resultado foi dentro do esperado para o modelo geológico do reservatório deltáico, onde os

arenitos de frente deltáica, que tem uma matriz de arenitos com um bom grau de seleção

dos seus grão, tem altos valores de φ, com suas camada sendo representadas pelas camadas

em tons de laranja a vermelho, sendo essa camada a que tem melhor característica de um
Aplicações e Resultados 89

Figura 3.27: Volume sísmico com a propriedade petrofísica de GR, em GAP I , gerado pela
aplicação da rede que teve o volume de impedância acústica como dado de entrada.

reservatório deltáico; e os folhelhos de prodelta, que são predominantemente compostos por

arenitos com uma matriz de arenitos de grãos menos selecionados que os arenitos de prodelta

(e com o seu espaço poroso preenchido com uma quantidade considerável de argilosidade) e

folhelhos, que tem baixos valores de porosidade, com suas camadas representadas em tons

de azul a verde.

Figura 3.28: Volume sísmico com a propriedade petrofísica de φ, gerado pela aplicação da
rede que teve o volume de impedância acústica como dado de entrada.
Aplicações e Resultados 90

3.2.4 Mapeamento de Propriedades Petrofísicas do Reservatório


Para mapear as propriedades petrofísicas de interesse no volume do reservatório, foram uti-

lizados os volumes obtidos dos treinamentos. Através do mapeamento de litologias, além

de poder prever o modelo geológico, é possível inferir e prever possíveis barreiras de per-

meabilidade, alterando assim o modelo de escoamento e uxo do reservatório. Através do

mapeamento de porosidade é possível gerar modelos com valores mais próximos da realidade

dessa propriedade petrofísica de grande importância na caracterização do reservatório, pois

o quanticação do volume poroso do reservatório inuencia diretamente no cálculo do valor

do volume in place, que caso seja um valor errado pode acabar comprometendo o orçamento
de toda uma produção da reserva.

Para fazer o mapeamento das melhores zonas de reservatório foram feitos modelos, a

partir dos volumes gerados de GR e φ. Onde o melhor reservatório foi mapeado na região onde

valor de GR entre 38 e 59 GAP I (modelo da Figura 3.29), tendo seus valores caracterizados

em tom de verde, e o valor de φ entre 0.31 e 0.35 (modelo da Figura 3.30), tendo seus valores
caracterizados em tom de vermelho.

Com isso foi sobreposto um modelo no outro e gerado um modelo, representado na

Figura 3.31, onde a região de interseção entre os modelos de GR e φ é compreendida como a


região que tem as melhores condições de reservatório: baixa argilosidade (consequentemente,

nesse modelo, arenito) e alta porosidade (grãos mais selecionados, com maior espaço poroso

entre a matriz) que no reservatório deltáico é arenito da planicie e da frente deltáica. O que

é coerente com o modelo de deposição de um delta e pôde ser culminado em um modelo

geológico simplicado do reservatório na Figura 3.32, onde em amarelo está representado

esse arenito de planície e frente deltáica e em verde o folhelho de prodelta.


Aplicações e Resultados 91

Figura 3.29: Volume sísmico com região de baixo GR no reservatório, que consequentemente
tem baixo conteúdo argiloso na sua matriz e poros, e que provavelmente sejam arenitos de
planície e frente deltaica.

Figura 3.30: Volume sísmico com região de alta porosidade no reservatório, que consequen-
temente tem um maior grau de seleção dos grãos, aumentando seu volume poroso, e que
provalmente sejam arenitos de planície e frente deltaica.
Aplicações e Resultados 92

Figura 3.31: Volume sísmico com de LGR, sobreposto a região de HPHI, no reservatório.
(LGR: Baixo GR, HPHI: Alta Porosidade; BR: Melhor Reservatório → LGR ∩ HPHI).

Figura 3.32: Modelo geológico do reservatório caracterizado onde em amarelo tem-se os


melhores arenitos reservatórios que são de planície e frente deltaica.
4
Conclusões e Recomendações

Com os resultados apresentados, cou claro a ecácia da utilização das redes neurais na

caracterização geofísica de reservatórios.

Na aplicação feita em dados de poços, cou claro que a opção em fazer o treinamento da

rede com mais elementos no dado de entrada, cou melhor com o aumento desses elementos.

Além disso, o método se mostrou mais ecaz quando comparado à aplicações de formulas

empíricas (como exemplo da Equação de Gardner). A exemplo da aplicação feita, em um

mesmo campo de petróleo é possível usar as redes neurais para treinar o dado em um poço

com conhecimento de um conjunto de propriedades e um dado alvo para treinar a rede, que

será o dado de saída na aplicação da rede, e aplicar esse treinamento em um poço vizinho

(ao que se tem todo conhecimento) para inferir esse perl que falta, que pode ser de grande

valia na caracterização petrofísica e de suma importância em etapas da interpretação sísmica

e caracterização do reservatório.

As Redes Neurais também mostraram-se ecientes para predizer e mapear proprieda-

des petrofísicas em reservatórios como um primeiro modelo mais realista para o engenheiro

de reservatório. O que torna-se uma ferramenta eciente para o entendimento geológico e

petrofísico do reservatório, bem como gerar modelos de escoamento e uxo do reservatório

em todo o seu volume com os valores mais dedignos da porosidade e mapear os barreiras

litológicas de uxos dentro do reservatório, tentando assim maximizar a explotação do reser-

vatório. O método utilizado conseguiu mapear com clareza de acordo com o esperado pelo

modelo de deposição, o reservatório em estudo, onde pôde perceber-se que a melhor área de

reservatório ca na parte superior, onde possui baixo GR e alta porosidade, pois trata-se

possivelmente de um arenito com uma melhor seleção de grãos e com menos argilosidade nos

93
Conclusões e Recomendações 94

poros, que no modelo de deposição de um delta é caracterizado como arenitos de planície e

frente deltaica. Com essa estimativa das distribuições espaciais e valores das propriedades

do reservatório, o engenheiro conseguirá gerar modelos mais realistas da área.

Para futuros trabalhos nessa vertente de redes neurais, cam como sugestões:

• Realizar o treinamento da rede com mais de um dado de entrada, podendo ser um

atributo onde se utilize diversos janelamentos desse atributo, para fazer um treinamento

com inuências de maior tendência da região, bem como de maior detalhamento;

• Utilizar redes com outros tipos de processos de aprendizado da rede;

• Fazer aplicações para o reconhecimento de padrões, tanto a nível de predição de pro-

priedades quanto a nível de criação de meta-atributos no reconhecimento de falhas e

mapeamento de horizontes.
Agradecimentos

Agradeço a todos aqueles que foram fundamentais na trajetória que culminou nesse trabalho.

À minha família, por todo apoio nos mais adversos momentos. Meus pais, Ivete e Julio,

por sempre me apoiarem em qualquer decisão que eu tenha tomado ou venha a tomar. À

Paloma, minha irmã, que também se tornou colega de prossão (sem nenhum incentivo ou

pressão da minha parte na escolha).

À minha companheira Michelle, por todo incentivo, apoio e paciência ao longo desse

tempo.

Ao meu orientador, Professor Porsani, por ser uma pessoa aberta à sugestões e novas

ideias, que acolhe qualquer aluno no mestrado que tenha disposição de pesquisar.

Aos meus amigos ao longo desse tempo de graduação e mestrado: Daniel Bono (Ca-

vanha), Leonardo Mocitaiba (Mocita), Paulo Augusto (Curió), Rafael Manenti e Wilker

Eduardo (Duzão). Por sempre estarem dispostos a ajudar no trabalho sempre que solicita-

dos. A Vinicius e Edric por todas as ajudas com o OpendTect.

95
Apêndice A
O Teorema da Convergência do
Perceptron

Para derivar o algoritmo de aprendizagem por correção de erro para o Perceptron, considere-

mos o modelo do grafo de uxo de sinal modicado mostrado na Figura A.1. Neste modelo,

equivalente ao da Figura 1.18, a polarização b(n) é tratada como um peso sináptico cuja

entrada é xa em +1 (conforme foi visto anteriormente).

Figura A.1: Grafo de uxo de sinal equivalente do Perceptron (a dependência do tempo foi
omitida por questões de clareza).

Pode-se, então, denir o vetor de entrada [(m + 1) × 1]-dimensional como:

x(n) = [+1 x1 (n) x2 (n) · · · xm (n)]T , (A.1)

onde n denota o passo da iteração do algoritmo. De forma correspondente, podemos denir

96
O Teorema da Convergência do Perceptron 97

o vetor de pesos [(m + 1) × 1]-dimensional como:

w(n) = [b(n) w1 (n) w2 (n) · · · wm (n)]T , (A.2)

da mesma forma, a saída do combinador linear pode ser escrita na forma compacta como:

m
wi (n)xi (n) = wT (n)x(n),
X
v(n) = (A.3)
i=0

onde w0 (n) representa a polarização b(n). Para n xo, a equação wT x = 0, plotada em um


espaço m-dimensional (e para algum bias prescrito) com coordenadas x1 , x2 , . . . , xm , dene

um hiperplano como a superfície de decisão entre duas diferentes classes de entradas (vide

Figura 1.19).

Para que o Perceptron funcione adequadamente, as duas classes C1 e C2 precisam ser

linearmente separáveis, o que signica dizer que os padrões a serem classicados devem ser

sucientemente separados uns dos outros para garantir que a superfície de decisão consista

de um hiperplano.

Este requerimento é ilustrado na Figura A.2 para o caso de um Perceptron bidimensional.

Na Figura A.2(a), as duas classes C1 e C2 são sucientemente separáveis uma da outra, de

tal forma que é possível desenhar um hiperplano (neste caso uma linha reta) como limite

de decisão. Se, entretanto, as duas classes C1 e C2 tivessem se aproximado tanto uma da

outra (como mostrado na Figura A.2(b)) teriam se tornado não-linearmente separáveis, uma

situação que está além da capacidade computacional do Perceptron.

Figura A.2: (a) Um par de padrões linearmente separáveis. (b) Um par de padrões não-
linearmente separáveis.

Suponhamos então que as variáveis de entrada do Perceptron tenham se originado de

duas classes linearmente separáveis. Seja X1 o sub-conjunto de vetores de treino [x1 (1), x1 (2), . . .]
que pertençam à classe C1 , e seja X2 o sub-conjunto de vetores de treino [x2 (1), x2 (2), . . .]
que pertençam à classe C2 . A união de X1 e X2 é o conjunto de treino completo .
O Teorema da Convergência do Perceptron 98

Dados os conjuntos de vetores X1 e X2 para treinar o classicador, o processo de treino

envolve o ajuste do vetor de pesos w, de tal forma que as duas classes C1 e C2 sejam

linearmente separáveis. Ou seja, exista um vetor de pesos w tal que possamos armar:

wT x > 0 para cada vetor de entrada x pertencente à classe C1



. (A.4)
wT x ≤ 0 para cada vetor de entrada x pertencente à classe C2

Observe que, na segunda linha da Equação (A.4), foi escolhido arbitrariamente que o

vetor de entrada x pertencesse à classe C2 se wT x = 0.


Dados os sub-conjuntos de vetores de treino X1 e X2 , o problema de treinamento para o

Perceptron elementar é, então, encontrar um vetor de pesos w tal que as duas inigualdades
da Equações (A.4) sejam satisfeitas.

O algoritmo para adaptar o vetor de pesos do Perceptron elementar pode ser agora

formulado conforme segue:

1. Se o n-ésimo membro do conjunto de treino, x(n), é corretamente classicado pelo

vetor de pesos w(n) computado na n-ésima iteração do algoritmo, nenhuma correção

é feita no vetor de pesos do Perceptron de acordo com a regra:

w(n + 1) = w(n), wT (n)x(n) > 0 e x(n) pertence à classe C1



se
; (A.5)
w(n + 1) = w(n), se w (n)x(n) ≤ 0 e x(n) pertence à classe C2
T

2. Em caso contrário, o vetor de pesos do Perceptron é atualizado de acordo com a regra:

w(n + 1) = w(n) − η(n)x(n) se wT (n)x(n) > 0 e x(n) pertence à classe C2



, (A.6)
w(n + 1) = w(n) − η(n)x(n) se wT (n)x(n) ≤ 0 e x(n) pertence à classe C1
onde o parâmetr-o razão de aprendizado η(n) controla o ajuste aplicado ao vetor de

pesos na iteração n.

Para o caso particular em que η(n) = η > 0 (onde η é uma constante independente do

número da iteração n), temos uma regra de adaptação de incrementos xos para o Perceptron.

Desejamos primeiro provar a convergência de uma regra de adaptação de incrementos

xos, com η = 1. Claramente o valor de η não é importante, enquanto for positivo. Um

valor de η 6= 1 simplesmente escala os vetores sem afetar sua separabilidade.

O caso de uma razão de aprendizado η(n) variável será considerado posteriormente.


O Teorema da Convergência do Perceptron 99

Convergência da Regra de Adaptação de Incremento Fixo


(Razão de Aprendizado η Fixa)
A prova é apresentada para a condição inicial w(0) = 0.
Suponha que wT (n)x(n) < 0 para n = 1, 2, . . ., e o vetor de entrada x(n) pertença ao

sub-conjunto X1 .

Ou seja, nesta condição, o Perceptron classicou de forma incorreta os vetores x(1), x(2), . . .,
desde que a segunda condição, dada pela Equação (A.4), foi violada.

Então, com a constante η(n) = 1, podemos usar a segunda linha da Equação (A.6) para

escrever

w(n + 1) = w(n) + x(n) para x(n) pertencente à classe C1 . (A.7)

Dada a condição inicial w(0) = 0 , podemos iterativamente resolver esta equação para

w(n + 1), obtendo o resultado

w(n + 1) = x(1) + x(2) + · · · + x(n). (A.8)

Desde que as classes C1 e C2 são assumidas linearmente separáveis, existe uma solução

w0 para a qual w x(n) > 0 para os vetores x(1), x(2), . . . , x(n) pertencentes ao subconjunto
T

X1 . Para uma solução xa w0 , podemos então denir um número positivo α como

α = min wT0 x(n), (A.9)


x(n)∈X1
Multiplicando ambos os lados da Equação (A.8) pelo vetor linha wT0 teremos

wT0 w(n + 1) = wT0 x(1) + wT0 x(2) + · · · + wT0 x(n). (A.10)

De acordo com a denição dada na Equação (A.9), teremos

wT0 w(n + 1) ≥ nα. (A.11)

Dados dois vetores w0 e w(n + 1), a inigualdade de Cauchy-Schwarz, arma que

k w0 k2 k w(n + 1) k≥ wT0 w(n + 1) ,


 2
(A.12)
O Teorema da Convergência do Perceptron 100

onde k· k denota a norma Euclidiana do vetor argumento, e o produto interno wT0 w(n + 1)
é uma quantidade escalar.

wT0 w(n + 1) é igual ou maior que n2 α2 .


 2
A partir da Equação (A.11) observa-se que

A partir da Equação (A.12) observa-se que k w0 k2 k w(n + 1) k é igual ou maior que


wT0 w(n + 1)
 2
. Segue, portanto, que

k w0 k2 k w(n + 1) k≥ n2 α2 , (A.13)

ou equivalentemente,

n2 α 2
k w(n + 1) k ≥ 2
. (A.14)
k w0 k

Seguindo, agora, uma nova rota de desenvolvimento, rescreveremos a Equação (A.7) sob

a forma:

w(k + 1) = w(k) + x(k) para k = 1, . . . , n e x(k) ∈ X1 . (A.15)

Tomando o quadrado da norma Euclidiana de ambos os lados da Equação (A.15), obte-

remos:

k w(k + 1) k2 =k w(k) k2 + k x(k) k2 +2wT (k) x(k). (A.16)

Mas, tendo sido assumido que o Perceptron classica incorretamente um vetor de en-

trada x(k) pertencente ao sub-conjunto X1 , teremos que wT (k)x(k) < 0. Portanto, pode-se

deduzir, a partir da Equação (A.16) que:

k w(k + 1) k2 ≤k w(k) k2 + k x(k) k2 , (A.17)

ou, de forma equivalente,

k w(k + 1) k2 − ≤k w(k) k2 ≤k x(k) k2 , k = 1, . . . , n. (A.18)

Adicionando estas inigualdades para k = 1, . . . , n e invocando a condição inicial assumida


w(0) = 0, chegamos à seguinte inigualdade:

n
k w(k + 1) k2 ≤ k x(k) k2 ≤ nβ,
X
(A.19)
k=1
O Teorema da Convergência do Perceptron 101

onde

β = max k x(k) k2 . (A.20)


x(k)∈X1
A Equação (A.19) arma que o quadrado da a norma Euclidiana do vetor de pesos

w(n + 1) cresce no máximo linearmente com o número de iterações n.


O segundo resultado da Equação (A.19) está claramente em conito com o resultado

anterior da Equação (A.14) para valores de n sucientemente grandes.

Na verdade, pode-se armar que n não pode ser maior do que algum valor nmax para o

qual as Equações (A.14) e (A.19) são ambas satisfeitas com o sinal de igualdade. Ou seja,

nmax é a solução da equação

n2max α2
= nmax β. (A.21)
k w0 k2

Resolvendo para nmax , dado um vetor solução w0 ,encontraremos:

β k w0 k2
nmax = . (A.22)
α2
Temos, assim, provado que para η(n) = 1 para todo n, w(0) = 0 e dado que existe um

vetor solução w0 , a regra para adaptação dos pesos sinápticos do Perceptron deve terminar

após, no máximo, nmax iterações. Note também a partir das Equações (A.9), (A.20) e (A.22)

que não há uma única solução para w0 ou nmax .

Podemos, agora, armar que o teorema da convergência da regra de adaptação de incre-

mento xo para o Perceptron como segue:

• Sejam os sub-conjuntos de vetores de treino X1 e X2 linearmente separáveis;

• Sejam as entradas apresentadas ao Perceptron originadas destes dois sub-conjuntos;

Isso implica que o Perceptron converge após algumas iterações n0 , no sentido de que

w(n0) = w(n0 + 1) = w(n0 + 2) = · · · é um vetor solução para n0 ≤ nmax .

Convergência da Regra de Adaptação de Incremento Va-


riável (Razão de Aprendizado η(n) Variável)
Consideremos agora o procedimento de correção de erro absoluto para a adaptação de um

Perceptron de uma única camada, para o qual η(n) é variável. Em particular, seja η(n) o
O Teorema da Convergência do Perceptron 102

menor inteiro para o qual:

η(n)xT (n)x(n) >|wT (n)x(n)|. (A.23)

Com este procedimento podemos armar que: se o produto interno wT (n)x(n) na itera-
ção n tem um sinal incorreto, então wT (n + 1)x(n) na iteração n + 1 pode ter o sinal correto.
Isto sugere que, se wT (n)x(n) tem um sinal incorreto, podemos modicar a sequência de

treino na iteração n+1 fazendo x(n + 1) = x(n).

Em outras palavras, cada padrão é apresentado repetidamente ao Perceptron até que o

padrão seja classicado corretamente.

Note também que o uso de um valor inicial w(0) diferente de zero meramente resulta no
decréscimo ou acréscimo do número de iterações requeridas para convergência dependendo

de como w(0) se relaciona com a solução w0 . Indiferentemente do valor atribuído a w(0), o


Perceptron tem sua convergência garantida.

Variáveis e Parâmetros:
- Vetor de entrada x(n) de dimensão [(m + 1) × 1]:
x(n) = [+1 x1 (n) x2 (n) · · · xm (n)]T
- Vetor de pesos w(n) de dimensão [(m + 1) × 1]:
w(n) = [b(n) w1 (n) w2 (n) · · · wm (n)]T
- Bias: b(n)
- Resposta atual (quantizada): y(n)
- Resposta desejada: d(n)
- Parâmetro razão de aprendizado (constante positiva < 1): η
Inicialização:

1
- Faça w(0) = 0.
- Então execute as etapas seguintes do algoritmo para os instantes de tempo n = 1, 2, . . .
Ativação:
2
No instante de tempo n ative o Perceptron aplicando o vetor de entrada x(n) e a resposta desejada d(n).
Cômputo da Resposta Atual:

3 Compute a resposta atual do Perceptron através de


w x

y(n) = sgn T (n) (n) ,
onde sgn(· ) é a função signum.
Adaptação do Vetor de Pesos:

Atualize o vetor de pesos do Perceptron através de


4 w(n + 1) = w(n) + η [d(n) − y(n)]
onde
x(n) pertence à classe C1

+1 se
d(n) =
−1 se x(n) pertence à classe C2
Continução:
5
Fazer n=n+1 e voltar à etapa 2.

Tabela A.1: Sumário do Algoritmo de Convergência do Perceptron


O Teorema da Convergência do Perceptron 103

Na Tabela A.1 é apresentado um sumário do algoritmo de convergência do Perceptron. O

símbolo  sgn(· ), usado no passo 3 da tabela para computar a resposta atual do Perceptron,

representa a função signum, descrita anteriormente.

Podemos, então, expressar a resposta quantizada y(n) do Perceptron na forma compacta:

y(n) = sgn wT (n)x(n)



(A.24)

Note que o vetor de entrada x(n) é um vetor [(m + 1) × 1], cujo primeiro elemento é

xo em (+1) ao longo de todo o processo computacional. De forma correspondente, o vetor

de pesos w(n) é um vetor [(m + 1) × 1], cujo primeiro elemento é igual ao bias b(n). Outro

ponto a salientar na Tabela A.1 é a introdução de uma resposta desejada quantizada d(n),
denida por:

x(n) pertence à classe C1



+1 se
d(n) = . (A.25)
−1 se x(n) pertence à classe C2

Então, a adaptação do vetor de pesos w(n) pode ser sumarizada na forma da regra de

aprendizado por correção de erro:

w(n + 1) = w(n) + η[d(n)y(n)]x(n) (A.26)

onde η é o parâmetro razão de aprendizado, e a diferença d(n) − y(n) representa um sinal

de erro. O parâmetro razão de aprendizado é uma constante positiva limitada ao intervalo

0 < η ≤ 1. Na escolha de um valor para η, dentro deste intervalo, é preciso considerar dois

requisitos conitantes:

• Manter a estabilidade da trajetória (estimativas estáveis para os pesos) requer valores

pequenos para η;

• Adaptação rápida com respeito às mudanças reais nas distribuições subjacentes do

processo responsável pela geração do vetor de entrada x requer valores grandes para

η.
Apêndice B
O Algoritmo Backpropagation

Assim como o algoritmo LMS é considerado o mais renomado dos algoritmos utilizados em

ltragem linear adaptativa, o algoritmo backpropagation foi estabelecido como o mais popular
algoritmo utilizado no contexto do aprendizado de redes neurais articiais MLP.

A popularidade do algoritmo backpropagation resulta de sua relativa simplicidade de

implementação e do fato de ser um poderoso dispositivo para armazenar o conteúdo de

informação (adquirido pela rede MLP a partir do conjunto de dados) nos pesos sinápticos

da rede.

Na medida em que o conjunto de dados usado para treinar uma rede neural articial

MLP seja grande o suciente para ser representativo do ambiente no qual a rede está inse-

rida, a rede MLP treinada através do algoritmo backpropagation desenvolverá a capacidade

de generalizar. Especicamente, esta capacidade permite à rede MLP apresentar um desem-

penho satisfatório quando é alimentada com dados de teste retirados do mesmo espaço de

entrada que os dados de treino, mas não previamente apresentados ao MLP.

Antes de passarmos à descrição do algoritmo backpropagation, é conveniente fazermos

algumas considerações quanto à notação que será utilizada:

• Os índices i, j e k se referem a diferentes neurônios no MLP. Os sinais funcionais se

propagam através da rede, da esquerda para a direita, sendo que o neurônio j está na

camada à direita do neurônio i, e o neurônio k está na camada à direita do neurônio

j, quando o neurônio j é uma unidade escondida.

• Na iteração n, o n-ésimo padrão de treino (vetor-exemplo) é apresentado ao MLP.

104
O Algoritmo Backpropagation 105

• O símbolo ε(n) se refere à soma instantânea dos erros quadráticos nos nós de saída do

MLP (ou energia do erro) na iteração n. A média de ε(n) sobre todos os valores de n
(isto é, o conjunto de treino inteiro) representa a energia média do erro εav .

• O símbolo ej (n) se refere ao sinal de erro na saída do neurônio j para a iteração n.

• O símbolo dj (n) se refere à resposta desejada para o neurônio j e é usado para computar
ej (n).

• O símbolo yj (n) se refere ao sinal funcional encontrado na saída do neurônio j, na

iteração n.

• O símbolo wji (n) denota o peso sináptico que conecta a saída do neurônio i à entrada

do neurônio j , na iteração n. A correção aplicada a este peso na iteração n é denotada


por ∆wji (n) .

• O potencial de ativação (isto é, a soma ponderada de todas as entradas sinápticas

mais a polarização) do neurônio j na iteração n é denotado por vj (n) e constitui o

sinal aplicado à função de ativação associada ao neurônio j.

• A função de ativação que descreve a relação funcional entrada-saída da não-linearidade

associada ao neurônio j é denotada por ϕj (. ).

• A polarização aplicada ao neurônio j é denotada por bj ; seu efeito é representado por

uma sinapse de peso wj0 = bj conectada a uma entrada xa igual a (+1). Alternati-

vamente, a polarização pode ser gerada por uma sinapse de peso wj0 = θj conectada a

uma entrada de valor xo e igual a (−1), quando recebe o nome de threshold. A nível de

operação do MLP, para todos os ns práticos as duas alternativas apresentam os mes-

mos resultados. Neste estudo consideraremos apenas o nome genérico polarização, a

qual pode ser originada de um valor xo positivo (+1) ou negativo (−1).

• O i-ésimo componente do vetor de entrada do MLP é denotado por xi (n).

• O k -ésimo componente do vetor de saída do MLP é denotado por ok (n).

• O parâmetro razão de aprendizado é denotado por η.

Tendo estabelecido a notação, inicialmente apenas descreveremos as equações de deni-

ção do algoritmo backpropagation e sua forma de operação. Posteriormente, deduziremos as

equações que regem sua operação.

Seja o sinal de erro na saída do neurônio j da camada de saída na iteração n (isto é, na

apresentação do n-ésimo vetor de treinamento) denido por


O Algoritmo Backpropagation 106

ej (n) = dj (n) − yj (n). (B.1)

1 2
Dene-se o valor instantâneo do erro quadrático para o neurônio j como e (n).
2 j

Correspondentemente, o valor instantâneo da soma dos erros quadráticos ε(n) é obtida


1 2
somando ej (n) sobre todos os neurônios da camada de saída. Estes são os únicos neurônios
2
visíveis para os quais os sinais de erro podem ser calculados de forma direta. A soma

instantânea dos erros quadráticos na camada de saída do MLP é então escrita como

1X 2
ε(n) = e (n), (B.2)
2 j∈C j

onde o conjunto C inclui todos os neurônios na camada de saída.

Seja N o número total de padrões (vetores-exemplo) contidos no conjunto de treino. O

erro médio quadrático (MSE) é obtido somando ε(n) sobre todo n e então normalizando com
respeito ao tamanho N do conjunto de treino, conforme:

N −1
1 X
εav = ε(n). (B.3)
N − 1 n=0

O valor instantâneo da soma dos erros quadráticos ε(n), e portanto o MSE denotado por
εav , é função de todos os parâmetros livres (isto é, pesos sinápticos e níveis de polarização)

do MLP. Para um dado conjunto de treino, εav representa a Função de Custo do processo

de minimização do erro de aprendizado, constituindo uma medida inversa do desempenho

do processo de aprendizado a partir do conjunto de treino. Para minimizar εav os pesos

sinápticos são atualizados a cada apresentação n de um novo padrão ao MLP através do vetor
de entrada até o término de uma Época. Uma Época consiste no intervalo correspondente

à apresentação de todos os N vetores-exemplo do conjunto de treino à camada de entrada

do MLP. O ajuste dos pesos é feito de acordo com os respectivos erros computados para

cada padrão apresentado ao MLP. A média aritmética destas alterações individuais nos

pesos sobre o conjunto de treino é portanto uma estimativa da verdadeira alteração que

resultaria a partir da alteração de pesos baseada na minimização da função custo εav sobre

todo conjunto de treino.

Considere a Figura B.1, a qual descreve o neurônio j sendo alimentado por um conjunto

de sinais produzidos na saída dos neurônios da camada à sua esquerda.

O potencial de ativação vj (n) aplicado na entrada da não-linearidade associada ao neurô-


nio j é, portanto:
O Algoritmo Backpropagation 107

Figura B.1: Grafo de uxo de sinal no neurônio j.

m
X
vj (n) = wji (n)yi (n), (B.4)
i=0

onde m é o número total de entradas (excluindo a polarização) aplicadas ao neurônio j. O

peso sináptico wj0 (correspondente à entrada xa y0 = −1) dene a polarização θj aplicada

ao neurônio j . wji (n) é o peso sináptico conectando a saída do neurônio i ao neurônio j e

yi (n) é o sinal no i-ésimo nó de entrada do neurônio j , ou equivalentemente, o sinal na saída

do neurônio i. Portanto o sinal yj (n) resultante na saída do neurônio j na iteração n é:

yj (n) = ϕj (vj (n)). (B.5)

De maneira similar ao algoritmo LMS, o algoritmo backpropagation aplica a correção

∆wji (n) ao peso sináptico wji (n), tendo como base a direção contrária do gradiente local da

superfície de erro ε(w) relativo ao peso sináptico.

Se, para uma dada variação no peso sináptico, o algoritmo movimenta-se em uma traje-

tória ascendente na superfície ε(w), então signica que esta variação deve ser aplicada com

o sinal invertido sobre o peso sináptico, já que houve um aumento do erro, e objetiva-se uma

diminuição do erro.

Por outro lado, se para uma dada variação no peso sináptico o algoritmo movimenta-se

em uma trajetória descendente na superfície ε(w), então signica que esta variação deve ser

aplicada com o sinal positivo sobre o peso sináptico, já que houve uma diminuição do erro

e, portanto, o movimento deve ser encorajado naquela direção.


O Algoritmo Backpropagation 108

Este método de correção dos pesos sinápticos é denominado de Regra Delta. No algo-

ritmo LMS, estudado anteriormente, a Regra Delta é denida pela já conhecida expressão

w ~ w ~ (n)) = ∂J( w
(n)) w
∂ [ 21 e2 (n)]
∆ (n) = −η ∇J( (n)), onde ∇J( ∂ (n)
= ∂ (n) w w
é o gradiente local da superfí-
1 2
cie de erro gerada pela função de custo J = J(w(n)) = e (n) a ser minimizada no instante
2
n.

No caso do MLP, o gradiente local da superfície de erro ε(w) relativo ao peso sináptico

wji representa, portanto, um fator de sensibilidade, determinando a direção de movimento

no espaço de pesos sinápticos para o valor do peso sináptico wji que minimiza ε(w).

A correção ∆wji aplicada a wji (n), ditada pela Regra Delta, é denida por:

∂ε(n)
∆wji = wji (n + 1) − wji (n) = −η , (B.6)
∂wji (n)
onde η é a constante que determina a razão de aprendizado do algoritmo backpropagation.
O uso do sinal negativo em (B.6) impõe a movimentação contrária à direção apontada

pelo gradiente na superfície de erro denida no espaço de pesos sinápticos.

O algoritmo backpropagation estabelece o aprendizado de um MLP através da Regra

Delta como sendo a correção efetuada em suas sinapses através de

∆wji (n) = ηδj (n)yi (n), (B.7)

onde ∆wji (n) é a correção aplicada à i-ésima sinapse do neurônio j , yi (n) é o sinal de

entrada no i-ésimo nó de entrada do neurônio j (que é igual ao sinal na saída do neurônio

i, pertencente à camada à esquerda da que pertence o neurônio j, se este não estiver na

primeira camada escondida  se o neurônio j estiver na primeira camada escondida então

yi (n) corresponde ao i-ésimo nó de entrada xi (n) do MLP) e δj (n) é o gradiente local do

neurônio j, denido por

ϕ0j (vj (n))eP



j (n) , neurônio j é de saída
δj (n) = 0 (B.8)
ϕj (vj (n)) k δk (n)wkj (n) , neurônio j é escondido

De acordo com (B.8) o gradiente local δj (n) para o neurônio de saída j é igual ao produto
0
do correspondente sinal de erro ej (n) pela derivada ϕj (vj (n)) da função de ativação associada.

Neste caso o fator chave necessário envolvido no cálculo do ajuste dos pesos ∆wji (n) é o sinal
de erro ej (n) na saída do neurônio j.

Quando o neurônio j está localizado em uma camada escondida, conforme mostra a Fi-

gura B.2, mesmo não sendo diretamente acessíveis, tais neurônios dividem a responsabilidade
O Algoritmo Backpropagation 109

pelo erro resultante na camada de saída. A questão, no entanto, é saber como penalizar ou

recompensar os pesos sinápticos de tais neurônios pela sua parcela de responsabilidade, já

que não existe resposta desejada especicada neste local do MLP e, portanto, não há como

calcular o sinal de erro.

A solução, dada pela equação (B.8), é computar o sinal de erro recursivamente para o

neurônio escondido j retro-propagando os sinais de erro de todos os neurônios à direita do

neurônio j, aos quais a saída deste encontra-se conectado.

Figura B.2: Grafo de uxo de sinal mostrando os detalhes do neurônio de saída k comectado
ao neurônio escondido j.

O fator ϕ0j (vj (n)) envolvido na computação do gradiente local δj (n) na equação (B.8)

depende somente da função de ativação associada com o neurônio escondido j. Os de-

mais fatores envolvidos no somatório sobre k em (B.8) dependem de dois conjuntos de

termos. O primeiro, δk (n), requer conhecimento dos sinais de erro ek (n) recursivamente

retro-propagados, conforme veremos adiante, a partir de todos aqueles neurônios localizados

na camada imediatamente à direita do neurônio escondido j e que estão diretamente conec-

tados a ele (observar a Figura B.2). O segundo conjunto de termos, wkj (n), consiste dos

pesos sinápticos dos neurônios à direita do neurônio j e que com ele estabelecem conexão.

Os Dois Passos Computacionais do Algoritmo Backpro-


pagation

Na aplicação do algoritmo backpropagation, dois passos computacionais distintos podem ser


identicados, um passo direto e um passo reverso.
O Algoritmo Backpropagation 110

Figura B.3: Grafo de uxo de sinal mostrando o processo de retro-propagação dos sinais de
erro na camada de saída para um neurônio j da camada escondida imediatamente à esquerda.
mL é o número de neurônios da camada de saída.

No passo direto ( forward pass ) os pesos sinápticos permanecem inalterados em todo

MLP e os sinais são propagados da entrada da rede para a saída, de neurônio a neurônio.

O sinal que resulta na saída do neurônio j é computado por:

yj (n) = ϕ(vj (n)), (B.9)

onde vj (n) é o potencial de ativação do neurônio j, denido por:

m
X
vj (n) = wji (n)yi (n), (B.10)
i=0

sendo m o número total de entradas (excluindo a polarização) aplicadas ao neurônio j ; wji (n)
é o peso sináptico conectando a saída do neurônio i ao neurônio j ; e yi (n) é o sinal de entrada
do neurônio j, ou equivalentemente, o sinal na saída do neurônio i. Se o neurônio j está na

primeira camada escondida do MLP, então o índice i refere-se ao i-ésimo nó de entrada do

MLP, para o qual escreve-se:

yi (n) = xi (n), (B.11)

onde xi (n) é o i-ésimo componente do vetor de entrada do neurônio j. Se, por outro lado,

o neurônio j está na camada de saída, o índice j refere-se ao j -ésimo nó de saída do MLP,

para o qual escreve-se:


O Algoritmo Backpropagation 111

yj (n) = oj (n), (B.12)

sendo oj (n) o j -ésimo componente do vetor de saída.

Esta saída é comparada com a resposta desejada dj (n) sendo obtido o sinal de erro ej (n)
para o j -ésimo neurônio de saída.

Portanto, o passo direto começa na primeira camada escondida pela apresentação do

vetor de entrada a ela e termina na camada de saída com a determinação do sinal de erro

para cada neurônio desta camada.

O passo reverso ( backward pass ) começa na camada de saída, propagando os sinais de

erro na direção contrária através do MLP (de volta para a entrada  retro-propagando), de

camada em camada, e recursivamente computando os gradientes locais para cada neurônio.

Este processo recursivo de determinação dos gradientes locais permite que sejam exe-

cutadas correções nos pesos sinápticos do MLP de acordo com a Regra Delta (Equação

(B.7)).

Para um neurônio localizado na camada de saída, o gradiente local é simplesmente o

sinal de erro daquele neurônio multiplicado pela primeira derivada de sua não-linearidade

(Equação (B.8)).

A partir do gradiente local de cada neurônio da camada de saída, usa-se a equação (B.7)

para computar as mudanças em todas as sinapses (conexões) que alimentam a camada de

saída.

Obtidos os gradientes locais para os neurônios da camada de saída, usa-se a equação

(B.8) para computar o gradiente local de cada neurônio na camada à esquerda.

A partir do gradiente local de cada neurônio da camada à esquerda, usa-se a equação

(B.7) para computar as mudanças em todas as sinapses (conexões) que alimentam esta

camada.

Este procedimento é continuado recursivamente, propagando correções nos pesos sináp-

ticos camada por camada, até a camada de entrada.

Note que durante cada ciclo passo direto - passo reverso ao longo da apresentação do

conjunto de treino ao MLP, o vetor de entrada para aquele ciclo é mantido xo.
O Algoritmo Backpropagation 112

A Derivada da Função de Ativação


A determinação do gradiente local para cada neurônio do MLP requer o conhecimento da

derivada ϕ0 (· ) da função ativação ϕ(· ) associada com o neurônio, conforme se infere da

equação (B.8). Para que esta derivada exista, é necessário que a função de ativação ϕ(· )
seja contínua. Uma função de ativação não-linear continuamente diferenciável, comumente

aplicada em redes MLP é a função sigmoidal, já descrita anteriormente. Duas formas da

função sigmoidal são aqui tratadas:

• Função Logística

Esta forma de não-linearidade sigmoidal é denida por:

1
ϕj (vj (n)) = , (B.13)
1 + exp(−avj (n))
com a > 0 e −∞ < vj (n) < ∞; onde vj (n) é o potencial de ativação do neurônio

j. De acordo com esta não-linearidade, a amplitude da saída ca restrita ao intervalo

0 ≤ yj ≤ 1.
Omitindo os índices n e j por simplicidade, e derivando a função de ativação expressa

em (B.13) com respeito a vj (n), temos:

   
0 d 1 a exp(−av) 2 1
ϕ (v) = = = aϕ (v) −1 , (B.14)
dv 1 + exp(−av) [1 + exp(−av)]2 ϕ(v)

e como yj (n) = ϕ(vj (n)), logo:

d
ϕ0 (v) = ϕ(vj (n)) = ayj (n)[1 − yj (n)]. (B.15)
dv
Note na Equação (B.15) que a derivada atinge valor máximo em yj (n) = 0.5, e seu

valor mínimo (igual a zero) em yj (n) = 0 , ou yj (n) = 1.0.


Já que a quantidade de mudança em um peso sináptico do MLP é proporcional à

derivada, segue que, para uma função de ativação sigmoidal, os pesos sinápticos sofrem

a maior alteração para aqueles neurônios no MLP onde os sinais assumem valores no

meio de seu intervalo de variação. Esta é uma característica que contribui para a

estabilidade do algoritmo de aprendizagem.

• Função Tangente Hiperbólica

Esta forma de não-linearidade sigmoidal é denida por:


O Algoritmo Backpropagation 113

 
1 − exp(−2 b vj (n))
ϕj (vj (n)) = a tanh(b vj (n)) = a , (B.16)
1 − exp(−2 b vj (n))
com a, b > 0.
De acordo com esta não-linearidade, a amplitude da saída ca restrita ao intervalo

a −a ≤ yj ≤ a. Omitindo os índices n e j por simplicidade, a derivada da função

ativação pode ser obtida através de

  2 
0 d 2 2 a tanh(bv)
ϕ (v) = dv
a tanh(bv)= a b sech (bv) = ab(1 − tanh (bv)) = ab 1 − = a
h 2
i h 2
i  2
  2 2

= ab 1 − (a tanh(bv))
a2
= ab 1 − ϕ a(v)
2 = ab 1 − ay2 = ab a a−y
2 = ab (a2 − y 2 ) =
= ab (a + y)(a − y).
(B.17)

Portanto:

d b
ϕ0 (v) = ϕ(vj (n)) = (a + yj (n))(a − yj (n)). (B.18)
dv a
A Figura B.4 mostra o gráco da função tangente hiperbólica e de sua derivada para

a = 1.7159 e b = 2/3.

Figura B.4: Gráco de ϕ(v) = a tanh(bv) e ϕ0 (v) = ab(1 − tanh2 (bv)) para a = 1.7159 e
b = 2/3.
O Algoritmo Backpropagation 114

Observe que, ao utilizarmos a Equação (B.15) como derivada da função logística e a

Equação (B.18) como derivada da função tangente hiperbólica, o gradiente local δj


dado por (B.8) pode ser calculado sem o uso explícito da denição analítica da função

de ativação.

Razão de Aprendizado e Fator de Momento


O algoritmo backpropagation provê uma aproximação da trajetória de movimento sobre a

superfície de erro no espaço de pesos sinápticos a qual, a cada ponto da superfície, segue a

direção de descida mais íngreme.

Quanto menor for feita a razão de aprendizado η, menores serão as correções aplicadas

aos pesos sinápticos do MLP de uma iteração para a próxima e mais suave será a trajetória

no espaço de pesos. Isto é obtido sob o custo de uma lenta convergência do algoritmo até

um valor de erro pequeno o suciente para ser aceitável.

Se, por outro lado, a razão de aprendizado η é feita grande, de modo a acelerar a conver-

gência do algoritmo, as correções feitas nos pesos sinápticos podem resultar demasiadamente

grandes, de modo que o algoritmo se torna instável (oscilatório).

Um método simples utilizado para acelerar a convergência e manter a trajetória estável

é o acréscimo do chamado Fator de Momento à Regra Delta (mostrada na Equação (B.6)).

Assim, teremos:

∆wji (n) = α ∆wji (n − 1) + η δj (n) yi (n), (B.19)

onde a constante α é denominada de Constante de Momento com 0 < α < 1. Seu efeito é

aumentar a velocidade da trajetória no espaço de pesos na direção da descida mais íngreme.

Da equação (B.19) nota-se que se a correção aplicada em determinado peso sináptico

mantém o mesmo sinal algébrico durante várias iterações consecutivas, situação que ocorre

quando a trajetória na superfície de erro desenrola-se ao longo de um caminho em descida

íngreme, a correção do peso sináptico é acelerada pelo fator de momento, já que, sendo o

caminho uma descida íngreme, o mínimo deve estar longe ainda. Um eventual mínimo local

encontrado ao longo desta descida acelerada pode, então, ser facilmente transpassado. Isto

ocorre porque, imaginando que a trajetória das coordenadas do vetor de pesos sinápticos Wj
de um neurônio j qualquer seja a trajetória de um móvel de grande massa descendo uma

ladeira irregular (isto é, com vários mínimos locais), em consequência do alto momento de

inércia (energia cinética) do móvel devido à sua massa, as irregularidades (mínimos locais)
O Algoritmo Backpropagation 115

não conseguem parar o movimento do móvel.

Por outro lado, se a correção aplicada em determinado peso sináptico troca o sinal

algébrico durante várias iterações consecutivas, situação esperada ocorrer quando a trajetória

na superfície de erro desenrola-se ao longo de um caminho próximo ao mínimo global, a

correção do peso sináptico é freada pela redução do valor absoluto médio do fator de momento

acrescentado, já que um mínimo (provavelmente global) está próximo e uma alta velocidade

poderia desestabilizar o algoritmo em torno do mínimo.


Referências Bibliográcas

AlBinHassan, N. M. e Wang, Y. (2011) Porosity prediction using the group method of data

handling, Geophysics, 76(5):O15O22.


Baan, M. V. d. e Jutten, C. (2000) Neural networks in geophysical applications, Geophysics,

65(4):10321047.
Bankhead, B. (2000) Integration the key to reservoir characterization, Oshore, 60(5):140.
Biondi, B.; Mavko, G.; Mukerji, T.; Rickett, J.; Lumley, D.; Deutsch, C.; Gundesø, R.

e Thiele, M. (1998) Reservoir monitoring: A multidisciplinary feasibility study, The

Leading Edge, 17(10):14041414.


Buiting, J. e Bacon, M. (1997) Using geophysical, geological, and petrophysical data to

characterize reservoirs in the north sea, In: 5th Conference on Petroleum Geology of NW
Europe.
Caers, J. (2005) Petroleum geostatistics, Richardson, TX: Society of Petroleum Engineers.

Caers, J.; Avseth, P. e Mukerji, T. (2001) Geostatistical integration of rock physics, seis-

mic amplitudes, and geologic models in north sea turbidite systems, The Leading Edge,

20(3):308312.
Chopra, S. (2001) Integrating coherence cube imaging and seismic inversion, The Leading

Edge, 20(4):354362.
Dai, H. e MacBeth, C. (1994) Split shear-wave analysis using an articial neural network,

First Break, 12(12):605613.


Dowla, F. U.; Taylor, S. R. e Anderson, R. W. (1990) Seismic discrimination with arti-

cial neural networks: preliminary results with regional spectral data, Bulletin of the

Seismological Society of America, 80(5):13461373.


dGB Earth Science (2015) OpendTect Pro Plugins Documentation - 6.0.0, http://static.
opendtect.org/images/PDF/dgb_userdoc.pdf, Acessado: 11/ 05/2016.

Galloway, W. E. e Sharp Jr, J. M. (1998) Characterizing aquifer heterogeneity within terrige-

nous clastic depositional systems, Hydrogeologic Models of Sedimentary Aquifers (Fraser,

116
Referências Bibliográcas 117

GS; Dowis, JM; editors). Society of Sedimentary Geologists, pp. 8590.

Gardner, G.; Gardner, L. e Gregory, A. (1974) Formation velocity and density-the diagnostic

basics for stratigraphic traps, Geophysics, 39(6):770780.


Gauw, D. S. d. (2008) Estudo integrado de análogo a reservatórios petrolíferos uviais:

caracterização, parametrização e modelagem tridimensional de depósitos recentes do rio

assu (rio grande do norte/brasil).

Haykin, S. (2007) Adaptive lter theory, Pearson Education India.

Haykin, S. (2009) Neural networks and learning machines, vol. 3, Pearson Education Upper

Saddle River.

Herrera, V. M.; Russell, B. e Flores, A. (2006) Neural networks in reservoir characterization,

The Leading Edge, 25(4):402411.


Huang, Z.; Shimeld, J.; Williamson, M. e Katsube, J. (1996) Permeability prediction with

articial neural network modeling in the venture gas eld, oshore eastern canada, Ge-

ophysics, 61(2):422436.
Langer, H.; Nunnari, G. e Occhipinti, L. (1996) Estimation of seismic waveform governing

parameters with neural networks, Journal of Geophysical Research: Solid Earth (1978

2012), 101(B9):2010920118.
Latimer, R. B.; Davidson, R. e Van Riel, P. (2000) An interpreter's guide to understanding

and working with seismic-derived acoustic impedance data, The leading edge, 19(3):242
256.

Lima, G. A.; Vidal, A. C.; Suslick, S. B. e de Análises Geoeconômicas, P. d. L. (2005) Esti-

mativa da incerteza na porosidade presente em dados de petrofísica e geofísica de poço,

In:XXVI Inerian Latin American Congresso n Computational Methods in Engineering.


Guarapari, ES, Brasil.
Macías, C. C.; Sen, M. K. e Stoa, P. L. (1997) Hopeld neural networks, and mean eld

annealing for seismic deconvolution and multiple attenuation, Geophysics, 62(3):992


1002.

Marques, E. A. R. (2011) Caracterização de Reservatórios Petrolíferos, Dissertação de Mes-

trado em Engenharia Geológica e de Minas, Universidade Técnica de Lisboa, Portugal.

McClelland, J. L.; Rumelhart, D. E. e Hinton, G. E. (1986) The appeal of parallel distributed

processing, Cambridge, MA: MIT Press.

McCormack, M. D. (1991) Neural computing in geophysics, The Leading Edge, 10(1):1115.


McCormack, M. D.; Zaucha, D. E. e Dushek, D. W. (1993) First-break refraction event

picking and seismic data trace editing using neural networks, 58(1):6778.
Referências Bibliográcas 118

McCulloch, W. S. e Pitts, W. (1943) A logical calculus of idea's immanent in nervous activity,

In: Bulletin of Mathematical Biophysics 5, pp. 115133, Reprinted in Anderson, J. A.

and Roseneld, E. (1988) Neurocomputing: Foundations of Research, Cambridge MIT

Press.

Murat, M. E. e Rudman, A. J. (1992) Automated rst arrival picking: A neural network

approach, Geophysical Prospecting, 40(6):587604.


Nery, G. (2013) Perlagem geofísica em poço aberto: fundamentos básicos com ênfase em

petróleo, SBGF, Rj, Brasil.

Nestvold, E. (1996) The impact of 3-d seismic data on exploration, eld development, and

production, Applications of, 3:17.


Pérez, Y. A. R. (2008) Caracterização geométrica e parametrização de depósitos transacionais

recentes e sua aplicação na modelagem de reservatórios petrolíferos, Tese de Doutorado,

Universidade Federal do Rio Grande do Norte.

Poulton, M. M.; Sternberg, B. K. e Glass, C. E. (1992) Location of subsurface targets in

geophysical data using neural networks, Geophysics, 57(12):15341544.


Pyrcz, M. J.; Catuneanu, O. e Deutsch, C. V. (2005) Stochastic surface-based modeling of

turbidite lobes, AAPG bulletin, 89(2):177191.


Qayyum, F.; Hemstra, N.; Singh, R. et al. (2013) A modern approach to build 3d sequence

stratigraphic framework, Oil & Gas Journal, 111(10):4646.


Raeesi, M.; Moradzadeh, A.; Ardejani, F. D. e Rahimi, M. (2012) Classication and identi-

cation of hydrocarbon reservoir lithofacies and their heterogeneity using seismic attri-

butes, logs data and articial neural networks, Journal of Petroleum Science and engine-

ering, 82:151165.
Ramon, C. y. (1911) Histologie du systeme nerveux de l'homme et des vertebras, Paris:

Maloine, 2.
Riel, P. V. (2000) The past, present, and future of quantitative reservoir characterization,

The leading edge, 19(8):878881.


Romeo, G. (1994) Seismic signals detection and classication using artiricial neural networks,

Annals of Geophysics, 37(3).


Rosenblatt, F. (1958) The perceptron: a probabilistic model for information storage and

organization in the brain., Psychological review, 65(6):386.


Röth, G. e Tarantola, A. (1994) Neural networks and inversion of seismic data, Journal of

Geophysical Research: Solid Earth (19782012), 99(B4):67536768.


Referências Bibliográcas 119

Sancevero, S. S. (2003) Modelagem sismica de corpos turbiditicos sinteticos gerados por

simulação booleana.

Silva, A. P.; Aragão, M. e Magalhães, A. (2008) Ambientes de sedimentação siliciclástica do

brasil, Beca-BALL Edições.

Wang, L.-X. e Mendel, J. M. (1992) Adaptive minimum prediction-error deconvolution and

source wavelet estimation using hopeld neural networks, Geophysics, 57(5):670679.


Werbos, P. (1974) Beyond regression: new tools for prediction and analysis in the beha-

vioral sciences: unpubl, Tese de Doutorado, Masters thesis, Harvard Univ. Cambridge,

Massachusetts.

Zhang, Y. e Paulson, K. (1997) Magnetotelluric inversion using regularized hopeld neural

networks, Geophysical prospecting, 45(5):725743.

View publication stats

Vous aimerez peut-être aussi