Upload
lamthuy
View
213
Download
0
Embed Size (px)
Citation preview
UNIVERSIDADE DO RIO GRANDE DO NORTEFEDERAL
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
CENTRO DE TECNOLOGIA
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA E ENGENHARIA
DE PETRÓLEO
Uma aplicação da apredizagem por reforço naotimização da produção em um campo de
petróleo
Amanda Gondim de Oliveira
Orientador: Prof. Dr. Jorge Dantas de Melo
Co-orientador: Prof. Dr. Adrião Duarte Dória Neto
Natal, RN, Janeiro de 2010
UNIVERSIDADE DO RIO GRANDE DO NORTEFEDERAL
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
CENTRO DE TECNOLOGIA
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA E ENGENHARIA
DE PETRÓLEO
Uma aplicação da apredizagem por reforço naotimização da produção em um campo de
petróleo
Amanda Gondim de Oliveira
Orientador: Prof. Dr. Jorge Dantas de Melo
Co-orientador: Prof. Dr. Adrião Duarte Dória Neto
Dissertação de Mestradoapresentada aoPrograma de Pós-Graduação em Ciência eEngenharia de Petróleo da UFRN (área deconcentração: Automação na Indústria dePetróleo e Gás Natural) como parte dos re-quisitos para obtenção do título de Mestreem Ciência e Engenharia de Petróleo.
Natal, RN, Janeiro de 2010
Um sistema inteligente para o auxílio detomadas de decisões que visam à otimização da
produção em um campo de petróleo
Amanda Gondim de Oliveira
Dissertação de Mestrado aprovada em 27 de janeiro de 2010 pela banca examinadoracomposta pelos seguintes membros:
Prof. Dr. Jorge Dantas de Melo (orientador) . . . . . . . . . . . . . .. . . . . . DCA/UFRN
Prof. Dr. Adrião Duarte Dória Neto (co-orientador) . . . . . . .. . . . . . DCA/UFRN
Prof. Dr. Wilson da Mata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . DEE/UFRN
Prof. Dr. Francisco Chagas de Lima Junior . . . . . . . . . . . . . . . . .. . . . . . . . . UERN[Sutton & Barto 1998] [Russel & Norvig 1995] [Villanueva n.d.] [Almeida
2003] [da Silva 2006] [Nepomucemo 1997] [da MottaSalles Barreto 2008] [Bittencourt 1997] [de Araújo Cavalcante 2004] [Pedroso
1999] [Thomas 2001] [Rosa 2002] [Bianchi 2004] [Camponogara&Serra 2005] [de Lima Júnior 2005] [Valdivia 2005] [Almeida 2007] [de Oliveira 2006]
Resumo
O objetivo da engenharia de reservatórios é o de gerenciar campos de produção de
petróleo de forma a maximizar a produção dos hidrocarbonetos obedecendo a restrições
físicas e econômicas existentes. A definição de estratégiasde produção é uma atividade
complexa por envolver diversas variáveis do processo. Deste modo, um sistema inteli-
gente, que auxilie na otimização das alternativas de desenvolvimento do campo, torna-se
bastante útil no dia-a-dia dos engenheiros de reservatórios. Este trabalho propõe o estudo
preliminar de um sistema inteligente de auxílio à tomadas dedecisões, no que diz respeito
à otimização de estratégias de produção em campos de petróleo. A inteligência desse sis-
tema será implementada por meio do uso da técnica de aprendizado por reforço, a qual
se apresenta como uma poderosa ferramenta em problemas de decisão multi-estágios. O
sistema estudado visa permitir que o especialista obtenha,em tempo hábil, a alternativa
ótima (ou quase-ótima) para o desenvolvimento de um campo depetróleo conhecido.
Palavras-chave: aprendizado por reforço, simulação matemática de reservatórios,
otimização da produção de petróleo.
Abstract
The objective of reservoir engineering is to manage fields ofoil production in order
to maximize the production of hydrocarbons according to economic and physical res-
trictions. The deciding of a production strategy is a complex activity involving several
variables in the process. Thus, a smart system, which assists in the optimization of the
options for developing of the field, is very useful in day-to-day of reservoir engineers.
This paper proposes the development of an intelligent system to aid decision making, re-
garding the optimization of strategies of production in oilfields. The intelligence of this
system will be implemented through the use of the technique of reinforcement learning,
which is presented as a powerful tool in problems of multi-stage decision. The proposed
system will allow the specialist to obtain, in time, a great alternative (or near-optimal) for
the development of an oil field known.
Key-words: reinforcement learning, reservoir simulator, optimization of oil produc-
tion.
Sumário
Sumário i
Lista de Figuras iii
Lista de Tabelas v
Lista de Símbolos e Abreviaturas vi
1 Introdução Geral 1
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Campos Inteligentes e o Processo de Tomada de Decisão . . . .. . . . . 3
1.4 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Revisão Bibliográfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.6 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 O Problema da Aprendizagem por Reforço 8
2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Fundamentos Matemáticos . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Processos de Decisões Sequenciais . . . . . . . . . . . . . . . .10
2.2.2 Processo Markoviano de Decisão . . . . . . . . . . . . . . . . . 12
2.2.3 O Aprendizado por Reforço . . . . . . . . . . . . . . . . . . . . 13
2.2.4 O AlgoritmoQ-Learning . . . . . . . . . . . . . . . . . . . . . . 19
i
3 Fundamentos de Engenharia de Reservatórios 22
3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Histórico de Produção . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3 Mecanismos de Produção . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.4 Estimativas de Reservas . . . . . . . . . . . . . . . . . . . . . . . . . . .28
3.5 Métodos de Cálculo para Estimativas de Reservas . . . . . . . .. . . . . 30
3.6 Simulação Matemática de Reservatórios . . . . . . . . . . . . . .. . . . 31
3.6.1 Uso de Simuladores numéricos para Estudos de Reservatórios . . 33
4 Metodologia 35
4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2 Arquitetura do Sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.3 Modelagem do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.3.1 Modelagem do Reservatório . . . . . . . . . . . . . . . . . . . . 39
4.3.2 Modelagem dos Componentes do Sistema Otimizador . . . . .. 40
4.4 O Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5 Resultados e Discussões 47
5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2 Estudo de Caso 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.3 Estudo de Caso 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.1 Experimento com Ciclos de Vapor com duração de 3 meses . .. 58
6 Conclusão 62
Referências Bibliográficas 65
Lista de Figuras
2.1 Esquema da aprendizagem por reforço. . . . . . . . . . . . . . . . .. . . 11
2.2 A Interação Agente-Ambiente na Aprendizagem por Reforço. . . . . . . 14
3.1 Fluidos no Reservatório e na Superfície. . . . . . . . . . . . . .. . . . . 23
3.2 Reservatório com Mecanismo de Gás em Solução. . . . . . . . . .. . . . 26
3.3 Reservatório com Mecanismo de Capa de Gás. . . . . . . . . . . . . .. 26
3.4 Reservatório com Mecanismo de Influxo de Água. . . . . . . . . .. . . . 27
3.5 Reservatório com Mecanismo Combinado. . . . . . . . . . . . . . . .. . 27
3.6 Exemplo de Volume Recuperável e Fator de Recuperação. . .. . . . . . 29
4.1 Pirâmide da Automação em Processos Industriais. . . . . . .. . . . . . . 36
4.2 Arquitetura do Sistema. . . . . . . . . . . . . . . . . . . . . . . . . . . .38
4.3 Modelagem do Reservatório em Estudo. . . . . . . . . . . . . . . . .. . 39
4.4 Exemplo de curva de produção acumulada e produção anual de um campo. 41
4.5 Curva de produção anual para a alternativa sem injeção contínua de vapor. 41
4.6 Curva de produção anual para a alternativa com injeção contínua de vapor. 42
4.7 Fluxo de Dados no Algoritmo de Aprendizado por Reforço. .. . . . . . . 44
4.8 Fluxo das iterações do algoritmo durante a simulação. . .. . . . . . . . . 46
5.1 Comparação dos efeitos de tomadas de decisão distintas noano de 2004. . 49
5.2 Curva de produção acumulada para a alternativa 1. . . . . . . .. . . . . 50
5.3 Curva de produção acumulada para a alternativa 2. . . . . . . .. . . . . 51
iii
5.4 Comparação de VPLs entre as Alternativas de Desenvolvimento. . . . . . 52
5.5 Curva de produção anual da alternativa 1. . . . . . . . . . . . . . .. . . 53
5.6 Curva de produção anual da alternativa 2. . . . . . . . . . . . . . .. . . 54
5.7 Curva de produção acumulada da alternativa com injeção cíclica de vapor. 56
5.8 Gráfico Comparativo de VPL: Contínua, Cíclica e Sem Vapor. . .. . . . 58
5.9 Curva de produção acumulada da alternativa com ciclo de 1 ano. . . . . . 59
5.10 Curva de produção acumulada da alternativa com ciclo de 3meses. . . . . 59
5.11 Gráfico Comparativo de VPL, Volume de Produção e Valores de ROV. . . 60
Lista de Tabelas
4.1 Exemplo de Espaço de Estados no Ambiente. . . . . . . . . . . . . .. . 40
5.1 Valores Finais da MatrizQ(s,a) para o Estudo de Caso 1. . . . . . . . . . 51
5.2 Diferença entre os volumes de produção anuais das alternativas 1 e 2. . . 53
5.3 Valores de ROV da alternativa 1. . . . . . . . . . . . . . . . . . . . . .. 55
5.4 Valores Finais da MatrizQ(s,a) para o Estudo de Caso 2. . . . . . . . . . 57
5.5 Comparação de VPL e ROV na injeção cíclica . . . . . . . . . . . . . .. 60
v
Lista de Símbolos e Abreviaturas
AR Aprendizagem por Reforço
BCP Bombeio por Cavidades Progressivas
BCS Bombeio Centrífugo Submerso
BSW Basic Sediments and Water
MDP Markov Decision Process
RAO Razão Água-Óleo
RGO Razão Gás-Óleo
VPL Valor Presente Líquido
vi
CAPÍTULO 1
Introdução Geral
CAPÍTULO 1. INTRODUÇÃO GERAL 2
1.1 Introdução
Um reservatório de petróleo é um sistema dinâmico e complexoenvolvendo um grande
número de variáveis que determinam sua curva de produção. A engenharia de reservató-
rios tem como objetivo principal desenvolver estratégias que maximizem a produção dos
hidrocarbonetos, respeitando as restrições de viabilidade econômica bem como os fatores
físicos e ambientais do reservatório.
Com o decorrer do tempo, a energia natural dos reservatórios diminui e tem-se con-
sequentemente um decaimento nas curvas de produção. Como tentativa de recuperar a
produção do campo, utilizam-se comumente técnicas de recuperação suplementar. Estas
técnicas permitem recuperar parte da produção, e muitas vezes aumentá-la, até atingir
estágios de produção quando podem ser considerados campos maduros.
1.2 Motivação
Quando e como iniciar o processo de injeção de água ou de vapor, bem como a defi-
nição da disposição dos poços produtores e injetores no campo, são variáveis que podem
compor diversas alternativas de desenvolvimento da produção. Devido às restrições de
manipulação de campos petrolíferos reais, o uso de simuladores matemáticos computaci-
onais no estudo dos reservatórios torna-se bastante útil. Estes simuladores são capazes de
fornecer valores da produção de óleo, gás e água, bem como fazer previsões do compor-
tamento futuro da curva de produção do campo estudado.
O uso de uma metodologia de otimização eficiente permite auxiliar na tomada de
decisão, promovendo a melhor estratégia de produção, consequentemente a maximização
dos lucros e minimização dos riscos dos grandes investimentos relacionados à área de
petróleo. A tomada de decisão consiste em determinar qual destas alternativas é a que
permite otimizar a função custo do processo envolvido e deveser feita por profissionais
CAPÍTULO 1. INTRODUÇÃO GERAL 3
especialistas da área de gerenciamento de reservatórios depetróleo.
Deste modo, torna-se bastante importante um processo de otimização que permita
avaliar diferentes perfis de produção para diferentes configurações, de forma a determi-
nar a alternativa ótima do ponto de vista econômico sob as restrições técnicas existentes.
Porém, frequentemente a solução operacional para o desenvolvimento de um campo de
petróleo não é ótima, mas apenas um resultado viável que satisfaz as restrições operacio-
nais e econômicas em um momento específico.
A automação dos poços de petróleo em terra (On-shore) e em mar (Off-shore) vem
apresentando um notável crescimento desde o final da década de 90. Esse processo nos
leva ao conceito de campos inteligentes, que nada mais são que um conjunto de poços
dotados de instrumentação, a qual permite a monitoração e o controle de variáveis da pro-
dução. Esses instrumentos são capazes de fornecer uma base de dados sobre o campo, a
qual se apresenta componente essencial no desenvolvimentode um sistema de otimização
da produção.
1.3 Campos Inteligentes e o Processo de Tomada de De-
cisão
A engenharia de reservatórios tem apresentado um grande crescimento em temas re-
lacionados à utilização de poços inteligentes. Esse tipo depoço possui um conjunto de
equipamentos de instrumentação como sensores, válvulas e dispositivos de controle de
fluxo, que são instalados ao longo de sua coluna de produção e permitem o monitora-
mento das variáveis de processo. Quando se estende o conceito de poço inteligente temos
o que se chama de campo inteligente, que nada mais é do que um conjunto de poços
produtores e injetores de um campo equipados com instrumentação e integrados entre
si. [da Silva 2006]
Os dados coletados via o sistema de sensores alimentam um banco de dados e são
CAPÍTULO 1. INTRODUÇÃO GERAL 4
supervisionados em tempo real, o que possibilita a tomada dedecisões que visam a otimi-
zação da produção. Os processos de controle e automação possibilitam a implementação
de estratégias ditas inteligentes que poderão auxiliar na almejada otimização. O grande
número de dados gerados nesse tipo de campo representam um grande desafio para os
engenheiros de reservatório. Apesar das valiosas informações que é possível se obter
sobre os poços, deve-se lembrar que esses dados devem ser utilizados para a análise do
campo como um todo e não dos poços individualmente. Isso se deve ao fato de que um
reservatório é um sistema dinâmico em constante escoamentode fluido através dos poços
perfurados em sua área, ou seja, o comportamento de determinado poço pode ser total-
mente influenciado pelo comportamento dos poços ao seu redor. Diante do exposto, é
notável que uma tomada de decisão poderá influenciar não só a produção de um poço mas
de um conjunto de poços inter-relacionados no reservatório.
Um exemplo desse tipo de decisão é com relação à injeção de vapor em determinada
área do reservatório. Sabe-se que a injeção de vapor em um poço influencia diretamente
no comportamento dos poços que o circundam, e por esse motivoa localização do poço
injetor, sua cota de injeção, bem como o tipo e o momento exatodessa injeção são fa-
tores que devem ser bem analisados. A principal característica de um poço influenciado
por uma injeção de vapor é sem dúvida o aumento de produção líquida de óleo. Porém
aspectos negativos como o aumento da produção de água nos poços e o aumento exces-
sivo da temperatura do fluido, também são frequentemente observados. Além da análise
técnica dos aspectos citados, ao se tomar uma decisão envolvendo injeção de vapor, deve
ser levada em consideração principalmente a viabilidade econômica do projeto.
De forma resumida, os processos de tomada de decisões no desenvolvimento de um
campo de petróleo são bastante complexos por envolverem diversas variáveis de um sis-
tema dinâmico que estão totalmente inter-relacionadas. Nocotidiano da engenharia de
petróleo nem sempre as decisões obedecem a um critério de otimização. Por vezes não há
tempo hábil para a análise de todas as possibilidades, outras vezes são escolhidos critérios
CAPÍTULO 1. INTRODUÇÃO GERAL 5
que satisfazem alguma restrição operacional e em outras ocasiões a solução surge através
da comparação com outros campos semelhantes ou próximos.
Diante desta complexidade, um sistema inteligente que auxilie nesse processo se torna
bastante útil no dia-a-dia dos engenheiros de reservatório, principalmente quando se tem
à disposição a base de dados de um campo inteligente, fator que torna possível a imple-
mentação desse tipo de sistema.
A metodologia desse sistema inteligente consiste em analisar, em conjunto com um
simulador matemático, o comportamento futuro do reservatório ao longo dos anos. A
partir daí, esse sistema deve sugerir medidas que permitam se obter o máximo de produção
dentro dos limites físicos e econômicos existentes, proporcionando a minimização dos
riscos dos grandes investimentos relacionados à área de petróleo.
1.4 Objetivos
O uso de técnicas inteligentes, tais como redes neurais, lógica fuzzy, algoritmos evo-
lutivos têm sido as ferramentas mais utilizadas pela indústria do petróleo quando da im-
plementação de um sistema inteligente. Os métodos evolutivos têm se apresentado como
uma das principais técnicas utilizadas no problema de otimização. Uma técnica inteli-
gente que pode ser incorporada nesse problema é o aprendizado por reforço, que é uma
técnica de natureza estocástica e que tem como base a área de estudo de aprendizado de
máquinas.
Sendo assim, o objetivo principal deste trabalho é propor umestudo preliminar de
um sistema inteligente, baseado na técnica de aprendizado por reforço, que implemente
estratégias de controle e tomadas de decisão visando a otimização da produção de petróleo
em um reservatório.
O sistema inteligente deverá caracterizar o problema como uma máquina de estados
e utilizar o algoritmoQ-Learningno auxílio às tomadas de decisões, para que se obtenha
CAPÍTULO 1. INTRODUÇÃO GERAL 6
a maximização de uma função de custo especificada. O algoritmo deverá ter como saída
uma alternativa de desenvolvimento ótima que forneça ao especialista, em tempo hábil, a
melhor decisão a ser tomada para a situação em questão.
1.5 Revisão Bibliográfica
Recentemente inúmeros trabalhos envolvendo otimização deproblemas na indústria
do petróleo vêm sendo divulgados. InicialmentePedroso (1999)estudou a otimização
do número ideal de poços bem como suas respectivas locações fazendo uso apenas do
simulador numérico e de computação paralela.
Em Villanueva (n.d.), a otimização da produção é realizada por meio de algoritmos
genéticos em conjunto com o simulador de reservatórios IMEXda CMG. O algoritmo
evolutivo teve como objetivo determinar a localização dos poços produtores e injetores de
forma a maximizar o VPL da atividade.
Ainda na área de computação evolutiva,Almeida (2003)avaliou a otimização com
o emprego conjunto das técnicas de: Algoritmos genéticos, Algortitmos culturais e Co-
evolução, além da utilização da computação paralela com o intuito de reduzir o tempo
computacional. A alternativa consistia em encontrar a quantidade, localização, tipo (ver-
tical/horizontal) e função (injetor/produtor) dos poços do campo.
Em da Silva (2006), utilizou-se as redes neurais artificiais e os algoritmos genéticos
como ferramentas de modelagem de reservatórios para produzir soluções para a predição
e otimização na produção de petróleo.
Com o uso de técnicas híbridas,Bittencourt (1997)buscou otimizar do ponto de vista
econômico problemas da indústria do petróleo. Entre as técnicas utilizadas destacam-se
os algoritmos genéticos, a buscatabue a buscapolytope.
CAPÍTULO 1. INTRODUÇÃO GERAL 7
1.6 Organização do Trabalho
Esta dissertação de mestrado está organizada da seguinte forma:
• Capítulo 2: Introduz os conceitos de aprendizado por reforço, apresentando suas
principais características bem como os fundamentos matemáticos que embasam
esta técnica.
• Capítulo 3: Apresenta alguns conceitos essenciais para o entendimento dos objeti-
vos e dos processos que envolvem a disciplina de engenharia de reservatório.
• Capítulo 4: Descreve o objeto deste trabalho, apresentando uma descrição deta-
lhada do problema envolvido, bem como a modelagem sugerida para o mesmo na
implementação do sistema inteligente.
• Capítulo 5: Destaca os principais resultados que foram obtidos com este trabalho,
além de algumas discussões à respeito dos mesmos.
• Finalmente no Capítulo 6 são feitas as conclusões sobre o trabalho, além de suges-
tões para trabalhos futuros relacionados aos temas abordados.
CAPÍTULO 2
O Problema da Aprendizagem por
Reforço
CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 9
2.1 Introdução
A Aprendizagem por Reforço (AR) é um formalismo da inteligência artificial que per-
mite a um indivíduo aprender a partir da sua interação com o ambiente no qual ele está
inserido [Sutton & Barto 1998]. Esta é uma abordagem computacional para a compreen-
são e automatização das metas de aprendizagem e de tomada de decisão. Ela se distingue
de outras abordagens computacionais pela sua ênfase na aprendizagem do indivíduo a par-
tir da interação direta com o seu ambiente, sem depender de supervisão ou de exemplares
de modelos completos do ambiente.
O problema da aprendizagem por reforço é concebido para ser uma simples definição
do problema da aprendizagem a partir da interação para alcançar uma meta. O aluno
é chamado de agente. A coisa com o qual ele interage, compreendendo tudo fora do
agente, é chamado de ambiente. Estes interagem continuamente, o agente selecionando
as ações e o ambiente respondendo a essas ações e apresentando novas situações para
o agente. O ambiente também fornece recompensas, que são valores numéricos que o
agente tenta maximizar ao longo do tempo. A especificação completa de um ambiente
define uma tarefa, um exemplo do problema da aprendizagem porreforço. O AR se
apresenta como um método de buscaon-linepara encontrar uma política de decisão ótima
em problemas de decisão multi-estágios. A aprendizagem dessa técnica, que é baseada
na noção de recompensa e punição, se dá através do conhecimento sobre o estado do
ambiente, das ações efetuadas no ambiente e das mudanças de estado decorrentes das
ações. Existem alguns conceitos matemáticos que devem ser conhecidos para facilitar a
modelagem de um problema como um sistema de aprendizagem porreforço. Na seção a
seguir, apresentamos uma breve descrição destes conceitos.
CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 10
2.2 Fundamentos Matemáticos
2.2.1 Processos de Decisões Sequenciais
Uma tomada de decisão pode ser caracterizada como um processo de escolha, seleção
de alternativas ou caminhos de ação ótima, entre o grupo de alternativas para atingir um
objetivo ou alguns objetivos.
Um problema de decisão é considerado simples, quando um agente deve tomar deci-
sões de modo que, em média, ele consiga o que quer. Nesses problemas a utilidade de
cada ação no ambiente é conhecida.
Um certo conjunto de objetivos não conseguem ser atingidos utilizando-se somente
os métodos de tomada de decisão simples, mas podem ser resolvidos através de uma
sequência de tomadas de decisão. Estes problemas de decisão, conhecidos também como
processos de decisão multi-estágios, são dependentes uns dos outros.
Os problemas de tomada de decisão sequencial envolvem uma série de escolhas su-
cessivas cujos efeitos podem se estender indefinidamente pelo futuro. Trata-se de um
paradigma genérico que engloba desde tarefas simples do dia-a-dia até desafios enfrenta-
dos pela indústria.
A característica fundamental dessa classe de problemas é que as decisões envolvidas
têm um efeito cumulativo, ou seja, as consequências de uma determinada ação podem se
estender por um intervalo indefinido de tempo. [da Motta Salles Barreto 2008]
Um cenário típico desse tipo de problema é onde o agente observa, toma uma decisão
condicionada à observação e age, observa novamente, toma outra decisão condicionada à
observação e age. Note que as ações subsequentes podem depender do que é observado
e o que é observado depende das ações anteriores. Às vezes a única razão para executar
uma ação é fornecer informação para ações futuras.
Para que seja possível lidar com problemas de decisão sequenciais de uma maneira
CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 11
sistemática é necessário estabelecer um modelo que descreva formalmente como ocorre
o processo de tomada de decisão. Nesse modelo as decisões sãotomadas por um agente
que interage com um ambiente. Em geral a interação do agente com o ambiente se dá
de maneira discreta, ou seja, o agente deve tomar as decisõesem instantes de tempo
específicost = 1,2, . . . ,T. A cada instante de tempot o agente se encontra em um estado
st e deve selecionar uma açãoat de um conjunto de ações disponíveis. A execução da
açãoat no estadost move o agente para um novo estadost+1, onde ele deve escolher
novamente uma ação, reiniciando o ciclo. A interação do agente com o ambiente pode
ocorrer indefinidamente (T = ∞) ou até que ele alcance um estado terminal (T < ∞). No
caso em que (T < ∞), a sequência de ações executadas pelo agente de um estado inicial
qualquer até um estado terminal é chamada de episódio. O conjunto formado por todos os
estados possíveis do ambiente é chamado de espaço de estadose normalmente denotado
por S. O conjunto de ações disponíveis no estadost é denotado porA(st), aqui também
uma coleção finita de elementos.
Para que uma escolha se caracterize como uma decisão é necessário estabelecer uma
maneira de comparar as diferentes alternativas. É aí que entra o conceito de recompensa.
Uma recompensa é um valor escalar que serve como medida da qualidade de uma de-
cisão. Quanto maior a recompensa, melhor para o agente. No modelo adotado aqui as
recompensas são entregues logo após a execução de uma ação, ou seja, a cada transição
st → st+1 o agente recebe uma recompensar ∈ R. O objetivo do agente é maximizar a
quantidade total de recompensas recebidas na interação como ambiente.
ambiente
agente
a tst+1 rt+1
Figura 2.1: Esquema da aprendizagem por reforço.
CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 12
As ações podem representar qualquer decisão que se pretendaaprender a tomar, e os
estados qualquer informação potencialmente útil nesse processo.
2.2.2 Processo Markoviano de Decisão
De uma maneira geral, a evolução dos sistemas dinâmicos não ocorre de maneira
determinística, ou seja, existe uma incerteza associada à cada transição de estadosst →
st+1. Isso significa que nem sempre a execução de uma determinada açãoat em um estado
st resulta sempre no mesmo estadost+1.
Matematicamente, a incerteza é incorporada ao modelo de tomada de decisão através
de uma distribuição de probabilidades, na qual sua função depende de toda a história do
sistema até o instantet, o que torna a descrição do modelo uma tarefa complexa do ponto
de vista computacional. Em muitos casos é possível se fazer uma simplificação do sistema
quando o mesmo apresenta a propriedadeMarkov.
Formalmente a propriedadeMarkové definida como uma condição que especifica que
o estado de um sistema no próximo instante(t + 1) é uma função que depende somente
do que se pode observar acerca do estado atual e da ação tomadapelo agente neste estado,
isto é, o estado de um sistema independe da sua história. Em umsistema Markoviano a
definição do estadost+1 que segue a execução da açãoat no estadost depende unicamente
destes dois últimos, ou seja, a probabilidade de ocorrênciado estadost+1 é dada por uma
função:P(st+1 | st ,at). [Bianchi 2004]
Um problema de decisão sequencial pode ser descrito formalmente por meio de um
processoMarkovianode Decisão e uma premissa básica quando se usa os MDPs como
um modelo de tomada de decisão é que a dinâmica do sistema atenda à propriedadeMar-
koviana.
Um ProcessoMarkovianode Decisão é aquele que obedece à condição deMarkov
e pode ser descrito como um processo estocástico no qual a distribuição futura de uma
variável depende somente do seu estado atual. Um MDP é definido formalmente pela
CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 13
quádrupla〈S,A,T,R〉, onde:
• S: é um conjunto finito de estados do ambiente.
• A: é um conjunto finito de ações que o agente pode realizar.
• T: S×A→∏(s) é a função de transição de estado, onde∏(s) é uma distribuição de
probabilidades sobre o conjunto de estadosS. T(st ,at ,st+1) define a probabilidade
de realizar a transição do estadost para o estadost+1 quando se executa a açãoat .
• R: S×A→ℜ é a função de recompensa, que especifica a tarefa do agente, definindo
a recompensa recebida por um agente ao selecionar a açãoa estando no estados.
Resolver um MDP consiste em computar a políticaπ: S×A que maximiza (ou mi-
nimiza) alguma função, geralmente a recompensa recebida, ao longo do tempo. [Bianchi
2004]
2.2.3 O Aprendizado por Reforço
Um sistema típico de aprendizagem por reforço constitui-sebasicamente de um agente
interagindo em um ambiente via percepção e ação. Ou seja, o agente percebe as situações
encontradas no ambiente, pelo menos parcialmente, e baseado nessas medições, seleciona
uma ação a ser implementada. A ação tomada muda de alguma forma o ambiente, afe-
tando o estado na tentativa de alcançar o seu objetivo, e as mudanças são comunicadas ao
agente através de um sinal de reforço e do próximo estado. [Camponogara & Serra 2005]
Mais especificamente, o agente e ambiente interagem entre si, em uma sequência de
passos discretos no tempo. Em cada passo, o agente recebe umarepresentação do estado
do ambientest ∈ S, ondeSé o conjunto de estados possíveis, e baseado nisso seleciona
uma açãoat ∈ A, ondeA é o conjunto de ações disponíveis no estadost . No próximo
passo, em parte como consequência da sua ação, o agente recebe uma recompensa nu-
méricart+1, e se encontra em um estado novost+1. O diagrama a seguir ilustra como
acontece a interação agente-ambiente.
CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 14
Agente
Ambientest+1
rt+1
a t
Açãort
Reforço (Ganho)st
Estado
Figura 2.2: A Interação Agente-Ambiente na Aprendizagem por Reforço.[Sutton & Barto 1998]
No AR existe um crítico externo ao ambiente, que avalia a açãotomada, mas sem
indicar explicitamente a ação correta. O agente não é informado quais as ações a to-
mar, como na maioria das formas de aprendizagem automática,mas sim deve descobrir
quais as ações lhe proporcionam um melhor rendimento. Nos casos mais interessantes e
desafiadores, as ações podem afetar não só a recompensa imediata, mas também a pró-
xima situação e, por isso, todas as recompensas. Estas duas características - busca por
tentativa e erro e recompensa atrasada - são as duas mais importantes características da
aprendizagem por reforço.
A cada passo, o agente implementa um mapeamento de estados para probabilidades
de seleção de cada possível ação. Este mapeamento é chamado de política do agente e
é denotadoπt , ondeπt(s,a) é a probabilidade de queat = a, sest = s. Os métodos de
aprendizagem por reforço especificam a forma como o agente muda a sua política com
resultado de sua experiência. O objetivo do agente é o de maximizar o valor total de
recompensas que recebe em longo prazo.
Os elementos principais que caracterizam a aprendizagem por reforço, diferenciando-
a de outras abordagens de aprendizagem, são descritos abaixo:
• Aprendizado por interação: O agente AR age no ambiente e aguarda pelo valor de
reforço que o ambiente retorna em resposta a ação tomada.
• Retorno atrasado: Uma ação é produto de uma decisão local no ambiente, sendo seu
CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 15
efeito imediato de natureza local, enquanto que, em um sistema de Aprendizagem
por Reforço, busca-se alcançar objetivos globais no ambiente.
• Orientado pelo objetivo: Simplesmente, existe um agente que age dentro do ambi-
ente desconhecido tentando alcançar um objetivo. O objetivo é, geralmente, otimi-
zar algum comportamento dentro do ambiente.
• Investigação× Exploração: Dilema que consiste em decidir quando se deve apren-
der e quando não se deve aprender sobre o ambiente, mas usar a informação já
obtida até o momento. Para que um sistema seja realmente autônomo, esta decisão
deve ser tomada pelo próprio sistema.
Quase todos os algoritmos da aprendizagem por reforço são baseados na estimativa da
função valor que estimam o quão bom é para o agente estar em um determinado estado (ou
o quão bom é executar uma determinada ação em um determinado estado). A noção de
“quão bom” aqui é definida em termos de futuras recompensas que podem ser esperadas,
ou, sendo mais preciso, em termos de retorno esperado. É claro que as recompensas que
o agente espera receber no futuro dependerão das ações que o mesmo irá tomar. Assim,
as funções valor são definidas de acordo as políticas.
Lembre-se que uma políticaπ, é um mapeamento a partir de cada estadost e de cada
açãoa, para a probabilidadeπt(s,a) de tomar a açãoa quando no estadost . Informal-
mente, o valor de um Estadost sob uma políticaπ, denotadaV(s), é o retorno esperado
quando se inicia ems e segue a políticaπ daí em diante. Para MDPs, podemos definir
formalmente como:
Vπ(s) = Eπ{Rt | st = s} = Eπ{∞
∑k=0
γkrt+k+1 | st = s}, (2.1)
ondeRt representa o retorno total acumulado e é definido como:
CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 16
Rt =∞
∑k=0
rt+k+1 (2.2)
Eπ denota o valor esperado, dado que o agente segue políticaπ, e t é qualquer passo
no tempo. Nós chamamosVπ de função valor-estado para a políticaπ.
Similarmente, nós definimos o valor de tomar a açãoa estando no estados sob a
políticaπ, denotadaQπ, como o retorno esperado quando se inicia ems, toma a açãoa e
segue a políticaπ daí em diante. Nós chamamosQπ de função valor-ação para a política
π.
Qπ(s,a) = Eπ{Rt | st = s,at = a} = Eπ{∞
∑k=0
γkrt+k+1 | st = s,at = a} (2.3)
As funçõesVπ eQπ nada mais são do que uma estimativa do valor de retorno acumu-
lado que o agente receberá dado que o mesmo seguirá a políticaótima.
Uma propriedade fundamental de funções valor utilizadas emaprendizagem por re-
forço é que as mesmas satisfaçam algumas relações recursivas. Para qualquer políticaπ e
qualquer estados, a seguinte relação entre o valor des e o valor do seu possível sucessor
deve ser satisfeita:
Vπ(s) = Eπ{Rt | st = s} (2.4)
= Eπ{∞
∑k=0
γkrt+k+1 | st = s} (2.5)
CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 17
= Eπ{rt+1 + γ∞
∑k=0
γkrt+k+2 | st = s} (2.6)
= ∑a
π(s,a)∑s′
Pass′[R
ass′ + γEπ{
∞
∑k=0
γkrt+k+2 | st+1 = s′}] (2.7)
= ∑a
π(s,a)∑s′
Pass′[R
ass′ + γVπ(s′)] (2.8)
onde está implícito que as açõesa, são retiradas do conjuntoA, e os próximos estadoss′,
são retirados do conjuntoS. A equação 2.8 é a equação deBellmane ela exprime uma
relação entre o valor de um estado, e os valores dos seus estados sucessores.
Resolver um problema de aprendizagem por reforço significa,a grosso modo, encon-
trar uma política que atinja um grande valor de recompensa, alongo prazo. Para MDPs
finitas, podemos definir com precisão uma política ótima. A política π é definida para
ser melhor ou igual a uma políticaπ′ se o seu retorno esperado é superior ou igual ao
de π para todos os estados. Em outras palavrasπ = π′, se e somente se,Vπ ≥ Vπ′para
todoss∈ S. Há sempre, pelo menos, uma política que é melhor ou igual a todas as outras
políticas. Esta é a política ótima. Embora possa haver mais de uma, nós chamamos deπ∗
todas as políticas ótimas. Elas compartilham a mesma funçãovalor-estado ótima e mesma
função valor-ação ótima denotadas comoV∗ eQ∗, respectivamente, e definidas como:
V∗(s) = maxπ
Vπ(s) (2.9)
CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 18
Q∗(s,a) = maxπ
Qπ(s,a) (2.10)
Para todos∈ S e a ∈ A. Para cada par estado-ação(s,a), esta função fornecerá o
retorno esperado para a escolha da açãoa no estados e seguindo a política ótima daí em
diante. Assim, podemos escreverQ∗, em termos deV∗ como se segue:
Q∗(s,a) = E{rt+1 + γV∗(st+1 | st = s,at = a)}. (2.11)
Segundo [Camponogara & Serra 2005], o problema de aprendizagem por reforço
apresenta cinco partes fundamentais. São elas:
1. O Ambiente: Todo sistema de AR aprende um mapeamento de situações em ações
por experimentação em um ambiente dinâmico.
2. A Política de Controle / Decisão: Uma política expressa pela funçãoπ, representa
o comportamento que o sistema AR segue para alcançar o objetivo. Em outras
palavras, uma políticaπ é um mapeamento de estadoss e açõesa em um valor
π(s,a) o qual corresponde à probabilidade do agente tomar a açãoa ∈ A quando
este se encontrar no estados∈ S.
3. Reforço e Retorno: O reforço é um sinal do tipo escalarr(st ,at) devolvido pelo
ambiente ao agente assim que uma ação tenha sido efetuada e uma transição de
estado(st → st+1) tenha ocorrido. O agente deve maximizar a quantidade total
de reforços recebidos chamado de retorno acumulado, que nemsempre significa
maximizar o reforço imediato a receber, mas o reforço acumulado durante a “vida
do agente”.
4. Função de Reforço: Existem pelo menos três classes de problemas frequentemente
CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 19
usadas para criar funções adequadas a cada tipo de problema:
• Reforço só no estado final: As recompensas são todas zero, exceto no estado
final, em que o agente recebe uma recompensa real (e.g., +1) ouuma penali-
dade (e.g., -1).
• Tempo mínimo ao objetivo: O agente realiza ações que produzem o caminho
ou trajetória mais curta para um estado objetivo.
• Minimizar reforços: nem sempre o agente precisa ou deve tentar maximizar a
função de reforço, podendo também aprender a minimizá-la.
5. Função Valor: Define-se uma função valor como o mapeamentodo estado ou par
(estado-ação) em um valor que é obtido a partir do reforço atual e dos reforços futu-
ros. A função valor que considera só o estados é denotada porV(s) e denominada
função valor-estado, enquanto que a função valor que considera o par estado-ação
(s,a) é denotada porQ(s,a) e denominada função valor-ação.
2.2.4 O Algoritmo Q-Learning
Tido como o mais popular algoritmo de AR, o algoritmoQ-Learning foi proposto
como uma maneira de aprender iterativamente a política ótima π∗ quando o modelo do
sistema não é conhecido [Bianchi 2004].
O algoritmo propõe que o agente, ao invés de maximizarV∗, aprenda uma função de
recompensa esperada com descontoQ, conhecida como função valor-ação. Esta função
de estimaçãoQ é definida como sendo a soma do reforço recebido pelo agente por ter
realizado a açãoat no estadost em um momentot, mais o valor (descontado deγ) de
seguir a política ótima daí por diante:
Q∗(st ,at) = r(st ,at)+ γV∗(st+1) (2.12)
CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 20
A atualização dos valores de utilidadeQ(s,a) estimados para os pares (estado, ação)
é feita de acordo com a seguinte equação:
Qt+1(st ,at) = Qt(st ,at)+α[r(st ,at)+ γmaxa
Qt(st+1,a)−Qt(st ,at)] (2.13)
Onde:
• Qt(st ,at): É o valor de utilidade da açãoat no estadost .
• r(st ,at): É o reforço imediato recebido no estadost por ter tomado a açãoat .
• α: É a taxa de aprendizado (normalmente definida entre 0 e 1).
• γ: É a taxa de desconto temporal.
• t: É uma sequência discreta de passos no tempo.
• maxaQt(st+1,a): É o valorQ correspondente à ação com maior valor de utilidade
no estado futuro.
Após executar a açãoat , o agente sai do estadost e vai para um estadost+1 recebendo
por esta ação uma recompensa imediatar(st ,at). No estadost+1 é feita uma busca entre
as ações disponíveis para encontrar a açãoat+1 que tenha o maior valor de retorno espe-
rado. Essa busca está representada na equação porγmaxaQt(st+1,a), ondeγ é a taxa de
desconto temporal e pode assumir valores entre 0 e 1.
Como a busca representada porγmaxaQt(st+1,a) sempre retorna paraat+1 aquela
ação com maior valor de retorno esperado, existe uma grande possibilidade de o algoritmo
cair em máximos locais. Porém, para que a convergência do algoritmo seja garantida, é
necessário que todos os pares (estado, ação) sejam visitados continuamente e tenham seus
valores de utilidadeQ(st ,at) atualizados.
É por este motivo que neste algoritmo as ações usadas duranteo processo iterativo de
aproximação da funçãoQ podem ser escolhidas usando qualquer estratégia de exploração
(ou explotação). Uma estratégia para a escolha das ações bastante utilizada em imple-
CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 21
mentações doQ-Learningé a exploração aleatóriaε−Greedy, na qual o agente executa
a ação com o maior valor deQ com probabilidade 1−ε e escolhe uma ação aleatória com
probabilidadeε. O pseudocódigo do algoritmoQ-Learningé apresentado logo a seguir:
Inicialize Q(s,a).
Para cada instantet repita:
1. Observe estadost e escolha uma açãoat , usando a exploraçãoε−Greedy
2. Observe o estadost+1 e atualizeQt(st ,at) de acordo com:
Qt+1(st ,at) = Qt(st ,at)+α[r(st ,at)+ γmaxa
Qt(st+1,a)−Qt(st ,at)]
Até t igual a limite de passos.
Quanto mais próximo de 1 for o valor deγ, maior importância é dada aos reforços
mais distantes no tempo.
CAPÍTULO 3
Fundamentos de Engenharia de
Reservatórios
CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 23
3.1 Introdução
A engenharia de reservatórios se preocupa basicamente com aretirada dos fluidos
do interior das rochas, de forma que os mesmos possam ser levados até a superfície de
maneira mais otimizada possível. São estudadas na engenharia de reservatórios a ca-
racterização das jazidas, as propriedades das rochas, as propriedades dos fluidos nelas
contidos, a maneira como estes fluidos interagem dentro da rocha e as leis físicas que
regem o movimento dos fluidos no seu interior, com o objetivo de maximizar a produção
de hidrocarbonetos com o menos custo possível. [Thomas 2001]
Um comportamento padrão esperado para um reservatório de óleo é que ele produza
óleo, gás natural e água. Assim, um reservatório típico apresenta uma vazão de produção
de óleo, uma vazão de produção de gás e uma vazão de produção deágua. A figura a
seguir apresenta esquematicamente os fluidos existentes noreservatório e o que resulta
quando eles são levados para a superfície.
Condições deReservatórios
Condições deSuperfície
Figura 3.1: Fluidos no Reservatório e na Superfície.Thomas (2001)
CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 24
As vazões são sempre expressas nas condições de superfície,como, por exemplo, me-
tro cúbico standart por dia ou barrilstandartpor dia. As condições de superfície também
são chamadas de “condições padrão” e correspondem à pressãode 1atme temperatura de
20oC.
Para se estimar as quantidades de óleo, gás e água contidas nas formações, é neces-
sário se estabelecer que percentual do volume poroso é ocupado por cada fluido. Esses
percentuais recebem o nome de “saturação”. Desta forma, a saturação de óleo, saturação
de água e saturação de gás é o percentual do volume poroso da formação ocupado pela
fase óleo, fase água e fase gás, respectivamente.
Além da produção de hidrocarbonetos, é bastante comum a produção de água nos
campos. Porém, a quantidade produzida vai depender das condições em que ela se apre-
senta no meio poroso. Apesar de a água estar sempre presente nos reservatórios, nem
sempre a sua quantidade, expressa pela saturação, é suficiente para que ela se desloque.
Esta água produzida pode ter origem em aquíferos adjacentesàs formações portadoras de
hidrocarbonetos ou pode ser devida à água injetada em projetos que visam aumentar a
recuperação de óleo.
3.2 Histórico de Produção
Existem algumas relações dentro da engenharia de petróleo que são utilizadas como
indicadores da vida produtiva dos reservatórios. Os mais utilizados são a razão gás-óleo
(RGO), a razão água-óleo (RAO) e o BSW (Basic Sediments and Water).
A RGO é a relação entre a vazão de gás e a vazão de óleo, ambas medidas nas condi-
ções de superfície. Já a RAO é a relação entre a vazão de água e avazão de óleo, também
medidas nas condições de superfície. Uma alta RGO poderia estar indicando que o re-
servatório está bastante depletado ou que possui elevadas frações de componentes mais
voláteis na mistura líquida. Uma RAO igual a zero significa que, na época da medição, a
CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 25
saturação de água na formação é igual ou menor que o valor irredutível, ou seja, o valor
mínimo necessário para que haja um fluxo de água. O BSW é o quociente entre a va-
zão de água mais os sedimentos que estão sendo produzidos e vazão total de líquidos e
sedimentos.
Histórico de produção é o registro das pressões, das vazões,das relações RGO, RAO
e BSW feito ao longo da vida útil de um reservatório, além das produções acumuladas
de cada fluido. Esse histórico é importante, pois serve de base de dados para ferramentas
que permitem uma previsão do comportamento futuro do reservatório. Desta forma, este
histórico influencia diretamente na tomada de decisões do gerenciamento do campo, no
que diz respeito à otimização do processo e consequente redução de custos.
3.3 Mecanismos de Produção
Os fluidos contidos em uma rocha reservatório devem dispor decerta quantidade de
energia, resultado de circunstâncias geológicas da jazida, para que possam ser produzidos.
Além disso, é necessário que outro material venha preenchero espaço poroso ocupado
pelos fluidos produzidos. Este preenchimento se dá principalmente por meio de dois
efeitos: a descompressão (que causa a expansão dos fluidos contidos no reservatório e
contração do volume poroso) e o deslocamento de um fluido por outro fluido. Ao conjunto
de fatores que fazem desencadear esses efeitos dá-se o nome de Mecanismo de Produção
de Reservatório.
Os principais mecanismos de produção de reservatórios são:mecanismo de gás em
solução, mecanismo de capa de gás e mecanismo de influxo de água.
No mecanismo de gás em solução a produção é o resultado da expansão do gás que
inicialmente estava dissolvido e que vai saindo da solução.Quanto mais a pressão cai,
mais o gás se expande e mais líquido é deslocado.
No mecanismo de capa de gás, a produção na zona de óleo acarreta uma redução de
CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 26
Figura 3.2: Reservatório com Mecanismo de Gás em Solução.Thomas (2001)
pressão que se transmite para a capa de gás, que se expande, penetrando gradativamente
na zona de óleo. Como o gás possui uma alta compressibilidade,a sua expansão ocorre
sem que haja queda substancial da pressão.
Figura 3.3: Reservatório com Mecanismo de Capa de Gás.Thomas (2001)
No mecanismo de influxo de água, a produção ocorre de maneira semelhante ao da
capa de gás. A diferença está no fato de que a expansão acontece em um aquífero e
para que este mecanismo funcione bem, o aquífero deve possuir grandes proporções. Po-
dem ocorrer situações em que mais de um mecanismo atua simultaneamente no mesmo
reservatório, existindo assim um mecanismo combinado.
CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 27
Figura 3.4: Reservatório com Mecanismo de Influxo de Água.Thomas (2001)
Figura 3.5: Reservatório com Mecanismo Combinado.Thomas (2001)
CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 28
3.4 Estimativas de Reservas
Em uma jazida de petróleo, nem todo o fluido existente pode serextraído, ou seja, ape-
nas uma fração do volume total de óleo pode ser efetivamente produzida. Normalmente,
ao se descobrir uma jazida, faz-se uma estimativa de quanto fluido se pode recuperar
da mesma, e a esse volume estimado dá-se o nome de volume recuperável. O volume
recuperável é uma importante informação, pois influenciarádiretamente na decisão da
implantação do projeto exploratório, já que os custos de operação devem ser mantidos
com a comercialização dos fluidos produzidos. [Thomas 2001]
Denomina-se estimativa de reservas a atividade dirigida à obtenção dos volumes de
fluidos que se pode retirar do reservatório até que ele chegueà condição de abandono.
Além da ocasião do descobrimento, essas estimativas tambémsão feitas ao longo da vida
produtiva da jazida, à medida que se vai obtendo mais informações a respeito da mesma.
Para se falar nos métodos de estimativas de reservas é conveniente que antes se co-
nheça algumas definições relacionadas á área:
• Volume Original: Quantidade de fluido existente no reservatório na época da sua
descoberta.
• Volume Recuperável: Quantidade de fluido que se pode produzir ou recuperar de
uma acumulação de petróleo.
• Fator de Recuperação: Quociente entre volume recuperável evolume original, ou
seja, percentual do volume original que se espera produzir de um reservatório.
• Reserva: Quantidade de fluido que ainda pode ser obtida de um reservatório de
petróleo numa época qualquer de sua vida produtiva.
Nota-se que o fator de recuperação é um número que representao que se espera pro-
duzir do reservatório e que depende fortemente do mecanismode produção dessa jazida.
Esse valor é obtido de um estudo que utiliza as informações disponíveis na época e que
CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 29
3.200.000
Óleo original - 3.200.000 m³ std
23%
Volume recuperável - 736.000 m³ stdFator de recuperação - 23%
736.000
Figura 3.6: Exemplo de Volume Recuperável e Fator de Recuperação.Thomas (2001)
indica o provável comportamento futuro do reservatório. Como decorrer do tempo, nada
mudará em termos físicos do reservatório, porém a contribuição das informações obtidas
durante anos de produção possibilitará um aprimoramento dos estudos e uma estimativa
de valores provavelmente mais corretos.
Para se fazer a estimativa do volume recuperável, além do estudo do reservatório
deve-se levar em consideração outros aspectos técnicos e econômicos, pois além dos in-
vestimentos iniciais para a perfuração dos poços existem também outros custos relativos
à operação e manutenção do sistema.
À medida que o tempo vai passando a produção de petróleo vai decrescendo, tendendo-
se à situação em que a receita proveniente da venda do petróleo é insuficiente para cobrir
as despesas de manutenção da operação. Essa é a condição de abandono do projeto.
Portanto, o volume recuperável e por consequência o fator derecuperação sofrem alte-
rações ao longo da vida produtiva do reservatório, não só pelas novas informações obtidas
sobre a formação, mas também pelas mudanças que ocorrem no cenário econômico.
CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 30
3.5 Métodos de Cálculo para Estimativas de Reservas
Existem diversas maneiras de se estimar os volumes originais e de reserva de uma
jazida de petróleo. Dentre os métodos utilizados destacam-se a analogia, a análise de
risco, o método volumétrico e a performance do reservatório.
A analogia e a análise de risco são procedimentos realizadosantes da perfuração do
poço descobridor e as estimativas são feitas a partir dos dados sísmicos e resultados de
reservatórios localizados nas proximidades, os quais se acredita tenham características
semelhantes às do reservatório que está sendo estudado. A diferença entre estes métodos
está no fato de que a análise de risco possui uma certa sofisticação no tratamento esta-
tístico dos dados e os resultados são apresentados não como um valor único, mas como
uma faixa de resultados possíveis. No método volumétrico efetua-se o cálculo do volume
original de fluido a partir de dados obtidos de ensaios, tais como: volume total da rocha,
porosidade média, saturação de fluidos e fator volume de formação do fluido.
A performance do reservatório são modelos em que a previsão do comportamento
futuro (ou performance) do reservatório se baseia em seu comportamento passado. Para
que esta previsão seja feita é necessário conhecer o histórico de produção e em alguns
casos o mecanismo de produção do reservatório. Os principais métodos que fazem parte
do grupo chamado performance do reservatório são: a análisedo declínio de produção,
a equação de balanço de materiais e a simulação matemática dereservatórios. A escolha
entre um ou outro método depende da quantidade e do tipo de dados disponíveis, além da
disponibilidade de recursos computacionais.
A análise de declínio de produção baseia-se na observação docomportamento das va-
zões de produção ao longo do tempo. A partir da análise do histórico de produção pode-se
caracterizar a tendência de declínio da vazão e com a extrapolação dessa tendência pas-
sada, estima-se o comportamento futuro da produção. A equação de balanço de materiais
é uma relação que associa o balanço de massa dos fluidos do reservatório com as reduções
CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 31
de pressão no seu interior.
A equação é escrita em função das propriedades da rocha e do comportamento do
fluido em função da pressão, das propriedades rocha-fluido, do histórico de produção e
do mecanismo de produção. Como esta equação descreve o comportamento passado do
reservatório relacionando a produção acumulada com a quedade pressão, admite-se que
a mesma também é capaz de descrever o comportamento futuro doreservatório.
A simulação matemática de reservatórios se aplica à utilização de simuladores numé-
ricos e computacionais em estudos de reservatórios. Os procedimentos utilizados para
se fazer as previsões do comportamento futuro são semelhantes aos da equação de ba-
lanço de materiais com informações geológicas, dados da rocha e do fluido para que se
reproduza o histórico de produção. A diferença entre os doisprocessos está na maneira
como o reservatório é tratado. Na equação de balanço de materiais se utiliza uma única
equação descrevendo o reservatório como um único bloco com propriedades uniformes.
Já a simulação é capaz de subdividi-lo em células menores compropriedades diferentes
envolvendo um grande número de equações que representam o fluxo no meio poroso.
3.6 Simulação Matemática de Reservatórios
Os simuladores de sistemas podem ser classificados entre físicos e matemáticos. Os
físicos são, por exemplo, os simuladores analógicos, os modelos reduzidos e os protótipos.
Os simuladores matemáticos podem ser subdivididos em analíticos e numéricos.
A simulação numérica é dos métodos empregados na engenhariade petróleo para se
estimar características e prever o comportamento de um reservatório de petróleo. Esses
simuladores são conhecidos como simuladores numéricos de fluxo, devido ao fato de
que são utilizados para se estudar o comportamento do fluxo defluidos em reservatórios
empregando uma solução numérica.
A classificação dos simuladores numéricos é feita normalmente em função de três
CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 32
características básicas: O tratamento matemático utilizado, o número de dimensões con-
sideradas e o número de fases admitidas.
⋆ Classificação pelo Tratamento Matemático
• Modelo tipo Betaou volumétrico: Também conhecido comoblack oil, o modelo
envolve funções da pressão e da temperatura do reservatório. Admite-se que cada
das várias fases (água, óleo ou gás) eventualmente presentes no reservatório seja
constituída de um único componente.
• Modelo composicional:Esse modelo considera não somente a pressão e a tempe-
ratura do reservatório, mas também as composições das diversas fases presentes no
meio poroso.
• Modelo térmico: Utilizado quando é necessário considerar os efeitos de variações
da temperatura no interior do reservatório, como por exemplo no caso em que é
estudada a aplicação de um método térmico de recuperação secundária. Os mode-
los térmicos, devido ao fato de tratarem situações complexas, são necessariamente
composicionais.
⋆ Classificação pelo Número de Dimensões
• Unidimensional: Quando admite fluxo em uma única direção.
• Bidimensional: Simula o fluxo em duas direções. Neste caso pode-se representar
um fluxo horizontal, um fluxo vertical ou um fluxo radial.
• Tridimensional: Admite-se que o fluxo de fluidos no meio poroso ocorra nas três
direções:x, y ez.
⋆ Classificação de Acordo com o Número de Fases
• Monofásico: Considera a presença de uma só fase no reservatório (gás, óleoou
água).
CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 33
• Bifásico: Considera a presença de duas fases, normalmente água e óleo (reservató-
rio de óleo) ou gás e água (reservatório de gás).
• Trifásico: Considera a ocorrência de três fases no reservatório (água, gás e óleo).
3.6.1 Uso de Simuladores numéricos para Estudos de Reservatórios
Por meio do uso de simuladores numéricos é possível obter informações geológicas,
sobre as propriedades da rocha e dos fluidos existentes no meio poroso, informações sobre
os históricos de produção (vazão, produção acumulada) e de pressão, e outras informa-
ções a respeito dos poços de petróleo, como característicasde completação. Esse tipo
de ferramenta permite a obtenção de informações sobre o desempenho de um campo ou
reservatório sob diversos esquemas de produção, de modo quepodem ser determinadas
as condições ótimas para se produzir esse campo. Mais especificamente, pode ser ana-
lisado o comportamento de um reservatório quando sujeito à injeção de diferentes tipos
de fluido, analisada a influência de diferentes vazões de produção ou injeção, ou determi-
nado o efeito da localização dos poços e do espaçamento entreeles na recuperação final
de óleo ou gás.
As etapas normalmente seguidas na execução de um estudo de reservatório, utilizando
simuladores numéricos, podem ser resumidas da seguinte forma:
• Coleta e Preparação dos Dados:Procura-se armazenar e interpretar todos os da-
dos disponíveis sobre o reservatório em questão, incluindogeologia, rocha, fluidos,
produção e completação dos poços.
• Preparação do Modelo Numérico:Nesta etapa faz-se o lançamento degrid, ou
seja, constrói-se uma malha para transpor as informações necessárias. Consiste
em dividir o reservatório em várias células, cada uma delas funcionando como um
reservatório.
• Ajuste de Histórico: O objetivo é calibrar o modelo numérico com o reservatório
CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 34
real a partir dos melhores dados disponíveis referentes aoshistóricos de produção e
de pressão. O ajuste consiste em calcular o comportamento passado do reservatório
e comparar com o histórico do campo. Se os dados fornecidos forem adequados,
provavelmente um bom ajuste de histórico será obtido e o modelo poderá ser usado
para se efetuar previsões confiáveis em relação ao seu comportamento futuro.
• Extrapolação: Essa etapa consiste na utilização do modelo para se prever o com-
portamento futuro do reservatório. Nessa previsão podem ser impostas vazões para
todos os poços, as pressões de fluxo dos poços e até mesmo que uma vazão seja
mantida até que a pressão caia abaixo de um limite onde então éiniciado um pro-
jeto de injeção de água ou vapor. Enfim, vários esquemas de explotação podem ser
avaliados, e uma análise econômica pode ser feita com os resultados, de forma que
se possa decidir pelo esquema ótimo de produção.
CAPÍTULO 4
Metodologia
CAPÍTULO 4. METODOLOGIA 36
4.1 Introdução
Por serem equipados com instrumentação, os campos inteligentes de petróleo se com-
portam como fontes de dados de um reservatório em tempo real.Estes quando são arma-
zenados, formam uma base de dados sobre o campo, cuja principal finalidade é de auxílio
no processo de tomada de decisão.
No âmbito da automação, o sistema inteligente de auxílio à tomada de decisão pode
ser representado pela figura 4.1 a seguir:
Supervisão
Controle e Automação
Sensores e Atuadores
Planta Industrial: Poços Petrolíferos
SistemaInteligente
Figura 4.1: Pirâmide da Automação em Processos Industriais.
De acordo com a figura, na base da pirâmide da automação está representada a parte
física do processo, ou seja, os poços do campo com seus respectivos equipamentos de
elevação artificial, tais como: unidades de bombeio mecânico, BCS (bombeio centrífugo
submerso), BCP (bombeio por cavidades progressivas) e etc.
Acima do nível da planta física está o nível onde se encontramos sensores e os atua-
dores do processo, os quais são responsáveis por aquisitar os dados do campo bem como
intervir no processo quando necessário.
O nível hierárquico logo acima dos sensores e atuadores é o decontrole e automação.
Neste nível está localizado o controle direto do processo, ou seja, as variáveis do campo
são aquisitadas pelos sensores e enviadas ao controlador localizado nesse nível que é
CAPÍTULO 4. METODOLOGIA 37
responsável por manter os valores dessas variáveis dentro de uma faixa recomendada
de operação. O controlador também é responsável por enviar sinais de comando aos
atuadores, quando necessário for.
No nível de supervisão é possível monitorar em tempo real as variáveis do processo
que estão sendo controladas no nível de controle e automação. Os dados coletados pelos
sensores são enviados a uma estação central e visualizados em uma tela de supervisório
permitindo a intervenção remota do operador na planta remotamente. As informações
coletadas são armazenadas em uma base de dados e alimentam o histórico de produção
do reservatório que por sua vez é componente essencial do nível hierárquico superior onde
está localizado o sistema inteligente de auxílio à tomada dedecisão desenvolvido nesse
trabalho.
Como pode-se observar, o sistema inteligente encontra-se notopo da pirâmide da
automação e seus parâmetros de entrada provêm diretamente do histórico de produção
do campo de petróleo. A saída do sistema representa a alternativa de desenvolvimento
ótima para o campo, de forma que o mesmo promova o melhor resultado do ponto de
vista econômico ao longo dos próximos anos.
Em outras palavras, deve-se maximizar o VPL calculado com base no preço do petró-
leo e no perfil de produção de petróleo obtido a partir do simulador de reservatório.
O sistema inteligente deve auxiliar em tomadas de decisões que envolvam problemas
como:
• Decidir quando se deve iniciar ou interromper a injeção de vapor de forma contínua
em determinado poço injetor;
• Decidir quais os momentos mais viáveis para a realização de ciclos de vapor em
determinado poço do campo.
Neste trabalho, a otimização do sistema é realizada com o usode uma técnica inteli-
gente conhecida como aprendizado por reforço, que é uma técnica de natureza estocástica
CAPÍTULO 4. METODOLOGIA 38
e que tem como base a área de estudo de aprendizado de máquinas. O aprendizado por
reforço, tem se apresentado como uma poderosa ferramenta emproblemas de tomada de
decisões onde muitas variáveis estão envolvidas. Um dos objetivos desta proposta é inves-
tigar esta técnica e analisar seu desempenho em problemas reais da indústria do petróleo.
4.2 Arquitetura do Sistema
O sistema inteligente é composto por 3 módulos: o módulo otimizador, o simulador
de reservatórios STARS e o módulo de cálculo do VPL.
O módulo otimizador contém o algoritmo de aprendizado por reforço Q-Learning,
o qual determina os parâmetros que configuram certa alternativa de desenvolvimento de
produção. Uma alternativa de desenvolvimento é definida como uma combinação de se-
quencias de injeções de vapor ao longo de 5 anos. Essa alternativa é então submetida ao
simulador de reservatórios, o qual fornece como saída as curvas de previsões de produção
de óleo, gás e água da alternativa. Os valores de previsão sãoutilizados para calcular o
VPL associado à alternativa, que por sua vez servirá de base para o cálculo do valor de
reforço no módulo otimizador. A arquitetura do sistema é apresentada na figura 4.2.
Simulador de
Reservatórios(STARS)
Alternativa
Sistema
Otimizador
Cálculo
do VPLPreço do
Petróleo
Avaliação
(VPL)
Curva de
Produção
Figura 4.2: Arquitetura do Sistema.
Ao longo das iterações, o sistema inteligente será capaz de comparar diversas alterna-
tivas de produção, para então sugerir aquela que representará a melhor tomada de decisão
CAPÍTULO 4. METODOLOGIA 39
para a situação em questão. Deve ser levado em conta que o objetivo buscado não é a
obtenção de ótimos locais, mas sim a maximização do VPL ao longo do tempo (horizonte
de otimização).
4.3 Modelagem do Problema
4.3.1 Modelagem do Reservatório
Como muitas variáveis estão envolvidas no problema de otimização da produção, a
modelagem de um reservatório real em um simulador matemático demandaria um alto
tempo computacional. Tendo isso em vista, foi realizada neste trabalho uma modelagem
simples, simulando um modelo5-spotem um reservatório homogêneo com dimensão 200
x 200 x 26 metros divididos em um grid 41 x 41 x 23 blocos. Os 5 poços do campo estão
localizados nas extremidades e no centro do campo, sendo sempre 4 produtores e um
injetor, conforme pode ser observado na figura 4.3.
Figura 4.3: Modelagem do Reservatório em Estudo.
CAPÍTULO 4. METODOLOGIA 40
4.3.2 Modelagem dos Componentes do Sistema Otimizador
O sistema inteligente desenvolvido caracterizou o problema de otimização como uma
máquina de estados. Para isso, faz-se necessário definir alguns componentes essenciais
na modelagem de um problema de AR: o espaço de estados do ambiente e o conjunto
de ações possíveis do agente dentro do ambiente, a função de retorno e o horizonte de
otimização, dividido em etapas (instantes de decisão).
O Espaço de Estados
O espaço de estados no ambiente é representado pela produçãoanual de petróleo no
campo, de tal forma que todos os valores possíveis de produção estejam discretizados e
distribuídos em 10 faixas de valores distintos. Dessa forma, o objetivo do sistema otimiza-
dor é sempre identificar qual a melhor ação a ser tomada no momento diante de qualquer
valor de produção apresentado. Uma ilustração do espaço de estados do ambiente é apre-
sentada na tabela 4.1.
Tabela 4.1: Exemplo de Espaço de Estados no Ambiente.Estado Produção Anual Melhor Ação
1 < 1.600m3 Injetar2 < 1.800m3 Não Injetar3 < 2.000m3 Injetar4 < 2.200m3 Injetar5 > 2.200m3 Não Injetar
A cada iteração do algoritmo, uma curva de produção associada à alternativa é gerada
pelo simulador, e a produção anual refere-se à diferença da produção acumulada entre
o ano atual e o anterior. Um exemplo de curva de produção acumulada gerada pelo si-
muladorSTARSpode ser vista na figura 4.4. A partir dessa, foi calculada a produção de
petróleo do ano de 2001 (2.100m3), também destacada na figura.
Desta forma, a intenção do sistema é analisar o comportamento da produção do campo
CAPÍTULO 4. METODOLOGIA 41
2.100 m³/ano
Pro
duçã
o d
e Ó
leo
Acu
mula
da (
m³)
Tempo (Data)
Figura 4.4: Exemplo de curva de produção acumulada e produção anual de um campo.
mediante à aplicação de uma ação a cada instante de decisão. Este comportamento pode
ser observado nas figuras 4.5 e 4.6 onde são apresentadas as produções anuais para dife-
rentes alternativas de produção.
2.630 m³/ano
Pro
du
ção
An
ua
l de
Óle
o (
m³)
Tempo (Data)
Figura 4.5: Curva de produção anual para a alternativa sem injeção contínua de vapor.
CAPÍTULO 4. METODOLOGIA 42
2.940 m³/ano
Pro
du
ção
An
ua
l de
Óle
o (
m³)
Tempo (Data)
Figura 4.6: Curva de produção anual para a alternativa com injeção contínua de vapor.
Note que entre os anos de 2004 e 2005 a diferença de produção entre as alternativas é
bem significativa e refere-se à decisão de injetar ou não injetar vapor contínuo no campo
ao longo desse ano.
O Episódio
Um episódio do algoritmo corresponde a uma simulação da produção do campo ao
longo de 5 anos, ou seja 5 iterações. O final de cada ano de simulação representa um
instante de decisão, onde se deve escolher uma das ações possíveis no ambiente.
O Conjunto de Ações do Ambiente
O conjunto de ações do ambiente deve ser modelado de acordo com o objetivo que se
quer alcançar com o sistema, ou seja, de acordo com a variáveldo processo que deve ser
otimizada. Existem inúmeras possibilidades de otimizaçãona produção de petróleo, po-
rém neste trabalho escolheram-se dois estudos de caso envolvendo as seguintes variáveis:
CAPÍTULO 4. METODOLOGIA 43
• Estudo de Caso 1: Decisão de injetar ou não injetar vapor de forma contínua no
campo de produção. O conjunto de ações para o estudo de caso 1 édado por A =
{Injetar, Não Injetar};
• Estudo de Caso 2: Decisão de injetar ou não injetar vapor de forma cíclica no campo
de produção. De forma análoga ao caso 1, o conjunto de ações para o estudo de caso
2 é dado por A = {Injetar, Não Injetar}.
O Retorno
O valor do reforço em um sistema AR deve sempre representar deforma mais real
possível o retorno que o agente obtém com determinada decisão. Diante disso, o cál-
culo do reforço nesse trabalho incorporou um método de análise de rentabilidade muito
utilizado no mercado de petróleo, o VPL - Valor Presente Líquido.
O VPL é uma técnica sofisticada de análise de orçamentos de capital, obtida subtraindo-
se o investimento inicial de um projeto do valor presente dasentradas de caixa descontada
a uma taxa igual ao custo de capital da empresa. Essa taxa, frequentemente chamada de
taxa de desconto, custo de oportunidade ou custo de capital,refere-se ao retorno mínimo
que deve ser obtido por um projeto, de forma a manter inalterado o valor de mercado da
empresa.
Neste trabalho o custo de oportunidade foi estimado em 12% a.a, de forma que, a cada
iteração do algoritmo, o VPL associado à decisão é calculadoda seguinte forma:
VPL=((ganho de óleo no ano * R$m3 do óleo) - custo do vapor no ano)
(1,12)t (4.1)
onde se estimou, com o auxílio de profissionais experientes na área, o preço do barril do
petróleo em U$$ 60,00 e o custo total de injeção de vapor em R$ 50,00/ton de vapor
(incluindo custos de pessoal, manutenção e combustível).
O VPL calculado é então normalizado e utilizado como valor dereforço no algoritmo
CAPÍTULO 4. METODOLOGIA 44
de aprendizado a fim de recompensar ou punir o agente pela decisão tomada naquele
momento.
4.4 O Algoritmo
++
rQ (x,a)k
Q (x,a)k-1
Estado x
Avaliação
da
Tabela
da
Função
Valor-Ação
Percepção
de Estado
Seletor
de Ação
Agente
Crítico
Figura 4.7: Fluxo de Dados no Algoritmo de Aprendizado por Reforço.
Assim como qualquer sistema baseado em um algoritmo de aprendizado por reforço,
o sistema inteligente desenvolvido neste trabalho cumpre três etapas básicas em cada ciclo
de execução. A figura 4.7 apresenta um esquema do fluxo de dadosno algoritmo, onde é
possível analisar a relação entre as mesmas.
A etapa inicial consiste na percepção do estado atual, já queno aprendizado por re-
forço o ambiente é composto por um espaço de estados possíveis. Como na nossa modela-
gem um estado é representado como uma faixa de valores de produção anual de petróleo,
o agente deverá perceber em qual destas faixas a produção atual se encaixa.
Após a percepção do estado, o agente passa para a etapa seguinte, onde se deve es-
colher a melhor ação ser realizada naquele momento. A escolha dessa ação é baseada
na estimativa do retorno acumulado a partir do estado atual,de modo que aquela que lhe
proporcionou melhores resultados ao longo da execução, terá maiores chances de ser a es-
CAPÍTULO 4. METODOLOGIA 45
colhida. Esse processo de escolha foi implementado com o usode uma técnica e-gulosa,
onde atribui-se probabilidades de escolha a cada uma das ações possíveis, evitando a
ocorrência de máximos locais durante a execução.Como nosso conjunto de ações está re-
lacionado à decisão de injetar ou não vapor no campo, em resumo, a etapa de escolha da
ação deverá definir se no próximo intervalo de simulação haverá ou não esta injeção.
Depois de escolhida a ação, é possível saber qual será o novo estado do ambiente, ou
seja, a nova produção anual de petróleo dada a decisão de injetar ou não vapor no campo.
Essa produção será obtida com o auxílio do simulador de reservatório que retornará uma
previsão da curva de produção associada à decisão tomada. Esse novo valor de produção
possibilita uma avaliação dessa nova alternativa de produção para saber se a tomada de
decisão lhe rendeu um bom ou um mau resultado. Essa avaliaçãocompõe a terceira etapa
do sistema, a qual permite realizar uma análise econômica dasolução escolhida, para
avaliar o impacto da mesma no cenário e em função disso, o crítico possa retornar um
valor de reforço em forma de recompensa ou punição. A partir desse momento, um novo
ciclo se inicia onde a nova produção de petróleo passará a sero estado atual do ambiente.
A figura 4.8 apresenta um esquema do fluxo das iterações do algoritmo para um epi-
sódio de 5 anos. Note que para cada iteração, é calculada uma produção anual e seu
respectivo VPL antes de iniciar a iteração seguinte.
CAPÍTULO 4. METODOLOGIA 46
Iteração: 1Estado: 0Ação escolhida: 0 (injetar)Produção anual: 3.000 m³VPL: R$ 442.000,00
0 00
000
0000
10000
Ações
Iteração: 2Estado: 4Ação escolhida: 0 (injetar)Produção anual: 2.250 m³VPL: R$ -125.000,00
Ações
Iteração: 3Estado: 6Ação escolhida: 0 (injetar)Produção anual: 2.050 m³VPL: R$ -275.000,00
Ações
Iteração: 4Estado: 2Ação escolhida: 0 (injetar)Produção anual: 2.400 m³VPL: R$ 0,00
Ações
Ações
Iteração: 5Estado: 9Ação escolhida: 1 (não injetar)Produção anual: 2.650 m³VPL: R$ 2.000.000,00
Retorno = r1
Retorno = r2
Retorno = r3Retorno = r4
Retorno = r5
Figura 4.8: Fluxo das iterações do algoritmo durante a simulação.
CAPÍTULO 5
Resultados e Discussões
CAPÍTULO 5. RESULTADOS E DISCUSSÕES 48
5.1 Introdução
Este capítulo se dedica à apresentação dos resultados obtidos no que diz respeito à
otimização dos problemas submetidos ao sistema inteligente desenvolvido.
O sistema inteligente desenvolvimento foi implementado nalinguagem C++ com o
auxílio da ferramenta Dev-C++ 4.9.9.2 e trabalha em conjunto com o simulador de reser-
vatórios STARS da CMG versão 2007.1 na plataforma Windows.
A seguir serão apresentados experimentos realizados com base nos dois estudos de
casos citados na seção 4.3.2, onde todos os resultados apresentados foram obtidos nas
seguintes condições:
• Número de iterações do algoritmo: 500;
• Para o cálculo da probabilidade de escolha da ação foi utilizado o valorε = 0.6 para
as primeiras 100 iterações do algoritmo eε = 0.1 para as demais;
• Os parâmetros de aprendizadoγ (taxa de desconto temporal) eα (taxa de aprendi-
zado) foram configurados com os seguintes valores:γ = 0.9 eα = 0.1.
5.2 Estudo de Caso 1
Para este estudo de caso, tem-se o objetivo de otimizar a produção de petróleo ao
se fazer uso da injeção contínua de vapor, observando, é claro, os aspectos econômicos
envolvidos na operação. Neste caso, o conjunto de ações do ambiente se dará por duas
ações diferentes: injetar ou não injetar vapor no poço injetor que está localizado no centro
do campo.
A injeção de vapor é realizada de forma contínua durante o período de um ano, a uma
vazão de 100 ton/dia e ao final de cada período deve-se decidirse a injeção continuará ou
se deverá ser interrompida.
CAPÍTULO 5. RESULTADOS E DISCUSSÕES 49
T=4
Pro
du
ção
An
ua
l de
Óle
o (
m³)
Tempo (Data)
Figura 5.1: Comparação dos efeitos de tomadas de decisão distintas no ano de 2004.
A figura 5.1 apresenta um exemplo de uma sequência de decisõesno tempo, onde no
instanteT = 4 é destacado o contraste dos efeitos de tomadas de decisão distintas nesse
momento. Destacada de azul encontra-se a produção anual do campo após a decisão de
não injetar vapor durante o ano em questão. De vermelho é apresentada a produção anual
após um ano de injeção contínua. É notável que, para esta alternativa de produção, a
decisão de injetar vapor no instante em questão ocasionariaum valor maior de produção.
Não é garantido, porém, que esta mesma alternativa retorne omaior VPL.
Após várias simulações e experimentos analisando todas as combinações possíveis de
decisões, observou-se que os maiores valores de produção são obtidos quando existe a
injeção contínua de vapor em todos os períodos de decisão. Esta alternativa de desen-
volvimento (injeção em todos os períodos em decisão), obteve uma produção acumulada
de 12.636m3 ao longo dos 5 anos. A curva de produção acumulada para a alternativa 1,
chamaremos assim a partir de agora, é apresentada na figura 5.2.
Apesar desta alternativa retornar os maiores valores de produção de petróleo para o
campo, a mesma não apresenta um bom desempenho quando é avaliada pelo ponto de
CAPÍTULO 5. RESULTADOS E DISCUSSÕES 50
Pro
du
ção
de
Óle
oA
cum
ula
da
(m
³)
Tempo (Data)
Figura 5.2: Curva de produção acumulada para a alternativa 1.
vista econômico.
Ao utilizar o VPL como forma de avaliação da alternativa, a opção de injetar vapor em
todos os períodos não se mostrou como a alternativa de melhorviabilidade econômica.
Ao contrário disso, o sistema otimizador revelou que a alternativa que lhe renderia o
melhor resultado do ponto de vista econômico seria o desenvolvimento do campo sem
a injeção de vapor ao longo dos 5 anos. Este resultado pode serobservado na tabela
5.1, que apresenta os valores da matrizQ(s,a) do sistema otimizador após o final de seu
aprendizado.
Nesta tabela, é notável que para todos os estados do sistema,os valores da matriz são
bem maiores para a ação de não injetar vapor, o que nos deixa concluir que independente
do valor de produção apresentado, a melhor decisão a ser tomada será sempre a de não
injetar vapor.
A alternativa de não injetar vapor em nenhum dos períodos de desenvolvimento (al-
ternativa 2) retorna a curva de produção acumulada apresentada na figura 5.3.
CAPÍTULO 5. RESULTADOS E DISCUSSÕES 51
Tabela 5.1: Valores Finais da MatrizQ(s,a) para o Estudo de Caso 1.Estado Com Vapor Sem Vapor
0 4.339 6.1491 4.249 5.9382 541 4.5203 2.131 5.5354 604 4.2995 4.183 5.8096 1.104 4.4017 2.775 5.7078 4.402 5.784
Pro
du
ção
de
Óle
oA
cum
ula
da
(m
³)
Tempo (Data)
Figura 5.3: Curva de produção acumulada para a alternativa 2.
CAPÍTULO 5. RESULTADOS E DISCUSSÕES 52
Como podemos notar, a produção acumulada para esta alternativa é de 10.062m3 de
petróleo ao longo de 5 anos, ou seja, quase 2.600 m3 de óleo a menos quando compa-
rada com a produção da alternativa anterior. A indicação da alternativa 2 pelo sistema
otimizador, mesmo diante da visível perda de produção, é devida aos valores de VPL que
esta alternativa apresenta, que conforme mostrado na figura5.4, são bem maiores que os
valores da alternativa 1.
Figura 5.4: Comparação de VPLs entre as Alternativas de Desenvolvimento.
Note na figura 5.4, que na alternativa com injeção de vapor, o VPL se apresenta ne-
gativo logo após o primeiro ano de produção e que ainda os valores de VPL anual para
a alternativa sem vapor são sempre maiores que os valores da alternativa com vapor du-
rante os cinco 5 anos. Isto acontece porque apesar do uso da injeção contínua aumentar
a produção de óleo no campo, esse aumento não é suficiente paraindicar a viabilidade
econômica da injeção. Em outras palavras, os incrementos devolume de produção com
o uso da injeção contínua de vapor no reservatório estudado,são muito pequenos quando
comparado ao custo que se tem com esta injeção.
Como prova disso, podemos analisar o desempenho das alternativas em cada período
de decisão através dos dados da tabela 5.2. Esta tabela compara os volumes de produção
anual das alternativas, retirados das curvas de produção apresentadas nas figuras 5.5 e 5.6.
CAPÍTULO 5. RESULTADOS E DISCUSSÕES 53
Note que a diferença entre os volumes de produção das alternativas é muito pequeno, ex-
ceto no último ano de simulação onde a produção da alternativa 1 é o dobro da alternativa
2, resultado da influência do vapor dos anos anteriores.
Tabela 5.2: Diferença entre os volumes de produção anuais das alternativas 1 e 2.Ano Alternativa 1 Alternativa 2 Diferença2000 3.010 2.940 702001 2.194 2.148 462002 2.058 1.850 2082003 2.430 1.640 7902004 2.945 1.484 1.461
Pro
du
ção
An
ua
l de
Óle
o (
m³)
Tempo (Data)
Figura 5.5: Curva de produção anual da alternativa 1.
Esta diferença de 1.461m3 equivale a cerca de 1m3/dia de óleo em cada um dos qua-
tro poços produtores do campo e geraria uma receita de R$ 1.095.375,00. Porém, o custo
da injeção contínua de vapor em um ano é estimado em R$ 1.822.500,00, o que resul-
taria em um VPL de R$−462.101,00, provando que a atividade não é economicamente
recomendada. Considerando o custo do vapor de R$ 50,00/ton, o incremento mínimo de
CAPÍTULO 5. RESULTADOS E DISCUSSÕES 54
Pro
du
ção
An
ua
l de
Óle
o (
m³)
Tempo (Data)
Figura 5.6: Curva de produção anual da alternativa 2.
produção que compensaria a injeção contínua é de 2.434m3/ano.
Além do VPL, outro indicador econômico muito utilizado na indústria do petróleo é
a razão óleo/vapor (ROV), que é a razão entre o volume de óleo ganho com a injeção
de vapor e o volume de vapor injetado no campo. Trata-se de um indicador prático que
expressa o quão bom foi resultado obtido com a injeção de vapor. Após vários cálculos,
levando-se em consideração os custos do gás, do óleo e suas respectivas eficiências ener-
géticas, os especialistas da área definiram uma constante que representa a ROV limite, ou
ROV econômica, para que haja viabilidade econômica na atividade. A ROV econômica
normalmente tem o valor de 0.07, ou seja, para que a injeção seja viável deve-se obter
pelo menos 70m3 de óleo para cada 1000 ton de vapor injetado. Os valores de ROVsão
calculados da seguinte forma:
ROV=Volume de óleo adicional obtido devido à injeção de vapor
Volume de vapor injetado(5.1)
Para a alternativa 1 os valores de ROV são apresentados na tabela 5.3. Note que a
CAPÍTULO 5. RESULTADOS E DISCUSSÕES 55
ROV do primeiro e do último são maiores que 0.07, porém a ROV do período de 5 anos é
menor que a ROV econômica, comprovando o resultado que a alternativa 1 não é viável
economicamente. Na prática, esse indicador é bastante utilizado, de forma que, caso a
ROV do projeto esteja acima da ROV econômica, o mesmo será considerado viável e sua
implantação efetivada.
Tabela 5.3: Valores de ROV da alternativa 1.2000 2001 2002 2003 2004 Período0,082 0,060 0,056 0,067 0,081 0,069
Diante do exposto, pode-se concluir que embora a alternativa 1 promova os melhores
volumes de produção, é a alternativa 2 que promove os melhores resultados do ponto de
vista econômico.
5.3 Estudo de Caso 2
De forma análoga ao caso anterior, o estudo de caso 2 tem o objetivo de otimizar do
ponto de vista econômico a injeção de vapor em um campo de petróleo, onde a injeção se
dará de forma cíclica e não contínua.
Desta forma, o conjunto de ações do ambiente também será composto por duas ações
diferentes: injetar ou não injetar vapor de forma cíclica nopoço que está localizado no
centro do campo.
A injeção de vapor é realizada por meio de ciclos com duração de 1 ano, onde o vapor
é injetado no poço escolhido nos 10 primeiros dias do ciclo a uma cota de 100 ton/dia.
Durante os próximos 7 dias o mesmo ficará inativo realizando afase desoaking, onde
espera-se que a transmissão do calor do vapor para óleo seja efetivada. Passada a fase
desoaking, o poço voltará a produzir petróleo até que um novo ciclo de injeção se inicie
após um ano. Sendo assim, o objetivo do sistema otimizador é decidir ao final de cada
CAPÍTULO 5. RESULTADOS E DISCUSSÕES 56
ciclo, se o poço deverá continuar na fase de produção ou se um novo ciclo de injeção de
vapor deverá se iniciar.
Após vários experimentos constatou-se que os maiores volumes de produção foram
obtidos com alternativa onde são realizados ciclos de vaporem todos os períodos de
decisão. Esta alternativa proporcionou uma produção acumulada ao longo dos 5 anos
de 20.293m3 e sua curva de produção pode ser observada na figura 5.7.
Pro
du
ção
de
Óle
oA
cum
ula
da
(m
³)
Tempo (Data)
Figura 5.7: Curva de produção acumulada da alternativa com injeção cíclica de vapor.
Ao utilizar o VPL como forma de avaliação da alternativa, o sistema otimizador con-
firmou que a alternativa de realizar ciclos de vapor em todos os períodos de decisão é a de
melhor viabilidade econômica. Este resultado pode ser observado na tabela 5.4, que apre-
senta os valores da matrizQ(s,a) do sistema otimizador após o final de seu aprendizado.
Note que para todos os estados do sistema, os valores da matriz são sempre maiores
para a ação onde se deve injetar vapor, o que nos leva a concluir que independente do
valor de produção apresentado a melhor decisão a ser tomada será sempre a de injetar
vapor.
Perceba que enquanto que no estudo de caso 1 com a injeção contínua a alternativa
CAPÍTULO 5. RESULTADOS E DISCUSSÕES 57
Tabela 5.4: Valores Finais da MatrizQ(s,a) para o Estudo de Caso 2.Estado Com Vapor Sem Vapor
0 3.387 1.8271 446 822 1.793 2843 1.816 4874 394 835 1.807 5006 1.945 1.4617 2.232 1.5028 2.669 1.540
ótima seria a de não injetar vapor em nenhum período, no estudo de caso 2 com a injeção
cíclica, a alternativa ótima se apresenta sendo justamenteo inverso, onde deve-se realizar
ciclos de vapor em todos os períodos.
Este contraste entre os resultados deve-se principalmenteao desempenho da injeção
cíclica nesse campo, a qual obteve um volume de produção de petróleo muito superior ao
da injeção contínua, 20.293m3 e 12.636m3 respectivamente. Um outro fator importante
foi a quantidade de dias em que se injetou vapor durante a simulação, já que na cíclica
injeta-se apenas durante 10 dias e não durante todo o ano comona contínua. Esse fator
faz com que o custo da injeção de vapor em um ano baixe de R$ 1.822.500,00 para R$
50.000,00, o que significa que um ganho 67m3 em um ano já compensaria a injeção desse
vapor. A figura 5.8 apresenta um gráfico comparativo entre os VPLs ao longo dos 5 anos
de simulação para o desenvolvimento do campo com a injeção contínua, injeção cíclica e
sem injeção de vapor.
Note que o VPL da alternativa com injeção cíclica é praticamente o dobro do VPL da
alternativa de desenvolvimento sem nenhuma injeção de vapor.
CAPÍTULO 5. RESULTADOS E DISCUSSÕES 58
Figura 5.8: Gráfico Comparativo de VPL: Contínua, Cíclica e Sem Vapor.
5.3.1 Experimento com Ciclos de Vapor com duração de 3 meses
Um segundo experimento realizado com base no estudo de caso 2, foi o de diminuir
a duração do ciclo de injeção de 1 ano para apenas 3 meses, com ointuito de otimizar o
tempo de intervalo entre as injeções cíclicas de vapor. Com o objetivo de reduzir o tempo
de simulação, esse experimento foi realizado apenas para o 1o ano de desenvolvimento
do campo, o qual apresenta os maiores valores de produção.
No resultado deste experimento também obteve-se como alternativa ótima a opção de
injetar vapor em todos os períodos de decisão, ou seja, a cada3 meses deve-se iniciar
um novo ciclo de injeção no campo. Esse resultado pode ser explicado pelo aumento
de 40% na produção de petróleo durante o 1o ano de simulação. As curvas de produção
acumulada das alternativas de apenas 1 ciclo e dos 4 ciclos de3 meses são apresentadas
nas figuras 5.9 e 5.10, respectivamente.
CAPÍTULO 5. RESULTADOS E DISCUSSÕES 59
Pro
du
ção
de
Óle
oA
cum
ula
da
(m
³)
Tempo (Data)
Figura 5.9: Curva de produção acumulada da alternativa com ciclo de 1 ano.
Pro
du
ção
de
Óle
oA
cum
ula
da
(m
³)
Tempo (Data)
Figura 5.10: Curva de produção acumulada da alternativa com ciclo de 3 meses.
CAPÍTULO 5. RESULTADOS E DISCUSSÕES 60
Isso significa que o incremento de produção que o vapor proporciona nesses 3 meses,
é suficiente para compensar os custos com a injeção e gerar lucros. Na figura 5.11, é
apresentada uma comparação dos resultados do 1o ano de simulação com o ciclo de 1 ano
e com ciclos de 3 meses.
Figura 5.11: Gráfico Comparativo de VPL, Volume de Produção e Valores de ROV.
Tabela 5.5: Comparação de VPL e ROV na injeção cíclicaProdução ROV VPL
Ciclo - 1 ano 3.010 3,0099 2.207.425Ciclo - 3 meses 6.994 1,7484 5.045.200
Note que a ROV para a alternativa em que apenas 1 ciclo de vaporé realizado durante
o ano é quase o dobro da ROV da alternativa com ciclos de 3 meses. Porém, os volumes
de produção e consequentemente os valores de VPL são bem maiores para a alternativa
onde se realiza ciclos de 3 em 3 meses.
Esta é uma observação importante, pois muitos especialistas se baseiam apenas na
ROV como indicador econômico para tomadas de decisões na área de petróleo. Se apenas
a ROV fosse utilizada como base para a tomada de decisão nessecaso, a alternativa com
apenas 1 ciclo de vapor durante o ano seria a escolhida, porémfica claro que esta não é
CAPÍTULO 5. RESULTADOS E DISCUSSÕES 61
a decisão que rende os melhores resultados econômicos. Dessa forma, esse experimento
prova que a análise para tomadas de decisões deve ser realizada por meio do VPL, o qual
incorpora variáveis como o preço do petróleo e do gás no mercado.
CAPÍTULO 6
Conclusão
CAPÍTULO 6. CONCLUSÃO 63
Este trabalho se propôs a investigar o desempenho da técnicade aprendizado por
reforço na otimização do desenvolvimento da produção através da maximização do VPL
ao longo do tempo.
A grande dificuldade encontrada no desenvolvimento deste trabalho foi com relação
ao uso do simulador matemático STARS, pois o mesmo necessitade um grande tempo de
execução para simular o comportamento de reservatórios relativamente simples, quando
comparados com situações reais encontradas na indústria dopetróleo. Este fator foi de-
cisivo para a escolha dos problemas a serem modelados para osestudos de casos, onde
limitações foram impostas aos modelos com o intuito de diminuir o tempo de simulação.
Apesar da pouca complexidade dos problemas estudados nessetrabalho diante da
magnitude dos problemas reais da indústria do petróleo, é possível notar que a técnica
de AR se mostrou bastante eficiente na otimização dos problemas modelados. Este bom
resultado pode sugerir o uso da técnica como ferramenta adicional no processo de tomadas
de decisões ao lado de outras técnicas já utilizadas atualmente, como a própria simulação
numérica. Além disso, mostra que o aprendizado por reforço écapaz de competir com
outras técnicas inteligentes já estudadas nesse tema, comoos algoritmos evolutivos.
Esse trabalho se mostra bastante relevante para o cotidianodos engenheiros de reser-
vatório, já que a atividade de otimizar o desenvolvimento daprodução torna-se bastante
complicada quando se há a necessidade de avaliar inúmeras alternativas sem o auxílio de
uma ferramenta computacional. Diante disso, a tomada de decisão é quase sempre ba-
seada na experiência do profissional tomando-se como base indicadores práticos como o
ROV. Porém conforme resultados apresentados, uma tomada dedecisão baseada no va-
lor presente líquido é bem mais confiável e rentável do ponto de vista econômico, o que
pode ser realizado facilmente por meio do uso de sistemas inteligentes como o que foi
desenvolvido nesse trabalho.
Como trabalhos futuros, sugere-se que a técnica de AR seja investigada em problemas
que busquem a otimização de outros aspectos da indústria do petróleo, tais como: as
CAPÍTULO 6. CONCLUSÃO 64
cotas de injeção de vapor do campo, a localização dos poços injetores, profundidade ideal
da camada de injeção de vapor. Uma outra sugestão, é utilização de uma rede neural
como fonte das curvas de predição da produção de petróleo, aoinvés do uso do simulador
matemático. Isto aumentaria bastante o poder de computaçãodo sistema, já que o tempo
de simulação foi a grande restrição para o desenvolvimento desse trabalho.
Referências Bibliográficas
Almeida, Luciana Faletti (2003),Otimização de alternativas para desenvolvimento de
campo de petróleo utilizando computação evolucionária, Dissertação de Mestrado,
PUC-RJ.
Almeida, Luciana Faletti (2007),Sistema Híbrido de Otimização de Estratégias de Con-
trole de Válvulas de Poços Inteligentes sob Incertezas, Tese de Doutorado, PUC-RJ.
Bianchi, Reinaldo Augusto Costa (2004),Uso de Heurísticas para a Aceleração do
Aprendizado por Reforço, Tese de Doutorado, Escola Politécnica da Universidade
de São Paulo.
Bittencourt, Antonio Carlos (1997),Optimizing Hydrocarbon Field Development Using
a Genetic Algorithm Based Approach, Tese de Doutorado, Stanford University.
Camponogara, Eduardo & Maurício Rangel Guimarães Serra (2005), Aprendizagem por
Reforço: Uma Primeira Introdução, Universidade Federal de Santa Catarina.
da Motta Salles Barreto, André (2008),Soluções Aproximadas para Problemas de To-
mada de Decisão Sequencial, Tese de Doutorado, COPPE/UFRJ.
da Silva, Luis Carlos Ferreira (2006),Inteligência Computacional para Predição de Pro-
dução de Reservatórios de Petróleo, Tese de Doutorado, COPPE/UFRJ.
de Araújo Cavalcante, José Sérgio (2004),Metodologia de Geração de Mapas de Quali-
dade com Aplicação na Seleção e Otimização de Estratégias deProdução, Disser-
tação de Mestrado, UNICAMP.
65
REFERÊNCIAS BIBLIOGRÁFICAS 66
de Lima Júnior, Manoel Leandro (2005),Uma Contribuição à solução do Problema dos
k-Servos Usando Aprendizado por Reforço, Dissertação de Mestrado, Universidade
Federal do Rio Grande do Norte.
de Oliveira, Amanda Gondim (2006),Desenvolvimento de um ambiente de simulação
para o estabelecimento de trajetórias em ambientes com obstáculos usando apren-
dizagem por reforço, Trabalho de Conclusão de Curso, Universidade Federal do Rio
Grande do Norte.
Nepomucemo, Francisco (1997),Tomada de Decisão em Projetos de Risco na Exploração
de Petróleo, Tese de Doutorado, UNICAMP.
Pedroso, Carlos (1999),Otimização de Locações de Poços Usando Simulação Numérica
de Reservatórios, Dissertação de Mestrado, UNICAMP.
Rosa, Adalberto (2002),Previsão de Comportamento de Reservatórios de Petróleo: Mé-
todos Analíticos, Interciência Ltda.
Russel, Stuart & Peter Norvig (1995),Artificial Intelligence: A Modern Approach, Pren-
tice Hall.
Sutton, Richard S. & Andrew G. Barto (1998),Reinforcement Learning: An Introduction,
MIT Press.
Thomas, José Eduardo (2001),Fundamentos de Engenharia de Petróleo, Interciência
Ltda.
Valdivia, Yván Jesús Túpac (2005),Sistema Inteligente de Otimização de Alternativas de
Desenvolvimento de Campos Petrolíferos, Tese de Doutorado, PUC-RJ.
Villanueva, Juan Moises Mauricio (n.d.),Otimização de Alternativas de Desenvolvimento
de Campos Petrolíferos por Algoritmos Genéticos, Revista de Inteligência Compu-
tacional Aplicada, Vol X.