Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Universidade Estadual de Campinas
Introducao a teoria da decisao estatıstica
Aplicacoes
Prof. Laura L. R. Rifo
- Agosto, 2014 -
Conteudo
1 Introducao 1
1.1 Conceitos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Princıpio da utilidade esperada . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Decisoes baseadas em dados . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Princıpio da verossimilhanca . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 O problema do seguro de viagem . . . . . . . . . . . . . . . . . . . . . . 10
2 Programacao dinamica 17
2.1 O problema do seguro . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Problemas de decisao finitos a dois estagios . . . . . . . . . . . . . . . . 21
2.3 Mais de dois estagios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3 Aplicacoes 27
3.1 O problema do casamento . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Ensaios clınicos sequenciais . . . . . . . . . . . . . . . . . . . . . . . . . 30
Problemas do tipo two-armed bandit . . . . . . . . . . . . . . . . . . . . 31
Planejamento adaptativo para resposta binaria . . . . . . . . . . . . . . 32
Capıtulo 1
Introducao
Nesta parte do curso, veremos a aplicacao dos conceitos estudados na primeira parte
em alguns aspectos de inferencia estatıstica e em princıpios gerais de planejamento de
experimentos. Estas notas estao fortemente baseadas em Parmigiani and Inoue [3].
1.1 Conceitos basicos
O agente decisor, nesta parte do curso, e um estatıstico, que deve escolher entre um
conjunto de acoes, cujas consequencias dependem de algum estado da natureza desco-
nhecido. O conjunto de acoes sera denotado por A e uma acao por a, e o conjunto de
estados da natureza, por Θ, com elemento generico θ.
Pensaremos em consequencias em termos da perda associada a cada par (θ, a) ∈ (Θ,A),
definindo uma funcao de perda L(θ, a). Esta funcao e nao-negativa e expressa a im-
portancia relativa do erro cometido ao tomar a decisao a quando θ e verdadeiro. Ou
seja, se a decisao “correta” for tomada para um θ especıfico, a perda deveria ser zero.
Se comecarmos com uma funcao de utilidade, u(θ, a), como na primeira parte do curso,
podemos definir a funcao de perda como uma funcao de custo por arrependimento,
L(θ, a) = supa′∈A
u(θ, a′)− u(θ, a) .
Outra forma de definir a funcao de perda e atraves da utilidade negativa
Lu(θ, a) = −u(θ, a) ,
de modo que o custo do arrependimento pode ser expresso como
L(θ, a) = Lu(θ, a)− infa∈A
Lu(θ, a) .
2 Introducao
Minimax
O princıpio minimax de escolha esta baseado em uma analogia com teoria dos jogos, e
supoe que a funcao de perda representa o premio para ambos, o estatıstico e o oponente
(a natureza). A natureza escolhe primeiro, e assim a melhor estrategia para o estatıstico
e supor o pior e escolher a acao que minimiza a perda maxima.
Formalmente, uma acao aM e minimax se
aM = argmin maxθL(θ, a) .
Como ja vimos, o criterio minimax nao requer nenhum conhecimento sobre a chance de
cada estado da natureza ocorrer; alem disso, em diversos casos, as decisoes estatısticas
minimax sao razoaveis e tendem a ser muito conservadoras.
No entanto, o pessimismo intrınseco desta abordagem faz com que, em alguns casos,
nenhum experimento relevante mude a decisao do agente, como se ele continuasse na
completa ignorancia.
Com a funcao de perda de utilidade negativa, o criterio minimax e ainda mais pessimista.
De fato, considere as seguintes tabelas para Lu e L, respectivamente.
θ1 θ2 θ3
a1 1 0 6
a2 3 4 5
θ1 θ2 θ3
a1 0 0 1
a2 2 4 0
Para a perda da utilidade negativa, a natureza sempre escolhera θ3, a despeito de qual-
quer evidencia experimental a favor de θ1 ou θ2. Ja a perda por arrependimento e menos
pessimista, ja que natureza tera que escolher entre θ2 e θ3.
Qualquer uma das duas, no entanto, apresenta incoerencia, como vimos na primeira
parte.
Princıpio da utilidade esperada
Em contraste, o princıpio da utilidade esperada se aplica a perdas esperadas. Ele incor-
pora informacao sobre quao provaveis sao os diversos valores de θ, pesando as perdas
com respeito a estas probabilidades. Denotando as probabilidades por π(θ), a acao que
minimiza a perda esperada
a∗ = argmin
∫ΘL(θ, a)π(θ)dθ
Conceitos basicos 3
e chamada acao de Bayes. O valor
Lπ(a) =
∫ΘL(θ, a)π(θ)dθ
e chamado perda esperada a priori.
A acao de Bayes e a mesma, seja considerando a perda por arrependimento ou a perda
da utilidade negativa.
Para este princıpio, as objecoes da teoria minimax se baseiam na visao de que θ e
meramente uma constante desconhecida, e nao uma variavel, de modo que nao tem
sentido falar da distribuicao de probabilidade de θ: qualquer suposicao na atribuicao de
uma distribuicao para θ e hipotetica.
Mesmo assim, acoes de Bayes tem sido usadas na teoria de decisao frequentista, ja que
permite produzir regras de decisao com boas propriedades minimax e frequentistas.
Exemplo (companhia de internet). Uma pessoa esta escolhendo uma companhia
de internet para poder realizar ligacoes internacionais para telefone fixo. A companhia
A e mais barata, mas tem o problema de falhar na conexao 100 θ% do tempo. Por outro
lado, a companhia B, que e um pouco mais cara, nunca falha. As acoes sao A e B, e o
desconhecido e θ.
Suponha que sua funcao de perda e
L(θ,A) = 2θ , θ ∈ [0, 1], e L(θ,B) = 1 .
Aqui, o valor 1 representa a diferenca entre os custos de ambas as companhias. Ja a
funcao de perda para A, linear no total de ligacoes perdidas, pode ser interpretada como
um custo adicional de 0.02 unidades de utilidade por cada ponto percentual de tempo
sem conexao. Assim, se θ = 0.25, sua perda e 0.5, mas se θ = 0.55, sua perda e 1.1.
A acao minimax pode ser calculada sem nenhuma outra informacao e e escolher a com-
panhia B, ja que
supθL(θ,A) = 2 > 1 = sup
θL(θ,B) .
Esta acao e conservadora, ja que a companhia A teria que perder a conexao mais da
metade do tempo para que esta fosse a decisao correta.
Suponha que, baseada em uma pesquisa sobre consumo, a pessoa quantifica sua media
a priori para θ como 0.0476, e seu desvio-padrao a priori como 0.1487. Alem disso, ela
decide que uma distribuicao beta com estes momentos e uma escolha razoavel para sua
4 Introducao
distribuicao a priori para θ. Assim, os hiperparametros da priori sao α0 = 0.05 e β0 = 1.
Desta forma, a perda esperada a priori e
∫ 1
0L(θ, a)π(θ)dθ =
∫ 1
0L(θ, a)0.05θ−0.95 =
2Eθ(θ) se a = A
1 se a = B.
Como 2Eθ(θ) = 2×0.05/(1+0.05) ≈ 0.095 < 1, a acao de Bayes e contratar a companhia
A. Se a priori tivesse sido uniforme em [0, 1], a solucao bayesiana seria a indiferenca entre
a companhia A e a B.
Exemplo (interpretacao geometrica) Considere Θ = {θ1, θ2} e A = {a1, . . . , a6},com funcao de perda
a1 a2 a3 a4 a5 a6
θ1 10 8 4 2 0 0
θ2 0 8 2 5 6 10
Para cada acao a, as possıveis perdas podem ser representadas como um par ordenado
ya = (L(θ1, a), L(θ2, a)), como na Figura1.1.
Figura 1.1: Grafico de perdas, com acao bayesiana igual a a3.
Suponha que a priori e π(θ1) = 1/3. Na figura, acoes com mesma perda esperada estao
na mesma reta com equacao
1
3L(θ1, a) +
2
3L(θ2, a) = k ,
Conceitos basicos 5
onde k e a perda esperada. Como a acao de Bayes e a que minimiza este valor, temos
que ela e a3, com k = 8/3.
Considerando agora a decisao minimax, vemos que ela tambem coincide com a3, ja que
tem menor maximo das perdas, igual a 4.
A figura tambem mostra alguns dos pontos, representando as acoes, conectados por
segmentos de linhas inteiras. Estes segmentos nao contem nenhum dos pontos de decisao;
mas, se formos escolher aleatoriamente entre duas decisoes, digamos a3 e a5, entao a
perda esperada estara no segmento entre elas (esta esperanca e a da aleatorizacao).
Regras baseadas na selecao aleatoria entre acoes sao chamadas regras aleatorizadas. As
vezes, usar regras aleatorizadas permite alcancar uma menor perda maxima que com
qualquer umas das decisoes, o que pode ser interessante para um decisor minimax.
Figura 1.2: Grafico de perdas, com acao minimax igual a uma decisao aleatorizada entre
a3 e a5.
Por exemplo, na Figura 1.2, temos a regiao de maximo delimitada pelos quadrados com
vertice na origem. Deste modo, dentre as acoes possıveis, a3 e a decisao minimax, como
indicado pelo quadrado maior. O quadrado menor indica um ponto no segmento entre
a3 e a5 que corresponde a decisao aleatorizada minimax: escolher a3 com probabilidade
3/4, ou a5, com probabilidade 1/4.
Suponha agora que a priori fosse π(θ1) = 1/2. Entao as retas tracejadas da Figura 1.1
seriam paralelas ao segmento entre a3 e a5. Assim, estas acoes, assim como qualquer
decisao aleatorizada entre elas, seriam acoes bayesianas. Mas nenhum ganho seria obtido
escolhendo uma acao aleatorizada.
6 Introducao
1.2 Decisoes baseadas em dados
Do ponto de vista estatıstico, estamos interessados em situacoes em que o resultado de
um experimento, cuja distribuicao depende de θ, estiver disponıvel.
Denotemos por x o resultado de um experimento com possıveis valores em um conjunto
X , e por f(x | θ), a funcao de densidade de probabilidade. Esta funcao e chamada
funcao de verossimilhanca quando vista como funcao de θ.
Pergunta: como usar os dados para tomar uma decisao otima?
Definimos uma funcao de decisao (ou regra de decisao) como qualquer funcao δ(x) com
domınio X e codomınio A. Ou seja, uma regra de decisao e uma receita que transforma
dados em acoes.
Denotemos por D a classe de todas as regras de decisao. Os princıpios minimax e de
Bayes sao abordagens alternativas para avaliar regras de decisao.
Notacao: usaremos Ex[g(x, θ)] para denotar a esperanca da funcao g com respeito a
distribuicao marginal de x; Ex|θ[g(x, θ)] para a esperanca de g com respeito a f(x | θ);e Eθ[g(x, θ)] para a esperanca com respeito a distribuicao a priori de θ.
A teoria original (devida a Wald) se baseia na performance esperada de uma regra de
decisao δ previamente a observacao do experimento, medida pela chamada funcao de
risco,
R(θ, δ) =
∫XL(θ, δ(x))f(x | θ)dx .
Observe que ela aponta para o desempenho da regra de decisao em uma serie de re-
peticoes dos problemas de decisao, o que foi motivado pelas aplicacoes industriais, em
processos de producao, por exemplo.
Os princıpios de otimalidade usados com uma funcao de perda para escolher entre acoes
podem ser adaptados com um risco para escolher entre funcoes de decisao.
Regra de decisao minimax Uma regra de decisao δM e minimax se
supθR(θ, δM ) = inf
δsupθR(θ, δ) .
Dada uma distribuicao a priori π e uma estrategia de decisao δ, definimos o risco baye-
siano associado como
r(π, δ) =
∫ΘR(θ, δ)π(θ)d(θ) .
Princıpio da verossimilhanca 7
Regra de decisao bayesiana Uma regra de decisao δ∗ e bayesiana com respeito a π
se
r(π, δ∗) = infδr(π, δ) .
Observe que para cada x, podemos obter a distribuicao a posteriori dos estados da
natureza
π(θ | x) =π(θ) f(x | θ)
m(x),
onde
m(x) =
∫Θπ(θ) f(x | θ)dθ .
Assim, a funcao que deve ser minimizada e a perda esperada posterior
Lπx(a) =
∫ΘL(θ, a)π(θ | x)dθ .
Este procedimento define a chamada regra de Bayes formal. Para mostrar que ela
satisfaz a definicao anterior, considere a relacao entre a perda esperada posterior e o
risco de Bayes
r(π, δ) =
∫Θ
∫XL(θ, δ)f(x | θ)π(θ)dxdθ =
∫X
[∫ΘL(θ, δ)π(θ | x)dθ
]m(x)dx ,
supondo que podemos trocar a ordem das integrais. Assim, ao minimizar a perda
esperada posterior, estamos minimizando r. Inversamente, se queremos minimizar r
com respeito a δ, devemos faze-lo pontualmente em x, minimizando assim a integral
dentro do colchete.
1.3 Princıpio da verossimilhanca
O uso de regras bayesianas formais esta sustentado pela teoria axiomatica e tem algumas
implicacoes em inferencia estatıstica.
Primeiro, para um resultado experimental x dado, uma regra bayesiana pode ser de-
terminada sem considerar todas os demais resultados que poderiam ter ocorrido no
experimento. O unico relevante sao as probabilidades do resultado observado para os
diversos estados da natureza relevantes.
Alem disso, todas as caracterısticas do experimento que nao aparecem em f(x | θ) nao
entram na conta da perda esperada posterior, e portanto sao irrelevantes para a decisao.
De fato, podemos multiplicar f(x | θ) por qualquer funcao nao nula de x sem alterar
a regra de Bayes. Assim, por exemplo, podemos reduzir os dados por suficiencia, pero
criterio da fatoracao, as integrais anteriores.
8 Introducao
Que toda a informacao nos dados x sobre θ esta na funcao de verossimilhanca e o
chamado Princıpio da Verossimilhanca (PV).
Este princıpio e controverso porque a maioria das medidas de evidencia frequentistas
violam este princıpio, como intervalos de confianca e p-valor, por exemplo.
Exemplo As regras de decisao derivadas do princıpio da utilidade esperada satisfazem
o PV, enquanto que as regras minimax, nao. Consideremos a funcao de perda da Secao
1.1, na forma de arrependimentos. Na ausencia dos dados, a acao minimax e a1. Agora
suponha que voce observa uma variavel binaria x, que pode ser obtida atraves de dois
planejamentos alternativos, com distribuicoes amostrais f1 e f2 como na tabela abaixo.
θ1 θ2 θ3
f1(x = 1 | θ) .20 .10 .25
f2(x = 1 | θ) .60 .30 .75
Como temos dois possıveis resultados e duas possıveis acoes, temos quatro possıveis
funcoes de decisao:
δ1 = a1, ou seja, escolher a1 independentemente do resultado do experimento;
δ2 = a2, ou seja, escolher a2 independentemente do resultado do experimento;
δ3 =
a1 se x = 1
a2 se x = 0.
δ4 =
a1 se x = 0
a2 se x = 1.
Nos modelos amostrais da tabela anterior, temos que f2(x = 1 | θ) = 3f1(x = 1 |θ), para todo θ ∈ Θ. Ou seja, se observarmos x = 1, ambas verossimilhancas sao
proporcionais. Isto implica que quando x = 1, a regra da utilidade esperada sera a
mesma para ambos os planejamentos.
Para verificar se o mesmo se aplica ao minimax, consideremos a funcao de risco de cada
decisao.
Sob f1, a regra de decisao minimax e δM1 (x) = δ4(x). No entanto, sob f2, e δM2 (x) =
δ1(x) = a1. Assim, se observarmos x = 1, a decisao minimax depende tambem do
planejamento utilizado. Isto e uma violacao do PV.
Princıpio da verossimilhanca 9
Exercıcio 1. Obtenha a funcao de risco de cada decisao, e chegue a estas conclusoes.
Considere agora a mensuracao de um resultado ordinal y, com categorias 0, 1/3, 2/3, 1,
com verossimilhanca como na tabela.
θ1 θ2 θ3
f(y = 1 | θ) .20 .10 .25
f(y = 2/3 | θ) .20 .10 .25
f(y = 1/3 | θ) .20 .10 .25
f(y = 0 | θ) .40 .70 .25
No lugar de perguntar sobre y diretamente, podemos usar dois possıveis questionarios
com respostas dicotomicas x. Um, correspondendo a f1, dicotomiza y em 1 versus todos
os demais, e o outro, correspondente a f2, dicotomiza y em 0 versus todos os demais.
Como as categorias 1/3, 2/3, 1 tem mesma verossimilhanca, entao f2 e um melhor ins-
trumento como um todo. No entanto, se a resposta for x = 1, entao nao importa qual
instrumento foi usado, ja que em ambos os casos sabemos que a variavel latente deve ser
1 ou um valor que e equivalente a ele, em termos da aprendizagem sobre θ (pela tabela
com f1 e f2).
O fato de que em um experimento diferente o resultado poderia ser ambıguo sobre y, em
uma dicotomizacao e nao na outra, nao e relevante de acordo com o PV. No entanto, a
funcao risco R, que depende da distribuicao amostral completa, e afetada.
Exercıcio 2. Um engenheiro obtem uma amostra aleatoria de tubos de
eletrons e mede a voltagem sob certas condicoes com um voltımetro muito
preciso (preciso o suficiente para que o erro de mensuracao seja desprezıvel
comparado com a variabilidade dos tubos). Um estatıstico examina os dados,
que parecem normalmente distribuıdos, variando de 75 a 99 volts, com media
87 e desvio-padrao 4. Ele aplica a analise padrao para a normal, obtendo
um intervalo de confianca para a media.
Mais tarde, ele visita o laboratorio do engenheiro e percebe que o voltı-
metro usado le somente ate 100, ou seja, a populacao parece ser censurada.
Se o estatıstico for frequentista ortodoxo, ele fara uma nova analise.
No entanto, o engenheiro diz que ele tem um outro aparelho, igualmente
acurado e que le ate 1000 volts, que ele teria usado se alguma voltagem
tivesse sido acima de 100.
Isto alivia o estatıstico ortodoxo, porque isso significa que a populacao
estava de fato nao censurada. Mas, no dia seguinte, o engenheiro telefona
10 Introducao
e diz: “Acabei de descobrir que meu voltımetro de alto espectro nao estava
funcionando no dia em que realizei o experimento.”. O estatıstico entao diz
que o engenheiro nao deveria ter realizado o experimento ate ter consertado
o aparelho, e que uma nova analise deve ser feita.
A isto o engenheiro responde: “Mas o experimento teria dado os mes-
mos resultados, com o aparelho de alto espectro funcionando. Eu obtive as
voltagens precisas de minha amostra, de modo que eu aprendi exatamente o
que eu teria aprendido se o outro aparelho estivesse funcionando.”
Estabeleca um modelo probabilıstico para a situacao descrita acima, e especifique uma
distribuicao a priori e uma funcao de perda para a estimacao pontual da voltagem media.
Determine a funcao de risco R da regra de Bayes e de sua regra frequentista favorita
em dois cenarios: quando o voltımetro de alto espectro esta funcionando e quando nao
esta. Examinar a funcao de risco ajuda voce a selecionar uma regra de decisao depois
de ter observado os dados?
1.4 O problema do seguro de viagem
Suponha que voce vai realizar uma viagem para uma regiao longınqua. Voce nao tem
certeza de como e seu estado de vacinacao contra uma certa doenca leve que e comum
na regiao para onde voce vai, e voce precisa decidir se contrata um seguro medico para a
viagem. Suponha que voce estara exposto a doenca, mas voce nao sabe se sua imunizacao
atual funcionara. De acordo com dados sobre turistas com mesma origem que voce, a
chance de desenvolver a doenca durante a viagem e em torno de 3%. O tratamento e o
hospital custariam normalmente 1000 dolares. Por outro lado, se voce comprar o seguro,
por 50 dolares, todas as suas despesas serao cobertas. Assim, a tabela de perdas e
θ1: doente θ2: nao doente
seguro 50 50
sem seguro 1000 0
A Figura 1.3 mostra a arvore de decisao do problema.
Do modo bayesiano, calculamos perdas esperadas para avaliar ambas as acoes:
sem seguro: perda esperada = 1000× 0.03 + 0× 0.97 = 30
seguro: perda esperada = 50× 0.03 + 50× 0.97 = 50
Exercıcio 3. Preencha os valores na arvore para decidir a melhor acao.
O problema do seguro de viagem 11
Figura 1.3: Problema do seguro saude.
Assim, a decisao bayesiana, que minimiza a perda esperada e nao contratar o seguro.
No entanto, se a chance de contrair a doenca fosse 5% ou mais, a melhor decisao seria
contratar o seguro.
Voce pode melhorar sua tomada de decisoes conseguindo dados sobre a sua probabili-
dade de contrair a doenca. Imagine que voce tem a possibilidade de realizar um teste
medico que o informara sobre seu estado de imunizacao atual. O teste tem apenas dois
veredictos: positivo - voce tem predisposicao para contrair a doenca; negativo - voce
nao tem. Mas, lamentavelmente, o teste nao e 100% seguro.
Suponha que o laboratorio informa que a sensitividade do teste (a probabilidade do teste
acertar um diagnostico positivo) e 0.9, enquanto que sua especificidade (a probabilidade
do teste acertar um diagnostico negativo) e 0.77.
Denotemos por x a variavel indicadora do evento “o teste e positivo”.
Assim, temos: π(θ) = 0.03, f(x = 1 | θ1) = 0.9, f(x = 0 | θ2) = 0.77.
Depois de realizado o teste, suas probabilidades de contrair a doenca serao diferentes de
0.03.
O teste parece confiavel o suficiente para fazer voce contratar o seguro se o teste for
positivo, e nao contratar, caso contrario?
Com dois possıveis resultados e duas acoes, podemos definir quatro regras de decisao:
δ0(x): nao contratar o seguro.
δ1(x): contratar o seguro se x = 1, e nao, caso contrario.
12 Introducao
δ2(x): contratar o seguro se x = 0, e nao, caso contrario.
δ4(x): contratar o seguro.
Ignorando o custo do exame medico, a tabela de perdas e
θ1: doente θ2: nao doente
x = 0 x = 1 x = 0 x = 1
δ0(x) 1000 1000 0 0
δ1(x) 1000 50 0 50
δ2(x) 50 1000 50 0
δ3(x) 50 50 50 50
Aqui duas incertezas afetam sua escolha: o resultado do teste e se voce ficara doente
durante a viagem. Ponderando as perdas por estado e depois pelos resultados, podemos
obter as perdas esperadas totais, obtendo para δ1, se θ = θ1, por exemplo,
1000 f(x = 0 | θ1) + 50 f(x = 1 | θ1) = 145.0 ,
e se θ = θ2
0 f(x = 0 | θ2) + 50 f(x = 1 | θ2) = 11.5 ,
de modo que a perda esperada total e
145× π(θ1) + 11.5× π(θ2) = 145× 0.03 + 11.5× 0.97 = 15.5 .
Os valores para cada decisao estao na tabela.
perdas medias por estado perdas medias totais
θ1 θ2
δ0(x) 1000 0 30
δ1(x) 145 11.5 15.5
δ2(x) 905 38.5 64.5
δ3(x) 50 50 50
Deste modo, a estrategia δ1 e a estrategia de Bayes, que minimiza a perda esperada
total.
Observacao: uma forma alternativa de obter a regra de Bayes e calculando diretamente
as perdas esperadas posteriores dado x = 1 e x = 0.
O problema do seguro de viagem 13
Alternativamente, se voce usar a estrategia minimax, seu objetivo sera evitar as perdas
maiores. Comecemos com o caso em que voce nao tem dados disponıveis. Como as
perdas maiores sao 50 dolares se voce contratar o seguro e 1000, se nao contratar, voce
deveria contratar o seguro.
Escrevendo estas perdas na fora de arrependimento, o argumento e o seguinte. Se voce
condicionar em ficar doente, o melhor que voce pode ter e uma perda de 50 dolares,
comprando o seguro. A acao alternativa implica uma perda de mil dolares. Quando voce
avalia se esta acao vale a pena, voce deve comparar a perda com a melhor (menor) perda
que voce poderia ter obtido. Assim, voce perde mil dolares, mas seu arrependimento e
somente pelos 950 dolares que voce poderia ter evitado gastar.
Assim, a tabela de perdas por arrependimento e
evento perda
θ1 θ2 esperada
decisao seguro 0 50 48.5
nao seguro 950 0 28.5
Desta forma, a acao de Bayes permanece a mesma, mas a acao minimax pode mudar
(mesmo que nao neste exemplo).
Como a decisao minimax depende do resultado do teste?
Na tabela abaixo, aparecem as regras de Bayes e minimax usando as perdas de arrepen-
dimento.
evento maior risco
θ1 θ2 risco esperado
δ0(x) 950 0 950 28.5
δ1(x) 95 11.5 95 14.0
δ2(x) 855 38.5 855 63.0
δ3(x) 0 50 50 48.5
Usando o procedimento minimax, a melhor decisao e δ3, comprar o seguro independen-
temente do resultado do teste. Esta conclusao depende das perdas, da sensitividade e
da especificidade, e diferentes regras poderiam ser minimax se estes valores mudassem.
Mais adiante, reveremos este problema considerando ambas as decisoes: fazer o teste ou
nao, e o que fazer com a informacao.
14 Introducao
Sob certas condicoes, e possıvel que uma regra Bayesiana seja tambem minimax. Infor-
malmente, isto ocorre quando temos uma priori pessimista.
Dizemos que uma distribuicao a priori πM para θ e menos favoravel se
infδr(πM , δ) = sup
πinfδr(π, δ) .
Esta priori e tambem dita a estrategia maximin da natureza.
Teorema 1. Suponha que δ∗ e uma regra de Bayes com respeito a πM e tal que
r(πMδ∗) =
∫ΘR(θ, δ∗)πM (θ)dθ = sup
θR(θ, δ∗) .
Entao
1. delta∗ e uma regra minimax.
2. Se δ∗ for a unica regra bayesiana com respeito a πM , entao δ∗ e a unica regra
minimax.
3. πM e a priori menos favoravel.
Exemplo Considere uma observacao x binomial com θ desconhecido, funcao de perda
quadratica L(θ, a) = (θ − a)2, e suponha que θ tem distribuicao a priori Beta(α0, β0).
Sob perda quadratica, a regra de Bayes, δ∗, e a media posterior
δ∗(x) =α0 + x
α0 + β0 + n,
cujo risco e
R(θ, δ∗) =θ2[(α0 + β0)2 − n] + θ[n− 2α0(α0 + β0)] + α2
0
(α0 + β0 + n)2.
Se α0 = β0 =√n/2, temos
δM (x) =x+√n/2
n+√n
=x
n
√n
1 +√n
+1
2(1 +√n).
Esta regra tem risco constante
R(θ, δM ) =1
4 + 8√n+ 4n
=1
4(1 +√n)2
.
Como o risco e constante, R(θ, δM ) = r(πM , δM ) para todo θ, e πM e uma distribuicao
Beta(√n/2,
√n/2). Pelo teorema anterior, concluımos que δM e minimax e πM e menos
favoravel.
O problema do seguro de viagem 15
Exercıcio 4. No exemplo anterior, determine o risco quadratico do estimador de ma-
xima verossimilhanca e compare-o com o do estimador minimax δM , a medida que n
cresce.
Discutiremos brevemente regras de decisao aleatorizadas, como a que vimos em algum
exemplo anterior. Do ponto de vista frequentista, estas regras sao importantes pois
garantem, por exemplo, nıveis de erro especificados ao construir procedimentos de teste
de hipoteses e intervalos de confianca. Do ponto de vista bayesiano, elas nao sao ne-
cessarias, pois nao melhoram o risco de Bayes, em comparacao com regras de decisao
nao aleatorizadas.
Dizemos que uma regra δR e aleatorizada se, para cada x, δR(x, ·) e uma distribuicao de
probabilidade em A. Em particular, δR(x,A) denota a probabilidade de que uma acao
em A ⊂ A seja escolhida.
Denotemos por DR o conjunto destas regras.
A perda deste tipo de regra e
L(θ, δR(x)) = EδR(x,·)L(θ, a) =
∫a∈A
L(θ, a)δR(x, a) da .
Uma regra de decisao nao aleatorizada e um caso especial de uma regra aleatorizada
que atribui, para qualquer x, uma acao especıfica com probabilidade um.
No exemplo da Figura 1.1, nenhuma regra aleatorizada em DR melhora o risco de Bayes
de uma decisao bayesiana nao-aleatorizada em D. Isto e de fato um caracterıstica geral.
Teorema 2. Para qualquer distribuicao a priori π em Θ, o risco de Bayes no conjunto
de estimadores aleatorizados e o mesmo risco de Bayes no conjunto de estimadores
nao-aleatorizados,
infδ∈D
r(π, δ) = infδR∈DR
r(π, δR) .
Este resultado, baseado no risco r, e um argumento a favor de que um estatıstico nao
deve basear uma decisao importante no resultado do lancamento de uma moeda.
Estes conceitos podem ser aprofundados em sua aplicacao em conceitos basicos de in-
ferencia, como testes de hipoteses e estimacao em [3, Secoes 7.5-7.7] e [5].
16 Introducao
Capıtulo 2
Programacao dinamica
Veremos neste capıtulo problemas de decisao em multiplos estagio, onde as decisoes
devem ser tomadas no tempo e com graus de informacao variaveis. O aspecto importante
deste tipo de decisao e que, como em um jogo de xadrez, as decisoes de agora afetam
a disponibilidade das opcoes de acoes futuras, e muitas vezes tambem a informacao
disponıvel ao tomar decisoes futuras.
Na pratica estatıstica, problemas multiestagio podem ser usados como fundamento em
teoria de decisao para o planejamento de experimentos, no qual decisoes iniciais estao
relacionadas com quais dados coletar, e decisoes finais com como usar a informacao
obtida.
A abordagem sera feita do ponto de vista da maximizacao da utilidade esperada, e a
ferramenta de representacao serao as arvores de decisao, ja definidas.
O princıpio fundamental para resolver arvores de decisao multiestagio e chamado inducao
regressiva (backward induction), que apareceu originalmente em referencias de pro-
gramacao dinamica, cuja motivacao inicial era processos de controle industrial.
Exemplo Considere um processo quımico que consiste de um aquecedor, um reator e
uma torre de destilacao, conectados em serie. Queremos determinar a temperatura otima
no aquecedor, a taxa de reacao otima e o total otimo de cubas na torre de destilacao.
Todas estas decisoes sao interdependentes. No entanto, uma vez que a temperatura e a
taxa de reacao sao escolhidas, o total de cubas deve ser otimo com respeito ao produto
do reator.
Usando este princıpio, podemos dizer que o total otimo de cubas e determinado como
uma funcao da saıda do reator. Como nao conhecemos a temperatura otima ou a taxa
18 Programacao dinamica
de reacao ainda, o total otimo de cubas e o produto da torre devem ser determinados
para todas as saıdas possıveis do reator.
Continuando sequencialmente, podemos dizer que, para qualquer temperatura escolhida,
a taxa do reator e o total de cubas devem ser otimos com respeito a saıda do aquecedor.
Para escolher a melhor taxa de reacao como uma funcao desta saıda, devemos levar
em conta como a torre de destilacao depende da saıda do reator. Daqui, a taxa de
reacao otima pode ser determinada como uma funcao da entrada do reator, otimizando
conjuntamente o reator e o retorno otimo da torre como uma funcao da saıda do reator.
Ao tomar decisoes sequencialmente com uma funcao das decisoes precedentes, o primeiro
passo e determinar o total de cubas como uma funcao da saıda do reator. Entao, a taxa
de reacao otima e estabelecida como uma funcao da entrada do reator. Finalmente, a
temperatura otima e determinada como uma funcao da entrada ao aquecedor. Tendo
uma funcao de decisao, podemos otimizar o processo quımico um estagio por vez.
A tecnica descrita acima e chamada programacao dinamica, baseada no princıpio de
inducao regressiva, surgida no fim dos anos 40 em problemas de parada otima. Neste
tipo de problema, temos a opcao de coletar os dados sequencialmente; em cada nodo de
decisao, temos duas opcoes possıveis: ou continuar amostrando, ou parar a amostra e
tomar uma acao terminal.
A expressao “inducao regressiva” vem do fato que a sequencia de decisoes e resolvida
revertendo a ordem no tempo.
Este metodo nos permite conceitualizar e resolver problemas que seriam menos trataveis
se cada funcao de decisao possıvel, que depende de dados e decisoes que se acumulam
sequencialmente, tiver que ser considerada explicitamente.
Na formulacao convencional, consideramos um processo de decisao multiestagio com-
pleto como se fosse essencialmente de um estagio, com o custo de aumentar a dimensao
do problema: se tivermos um processo com N estagios, onde M decisoes devem ser
tomadas em cada estagio, a abordagem classica considera um processo de um estagio
MN -dimensional.
No lugar de determinar a sequencia otima de decisoes a partir de um estado fixo do
sistema, queremos determinar a decisao otima a ser tomada em qualquer estado do
sistema.
Uma das vantagens desta segunda abordagem e a reducao da dimensionalidade do pro-
blema para a dimensao da decisao em qualquer estagio dado.
O princıpio de otimalidade estabelecido por Bellman diz que: “uma polıtica otima tem
O problema do seguro 19
a propriedade de que quaisquer que sejam o estado inicial e a decisao inicial, as decisoes
subsequentes devem constituir uma polıtica otima, levando em conta o estado resultante
da primeira decisao”.
2.1 O problema do seguro
No exemplo da Secao 1.4, consideramos como usar a informacao sobre o teste medico
de maneira otima. Agora consideraremos o problema de decisao sequencial em que, no
primeiro estagio, devemos decidir se fazer ou nao o teste, e depois decidir se contratar
ou nao o seguro. Este e um exemplo de um problema de decisao sequencial com dois
estagios. A Figura 2.1 mostra a arvore do problema visto desta forma.
Figura 2.1: Arvore do problema do seguro em dois estagios.
Considere a tabela original do problema (a solucao bayesiana continua sendo a mesma
se considerarmos a tabela de arrependimentos).
Usando o princıpio da utilidade esperada, condicionamos na informacao a medida que
ela e obtida, e atualizamos nossas probabilidades sobre os estados da natureza usando
a regra de Bayes em cada estagio:
π(θ | x) =f(x | θ)π(θ)
m(x),
para θ = θ1, θ2 e x = 0, 1. Obtemos, assim,
m(x = 1) = 0.250 , π(θ1 | x = 0) = 0.004 , π(θ1 | x = 1) = 0.108 .
20 Programacao dinamica
As perdas esperadas a posteriori para as regras δ1 (contratar o seguro se x = 1) e para
δ2 (contratar o seguro se x = 0), dado x = 0, sao
δ1 : 1000× 0.004 + 0× 0.996 = 4 e
δ2 : 50× 0.004 + 50× 0.996 = 50 ,
e dado x = 1, sao
δ1 : 50× 0.108 + 50× 0.892 = 50 e
δ2 : 1000× 0.108 + 0× 0.892 = 108 .
As perdas esperadas para as regras δ0 e δ3 continuam as mesmas, porque elas nao
dependem dos dados. Assim, se o teste for realizado e for positivo, entao a decisao
otima e contratar o seguro, com perda esperada igual a 50. Se o teste for negativo,
entao a decisao otima e nao contratar o seguro, com perda esperada igual a 4. Este
resultado e o mesmo que obtivemos ao calcular a regra bayesiana minimizando o risco
de Bayes.
Agora podemos voltar ao problema de se vale a pena ou nao fazer o teste.
Se nenhum teste for realizado, a solucao otima e nao comprar o seguro, com perda
esperada de 30.
Supondo que o teste seja realizado, calculamos as perdas associadas com a decisao no
primeiro estagio desde esta perspectiva: podemos avaliar o que acontece se o teste for
positivo e agirmos de acordo com a estrategia otima daqui para a frente. Similarmente,
podemos avaliar o que aconteceria se o teste fosse negativo, e agir de acordo com a
estrategia otima daı para a frente.
Deste modo, o que esperamos e uma media ponderada das duas perdas otimais esperadas,
cada uma condicional a um resultado de x. Os pesos sao as probabilidades de cada
resultado no momento atual:
50×m(x = 1) + 4×m(x = 0) = 50× 0.25 + 4× 0.75 = 15.5 .
Comparando com 30, o valor obtido ao nao fazer o teste, concluımos que a decisao
otima e faze-lo. Isto e razoavel: o teste e gratuito e a informacao dada por ele ajudaria
a tomar uma decisao, de modo que e logico que o otimo em um primeiro estagio seja
obter informacao.
Ao todo, a estrategia sequencial otima e a seguinte: voce deve fazer o teste; se for
positivo, contratar o seguro; se for negativo, nao contratar o seguro.
Problemas de decisao finitos a dois estagios 21
Figura 2.2: Arvore completa do problema do seguro em dois estagios.
Exercıcio 5. Qual seria a estrategia sequencial otima se o teste custasse 10 dolares?
Ate quanto deveria custar o teste para que ele valesse a pena?
Alternativamente, poderıamos ter listado todas as estrategias possıveis para cada um
dos dois estagios, calculado a perda esperada de cada uma e escolhido a com menor
valor. Esta forma de analise e chamada forma normal; a analise feita com a arvore de
decisao e chamada forma extensiva.
2.2 Problemas de decisao finitos a dois estagios
Um problema de decisao finito com dois estagios pode ser representado geralmente pela
arvore da Figura 2.3, com os nodos em ordem cronologica.
Alguma notacao antes de formalizar a solucao.
Denotaremos por a(s)1 , . . . , a
(s)Is
, as acoes disponıveis no estagio s (na figura, s e 1 ou 2).
Para cada acao no estagio 1, temos um conjunto de possıveis observacoes que podem
potencialmente guiar nossas decisoes no estagio 2. Para a acao a(1)i , elas serao indicadas
por xi1 dots, xiJ .
Para cada acao no estagio 2, temos o mesmo conjunto de possıveis estados da natureza,
θ1, . . . , θK , e para cada combinacao de acoes e estados da natureza, temos um resultado
22 Programacao dinamica
Figura 2.3: Arvore geral de um problema finito em dois estagios.
z. Se as acoes a(1)i1
e a(2)i2
forem seguidas, e θk for o verdadeiro estado da natureza,
o resultado e zi1i2k. Para simplificar a notacao, estamos supondo mesmo numero de
estados da natureza e resultados.
Daqui em diante, usaremos a formulacao em utilidade e nao em perdas.
No caso do seguro, resolvemos o problema indo para tras ate a raiz a esquerda, co-
mecando no galhos terminais, alternando o calculo de utilidades esperadas nos nodos
aleatorios, e maximizando as utilidades esperadas nos nodos de decisao. Formalizamos
estes passos da seguinte maneira.
No segundo estagio, dado que escolhemos a acao a(1)i1
no primeiro estagio, e que o resul-
tado xi1j foi observado, escolhemos a acao terminal a∗(2) que alcanca
max1≤i2≤I2
K∑k=1
π(θk | xi1j)u(zi1i2k) .
No estagio 2, apenas fica incerteza sobre os estados da natureza θ. Como usual, calcu-
lamos as utilidades esperadas com respeito a distribuicao posterior. Escolhemos entao
a acao que maximiza a utilidade esperada.
Esta maximizacao define uma funcao δ∗(2)(a(1)i1, xi1j) que nos diz como proceder de forma
otima em cada possıvel cenario.
Uma diferenca importante com o que tınhamos visto antes e a dependencia na decisao
Problemas de decisao finitos a dois estagios 23
do primeiro estagio, que e tipicamente necessaria ja que acoes diferentes poderiam estar
disponıveis para δ(2), dependendo do que foi escolhido antes.
Tendo δ∗(2), voltamos ao estagio 1 e escolhemos uma acao a∗(1) que alcance
max1≤i1≤I1
J∑j=1
[max
1≤i2≤I2
K∑k=1
π(θk | xi1j)u(zi1i2k)
]m(xi1j)
.
O maximo dentro do colchete e a expressao do passo anterior; a soma seguinte calcula a
utilidade esperada associada ao escolher a i-esima acao no estagio 1, e entao otimizamos
esta escolha no estagio 2.
Quando a decisao do estagio 1 e tomada, os maximos das utilidades esperadas das acoes
disponıveis sao incertos, pois nao conhecemos o resultado x. Resolvemos isto tomando o
valor esperado das utilidades maximas com respeito a distribuicao marginal de x, para
cada acao a(1)i1
. O resultado e a soma externa da expressao acima.
No fim do processo inteiro, uma regra de decisao sequencial otima e obtida na forma de
um par (a∗(1), δ∗(2)). Isto define uma regra formal de Bayes, com respeito a funcao de
perda definida a partir desta utilidade.
A soma com respeito a j e um risco de Bayes. No contexto de dois estagios, obtemos um
risco de Bayes para cada acao a(1)i1
do estagio 1, e entao escolhemos a acao com menor
risco de Bayes.
Assim temos um plano para o que fazer no estagio 1, e para o que fazer no estagio 2,
em resposta a qualquer possıvel resultado da decisao do estagio 1.
Observe que, nestas decisoes multi-estagio, o princıpio da verossimilhanca opera no
estagio 2, mas nao no estagio 1. No estagio 2, os dados sao conhecidos e os resultados
que nao ocorreram sao irrelevantes. Mas no estagio 1, os dados sao desconhecidos,
e a distribuicao dos possıveis resultados experimentais e essencial para estabelecer o
planejamento experimental.
Observe tambem que, usando a regra de Bayes na soma externa, podemos reescrever a
expressao anterior como
J∑j=1
[max
1≤i2≤I2
K∑k=1
π(θk | xi1j)u(zi1i2k)
]m(xi1j) =
J∑j=1
[max
1≤i2≤I2
K∑k=1
π(θk)f(xi1j | θk)u(zi1i2k)
].
Assim, a funcao δ∗ que maximiza a soma interna ponto a ponto, para cada i e j, tambem
maximiza a utilidade esperada media. Podemos entao escrever o lado direito como
maxδ
J∑j=1
K∑k=1
π(θk)f(xi1j | θk)u(zi1i2k)
.
24 Programacao dinamica
Aqui, δ aparece implıcito em como o sub-ındice i2 e determinado como funcao de i1 e
j. Revertendo a ordem das somas, obtemos
maxδ
K∑k=1
π(θk)
J∑j=1
f(xi1j | θk)u(zi1i2k)
.
Finalmente, inserindo esta expressao na maximizacao original, temos uma representacao
equivalente como
max1≤i1≤I1
maxδ
K∑k=1
π(θk)
J∑j=1
f(xi1j | θk)u(zi1i2k)
.
Nesta forma, no lugar de alternar esperancas e maximizacoes, ambos os estagios sao
maximizados conjuntamente com respeito aos pares (a(1), δ(2)).
A soma interna e a utilidade esperada de uma regra de decisao, dado o estado da
natureza, ao repetir o experimento. A soma externa e a utilidade esperada de uma
regra de decisao ponderada pelos estados da natureza.
Com isto, mostramos a equivalencia entre as formas normal e extensiva de analise de um
problema de decisao. Uma equivalencia similar foi obtida quando discutimos a relacao
entre perda esperada posterior (na forma extensiva) e o risco de Bayes (na forma normal
de analise).
2.3 Mais de dois estagios
A generalizacao para mais de dois estagios e imediata: novamente, usamos a arvore de
decisao, com o sentido cronologico para a direita, com a informacao ficando disponıvel
entre os estagios, e com cada decisao dependente das decisoes feitas nos estagios ante-
riores. Suporemos que a arvore e limitada, no sentido de que temos uma quantidade
finita de estagios e de decisoes em cada estagio.
Algumas notacoes que serao necessarias.
S e o total de estagios de decisao.
a(s)0 , . . . , a
(s)Is
sao as decisoes possıveis no s-esimo estagio, com s = 1, . . . , S. Em
cada estagio, a(s)0 e diferente das demais acoes: se a
(s)0 for tomada, nao ha mais
estagios e o problema de decisao termina. Formalmente, a(s)0 e uma funcao que
leva estados em resultados, da forma usual.
Mais de dois estagios 25
Para cada acao de parada, temos um conjunto de estados da natureza relevan-
tes, que constituem o domınio da acao. No estagio s, os possıveis estados sao
θ(s)01 , . . . , θ
(s)0Ks
.
Para cada acao de continuacao a(s)i , i > 0 e 1 ≤ s < S, observamos uma variavel
aleatoria x(s)i , com possıveis valores x
(s)i1 , . . . , x
(s)iJs
.
Se o estagio s for alcancado, a decisao pode depender de todas as decisoes que
foram feitas, e de todas as informacoes que foram obtidas nos estagios precedentes.
Chamaremos toda esta informacao de historia, e usaremos a notacao Hs−1, onde
Hs−1 = {a(1)i1, . . . , a
(s−1)is−1
, x(1)i1j1
, . . . , x(s−1)is−1js−1
} , s = 2, . . . , S.
A historia (vazia), previa ao estagio 1, sera denotada por H0.
Finalmente, no ultimo estagio S, o conjunto de estados da natureza, constituindo
o domınio da acao a(S)iS
e θ(S)iS1, . . . , θ
(S)iSKS
.
A programacao dinamica procede da seguinte forma: comecamos resolvendo o problema
de decisao do ultimo estagio, S, maximizando a utilidade esperada sobre toda a historia
possıvel. Entao, condicional na escolha otima feita no estagio S, resolvemos o pro-
blema no estagio S − 1, maximizando novamente a utilidade maxima esperada. Este
procedimento e repetido ate resolver o problema de decisao no primeiro estagio.
Figura 2.4: Arvore geral de um problema finito multi-estagio.
O algoritmo deste procedimento recursivo e:
1. No estagio S:
26 Programacao dinamica
(a) Para toda possıvel historia HS−1, calculamos a utilidade esperada das acoes
a(S)i , i = 0, . . . , IS , possıveis no estagio S, usando
US(a(S)i ) =
KS∑k=1
u(S)ik (HS−1)π(θ
(S)ik | HS−1) ,
onde u(S)ik (HS−1) = u(z
(S)i1...iS−1ik
).
(b) Obtemos a acao otima, tal que
a∗(S)(HS−1) = arg maxiUS(a
(S)i ) .
Esta e uma funcao de HS−1 porque ambos, a distribuicao posterior de θ
e a utilidade dos resultados, dependem da historia passada de decisoes e
observacoes.
2. Para estagios S − 1 ate 1, repita:
(a) Para toda possıvel historia Hs−1, calculamos a utilidade esperada das acoes
a(s)i , i = 0, . . . , Is, possıveis no estagio s, usando
Us(a(s)i ) =
Js∑j=1
u(s)ij (Hs−1)m(x
(s)ij | Hs−1) , i > 0 ,
Us(a(s)0 ) =
Ks∑k=1
u(s)0k (Hs−1)π(θ
(s)0k | Hs−1) ,
onde agora u(s)ij sao as utilidades esperadas associadas com a continuacao
otima a partir do estagio s+ 1, dado que a(s)i e escolhida e x
(s)ij ocorre.
Se indicarmos por {Hs−1, a(s)i , x
(s)ij } a historia resultante, entao
u(s)ij = Us+1(a∗(s+1)({Hs−1, a
(s)i , x
(s)ij })) i > 0 .
A utilidade da decisao de parar e entao
u(s)0k = u(z
(s)i1...is−10k) .
(b) Obtemos a acao otima
a∗(S)(Hs−1) = arg maxiUs(a(s)
i ) .
(c) Va para o estagio s− 1, ou pare se s = 1.
Capıtulo 3
Aplicacoes
3.1 O problema do casamento
Aplicaremos a tecnica anterior ao conhecido problema da secretaria ou problema do
casamento.
Basicamente, o problema e que voce deve contratar uma secretaria e realiza sucessivas
entrevistas para tal, de modo que sua decisao apos a entrevista e definitiva: se voce
decidir nao contratar a candidata, voce perde a chance de contrata-la depois; se voce
decidir contrata-la, nao entrevista mais ninguem da lista. Se voce chegar ao fim da lista
de candidatas, voce contrata a ultima entrevistada. Uma descricao analoga e feita no
contexto do casamento, desta vez com uma lista de pretendentes.
Observe que este problema e similar ao de uma compra de passagens aereas pela internet:
voce realiza uma busca pela internet, obtendo um determinado preco. Se decidir nao
comprar a passagem nesse momento, o mesmo preco possivelmente nao sera obtido de
novo em uma nova busca, sem que voce saiba se o futuro preco sera melhor ou nao ao
atual.
Nestes tres problemas, o objetivo e o mesmo: escolher a melhor opcao, sabendo apenas
como e a opcao atual com respeito as anteriores, mas sem poder voltar atras.
A questao e: quando parar de procurar?
Se voce parar cedo demais, pode ser que voce perca a oportunidade de opcoes melhores
no futuro. Por outro lado, se voce demorar demais para decidir, voce poderia rejeitar
opcoes melhores que a que voce escolhera no fim. Esperar entrega mais informacao, mas
menos oportunidades para usa-la.
28 Aplicacoes
Figura 3.1: Arvore do problema do casamento.
Na Figura 3.1, aparece a representacao em arvore de dois estagios consecutivos do pro-
blema. No estagio s, voce ja examinou s ofertas. Voce pode decidir a(s)1 , esperar por
uma proxima oferta, ou a(s)0 , aceitar a oferta atual e parar o processo.
Se voce parar em s, sua utilidade dependera do posto desconhecido θ(s) da oferta s: θ(s)
e um numero entre 1 e S. Em s, voce tomou uma decisao baseado no posto observado
x(s) da oferta s, entre as s ja recebidas: este e um numero entre 1 e s.
Em resumo, θ(s) e x(s) se referem a mesma oferta. O primeiro, e o posto desconhecido se
a oferta for aceita; o segundo, e o posto conhecido usado para tomar a decisao. Se voce
continuar ate o estagio S, o posto relativo verdadeiro de cada oferta ficara conhecido.
A ultima suposicao que precisamos e uma funcao de utilidade. Seja u(θ) a utilidade de
fazer a compra que tem posto θ dentro todas as S opcoes (S e o numero maximo de
buscas que voce pode fazer ate a data da viagem), tal que u(1) ≥ u(2) ≥ · · · ≥ u(S).
Esta utilidade sera a mesma, independentemente do estagio no qual a decisao e tomada.
Agora estamos equipados para avaliar a utilidade esperada de ambos, aceitar a oferta
(parar) ou rejeita-la (continuar) no estagio s. Se estamos no estagio s e que rejeitamos
todos as ofertas anteriores. Tambem temos que os postos relativos das ofertas anteriores
sao agora irrelevantes. Portanto, a unica parte da historia Hs que importa e que a
s-esima oferta tem posto x(s).
Parar. Considere a probabilidade π(θ(s) | x(s)) de que a s-esima oferta, com posto
observado x(s), tem de fato posto θ(s) entre todas as S ofertas.
Como nao temos nenhuma informacao a priori sobre as ofertas que ainda nao foram
feitas, podemos avaliar π(θ(s) | x(s)) como a probabilidade de que, em uma amostra
aleatoria de s ofertas tomadas de uma populacao de S ofertas, (x(s) − 1) estao entre as
O problema do casamento 29
(θ(s)−1) melhores, uma tem posto θ(s), e as restantes (s−x(s)) estao entre as (S−x(s))
piores. Assim, temos
π(θ(s) | x(s)) =
(θ(s) − 1
x(s) − 1
)(S − θ(s)
s− x(s)
)/
(S
s
),
para x(s) ≤ θ(s) ≤ S − s + x(s). Se denotarmos por U(·) a utilidade esperada de cada
decisao, entao
U(a(s)0 ) =
S−s+x(s)∑θ=x(s)
u(θ)
(θ − 1
x(s) − 1
)(S − θs− x(s)
)/
(S
s
), para s = 1, . . . , S.
Continuar. Por outro lado, precisamos considerar a utilidade esperada de tomar a
decisao a(s)1 e continuar de forma otima depois de s. Digamos, de novo, que a s-esima
oferta tem posto x(s), e definamos U∗(a(s)1 ) = b(s, x(s)).
Se voce decidir esperar pela proxima oferta, entao a probabilidade de que a proxima
oferta tenha um posto observado x(s+1), dado que o posto da s-esima oferta e x(s), e
1/(s+ 1), ja que as ofertas chegam em ordem aleatoria e todos os s+ 1 valores de x(s+1)
sao igualmente provaveis.
Desta forma, a utilidade esperada de esperar pela proxima oferta e continuar otimamente
e
U∗(a(s)1 ) = b(s, x(s)) =
1
s+ 1
s+1∑x=1
b(s+ 1, x) .
Como devemos parar ate o estagio S, a seguinte relacao deve ser satisfeita:
b(S, x(S)) = U∗(a(S)1 ) = U∗(a(S)
0 ) ,
para x(S) = 1, . . . , S.
Podemos usar estas equacoes de recorrencia para determinar as utilidades esperadas de
continuar.
A solucao otima no estagio s, dependente de x(s), e esperar pela proxima oferta se
U∗(a(s)1 ) > U(a
(s)0 ) ou aceitar a oferta atual se U∗(a(s)
1 ) = U(a(s)0 ).
Uma possıvel utilidade, para uma solucao mais explıcita, e ter como objetivo obter
a melhor oferta, com todos os demais postos igualmente indesejados. Formalmente,
u(1) = 1 e u(θ) = 0, para θ > 1.
Das equacoes anteriores, para qualquer s,
U(a(s)0 ) =
s
S1(x = 1) .
30 Aplicacoes
Isto implica que U∗(a(s)1 ) > U(a
(s)0 ) sempre que x(s) > 1. Ou seja, voce deveria esperar
a proxima oferta se o posto da oferta atual nao for o melhor. Mas o que voce deveria
fazer se a oferta atual for a numero 1 ate o momento?
A maior utilidade esperada alcancavel no estagio s e a maior das utilidades esperadas
entre duas possıveis decisoes,
U∗(a(s)) = max
(U(a
(s)0 ),
1
s+ 1
s+1∑x=1
b(s+ 1, x)
).
Denotemos por v(s) o segundo termo do maximo anterior. Entao
v(s) =1
s+ 1U∗(a(s+1)
1 ) +s
s+ 1v(s+ 1) .
No ultimo estagio, obtemos U∗(a(S)) = 1 e v(S) = 0. Por inducao regressiva em s, temos
que
v(s) =s
S
(1
S − 1+
1
S − 2+ · · ·+ 1
s
).
Portanto, se x(s) = 1,
U∗(a(s)1 ) =
s
Smax
(1,
(1
S − 1+
1
S − 2+ · · ·+ 1
s
)).
Seja s∗ o menor inteiro tal que o segundo termo do maximo seja menor que 1. O
procedimento otimo e esperar ate ter s∗ ofertas. Se a s-esima for a melhor ate o momento,
aceite-a. Caso contrario, espere ate obter a melhor oferta ate esse momento e aceite-a.
Se voce alcancar o estagio S, entao voce tem que aceitar a oferta, independentemente
do seu posto.
Se S for grande, entao s∗ ≈ S/e. Ou seja, voce deveria esperar ate observar aproxima-
damente 1/e ≈ 36% das ofertas. Nesse ponto, a coleta de informacoes termina e voce
aceita a primeira oferta melhor que as anteriores.
3.2 Ensaios clınicos sequenciais
Ensaios clınicos sao experimentos envolvendo seres humanos e, tipicamente, envolvem
conflito entre o objetivo de aprender sobre os tratamentos, de modo que uma maior gama
de pacientes possa ser beneficiado com os avancos, e o de assegurar um bom resultado
aos pacientes participantes do estudo.
Existe uma ampla literatura sobre este assunto, abordando aspectos como: diferencas
entre as solucoes bayesianas e frequentistas, o valor das solucoes baseadas em teoria de
decisao sequencial, tamanho de amostra etc.
Ensaios clınicos sequenciais 31
Problemas do tipo two-armed bandit
Considere um decisor que pode tomar um numero fixo n de observacoes sequencialmente,
sendo que, em cada estagio, ele pode escolher observar ou uma variavel aleatoria x com
densidade fx(· | θ0) ou uma variavel aleatoria y com densidade fy(· | θ1).
O problema de decisao e encontrar um procedimento sequencial que maximize o valor
esperado da soma das observacoes. Este e um exemplo do chamado problema do two-
armed bandit (trad. literal: bandido com dois bracos), ou do caca-nıquel com duas
alavancas.
Para uma conexao com ensaios clınicos, imagine os dois bracos como sendo dois tra-
tamentos para uma certa doenca, e as variaveis aleatorias como sendo mensuracoes do
bem-estar dos pacientes tratados. O objetivo e maximizar o bem-estar do paciente, mas
alguma experimentacao previa e necessaria em ambos os tratamentos para estabelecer
a melhor forma de alcanca-lo.
Podemos formalizar a solucao deste problema usando programacao dinamica. Nos
estagios s = 0, . . . , n, a decisao e ou a(s)0 , observar x, ou a
(s)1 , observar y. Seja π a
distribuicao a priori conjunta para θ = (θ0, θ1) e considere a soma esperada maxima das
n observacoes, dado por
V (n)(π) = max{U(a(n)0 ),U(a
(n)0 )} ,
onde U(a(n)i ), i = 0, 1, e calculada sob a distribuicao π.
Suponha que a primeira observacao e tomada de x. A distribuicao a posteriori conjunta
de (θ0, θ1) e πx e a soma esperada das restantes (n−1) observacoes e dada por V (n−1)(πx).
Entao, a soma esperada de todas as n observacoes e
U(a(n)0 ) = Ex[x+ V (n−1)(πx)] .
Similarmente, se a primeira observacao vier de y, a soma esperada de todas as n ob-
servacoes e
U(a(n)1 ) = Ey[y + V (n−1)(πy)] .
Assim, o procedimento otimo a∗(s) tem utilidade esperada
V (n)(π) = max{Ex[x+ V (n−1)(πx)], Ey[y + V (n−1)(πy)]} .
Com a condicao inicial V (0)(π) ≡ 0, podemos resolver V (s)(π), s = 1, . . . , n, e encontrar
o procedimento sequencial otimo por inducao.
32 Aplicacoes
Planejamento adaptativo para resposta binaria
Consideremos um ensaio clınico comparando dois tratamentos, A e B, digamos. Os
pacientes chegam sequencialmente e cada um pode receber apenas um dos tratamentos.
A terapia e escolhida com base na informacao disponıvel ate esse momento sobre a
eficacia de cada uma. Seja n o total de pacientes no ensaio. Ao fim do estudo, a terapia
com melhor desempenho sera aplicada em (N-n) pacientes adicionais. O total N de
pacientes envolvidos e chamado o horizonte.
Uma questao natural e como alocar os pacientes de forma otima para maximizar o total
de pacientes que respondam positivamente ao tratamento, no horizonteN . Resolveremos
este problema com programacao dinamica.
Suponha que a resposta ao tratamento e um evento binario; chamaremos uma resposta
favoravel simplesmente de resposta. Sejam θA e θB as proporcoes de respostas sob os
tratamentos A e B, respectivamente. Suponha a priori que θA e θB sao independentes
com uma distribuicao uniforme em (0, 1). Seja nA o total de pacientes alocados no
tratamento A e rA a total de respostas nestes nA pacientes. Similarmente, defina nB e
rB, para o tratamento B.
Como ilustracao, consideremos n = 4 e N = 100. Ao usar programacao dinamica no
ultimo estagio, precisamos considerar todas as possibilidades com nA + nB = 4.
Por exemplo, para nA = 3, rA pode assumir os valores 0, . . . , 3, e rB, 0 ou 1. Suponha
que rA = 2 e rB = 0. Com este resultado observado, a distribuicao a posteriori de
θA e Beta(3, 2), com probabilidade preditiva de resposta pA = 3/5; para θB, obtemos
uma posterior Beta(1, 2) com probabilidade preditiva pB = 1/3. Como 3/5 > 1/3, os
restantes N −n = 100− 4 = 96 pacientes devem ser alocados em A, com total esperado
de respostas igual a 96×3/5 = 57.6. Fazemos o mesmo para todas as outras combinacoes
de alocacao de tratamento e resultados experimentais, como mostrado na tabela abaixo.
rB \ rA 0 1 2 3 θB pB
1 B B B A Beta(2,1) 2/3
0 B A A A Beta(1,2) 1/3
θA Beta(1,4) Beta(2,3) Beta(3,2) Beta(4,1)
pA 1/5 2/5 3/5 4/5
Fazemos o mesmo procedimento para todos os casos, variando nA entre 0 e 4. Com isto,
temos o quadro completo da melhor decisao para os 96 pacientes restantes, em funcao
da escolha dos tratamentos para os 4 primeiros pacientes e suas respectivas respostas;
ou seja, em funcao de nA, nB, rA e rB.
Ensaios clınicos sequenciais 33
A seguir, andamos um passo para tras (para os tres primeiros pacientes) e consideramos
os casos em que nA + nB = 3 como, por exemplo, nA = 2, nB = 1. Suponha que as
respostas foram rA = 1 e rB = 0. As distribuicoes posteriores, com isto, sao Beta(2, 2)
para θA e Beta(1, 2), para θB. Ao completar os 4 pacientes, para calcular o total esperado
de futuras respostas, precisamos considerar as duas possıveis decisoes: alocar o quarto
paciente ao tratamento A ou ao tratamento B.
EscolherA, leva o processo ao caso nA = 3, nB = 1. Se o paciente responder, o que ocorre
com probabilidade (posterior) 2/4 = 1/2, entao rA = 2 e rB = 0, com probabilidade
preditiva pA = 3/5, enquanto que continuamos com pB = 1/3. Neste caso, decidimos
pelo tratamento A nos 96 pacientes seguintes, com 57.6 respostas esperadas, como acima.
Se o paciente nao responder, o que ocorre com probabilidade 1/2, o processo se move
para o caso rA = 1 e rB = 0, com probabilidade preditiva pA = 2/5 > 1/3. Assim,
neste caso tambem devemos alocar os 96 pacientes seguintes no tratamento A, com
valor esperado de respostas 96× 2/5 = 38.4.
Desta forma, tendo os resultados ate o terceiro paciente, e escolhendo A para o quarto
paciente, o total esperado de futuras respostas com A e (1+57.6)×1/2+38.4×1/2 = 48.5.
Similarmente, se o tratamento escolhido para o quarto paciente for B, nA = 2 e nB = 2.
Se o paciente responder ao tratamento B, o que ocorre com probabilidade 1/3, o processo
se move para rA = 1 e rB = 1, com probabilidade preditiva pB = 1/2, enquanto que
continuamos com pA = 1/2. Ou seja, neste caso, somos indiferentes entre os dois
tratamentos para os restantes 96 pacientes, com total esperado de respostas igual a 48.
Se o paciente nao responder a B, o que ocorre com probabilidade 2/3, o processo se
move para rA = 1, rB = 0, com probabilidade preditiva pB = 1/4 < 1/2, o que nos
leva a decidir pelo tratamento A para os pacientes restantes. Assim, o total esperado de
respostas com o tratamento B para o quarto paciente e (48+1)×1/3+48×2/3 = 48.3.
Como 48.5 > 48.3, a decisao otima para o quarto paciente e aloca-lo no tratamento
A. Qualquer que seja a resposta do quarto paciente, os restantes 96 pacientes tambem
deverao receber o tratamento A.
Repetimos esta mesma analise para calcular o total maximo esperado de respostas para
todas as opcoes de nA e nB com nA + nB = 3.
Este procedimento nos descreve a estrategia sequencial para o quarto paciente, e restan-
tes 96, em funcao de sua resposta e da resposta dos tres primeiros pacientes.
Agora, retrocedemos para o caso com nA + nB = 2, considerando todas as alocacoes e
resultados possıveis para os dois primeiros pacientes, e descrevendo a estrategia otima
a seguir em cada caso.
34 Aplicacoes
Continuamos assim por diante ate nA + nB = 0.
Figura 3.2: Decisoes otimas quando n = 4 e N = 100, condicional nos dados disponıveis
em termos de nA, rA, nB e rB.
A Figura 3.2 mostra as decisoes otimas para os restantes 96 pacientes quando n = 4 e
N = 100, para cada combinacao de nA, rA, nB e rB.
Cada bloco de celulas corresponde a um par (nA, nB), e dentro de cada bloco, cada celula
individual representa um caso das combinacoes possıveis para (rA, rB), variando de 0 a
n·. Os quadrados vazios representam os casos em que a decisao otima e o tratamento A,
enquanto que os quadrados marcados, o tratamento B. O asterisco representa os casos
em que ambos os tratamentos sao otimos.
Neste exemplo, a alocacao dos pacientes segue o que chamamos planejamento adaptativo,
no sentido de que ela depende dos resultados dos pacientes previos alocados no mesmo
tratamento. Este tipo de planejamento tem tipicamente um melhor resultado que a
tradicional aleatorizacao balanceada, com resultados similares quando o horizonte e
muito grande (a populacao completa, por exemplo). No entanto, se a condicao sendo
tratada e rara, o uso de um procedimento adaptativo e muito mais relevante.
Bibliografia
[1] M. DeGroot (2004) Optimal statistical decisions. Wiley.
[2] D.V. Lindley (1985) Making decisions. Wiley.
[3] G. Parmigiani, L. Inoue (2009) Decision theory: principles and approaches. Wiley.
[4] J. Pratt, H. Raiffa, R. Schlaifer (1995) Statistical decision theory. MIT Press.
[5] M.J. Schervish (1995) Theory of statistics. Springer-Verlag.