Introdu˘c~ao a teoria da decis~ao estat sticalaurarifo/aulas/mi686/apostilaII.pdf · L ˇ(a) = Z L( ;a)ˇ( )d e chamado perda esperada a priori. A a˘c~ao de Bayes e a mesma, seja

Universidade Estadual de Campinas

Introducao a teoria da decisao estatıstica

Aplicacoes

Prof. Laura L. R. Rifo

- Agosto, 2014 -

Conteudo

1 Introducao 1

1.1 Conceitos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

Minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

Princıpio da utilidade esperada . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Decisoes baseadas em dados . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3 Princıpio da verossimilhanca . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.4 O problema do seguro de viagem . . . . . . . . . . . . . . . . . . . . . . 10

2 Programacao dinamica 17

2.1 O problema do seguro . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.2 Problemas de decisao finitos a dois estagios . . . . . . . . . . . . . . . . 21

2.3 Mais de dois estagios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3 Aplicacoes 27

3.1 O problema do casamento . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.2 Ensaios clınicos sequenciais . . . . . . . . . . . . . . . . . . . . . . . . . 30

Problemas do tipo two-armed bandit . . . . . . . . . . . . . . . . . . . . 31

Planejamento adaptativo para resposta binaria . . . . . . . . . . . . . . 32

Capıtulo 1

Introducao

Nesta parte do curso, veremos a aplicacao dos conceitos estudados na primeira parte

em alguns aspectos de inferencia estatıstica e em princıpios gerais de planejamento de

experimentos. Estas notas estao fortemente baseadas em Parmigiani and Inoue [3].

1.1 Conceitos basicos

O agente decisor, nesta parte do curso, e um estatıstico, que deve escolher entre um

conjunto de acoes, cujas consequencias dependem de algum estado da natureza desco-

nhecido. O conjunto de acoes sera denotado por A e uma acao por a, e o conjunto de

estados da natureza, por Θ, com elemento generico θ.

Pensaremos em consequencias em termos da perda associada a cada par (θ, a) ∈ (Θ,A),

definindo uma funcao de perda L(θ, a). Esta funcao e nao-negativa e expressa a im-

portancia relativa do erro cometido ao tomar a decisao a quando θ e verdadeiro. Ou

seja, se a decisao “correta” for tomada para um θ especıfico, a perda deveria ser zero.

Se comecarmos com uma funcao de utilidade, u(θ, a), como na primeira parte do curso,

podemos definir a funcao de perda como uma funcao de custo por arrependimento,

L(θ, a) = supa′∈A

u(θ, a′)− u(θ, a) .

Outra forma de definir a funcao de perda e atraves da utilidade negativa

Lu(θ, a) = −u(θ, a) ,

de modo que o custo do arrependimento pode ser expresso como

L(θ, a) = Lu(θ, a)− infa∈A

Lu(θ, a) .

2 Introducao

Minimax

O princıpio minimax de escolha esta baseado em uma analogia com teoria dos jogos, e

supoe que a funcao de perda representa o premio para ambos, o estatıstico e o oponente

(a natureza). A natureza escolhe primeiro, e assim a melhor estrategia para o estatıstico

e supor o pior e escolher a acao que minimiza a perda maxima.

Formalmente, uma acao aM e minimax se

aM = argmin maxθL(θ, a) .

Como ja vimos, o criterio minimax nao requer nenhum conhecimento sobre a chance de

cada estado da natureza ocorrer; alem disso, em diversos casos, as decisoes estatısticas

minimax sao razoaveis e tendem a ser muito conservadoras.

No entanto, o pessimismo intrınseco desta abordagem faz com que, em alguns casos,

nenhum experimento relevante mude a decisao do agente, como se ele continuasse na

completa ignorancia.

Com a funcao de perda de utilidade negativa, o criterio minimax e ainda mais pessimista.

De fato, considere as seguintes tabelas para Lu e L, respectivamente.

θ1 θ2 θ3

a1 1 0 6

a2 3 4 5

θ1 θ2 θ3

a1 0 0 1

a2 2 4 0

Para a perda da utilidade negativa, a natureza sempre escolhera θ3, a despeito de qual-

quer evidencia experimental a favor de θ1 ou θ2. Ja a perda por arrependimento e menos

pessimista, ja que natureza tera que escolher entre θ2 e θ3.

Qualquer uma das duas, no entanto, apresenta incoerencia, como vimos na primeira

parte.

Princıpio da utilidade esperada

Em contraste, o princıpio da utilidade esperada se aplica a perdas esperadas. Ele incor-

pora informacao sobre quao provaveis sao os diversos valores de θ, pesando as perdas

com respeito a estas probabilidades. Denotando as probabilidades por π(θ), a acao que

minimiza a perda esperada

a∗ = argmin

∫ΘL(θ, a)π(θ)dθ

Conceitos basicos 3

e chamada acao de Bayes. O valor

Lπ(a) =

∫ΘL(θ, a)π(θ)dθ

e chamado perda esperada a priori.

A acao de Bayes e a mesma, seja considerando a perda por arrependimento ou a perda

da utilidade negativa.

Para este princıpio, as objecoes da teoria minimax se baseiam na visao de que θ e

meramente uma constante desconhecida, e nao uma variavel, de modo que nao tem

sentido falar da distribuicao de probabilidade de θ: qualquer suposicao na atribuicao de

uma distribuicao para θ e hipotetica.

Mesmo assim, acoes de Bayes tem sido usadas na teoria de decisao frequentista, ja que

permite produzir regras de decisao com boas propriedades minimax e frequentistas.

Exemplo (companhia de internet). Uma pessoa esta escolhendo uma companhia

de internet para poder realizar ligacoes internacionais para telefone fixo. A companhia

A e mais barata, mas tem o problema de falhar na conexao 100 θ% do tempo. Por outro

lado, a companhia B, que e um pouco mais cara, nunca falha. As acoes sao A e B, e o

desconhecido e θ.

Suponha que sua funcao de perda e

L(θ,A) = 2θ , θ ∈ [0, 1], e L(θ,B) = 1 .

Aqui, o valor 1 representa a diferenca entre os custos de ambas as companhias. Ja a

funcao de perda para A, linear no total de ligacoes perdidas, pode ser interpretada como

um custo adicional de 0.02 unidades de utilidade por cada ponto percentual de tempo

sem conexao. Assim, se θ = 0.25, sua perda e 0.5, mas se θ = 0.55, sua perda e 1.1.

A acao minimax pode ser calculada sem nenhuma outra informacao e e escolher a com-

panhia B, ja que

supθL(θ,A) = 2 > 1 = sup

θL(θ,B) .

Esta acao e conservadora, ja que a companhia A teria que perder a conexao mais da

metade do tempo para que esta fosse a decisao correta.

Suponha que, baseada em uma pesquisa sobre consumo, a pessoa quantifica sua media

a priori para θ como 0.0476, e seu desvio-padrao a priori como 0.1487. Alem disso, ela

decide que uma distribuicao beta com estes momentos e uma escolha razoavel para sua

4 Introducao

distribuicao a priori para θ. Assim, os hiperparametros da priori sao α0 = 0.05 e β0 = 1.

Desta forma, a perda esperada a priori e

∫ 1

0L(θ, a)π(θ)dθ =

∫ 1

0L(θ, a)0.05θ−0.95 =

2Eθ(θ) se a = A

1 se a = B.

Como 2Eθ(θ) = 2×0.05/(1+0.05) ≈ 0.095 < 1, a acao de Bayes e contratar a companhia

A. Se a priori tivesse sido uniforme em [0, 1], a solucao bayesiana seria a indiferenca entre

a companhia A e a B.

Exemplo (interpretacao geometrica) Considere Θ = {θ1, θ2} e A = {a1, . . . , a6},com funcao de perda

a1 a2 a3 a4 a5 a6

θ1 10 8 4 2 0 0

θ2 0 8 2 5 6 10

Para cada acao a, as possıveis perdas podem ser representadas como um par ordenado

ya = (L(θ1, a), L(θ2, a)), como na Figura1.1.

Figura 1.1: Grafico de perdas, com acao bayesiana igual a a3.

Suponha que a priori e π(θ1) = 1/3. Na figura, acoes com mesma perda esperada estao

na mesma reta com equacao

1

3L(θ1, a) +

2

3L(θ2, a) = k ,

Conceitos basicos 5

onde k e a perda esperada. Como a acao de Bayes e a que minimiza este valor, temos

que ela e a3, com k = 8/3.

Considerando agora a decisao minimax, vemos que ela tambem coincide com a3, ja que

tem menor maximo das perdas, igual a 4.

A figura tambem mostra alguns dos pontos, representando as acoes, conectados por

segmentos de linhas inteiras. Estes segmentos nao contem nenhum dos pontos de decisao;

mas, se formos escolher aleatoriamente entre duas decisoes, digamos a3 e a5, entao a

perda esperada estara no segmento entre elas (esta esperanca e a da aleatorizacao).

Regras baseadas na selecao aleatoria entre acoes sao chamadas regras aleatorizadas. As

vezes, usar regras aleatorizadas permite alcancar uma menor perda maxima que com

qualquer umas das decisoes, o que pode ser interessante para um decisor minimax.

Figura 1.2: Grafico de perdas, com acao minimax igual a uma decisao aleatorizada entre

a3 e a5.

Por exemplo, na Figura 1.2, temos a regiao de maximo delimitada pelos quadrados com

vertice na origem. Deste modo, dentre as acoes possıveis, a3 e a decisao minimax, como

indicado pelo quadrado maior. O quadrado menor indica um ponto no segmento entre

a3 e a5 que corresponde a decisao aleatorizada minimax: escolher a3 com probabilidade

3/4, ou a5, com probabilidade 1/4.

Suponha agora que a priori fosse π(θ1) = 1/2. Entao as retas tracejadas da Figura 1.1

seriam paralelas ao segmento entre a3 e a5. Assim, estas acoes, assim como qualquer

decisao aleatorizada entre elas, seriam acoes bayesianas. Mas nenhum ganho seria obtido

escolhendo uma acao aleatorizada.

6 Introducao

1.2 Decisoes baseadas em dados

Do ponto de vista estatıstico, estamos interessados em situacoes em que o resultado de

um experimento, cuja distribuicao depende de θ, estiver disponıvel.

Denotemos por x o resultado de um experimento com possıveis valores em um conjunto

X , e por f(x | θ), a funcao de densidade de probabilidade. Esta funcao e chamada

funcao de verossimilhanca quando vista como funcao de θ.

Pergunta: como usar os dados para tomar uma decisao otima?

Definimos uma funcao de decisao (ou regra de decisao) como qualquer funcao δ(x) com

domınio X e codomınio A. Ou seja, uma regra de decisao e uma receita que transforma

dados em acoes.

Denotemos por D a classe de todas as regras de decisao. Os princıpios minimax e de

Bayes sao abordagens alternativas para avaliar regras de decisao.

Notacao: usaremos Ex[g(x, θ)] para denotar a esperanca da funcao g com respeito a

distribuicao marginal de x; Ex|θ[g(x, θ)] para a esperanca de g com respeito a f(x | θ);e Eθ[g(x, θ)] para a esperanca com respeito a distribuicao a priori de θ.

A teoria original (devida a Wald) se baseia na performance esperada de uma regra de

decisao δ previamente a observacao do experimento, medida pela chamada funcao de

risco,

R(θ, δ) =

∫XL(θ, δ(x))f(x | θ)dx .

Observe que ela aponta para o desempenho da regra de decisao em uma serie de re-

peticoes dos problemas de decisao, o que foi motivado pelas aplicacoes industriais, em

processos de producao, por exemplo.

Os princıpios de otimalidade usados com uma funcao de perda para escolher entre acoes

podem ser adaptados com um risco para escolher entre funcoes de decisao.

Regra de decisao minimax Uma regra de decisao δM e minimax se

supθR(θ, δM ) = inf

δsupθR(θ, δ) .

Dada uma distribuicao a priori π e uma estrategia de decisao δ, definimos o risco baye-

siano associado como

r(π, δ) =

∫ΘR(θ, δ)π(θ)d(θ) .

Princıpio da verossimilhanca 7

Regra de decisao bayesiana Uma regra de decisao δ∗ e bayesiana com respeito a π

se

r(π, δ∗) = infδr(π, δ) .

Observe que para cada x, podemos obter a distribuicao a posteriori dos estados da

natureza

π(θ | x) =π(θ) f(x | θ)

m(x),

onde

m(x) =

∫Θπ(θ) f(x | θ)dθ .

Assim, a funcao que deve ser minimizada e a perda esperada posterior

Lπx(a) =

∫ΘL(θ, a)π(θ | x)dθ .

Este procedimento define a chamada regra de Bayes formal. Para mostrar que ela

satisfaz a definicao anterior, considere a relacao entre a perda esperada posterior e o

risco de Bayes

r(π, δ) =

∫Θ

∫XL(θ, δ)f(x | θ)π(θ)dxdθ =

∫X

[∫ΘL(θ, δ)π(θ | x)dθ

]m(x)dx ,

supondo que podemos trocar a ordem das integrais. Assim, ao minimizar a perda

esperada posterior, estamos minimizando r. Inversamente, se queremos minimizar r

com respeito a δ, devemos faze-lo pontualmente em x, minimizando assim a integral

dentro do colchete.

1.3 Princıpio da verossimilhanca

O uso de regras bayesianas formais esta sustentado pela teoria axiomatica e tem algumas

implicacoes em inferencia estatıstica.

Primeiro, para um resultado experimental x dado, uma regra bayesiana pode ser de-

terminada sem considerar todas os demais resultados que poderiam ter ocorrido no

experimento. O unico relevante sao as probabilidades do resultado observado para os

diversos estados da natureza relevantes.

Alem disso, todas as caracterısticas do experimento que nao aparecem em f(x | θ) nao

entram na conta da perda esperada posterior, e portanto sao irrelevantes para a decisao.

De fato, podemos multiplicar f(x | θ) por qualquer funcao nao nula de x sem alterar

a regra de Bayes. Assim, por exemplo, podemos reduzir os dados por suficiencia, pero

criterio da fatoracao, as integrais anteriores.

8 Introducao

Que toda a informacao nos dados x sobre θ esta na funcao de verossimilhanca e o

chamado Princıpio da Verossimilhanca (PV).

Este princıpio e controverso porque a maioria das medidas de evidencia frequentistas

violam este princıpio, como intervalos de confianca e p-valor, por exemplo.

Exemplo As regras de decisao derivadas do princıpio da utilidade esperada satisfazem

o PV, enquanto que as regras minimax, nao. Consideremos a funcao de perda da Secao

1.1, na forma de arrependimentos. Na ausencia dos dados, a acao minimax e a1. Agora

suponha que voce observa uma variavel binaria x, que pode ser obtida atraves de dois

planejamentos alternativos, com distribuicoes amostrais f1 e f2 como na tabela abaixo.

θ1 θ2 θ3

f1(x = 1 | θ) .20 .10 .25

f2(x = 1 | θ) .60 .30 .75

Como temos dois possıveis resultados e duas possıveis acoes, temos quatro possıveis

funcoes de decisao:

δ1 = a1, ou seja, escolher a1 independentemente do resultado do experimento;

δ2 = a2, ou seja, escolher a2 independentemente do resultado do experimento;

δ3 =

a1 se x = 1

a2 se x = 0.

δ4 =

a1 se x = 0

a2 se x = 1.

Nos modelos amostrais da tabela anterior, temos que f2(x = 1 | θ) = 3f1(x = 1 |θ), para todo θ ∈ Θ. Ou seja, se observarmos x = 1, ambas verossimilhancas sao

proporcionais. Isto implica que quando x = 1, a regra da utilidade esperada sera a

mesma para ambos os planejamentos.

Para verificar se o mesmo se aplica ao minimax, consideremos a funcao de risco de cada

decisao.

Sob f1, a regra de decisao minimax e δM1 (x) = δ4(x). No entanto, sob f2, e δM2 (x) =

δ1(x) = a1. Assim, se observarmos x = 1, a decisao minimax depende tambem do

planejamento utilizado. Isto e uma violacao do PV.

Princıpio da verossimilhanca 9

Exercıcio 1. Obtenha a funcao de risco de cada decisao, e chegue a estas conclusoes.

Considere agora a mensuracao de um resultado ordinal y, com categorias 0, 1/3, 2/3, 1,

com verossimilhanca como na tabela.

θ1 θ2 θ3

f(y = 1 | θ) .20 .10 .25

f(y = 2/3 | θ) .20 .10 .25

f(y = 1/3 | θ) .20 .10 .25

f(y = 0 | θ) .40 .70 .25

No lugar de perguntar sobre y diretamente, podemos usar dois possıveis questionarios

com respostas dicotomicas x. Um, correspondendo a f1, dicotomiza y em 1 versus todos

os demais, e o outro, correspondente a f2, dicotomiza y em 0 versus todos os demais.

Como as categorias 1/3, 2/3, 1 tem mesma verossimilhanca, entao f2 e um melhor ins-

trumento como um todo. No entanto, se a resposta for x = 1, entao nao importa qual

instrumento foi usado, ja que em ambos os casos sabemos que a variavel latente deve ser

1 ou um valor que e equivalente a ele, em termos da aprendizagem sobre θ (pela tabela

com f1 e f2).

O fato de que em um experimento diferente o resultado poderia ser ambıguo sobre y, em

uma dicotomizacao e nao na outra, nao e relevante de acordo com o PV. No entanto, a

funcao risco R, que depende da distribuicao amostral completa, e afetada.

Exercıcio 2. Um engenheiro obtem uma amostra aleatoria de tubos de

eletrons e mede a voltagem sob certas condicoes com um voltımetro muito

preciso (preciso o suficiente para que o erro de mensuracao seja desprezıvel

comparado com a variabilidade dos tubos). Um estatıstico examina os dados,

que parecem normalmente distribuıdos, variando de 75 a 99 volts, com media

87 e desvio-padrao 4. Ele aplica a analise padrao para a normal, obtendo

um intervalo de confianca para a media.

Mais tarde, ele visita o laboratorio do engenheiro e percebe que o voltı-

metro usado le somente ate 100, ou seja, a populacao parece ser censurada.

Se o estatıstico for frequentista ortodoxo, ele fara uma nova analise.

No entanto, o engenheiro diz que ele tem um outro aparelho, igualmente

acurado e que le ate 1000 volts, que ele teria usado se alguma voltagem

tivesse sido acima de 100.

Isto alivia o estatıstico ortodoxo, porque isso significa que a populacao

estava de fato nao censurada. Mas, no dia seguinte, o engenheiro telefona

10 Introducao

e diz: “Acabei de descobrir que meu voltımetro de alto espectro nao estava

funcionando no dia em que realizei o experimento.”. O estatıstico entao diz

que o engenheiro nao deveria ter realizado o experimento ate ter consertado

o aparelho, e que uma nova analise deve ser feita.

A isto o engenheiro responde: “Mas o experimento teria dado os mes-

mos resultados, com o aparelho de alto espectro funcionando. Eu obtive as

voltagens precisas de minha amostra, de modo que eu aprendi exatamente o

que eu teria aprendido se o outro aparelho estivesse funcionando.”

Estabeleca um modelo probabilıstico para a situacao descrita acima, e especifique uma

distribuicao a priori e uma funcao de perda para a estimacao pontual da voltagem media.

Determine a funcao de risco R da regra de Bayes e de sua regra frequentista favorita

em dois cenarios: quando o voltımetro de alto espectro esta funcionando e quando nao

esta. Examinar a funcao de risco ajuda voce a selecionar uma regra de decisao depois

de ter observado os dados?

1.4 O problema do seguro de viagem

Suponha que voce vai realizar uma viagem para uma regiao longınqua. Voce nao tem

certeza de como e seu estado de vacinacao contra uma certa doenca leve que e comum

na regiao para onde voce vai, e voce precisa decidir se contrata um seguro medico para a

viagem. Suponha que voce estara exposto a doenca, mas voce nao sabe se sua imunizacao

atual funcionara. De acordo com dados sobre turistas com mesma origem que voce, a

chance de desenvolver a doenca durante a viagem e em torno de 3%. O tratamento e o

hospital custariam normalmente 1000 dolares. Por outro lado, se voce comprar o seguro,

por 50 dolares, todas as suas despesas serao cobertas. Assim, a tabela de perdas e

θ1: doente θ2: nao doente

seguro 50 50

sem seguro 1000 0

A Figura 1.3 mostra a arvore de decisao do problema.

Do modo bayesiano, calculamos perdas esperadas para avaliar ambas as acoes:

sem seguro: perda esperada = 1000× 0.03 + 0× 0.97 = 30

seguro: perda esperada = 50× 0.03 + 50× 0.97 = 50

Exercıcio 3. Preencha os valores na arvore para decidir a melhor acao.

O problema do seguro de viagem 11

Figura 1.3: Problema do seguro saude.

Assim, a decisao bayesiana, que minimiza a perda esperada e nao contratar o seguro.

No entanto, se a chance de contrair a doenca fosse 5% ou mais, a melhor decisao seria

contratar o seguro.

Voce pode melhorar sua tomada de decisoes conseguindo dados sobre a sua probabili-

dade de contrair a doenca. Imagine que voce tem a possibilidade de realizar um teste

medico que o informara sobre seu estado de imunizacao atual. O teste tem apenas dois

veredictos: positivo - voce tem predisposicao para contrair a doenca; negativo - voce

nao tem. Mas, lamentavelmente, o teste nao e 100% seguro.

Suponha que o laboratorio informa que a sensitividade do teste (a probabilidade do teste

acertar um diagnostico positivo) e 0.9, enquanto que sua especificidade (a probabilidade

do teste acertar um diagnostico negativo) e 0.77.

Denotemos por x a variavel indicadora do evento “o teste e positivo”.

Assim, temos: π(θ) = 0.03, f(x = 1 | θ1) = 0.9, f(x = 0 | θ2) = 0.77.

Depois de realizado o teste, suas probabilidades de contrair a doenca serao diferentes de

0.03.

O teste parece confiavel o suficiente para fazer voce contratar o seguro se o teste for

positivo, e nao contratar, caso contrario?

Com dois possıveis resultados e duas acoes, podemos definir quatro regras de decisao:

δ0(x): nao contratar o seguro.

δ1(x): contratar o seguro se x = 1, e nao, caso contrario.

12 Introducao

δ2(x): contratar o seguro se x = 0, e nao, caso contrario.

δ4(x): contratar o seguro.

Ignorando o custo do exame medico, a tabela de perdas e

θ1: doente θ2: nao doente

x = 0 x = 1 x = 0 x = 1

δ0(x) 1000 1000 0 0

δ1(x) 1000 50 0 50

δ2(x) 50 1000 50 0

δ3(x) 50 50 50 50

Aqui duas incertezas afetam sua escolha: o resultado do teste e se voce ficara doente

durante a viagem. Ponderando as perdas por estado e depois pelos resultados, podemos

obter as perdas esperadas totais, obtendo para δ1, se θ = θ1, por exemplo,

1000 f(x = 0 | θ1) + 50 f(x = 1 | θ1) = 145.0 ,

e se θ = θ2

0 f(x = 0 | θ2) + 50 f(x = 1 | θ2) = 11.5 ,

de modo que a perda esperada total e

145× π(θ1) + 11.5× π(θ2) = 145× 0.03 + 11.5× 0.97 = 15.5 .

Os valores para cada decisao estao na tabela.

perdas medias por estado perdas medias totais

θ1 θ2

δ0(x) 1000 0 30

δ1(x) 145 11.5 15.5

δ2(x) 905 38.5 64.5

δ3(x) 50 50 50

Deste modo, a estrategia δ1 e a estrategia de Bayes, que minimiza a perda esperada

total.

Observacao: uma forma alternativa de obter a regra de Bayes e calculando diretamente

as perdas esperadas posteriores dado x = 1 e x = 0.


Alternativamente, se voce usar a estrategia minimax, seu objetivo sera evitar as perdas

maiores. Comecemos com o caso em que voce nao tem dados disponıveis. Como as

perdas maiores sao 50 dolares se voce contratar o seguro e 1000, se nao contratar, voce

deveria contratar o seguro.

Escrevendo estas perdas na fora de arrependimento, o argumento e o seguinte. Se voce

condicionar em ficar doente, o melhor que voce pode ter e uma perda de 50 dolares,

comprando o seguro. A acao alternativa implica uma perda de mil dolares. Quando voce

avalia se esta acao vale a pena, voce deve comparar a perda com a melhor (menor) perda

que voce poderia ter obtido. Assim, voce perde mil dolares, mas seu arrependimento e

somente pelos 950 dolares que voce poderia ter evitado gastar.

Assim, a tabela de perdas por arrependimento e

evento perda

θ1 θ2 esperada

decisao seguro 0 50 48.5

nao seguro 950 0 28.5

Desta forma, a acao de Bayes permanece a mesma, mas a acao minimax pode mudar

(mesmo que nao neste exemplo).

Como a decisao minimax depende do resultado do teste?

Na tabela abaixo, aparecem as regras de Bayes e minimax usando as perdas de arrepen-

dimento.

evento maior risco

θ1 θ2 risco esperado

δ0(x) 950 0 950 28.5

δ1(x) 95 11.5 95 14.0

δ2(x) 855 38.5 855 63.0

δ3(x) 0 50 50 48.5

Usando o procedimento minimax, a melhor decisao e δ3, comprar o seguro independen-

temente do resultado do teste. Esta conclusao depende das perdas, da sensitividade e

da especificidade, e diferentes regras poderiam ser minimax se estes valores mudassem.

Mais adiante, reveremos este problema considerando ambas as decisoes: fazer o teste ou

nao, e o que fazer com a informacao.

14 Introducao

Sob certas condicoes, e possıvel que uma regra Bayesiana seja tambem minimax. Infor-

malmente, isto ocorre quando temos uma priori pessimista.

Dizemos que uma distribuicao a priori πM para θ e menos favoravel se

infδr(πM , δ) = sup

πinfδr(π, δ) .

Esta priori e tambem dita a estrategia maximin da natureza.

Teorema 1. Suponha que δ∗ e uma regra de Bayes com respeito a πM e tal que

r(πMδ∗) =

∫ΘR(θ, δ∗)πM (θ)dθ = sup

θR(θ, δ∗) .

Entao

1. delta∗ e uma regra minimax.

2. Se δ∗ for a unica regra bayesiana com respeito a πM , entao δ∗ e a unica regra

minimax.

3. πM e a priori menos favoravel.

Exemplo Considere uma observacao x binomial com θ desconhecido, funcao de perda

quadratica L(θ, a) = (θ − a)2, e suponha que θ tem distribuicao a priori Beta(α0, β0).

Sob perda quadratica, a regra de Bayes, δ∗, e a media posterior

δ∗(x) =α0 + x

α0 + β0 + n,

cujo risco e

R(θ, δ∗) =θ2[(α0 + β0)2 − n] + θ[n− 2α0(α0 + β0)] + α2

0

(α0 + β0 + n)2.

Se α0 = β0 =√n/2, temos

δM (x) =x+√n/2

n+√n

=x

n

√n

1 +√n

+1

2(1 +√n).

Esta regra tem risco constante

R(θ, δM ) =1

4 + 8√n+ 4n

=1

4(1 +√n)2

.

Como o risco e constante, R(θ, δM ) = r(πM , δM ) para todo θ, e πM e uma distribuicao

Beta(√n/2,

√n/2). Pelo teorema anterior, concluımos que δM e minimax e πM e menos

favoravel.


Exercıcio 4. No exemplo anterior, determine o risco quadratico do estimador de ma-

xima verossimilhanca e compare-o com o do estimador minimax δM , a medida que n

cresce.

Discutiremos brevemente regras de decisao aleatorizadas, como a que vimos em algum

exemplo anterior. Do ponto de vista frequentista, estas regras sao importantes pois

garantem, por exemplo, nıveis de erro especificados ao construir procedimentos de teste

de hipoteses e intervalos de confianca. Do ponto de vista bayesiano, elas nao sao ne-

cessarias, pois nao melhoram o risco de Bayes, em comparacao com regras de decisao

nao aleatorizadas.

Dizemos que uma regra δR e aleatorizada se, para cada x, δR(x, ·) e uma distribuicao de

probabilidade em A. Em particular, δR(x,A) denota a probabilidade de que uma acao

em A ⊂ A seja escolhida.

Denotemos por DR o conjunto destas regras.

A perda deste tipo de regra e

L(θ, δR(x)) = EδR(x,·)L(θ, a) =

∫a∈A

L(θ, a)δR(x, a) da .

Uma regra de decisao nao aleatorizada e um caso especial de uma regra aleatorizada

que atribui, para qualquer x, uma acao especıfica com probabilidade um.

No exemplo da Figura 1.1, nenhuma regra aleatorizada em DR melhora o risco de Bayes

de uma decisao bayesiana nao-aleatorizada em D. Isto e de fato um caracterıstica geral.

Teorema 2. Para qualquer distribuicao a priori π em Θ, o risco de Bayes no conjunto

de estimadores aleatorizados e o mesmo risco de Bayes no conjunto de estimadores

nao-aleatorizados,

infδ∈D

r(π, δ) = infδR∈DR

r(π, δR) .

Este resultado, baseado no risco r, e um argumento a favor de que um estatıstico nao

deve basear uma decisao importante no resultado do lancamento de uma moeda.

Estes conceitos podem ser aprofundados em sua aplicacao em conceitos basicos de in-

ferencia, como testes de hipoteses e estimacao em [3, Secoes 7.5-7.7] e [5].

16 Introducao

Capıtulo 2

Programacao dinamica

Veremos neste capıtulo problemas de decisao em multiplos estagio, onde as decisoes

devem ser tomadas no tempo e com graus de informacao variaveis. O aspecto importante

deste tipo de decisao e que, como em um jogo de xadrez, as decisoes de agora afetam

a disponibilidade das opcoes de acoes futuras, e muitas vezes tambem a informacao

disponıvel ao tomar decisoes futuras.

Na pratica estatıstica, problemas multiestagio podem ser usados como fundamento em

teoria de decisao para o planejamento de experimentos, no qual decisoes iniciais estao

relacionadas com quais dados coletar, e decisoes finais com como usar a informacao

obtida.

A abordagem sera feita do ponto de vista da maximizacao da utilidade esperada, e a

ferramenta de representacao serao as arvores de decisao, ja definidas.

O princıpio fundamental para resolver arvores de decisao multiestagio e chamado inducao

regressiva (backward induction), que apareceu originalmente em referencias de pro-

gramacao dinamica, cuja motivacao inicial era processos de controle industrial.

Exemplo Considere um processo quımico que consiste de um aquecedor, um reator e

uma torre de destilacao, conectados em serie. Queremos determinar a temperatura otima

no aquecedor, a taxa de reacao otima e o total otimo de cubas na torre de destilacao.

Todas estas decisoes sao interdependentes. No entanto, uma vez que a temperatura e a

taxa de reacao sao escolhidas, o total de cubas deve ser otimo com respeito ao produto

do reator.

Usando este princıpio, podemos dizer que o total otimo de cubas e determinado como

uma funcao da saıda do reator. Como nao conhecemos a temperatura otima ou a taxa

18 Programacao dinamica

de reacao ainda, o total otimo de cubas e o produto da torre devem ser determinados

para todas as saıdas possıveis do reator.

Continuando sequencialmente, podemos dizer que, para qualquer temperatura escolhida,

a taxa do reator e o total de cubas devem ser otimos com respeito a saıda do aquecedor.

Para escolher a melhor taxa de reacao como uma funcao desta saıda, devemos levar

em conta como a torre de destilacao depende da saıda do reator. Daqui, a taxa de

reacao otima pode ser determinada como uma funcao da entrada do reator, otimizando

conjuntamente o reator e o retorno otimo da torre como uma funcao da saıda do reator.

Ao tomar decisoes sequencialmente com uma funcao das decisoes precedentes, o primeiro

passo e determinar o total de cubas como uma funcao da saıda do reator. Entao, a taxa

de reacao otima e estabelecida como uma funcao da entrada do reator. Finalmente, a

temperatura otima e determinada como uma funcao da entrada ao aquecedor. Tendo

uma funcao de decisao, podemos otimizar o processo quımico um estagio por vez.

A tecnica descrita acima e chamada programacao dinamica, baseada no princıpio de

inducao regressiva, surgida no fim dos anos 40 em problemas de parada otima. Neste

tipo de problema, temos a opcao de coletar os dados sequencialmente; em cada nodo de

decisao, temos duas opcoes possıveis: ou continuar amostrando, ou parar a amostra e

tomar uma acao terminal.

A expressao “inducao regressiva” vem do fato que a sequencia de decisoes e resolvida

revertendo a ordem no tempo.

Este metodo nos permite conceitualizar e resolver problemas que seriam menos trataveis

se cada funcao de decisao possıvel, que depende de dados e decisoes que se acumulam

sequencialmente, tiver que ser considerada explicitamente.

Na formulacao convencional, consideramos um processo de decisao multiestagio com-

pleto como se fosse essencialmente de um estagio, com o custo de aumentar a dimensao

do problema: se tivermos um processo com N estagios, onde M decisoes devem ser

tomadas em cada estagio, a abordagem classica considera um processo de um estagio

MN -dimensional.

No lugar de determinar a sequencia otima de decisoes a partir de um estado fixo do

sistema, queremos determinar a decisao otima a ser tomada em qualquer estado do

sistema.

Uma das vantagens desta segunda abordagem e a reducao da dimensionalidade do pro-

blema para a dimensao da decisao em qualquer estagio dado.

O princıpio de otimalidade estabelecido por Bellman diz que: “uma polıtica otima tem

O problema do seguro 19

a propriedade de que quaisquer que sejam o estado inicial e a decisao inicial, as decisoes

subsequentes devem constituir uma polıtica otima, levando em conta o estado resultante

da primeira decisao”.

2.1 O problema do seguro

No exemplo da Secao 1.4, consideramos como usar a informacao sobre o teste medico

de maneira otima. Agora consideraremos o problema de decisao sequencial em que, no

primeiro estagio, devemos decidir se fazer ou nao o teste, e depois decidir se contratar

ou nao o seguro. Este e um exemplo de um problema de decisao sequencial com dois

estagios. A Figura 2.1 mostra a arvore do problema visto desta forma.

Figura 2.1: Arvore do problema do seguro em dois estagios.

Considere a tabela original do problema (a solucao bayesiana continua sendo a mesma

se considerarmos a tabela de arrependimentos).

Usando o princıpio da utilidade esperada, condicionamos na informacao a medida que

ela e obtida, e atualizamos nossas probabilidades sobre os estados da natureza usando

a regra de Bayes em cada estagio:

π(θ | x) =f(x | θ)π(θ)

m(x),

para θ = θ1, θ2 e x = 0, 1. Obtemos, assim,

m(x = 1) = 0.250 , π(θ1 | x = 0) = 0.004 , π(θ1 | x = 1) = 0.108 .


As perdas esperadas a posteriori para as regras δ1 (contratar o seguro se x = 1) e para

δ2 (contratar o seguro se x = 0), dado x = 0, sao

δ1 : 1000× 0.004 + 0× 0.996 = 4 e

δ2 : 50× 0.004 + 50× 0.996 = 50 ,

e dado x = 1, sao

δ1 : 50× 0.108 + 50× 0.892 = 50 e

δ2 : 1000× 0.108 + 0× 0.892 = 108 .

As perdas esperadas para as regras δ0 e δ3 continuam as mesmas, porque elas nao

dependem dos dados. Assim, se o teste for realizado e for positivo, entao a decisao

otima e contratar o seguro, com perda esperada igual a 50. Se o teste for negativo,

entao a decisao otima e nao contratar o seguro, com perda esperada igual a 4. Este

resultado e o mesmo que obtivemos ao calcular a regra bayesiana minimizando o risco

de Bayes.

Agora podemos voltar ao problema de se vale a pena ou nao fazer o teste.

Se nenhum teste for realizado, a solucao otima e nao comprar o seguro, com perda

esperada de 30.

Supondo que o teste seja realizado, calculamos as perdas associadas com a decisao no

primeiro estagio desde esta perspectiva: podemos avaliar o que acontece se o teste for

positivo e agirmos de acordo com a estrategia otima daqui para a frente. Similarmente,

podemos avaliar o que aconteceria se o teste fosse negativo, e agir de acordo com a

estrategia otima daı para a frente.

Deste modo, o que esperamos e uma media ponderada das duas perdas otimais esperadas,

cada uma condicional a um resultado de x. Os pesos sao as probabilidades de cada

resultado no momento atual:

50×m(x = 1) + 4×m(x = 0) = 50× 0.25 + 4× 0.75 = 15.5 .

Comparando com 30, o valor obtido ao nao fazer o teste, concluımos que a decisao

otima e faze-lo. Isto e razoavel: o teste e gratuito e a informacao dada por ele ajudaria

a tomar uma decisao, de modo que e logico que o otimo em um primeiro estagio seja

obter informacao.

Ao todo, a estrategia sequencial otima e a seguinte: voce deve fazer o teste; se for

positivo, contratar o seguro; se for negativo, nao contratar o seguro.

Problemas de decisao finitos a dois estagios 21

Figura 2.2: Arvore completa do problema do seguro em dois estagios.

Exercıcio 5. Qual seria a estrategia sequencial otima se o teste custasse 10 dolares?

Ate quanto deveria custar o teste para que ele valesse a pena?

Alternativamente, poderıamos ter listado todas as estrategias possıveis para cada um

dos dois estagios, calculado a perda esperada de cada uma e escolhido a com menor

valor. Esta forma de analise e chamada forma normal; a analise feita com a arvore de

decisao e chamada forma extensiva.

2.2 Problemas de decisao finitos a dois estagios

Um problema de decisao finito com dois estagios pode ser representado geralmente pela

arvore da Figura 2.3, com os nodos em ordem cronologica.

Alguma notacao antes de formalizar a solucao.

Denotaremos por a(s)1 , . . . , a

(s)Is

, as acoes disponıveis no estagio s (na figura, s e 1 ou 2).

Para cada acao no estagio 1, temos um conjunto de possıveis observacoes que podem

potencialmente guiar nossas decisoes no estagio 2. Para a acao a(1)i , elas serao indicadas

por xi1 dots, xiJ .

Para cada acao no estagio 2, temos o mesmo conjunto de possıveis estados da natureza,

θ1, . . . , θK , e para cada combinacao de acoes e estados da natureza, temos um resultado


Figura 2.3: Arvore geral de um problema finito em dois estagios.

z. Se as acoes a(1)i1

e a(2)i2

forem seguidas, e θk for o verdadeiro estado da natureza,

o resultado e zi1i2k. Para simplificar a notacao, estamos supondo mesmo numero de

estados da natureza e resultados.

Daqui em diante, usaremos a formulacao em utilidade e nao em perdas.

No caso do seguro, resolvemos o problema indo para tras ate a raiz a esquerda, co-

mecando no galhos terminais, alternando o calculo de utilidades esperadas nos nodos

aleatorios, e maximizando as utilidades esperadas nos nodos de decisao. Formalizamos

estes passos da seguinte maneira.

No segundo estagio, dado que escolhemos a acao a(1)i1

no primeiro estagio, e que o resul-

tado xi1j foi observado, escolhemos a acao terminal a∗(2) que alcanca

max1≤i2≤I2

K∑k=1

π(θk | xi1j)u(zi1i2k) .

No estagio 2, apenas fica incerteza sobre os estados da natureza θ. Como usual, calcu-

lamos as utilidades esperadas com respeito a distribuicao posterior. Escolhemos entao

a acao que maximiza a utilidade esperada.

Esta maximizacao define uma funcao δ∗(2)(a(1)i1, xi1j) que nos diz como proceder de forma

otima em cada possıvel cenario.

Uma diferenca importante com o que tınhamos visto antes e a dependencia na decisao

Problemas de decisao finitos a dois estagios 23

do primeiro estagio, que e tipicamente necessaria ja que acoes diferentes poderiam estar

disponıveis para δ(2), dependendo do que foi escolhido antes.

Tendo δ∗(2), voltamos ao estagio 1 e escolhemos uma acao a∗(1) que alcance

max1≤i1≤I1

J∑j=1

[max

1≤i2≤I2

K∑k=1

π(θk | xi1j)u(zi1i2k)

]m(xi1j)

.

O maximo dentro do colchete e a expressao do passo anterior; a soma seguinte calcula a

utilidade esperada associada ao escolher a i-esima acao no estagio 1, e entao otimizamos

esta escolha no estagio 2.

Quando a decisao do estagio 1 e tomada, os maximos das utilidades esperadas das acoes

disponıveis sao incertos, pois nao conhecemos o resultado x. Resolvemos isto tomando o

valor esperado das utilidades maximas com respeito a distribuicao marginal de x, para

cada acao a(1)i1

. O resultado e a soma externa da expressao acima.

No fim do processo inteiro, uma regra de decisao sequencial otima e obtida na forma de

um par (a∗(1), δ∗(2)). Isto define uma regra formal de Bayes, com respeito a funcao de

perda definida a partir desta utilidade.

A soma com respeito a j e um risco de Bayes. No contexto de dois estagios, obtemos um

risco de Bayes para cada acao a(1)i1

do estagio 1, e entao escolhemos a acao com menor

risco de Bayes.

Assim temos um plano para o que fazer no estagio 1, e para o que fazer no estagio 2,

em resposta a qualquer possıvel resultado da decisao do estagio 1.

Observe que, nestas decisoes multi-estagio, o princıpio da verossimilhanca opera no

estagio 2, mas nao no estagio 1. No estagio 2, os dados sao conhecidos e os resultados

que nao ocorreram sao irrelevantes. Mas no estagio 1, os dados sao desconhecidos,

e a distribuicao dos possıveis resultados experimentais e essencial para estabelecer o

planejamento experimental.

Observe tambem que, usando a regra de Bayes na soma externa, podemos reescrever a

expressao anterior como

J∑j=1

[max

1≤i2≤I2

K∑k=1

π(θk | xi1j)u(zi1i2k)

]m(xi1j) =

J∑j=1

[max

1≤i2≤I2

K∑k=1

π(θk)f(xi1j | θk)u(zi1i2k)

].

Assim, a funcao δ∗ que maximiza a soma interna ponto a ponto, para cada i e j, tambem

maximiza a utilidade esperada media. Podemos entao escrever o lado direito como

maxδ

J∑j=1

K∑k=1

π(θk)f(xi1j | θk)u(zi1i2k)

.


Aqui, δ aparece implıcito em como o sub-ındice i2 e determinado como funcao de i1 e

j. Revertendo a ordem das somas, obtemos

maxδ

K∑k=1

π(θk)

J∑j=1

f(xi1j | θk)u(zi1i2k)

.

Finalmente, inserindo esta expressao na maximizacao original, temos uma representacao

equivalente como

max1≤i1≤I1

maxδ

K∑k=1

π(θk)

J∑j=1

f(xi1j | θk)u(zi1i2k)

.

Nesta forma, no lugar de alternar esperancas e maximizacoes, ambos os estagios sao

maximizados conjuntamente com respeito aos pares (a(1), δ(2)).

A soma interna e a utilidade esperada de uma regra de decisao, dado o estado da

natureza, ao repetir o experimento. A soma externa e a utilidade esperada de uma

regra de decisao ponderada pelos estados da natureza.

Com isto, mostramos a equivalencia entre as formas normal e extensiva de analise de um

problema de decisao. Uma equivalencia similar foi obtida quando discutimos a relacao

entre perda esperada posterior (na forma extensiva) e o risco de Bayes (na forma normal

de analise).

2.3 Mais de dois estagios

A generalizacao para mais de dois estagios e imediata: novamente, usamos a arvore de

decisao, com o sentido cronologico para a direita, com a informacao ficando disponıvel

entre os estagios, e com cada decisao dependente das decisoes feitas nos estagios ante-

riores. Suporemos que a arvore e limitada, no sentido de que temos uma quantidade

finita de estagios e de decisoes em cada estagio.

Algumas notacoes que serao necessarias.

S e o total de estagios de decisao.

a(s)0 , . . . , a

(s)Is

sao as decisoes possıveis no s-esimo estagio, com s = 1, . . . , S. Em

cada estagio, a(s)0 e diferente das demais acoes: se a

(s)0 for tomada, nao ha mais

estagios e o problema de decisao termina. Formalmente, a(s)0 e uma funcao que

leva estados em resultados, da forma usual.

Mais de dois estagios 25

Para cada acao de parada, temos um conjunto de estados da natureza relevan-

tes, que constituem o domınio da acao. No estagio s, os possıveis estados sao

θ(s)01 , . . . , θ

(s)0Ks

.

Para cada acao de continuacao a(s)i , i > 0 e 1 ≤ s < S, observamos uma variavel

aleatoria x(s)i , com possıveis valores x

(s)i1 , . . . , x

(s)iJs

.

Se o estagio s for alcancado, a decisao pode depender de todas as decisoes que

foram feitas, e de todas as informacoes que foram obtidas nos estagios precedentes.

Chamaremos toda esta informacao de historia, e usaremos a notacao Hs−1, onde

Hs−1 = {a(1)i1, . . . , a

(s−1)is−1

, x(1)i1j1

, . . . , x(s−1)is−1js−1

} , s = 2, . . . , S.

A historia (vazia), previa ao estagio 1, sera denotada por H0.

Finalmente, no ultimo estagio S, o conjunto de estados da natureza, constituindo

o domınio da acao a(S)iS

e θ(S)iS1, . . . , θ

(S)iSKS

.

A programacao dinamica procede da seguinte forma: comecamos resolvendo o problema

de decisao do ultimo estagio, S, maximizando a utilidade esperada sobre toda a historia

possıvel. Entao, condicional na escolha otima feita no estagio S, resolvemos o pro-

blema no estagio S − 1, maximizando novamente a utilidade maxima esperada. Este

procedimento e repetido ate resolver o problema de decisao no primeiro estagio.

Figura 2.4: Arvore geral de um problema finito multi-estagio.

O algoritmo deste procedimento recursivo e:

1. No estagio S:


(a) Para toda possıvel historia HS−1, calculamos a utilidade esperada das acoes

a(S)i , i = 0, . . . , IS , possıveis no estagio S, usando

US(a(S)i ) =

KS∑k=1

u(S)ik (HS−1)π(θ

(S)ik | HS−1) ,

onde u(S)ik (HS−1) = u(z

(S)i1...iS−1ik

).

(b) Obtemos a acao otima, tal que

a∗(S)(HS−1) = arg maxiUS(a

(S)i ) .

Esta e uma funcao de HS−1 porque ambos, a distribuicao posterior de θ

e a utilidade dos resultados, dependem da historia passada de decisoes e

observacoes.

2. Para estagios S − 1 ate 1, repita:

(a) Para toda possıvel historia Hs−1, calculamos a utilidade esperada das acoes

a(s)i , i = 0, . . . , Is, possıveis no estagio s, usando

Us(a(s)i ) =

Js∑j=1

u(s)ij (Hs−1)m(x

(s)ij | Hs−1) , i > 0 ,

Us(a(s)0 ) =

Ks∑k=1

u(s)0k (Hs−1)π(θ

(s)0k | Hs−1) ,

onde agora u(s)ij sao as utilidades esperadas associadas com a continuacao

otima a partir do estagio s+ 1, dado que a(s)i e escolhida e x

(s)ij ocorre.

Se indicarmos por {Hs−1, a(s)i , x

(s)ij } a historia resultante, entao

u(s)ij = Us+1(a∗(s+1)({Hs−1, a

(s)i , x

(s)ij })) i > 0 .

A utilidade da decisao de parar e entao

u(s)0k = u(z

(s)i1...is−10k) .

(b) Obtemos a acao otima

a∗(S)(Hs−1) = arg maxiUs(a(s)

i ) .

(c) Va para o estagio s− 1, ou pare se s = 1.

Capıtulo 3

Aplicacoes

3.1 O problema do casamento

Aplicaremos a tecnica anterior ao conhecido problema da secretaria ou problema do

casamento.

Basicamente, o problema e que voce deve contratar uma secretaria e realiza sucessivas

entrevistas para tal, de modo que sua decisao apos a entrevista e definitiva: se voce

decidir nao contratar a candidata, voce perde a chance de contrata-la depois; se voce

decidir contrata-la, nao entrevista mais ninguem da lista. Se voce chegar ao fim da lista

de candidatas, voce contrata a ultima entrevistada. Uma descricao analoga e feita no

contexto do casamento, desta vez com uma lista de pretendentes.

Observe que este problema e similar ao de uma compra de passagens aereas pela internet:

voce realiza uma busca pela internet, obtendo um determinado preco. Se decidir nao

comprar a passagem nesse momento, o mesmo preco possivelmente nao sera obtido de

novo em uma nova busca, sem que voce saiba se o futuro preco sera melhor ou nao ao

atual.

Nestes tres problemas, o objetivo e o mesmo: escolher a melhor opcao, sabendo apenas

como e a opcao atual com respeito as anteriores, mas sem poder voltar atras.

A questao e: quando parar de procurar?

Se voce parar cedo demais, pode ser que voce perca a oportunidade de opcoes melhores

no futuro. Por outro lado, se voce demorar demais para decidir, voce poderia rejeitar

opcoes melhores que a que voce escolhera no fim. Esperar entrega mais informacao, mas

menos oportunidades para usa-la.

28 Aplicacoes

Figura 3.1: Arvore do problema do casamento.

Na Figura 3.1, aparece a representacao em arvore de dois estagios consecutivos do pro-

blema. No estagio s, voce ja examinou s ofertas. Voce pode decidir a(s)1 , esperar por

uma proxima oferta, ou a(s)0 , aceitar a oferta atual e parar o processo.

Se voce parar em s, sua utilidade dependera do posto desconhecido θ(s) da oferta s: θ(s)

e um numero entre 1 e S. Em s, voce tomou uma decisao baseado no posto observado

x(s) da oferta s, entre as s ja recebidas: este e um numero entre 1 e s.

Em resumo, θ(s) e x(s) se referem a mesma oferta. O primeiro, e o posto desconhecido se

a oferta for aceita; o segundo, e o posto conhecido usado para tomar a decisao. Se voce

continuar ate o estagio S, o posto relativo verdadeiro de cada oferta ficara conhecido.

A ultima suposicao que precisamos e uma funcao de utilidade. Seja u(θ) a utilidade de

fazer a compra que tem posto θ dentro todas as S opcoes (S e o numero maximo de

buscas que voce pode fazer ate a data da viagem), tal que u(1) ≥ u(2) ≥ · · · ≥ u(S).

Esta utilidade sera a mesma, independentemente do estagio no qual a decisao e tomada.

Agora estamos equipados para avaliar a utilidade esperada de ambos, aceitar a oferta

(parar) ou rejeita-la (continuar) no estagio s. Se estamos no estagio s e que rejeitamos

todos as ofertas anteriores. Tambem temos que os postos relativos das ofertas anteriores

sao agora irrelevantes. Portanto, a unica parte da historia Hs que importa e que a

s-esima oferta tem posto x(s).

Parar. Considere a probabilidade π(θ(s) | x(s)) de que a s-esima oferta, com posto

observado x(s), tem de fato posto θ(s) entre todas as S ofertas.

Como nao temos nenhuma informacao a priori sobre as ofertas que ainda nao foram

feitas, podemos avaliar π(θ(s) | x(s)) como a probabilidade de que, em uma amostra

aleatoria de s ofertas tomadas de uma populacao de S ofertas, (x(s) − 1) estao entre as

O problema do casamento 29

(θ(s)−1) melhores, uma tem posto θ(s), e as restantes (s−x(s)) estao entre as (S−x(s))

piores. Assim, temos

π(θ(s) | x(s)) =

(θ(s) − 1

x(s) − 1

)(S − θ(s)

s− x(s)

)/

(S

s

),

para x(s) ≤ θ(s) ≤ S − s + x(s). Se denotarmos por U(·) a utilidade esperada de cada

decisao, entao

U(a(s)0 ) =

S−s+x(s)∑θ=x(s)

u(θ)

(θ − 1

x(s) − 1

)(S − θs− x(s)

)/

(S

s

), para s = 1, . . . , S.

Continuar. Por outro lado, precisamos considerar a utilidade esperada de tomar a

decisao a(s)1 e continuar de forma otima depois de s. Digamos, de novo, que a s-esima

oferta tem posto x(s), e definamos U∗(a(s)1 ) = b(s, x(s)).

Se voce decidir esperar pela proxima oferta, entao a probabilidade de que a proxima

oferta tenha um posto observado x(s+1), dado que o posto da s-esima oferta e x(s), e

1/(s+ 1), ja que as ofertas chegam em ordem aleatoria e todos os s+ 1 valores de x(s+1)

sao igualmente provaveis.

Desta forma, a utilidade esperada de esperar pela proxima oferta e continuar otimamente

e

U∗(a(s)1 ) = b(s, x(s)) =

1

s+ 1

s+1∑x=1

b(s+ 1, x) .

Como devemos parar ate o estagio S, a seguinte relacao deve ser satisfeita:

b(S, x(S)) = U∗(a(S)1 ) = U∗(a(S)

0 ) ,

para x(S) = 1, . . . , S.

Podemos usar estas equacoes de recorrencia para determinar as utilidades esperadas de

continuar.

A solucao otima no estagio s, dependente de x(s), e esperar pela proxima oferta se

U∗(a(s)1 ) > U(a

(s)0 ) ou aceitar a oferta atual se U∗(a(s)

1 ) = U(a(s)0 ).

Uma possıvel utilidade, para uma solucao mais explıcita, e ter como objetivo obter

a melhor oferta, com todos os demais postos igualmente indesejados. Formalmente,

u(1) = 1 e u(θ) = 0, para θ > 1.

Das equacoes anteriores, para qualquer s,

U(a(s)0 ) =

s

S1(x = 1) .

30 Aplicacoes

Isto implica que U∗(a(s)1 ) > U(a

(s)0 ) sempre que x(s) > 1. Ou seja, voce deveria esperar

a proxima oferta se o posto da oferta atual nao for o melhor. Mas o que voce deveria

fazer se a oferta atual for a numero 1 ate o momento?

A maior utilidade esperada alcancavel no estagio s e a maior das utilidades esperadas

entre duas possıveis decisoes,

U∗(a(s)) = max

(U(a

(s)0 ),

1

s+ 1

s+1∑x=1

b(s+ 1, x)

).

Denotemos por v(s) o segundo termo do maximo anterior. Entao

v(s) =1

s+ 1U∗(a(s+1)

1 ) +s

s+ 1v(s+ 1) .

No ultimo estagio, obtemos U∗(a(S)) = 1 e v(S) = 0. Por inducao regressiva em s, temos

que

v(s) =s

S

(1

S − 1+

1

S − 2+ · · ·+ 1

s

).

Portanto, se x(s) = 1,

U∗(a(s)1 ) =

s

Smax

(1,

(1

S − 1+

1

S − 2+ · · ·+ 1

s

)).

Seja s∗ o menor inteiro tal que o segundo termo do maximo seja menor que 1. O

procedimento otimo e esperar ate ter s∗ ofertas. Se a s-esima for a melhor ate o momento,

aceite-a. Caso contrario, espere ate obter a melhor oferta ate esse momento e aceite-a.

Se voce alcancar o estagio S, entao voce tem que aceitar a oferta, independentemente

do seu posto.

Se S for grande, entao s∗ ≈ S/e. Ou seja, voce deveria esperar ate observar aproxima-

damente 1/e ≈ 36% das ofertas. Nesse ponto, a coleta de informacoes termina e voce

aceita a primeira oferta melhor que as anteriores.

3.2 Ensaios clınicos sequenciais

Ensaios clınicos sao experimentos envolvendo seres humanos e, tipicamente, envolvem

conflito entre o objetivo de aprender sobre os tratamentos, de modo que uma maior gama

de pacientes possa ser beneficiado com os avancos, e o de assegurar um bom resultado

aos pacientes participantes do estudo.

Existe uma ampla literatura sobre este assunto, abordando aspectos como: diferencas

entre as solucoes bayesianas e frequentistas, o valor das solucoes baseadas em teoria de

decisao sequencial, tamanho de amostra etc.

Ensaios clınicos sequenciais 31

Problemas do tipo two-armed bandit

Considere um decisor que pode tomar um numero fixo n de observacoes sequencialmente,

sendo que, em cada estagio, ele pode escolher observar ou uma variavel aleatoria x com

densidade fx(· | θ0) ou uma variavel aleatoria y com densidade fy(· | θ1).

O problema de decisao e encontrar um procedimento sequencial que maximize o valor

esperado da soma das observacoes. Este e um exemplo do chamado problema do two-

armed bandit (trad. literal: bandido com dois bracos), ou do caca-nıquel com duas

alavancas.

Para uma conexao com ensaios clınicos, imagine os dois bracos como sendo dois tra-

tamentos para uma certa doenca, e as variaveis aleatorias como sendo mensuracoes do

bem-estar dos pacientes tratados. O objetivo e maximizar o bem-estar do paciente, mas

alguma experimentacao previa e necessaria em ambos os tratamentos para estabelecer

a melhor forma de alcanca-lo.

Podemos formalizar a solucao deste problema usando programacao dinamica. Nos

estagios s = 0, . . . , n, a decisao e ou a(s)0 , observar x, ou a

(s)1 , observar y. Seja π a

distribuicao a priori conjunta para θ = (θ0, θ1) e considere a soma esperada maxima das

n observacoes, dado por

V (n)(π) = max{U(a(n)0 ),U(a

(n)0 )} ,

onde U(a(n)i ), i = 0, 1, e calculada sob a distribuicao π.

Suponha que a primeira observacao e tomada de x. A distribuicao a posteriori conjunta

de (θ0, θ1) e πx e a soma esperada das restantes (n−1) observacoes e dada por V (n−1)(πx).

Entao, a soma esperada de todas as n observacoes e

U(a(n)0 ) = Ex[x+ V (n−1)(πx)] .

Similarmente, se a primeira observacao vier de y, a soma esperada de todas as n ob-

servacoes e

U(a(n)1 ) = Ey[y + V (n−1)(πy)] .

Assim, o procedimento otimo a∗(s) tem utilidade esperada

V (n)(π) = max{Ex[x+ V (n−1)(πx)], Ey[y + V (n−1)(πy)]} .

Com a condicao inicial V (0)(π) ≡ 0, podemos resolver V (s)(π), s = 1, . . . , n, e encontrar

o procedimento sequencial otimo por inducao.

32 Aplicacoes

Planejamento adaptativo para resposta binaria

Consideremos um ensaio clınico comparando dois tratamentos, A e B, digamos. Os

pacientes chegam sequencialmente e cada um pode receber apenas um dos tratamentos.

A terapia e escolhida com base na informacao disponıvel ate esse momento sobre a

eficacia de cada uma. Seja n o total de pacientes no ensaio. Ao fim do estudo, a terapia

com melhor desempenho sera aplicada em (N-n) pacientes adicionais. O total N de

pacientes envolvidos e chamado o horizonte.

Uma questao natural e como alocar os pacientes de forma otima para maximizar o total

de pacientes que respondam positivamente ao tratamento, no horizonteN . Resolveremos

este problema com programacao dinamica.

Suponha que a resposta ao tratamento e um evento binario; chamaremos uma resposta

favoravel simplesmente de resposta. Sejam θA e θB as proporcoes de respostas sob os

tratamentos A e B, respectivamente. Suponha a priori que θA e θB sao independentes

com uma distribuicao uniforme em (0, 1). Seja nA o total de pacientes alocados no

tratamento A e rA a total de respostas nestes nA pacientes. Similarmente, defina nB e

rB, para o tratamento B.

Como ilustracao, consideremos n = 4 e N = 100. Ao usar programacao dinamica no

ultimo estagio, precisamos considerar todas as possibilidades com nA + nB = 4.

Por exemplo, para nA = 3, rA pode assumir os valores 0, . . . , 3, e rB, 0 ou 1. Suponha

que rA = 2 e rB = 0. Com este resultado observado, a distribuicao a posteriori de

θA e Beta(3, 2), com probabilidade preditiva de resposta pA = 3/5; para θB, obtemos

uma posterior Beta(1, 2) com probabilidade preditiva pB = 1/3. Como 3/5 > 1/3, os

restantes N −n = 100− 4 = 96 pacientes devem ser alocados em A, com total esperado

de respostas igual a 96×3/5 = 57.6. Fazemos o mesmo para todas as outras combinacoes

de alocacao de tratamento e resultados experimentais, como mostrado na tabela abaixo.

rB \ rA 0 1 2 3 θB pB

1 B B B A Beta(2,1) 2/3

0 B A A A Beta(1,2) 1/3

θA Beta(1,4) Beta(2,3) Beta(3,2) Beta(4,1)

pA 1/5 2/5 3/5 4/5

Fazemos o mesmo procedimento para todos os casos, variando nA entre 0 e 4. Com isto,

temos o quadro completo da melhor decisao para os 96 pacientes restantes, em funcao

da escolha dos tratamentos para os 4 primeiros pacientes e suas respectivas respostas;

ou seja, em funcao de nA, nB, rA e rB.

Ensaios clınicos sequenciais 33

A seguir, andamos um passo para tras (para os tres primeiros pacientes) e consideramos

os casos em que nA + nB = 3 como, por exemplo, nA = 2, nB = 1. Suponha que as

respostas foram rA = 1 e rB = 0. As distribuicoes posteriores, com isto, sao Beta(2, 2)

para θA e Beta(1, 2), para θB. Ao completar os 4 pacientes, para calcular o total esperado

de futuras respostas, precisamos considerar as duas possıveis decisoes: alocar o quarto

paciente ao tratamento A ou ao tratamento B.

EscolherA, leva o processo ao caso nA = 3, nB = 1. Se o paciente responder, o que ocorre

com probabilidade (posterior) 2/4 = 1/2, entao rA = 2 e rB = 0, com probabilidade

preditiva pA = 3/5, enquanto que continuamos com pB = 1/3. Neste caso, decidimos

pelo tratamento A nos 96 pacientes seguintes, com 57.6 respostas esperadas, como acima.

Se o paciente nao responder, o que ocorre com probabilidade 1/2, o processo se move

para o caso rA = 1 e rB = 0, com probabilidade preditiva pA = 2/5 > 1/3. Assim,

neste caso tambem devemos alocar os 96 pacientes seguintes no tratamento A, com

valor esperado de respostas 96× 2/5 = 38.4.

Desta forma, tendo os resultados ate o terceiro paciente, e escolhendo A para o quarto

paciente, o total esperado de futuras respostas com A e (1+57.6)×1/2+38.4×1/2 = 48.5.

Similarmente, se o tratamento escolhido para o quarto paciente for B, nA = 2 e nB = 2.

Se o paciente responder ao tratamento B, o que ocorre com probabilidade 1/3, o processo

se move para rA = 1 e rB = 1, com probabilidade preditiva pB = 1/2, enquanto que

continuamos com pA = 1/2. Ou seja, neste caso, somos indiferentes entre os dois

tratamentos para os restantes 96 pacientes, com total esperado de respostas igual a 48.

Se o paciente nao responder a B, o que ocorre com probabilidade 2/3, o processo se

move para rA = 1, rB = 0, com probabilidade preditiva pB = 1/4 < 1/2, o que nos

leva a decidir pelo tratamento A para os pacientes restantes. Assim, o total esperado de

respostas com o tratamento B para o quarto paciente e (48+1)×1/3+48×2/3 = 48.3.

Como 48.5 > 48.3, a decisao otima para o quarto paciente e aloca-lo no tratamento

A. Qualquer que seja a resposta do quarto paciente, os restantes 96 pacientes tambem

deverao receber o tratamento A.

Repetimos esta mesma analise para calcular o total maximo esperado de respostas para

todas as opcoes de nA e nB com nA + nB = 3.

Este procedimento nos descreve a estrategia sequencial para o quarto paciente, e restan-

tes 96, em funcao de sua resposta e da resposta dos tres primeiros pacientes.

Agora, retrocedemos para o caso com nA + nB = 2, considerando todas as alocacoes e

resultados possıveis para os dois primeiros pacientes, e descrevendo a estrategia otima

a seguir em cada caso.

34 Aplicacoes

Continuamos assim por diante ate nA + nB = 0.

Figura 3.2: Decisoes otimas quando n = 4 e N = 100, condicional nos dados disponıveis

em termos de nA, rA, nB e rB.

A Figura 3.2 mostra as decisoes otimas para os restantes 96 pacientes quando n = 4 e

N = 100, para cada combinacao de nA, rA, nB e rB.

Cada bloco de celulas corresponde a um par (nA, nB), e dentro de cada bloco, cada celula

individual representa um caso das combinacoes possıveis para (rA, rB), variando de 0 a

n·. Os quadrados vazios representam os casos em que a decisao otima e o tratamento A,

enquanto que os quadrados marcados, o tratamento B. O asterisco representa os casos

em que ambos os tratamentos sao otimos.

Neste exemplo, a alocacao dos pacientes segue o que chamamos planejamento adaptativo,

no sentido de que ela depende dos resultados dos pacientes previos alocados no mesmo

tratamento. Este tipo de planejamento tem tipicamente um melhor resultado que a

tradicional aleatorizacao balanceada, com resultados similares quando o horizonte e

muito grande (a populacao completa, por exemplo). No entanto, se a condicao sendo

tratada e rara, o uso de um procedimento adaptativo e muito mais relevante.

Bibliografia

[1] M. DeGroot (2004) Optimal statistical decisions. Wiley.

[2] D.V. Lindley (1985) Making decisions. Wiley.

[3] G. Parmigiani, L. Inoue (2009) Decision theory: principles and approaches. Wiley.

[4] J. Pratt, H. Raiffa, R. Schlaifer (1995) Statistical decision theory. MIT Press.

[5] M.J. Schervish (1995) Theory of statistics. Springer-Verlag.

Documents

Introdu˘c~ao a teoria da decis~ao estat sticalaurarifo/aulas/mi686/apostilaII.pdf · L ˇ(a) = Z L( ;a)ˇ( )d e chamado perda esperada a priori. A a˘c~ao de Bayes e a mesma, seja