Download ppt - Informação Estatística e Análise Pré-Posteriori. Carlos Alberto de Bragança Pereira Dept. Estatística e Núcleo de Bioinformática – IME/USP

Informação Estatística e Análise Pré-Posteriori.

Carlos Alberto de Bragança Pereira Dept. Estatística e Núcleo de Bioinformática – IME/USP

2

O objeto principal de nosso trabalho é um Parâmetro ou Estado da Natureza cujo valor é invisível no momentoem que o estatístico entra em ação.

Uma distribuição de probabilidade sobre é consideradapara descrever nossa incerteza sobre o valor de .

- P -

Coletar informação adicional sobre com o objetivo de diminuir a incerteza sobre e assim obter boas inferênciassobre é um dos objetivos do trabalho estatístico.

3

A procura por uma definição de informação me levou a considerar que: O conceito apresentado por Basu (1975), embora não operacional, parece ser o que melhor descreve aquilo que pensamos sobre informação.

D Basu (1975), Statistical information and likelihood, Sankhyã A 37:1-71. Lecture notes in statistics 45-SV

Informação é o que ela faz por você, muda a sua opinião.

O caráter subjetivo desse conceito está intrínseco com a inclusão da pessoa queestá tentando obter informação. Muitas vezes um conjunto de observações pode não alterar em nada o conhecimento de um indivíduo mas pode ser bastante relevante para um outro com conhecimento diferente do primeiro.

4

Para operacionalizar o conceito de informação devemos procurar respostas para as seguintes perguntas:

i. Informação sobre o que?ii. Onde está a informação?iii. Quanto de informação é usada?iv. Como a informação é extraída?

A informação é sobre o valor de .A informação é descrita pela distribuição atual de .Essa descrição é baseada em avaliações probabilísticas.Informações adicionais podem ser culturais ou experimentais. O maior envolvimento na área onde a pesquisa está sendo realizada produz um ganho cultural que pode modificar a distribuição de .

5

No caso de informação cultural, ela está Simplesmente contida no nosso cérebro.

A informação experimental é relativa aos resultados de experimentos, X, Y, Z etc., que são passíveis de serem observados.

6

Na verdade, o processo de incorporação da informação sobre , contida nos resultados

experimentais, é um processo de adestramento, diferente do cultural.

Aqui discutiremos apenas esse segundo tipo de informação, a experimental.

7

Vamos supor que X está sendo observado e o resultado obtido é x. Dessa forma passamos de P para P(x).

Recordemos que essa calibração da incerteza (probabilidade)

é obtida pela operação de Bayes:

P(| x) L(| x)P()

8

Respondendo as perguntas:1. Informação sobre o que?

Resposta: Sobre .2. Onde está a informação?

R.: em L(| x).3. Quanto de informação é usada?

R: Dist{ P; P(x) }.4. Como a informação é extraída?

R: Pelo operador de Bayes – P(| x) L(| x)P

9

Exemplo: Consideremos 4 bolinhas, 2 transparentes e 2 verdes.

Escolho 3 e coloco em uma urna. Você deve adivinhar qual o número de transparentes dentro da caixa. Você pode, inicialmente, retirar ao acaso 1 bolinha da caixa para

ganhar informação adicional. Para tentar ganhar mais informação, pode retirar uma 2a bolinha da Caixa

e essa retirada pode ser retiradacom ou sem a reposição da 1a.

10

Estados da Natureza

11

Amostras possíveis

X=0

X=1

Y=0

Y=1

Z=0

Z=1

1a bola 2a bola:Com reposição.

2a bola:Sem reposição

Devemos escolher entre X, (X,Y) ou (X,Z)

para observar.

12

State of PriorNature 0.5 2/3 1/3 2/3 1/3 0.5 1/3 2/3 1/3 2/3

Lik L(x) Post P(x)P L(|0) L(|1) P(|0) P(|1)

4/9 2/9 2/9 1/9 4/5 1/2 1/2 1/51/9 2/9 2/9 4/9 1/5 1/2 1/2 4/5

1/3 1/3 1/3 0 1 1/2 1/2 00 1/3 1/3 1/3 0 1/2 1/2 1

Likelihood L(x,y) Posterior P(x,y) L(|0,0) L(|0,1) L(|1,0) L(|1,1) P(|0,0) P(|0,1) P(|1,0) P(|1,1)

Likelihood L(x,z) Posterior P(x,z) L(|0,0) L(|0,1) L(|1,0) L(|1,1) P(|0,0) P(|0,1) P(|1,0) P(|1,1)

13

ProbabilityPredictive Y=0 Y=1 Z=0 Z=1 X

X=0 5/18 4/18 1/6 1/3 1/2X=1 4/18 5/18 1/3 1/6 1/2

ProbabilityInformation X (X,Y) (X,Z)

Yes 1 10/18 6/18No 0 8/18 12/18

14

GanhoAbsoluto Y=0 Y=1 Z=0 Z=1 XX=0 9/30 0 15/30 0 5/30X=1 0 9/30 0 15/30 5/30

Relativo Y=0 Y=1 Z=0 Z=1 XX=0 60% 0% 100% 0% 33%X=1 0% 60% 0% 100% 33%

15

Informação de DeGrootUm dos artigos mais importantes que li quando da minhaformação como pesquisador na área de estatística foi o do

Prof. Morris DeGroot:

M DeGroot (1962), Uncertainty, Information, and Sequential Experiments,

Ann. Math. Statistics 33:404-19.Lembrando o exemplo, tivemos dificuldades em escolher

o melhor dos 3 experimentos concorrentes,

X, (X,Y) e (X,Z).Essa dificuldade foi por falta de um critério razoável.

16

Seremos conservadores ao optar por X pois, embora ganhemos pouca informação, o ganho é garantido.Ao escolher (X,Y) poderemos ganhar boa quantidade de informação porém com um pequeno risco de não ganhar algo.

Com (X,Z) teremos a chance de ganhar toda a informação possível, embora com um alto risco de não ganhar algo.

Para resolver o problema da escolha, DeGroot considerou aprocura por uma função Uncertainty, U, definida na família de todas as funções (densidade) de probabilidade, assumindovalores na reta. A função U pode assim ser considerada como um índice que mede a incerteza de sua função de probabilidade, P, para . A única restrição exigida para essa função é a seguinte:

17

Consideremos um experimento genérico x relacionado aoparâmetro de interesse . Se P é a função de probabilidadea priori, então Px é a função de probabilidade a posteriori. Se U é uma uncertainty function e E é o operador média então:

U(P) > E{U(Px )}.Isto é, espera-se que a incerteza a posteriori

seja menor do que a incerteza a priori.

O resultado principal do artigo é o seguinte: I{ x,P,U} = U(P) - E{U(Px )} > 0 U is concave.

O operador I é a quantidade de informação sobre contida em x quando a priori é P e a incerteza é U.

18

Devemos escolher o experimento que possui o maior valor de I. A função que mais usamos é uma função incerteza.

Variância de é uma uncertainty function. Vejamos:

I{ x,P,V} =VE{V(| x)} =V(E{| x}) > 0Em nosso exemplo temos que

I{X,P,V} = .03 < I{(X,Y),P,V} = .05 < I{(X,Z),P,V} = .08

Como vimos, o experimento que produzir a maior variância do estimador de Bayes é o mais informativo e o que deve serescolhido. Note que estamos falando de máxima variância e

não de mínima como nos procedimentos frequentistas.

19

Suficiência de BlackwellProf. Basu costumava denominar a suficiência de Blackwell como suficiência Bayesiana. Demorou algum tempo para eu entender o porque dessa classificação.A suficiência de Blackwell foi concebida para generalizar o conceito de suficiência de Fisher. Note que ambas comparam variáveis aleatórias. A de Fisher exigia que elas estivessem no mesmo espaço amostral enquanto Blackwell abandonou tal restrição.

Outro artigo importante para nossos estudantes é:D Blackwell (1951), Comparison of experiments, in: Proc. of the 2nd Berkeley Symposium, 93-102.

20

O que Basu procurava era atender a seguinte definição:É suficiente observar X no lugar de Y para inferências sobre se, para qualquer observação possível y de Y, existir um ponto amostral x de X tal que P(|Y=y) = P(| X=x). Isto é,

y Y, x X tq, P(|Y= y) = P(| X= x). Na época verificou-se que essa era justamente a melhor

propriedade da suficiência de Blackwell. Lembre-se que a obtenção da posteriori é feita por intermédio da

Verossimilhança. Assim, para que a propriedade procurada fosse válida teríamos de ter

L(| y) L(| x).Isto é, Suficiência de Blackwell nunca viola o

Princípio da Verossimilhança.

21

Vamos inicialmente falar um pouco da teoria. Não faremos distinção entre um experimento e uma variável aleatória. Consideremos então dois experimentos X e Y cujos espaços amostrais são representados por X e Y . Uma função de transição, F, de X para Y é uma família F = { f x(.); x X } de funções (densidade) de probabilidade fx(y) definidas em Y e indexadas por x X .Por exemplo a família de funções de probabilidade Hipergeométrica H(y;x,n,N) é uma função de transição de {0,1,...,N} para {0,1,...n}, onde n < N são inteiros positivos.

22

Definição: Sejam X e Y dois experimentos, como pensados acima, e com funções (densidade) de probabilidade

g(x|) e h(y|).

X é suficiente para Y, com respeito a , no sentido de Blackwell, se existir uma função de transição tal que

h(y|) = xfx(y)g(x|).

23

Apresentamos o primeiro exemplo para que a idéia da Suficiência de Blackwell seja realmente entendida comouma idéia Bayesiana. Exemplo:Vamos supor que uma nova empresa afirma estar produzindo um produto com qualidade de metade da taxa de falha, , de seu concorrente. Para estimar você deve coletar amostras da nova empresa ou da antiga?

Isto é, X|~Ber() e Y|~Ber(/2). X >Y, Y >X ou X Y ?

D Basu & CA de B Pereira (1990), Blackwell Sufficiency and Bernoulli Experiments, REBRAPE 4:137-45.

24

Para entendermos a resposta é X >Y desenhamos diagramasde influência.

X Y*=ZX

Z

Ber()

Ber(1)

Y* Ber()

Y* Y X Y Y Ber()

25

Teorema: Sejam X|~ Ber [f()] e Y |~Ber[ g()].

X e Y são comparáveis no sentido de Blackwell se o conjunto {(f(),g()): }

estiver contido em uma reta que corta dois lados opostos do quadrado unitário [0,1]2: X >Y (Y >X) se a reta cortaos dois lados verticais (horizontais) do quadrado.Consequentemente, se a reta é diagonal então X Y.

Vamos usar esse resultado para mostrar que no primeiroexemplo Z >Y . Isto é, amostragem sem reposição é maisInformativa que a com reposição.

26

p

q

0

1

1

XY

XY

X>Y

X<Y

p

q

0

1

1Comparáveis

Não comparáveis

27

Quando tratamos de distribuições de Bernoully, X e Y, a existência de uma função de transição corresponde a existência de uma matriz de transição. Isto é, vamossupor que X é suficiente para Y. Isto quer dizer que

P(Y=1|) = P(X=0|)f0(1) + P(X=1|)f1(1).

Ou seja, h() = (1-g())f0(1) + g()f1(1) = f0(1) + g()[f1(1) – f0(1)]

Por outro lado 1-h() = [1-g()][1-f0(1)] + g()[1-f1(1)]

Isto é: [1- h() ; h() ] = [1- h() ; h() ]F

)(f)(f)(f)(f

F111111

11

00

28

Como consequência do resultado anterior temos que Se 0 < < 1, ao compararmos

X|~ Ber [] e Y |~Ber[c].

X >Y (Y >X ) no caso de 0 < c < 1 (c >1).

Consideremos uma caixa com N bolas das quais sãotransparentes. Vamos retirar uma primeira bola e anotarse é ou não transparente. Denotemos o experimento porX|~ Ber []. Para prosseguir amostrando, nossodesafio é decidir entre recolocar ou não a primeira bola na caixa. Como antes, Y (Z) é relativo ao experimento com (sem) reposição. Vamos novamente desenhar Diagramas de Influência.

29

P(Y=1|X = 0,= P(Y=1|X=0,) = P(Y=1|)=/N

P(Z=1|X = 0,= /(N-1) & P(Z=1|X = 1,= (/(N-1) Para X=0,f(1|)= 0g(0|q) + [(N-1)/N]g(1|)f(0|)=1-/N = [1- /(N-1)]+(1/N)[/(N-1)]==1g(0|)+(1/N)g(1|) Para X=1,f(0|)= [(N-1)/N]g(0|) + 0g(1|)f(1|)= /N = (1/N)[(N-/(N-1)]+ (/(N-1)== (1/N)g(0|) + 1g(1|)

T 0

1 01

N

N 1

N

T 1

N 1

N

1

N

0 1

30

X

Y

X

ZY| ~Ber[/N]

Ber[/N] Ber[/N]

Z|(X) ~Ber[(-X)/(N -1)]

Y*

Y*|(X,Z)~Ber[(X+(N-1)Z)/N]

Y*

Y*| ~Ber[/N]

31

X

Z

Ber[/N]

Y*

Y*|(X,Z)~Ber[(/N]

P(Y*=1|X,) = P(Y*=1,Z=0|X,) + P(Y*=1,Z=1|X,) =

P(Y*=1|Z=0,X,) P(Z=0|X,) + P(Y*=1|Z=1,X,) P(Z=1|X,)

P(Z=1|Y*= y,X,) =P(Y*=y,Z=1|X,) P(Y*=y|X,)

32

M Skibinsky (1970), A characterization of hypergeometricdistributions, JASA 65:926-29.

D Basu & CA de B Pereira (1983), A note on Blackwell sufficiency and a Skibinsky characterization of distributions,

Sankhyã A 45(1):99-104.

Usando os conceitos de famílias completas e suficiência deBlackwell, conseguimos characterizar as distribuições:

1. Multinomial como função de transição para distribuições de Poisson

1. Hipergeometrica como função de transição para distribui-ções multinomiais

3. Dirichelet-Multinomial como função de transição para distribuições Binomial-Negativas

33

R.1: x e y vetores de inteiros positivos tais que 1’x = N e1’y = n. Por outro lado, x|~Mk(N,) e y| ~Mk(n,).

f(y|) = x hx(y)g(x|) hx(y) fp da H(N,n;x).

R.2: r um k-vetor tal que 0 < r < 1 e 1’r=1. y um k-vetor de v.a independentes tal que yi| ~ Po(ri ). Se x|~ Po() então,

f(y|) = x hx(y)g(x|) hx(y) fp da Mk(1’x ;r).

R.3: r um k-vetor de inteiros positivos. y um k-vetor de v.a independentes tal que yi| ~ NB(ri ). Se x|~ NB(’r) então,

f(y|) = x hx(y)g(x|) hx(y) fp da DMk(1’x ;r).

34

classes E E´ totalF fF´ 1-f

total e 1-e 1

f-e- 1-e-f+

0 < e < f < 1-f < 1-e < 1X | ~Ber[];

XE | ~ Ber[/e]; XE´| ~ Ber[(f-/(1-e)]

XF | ~ Ber[/f]; XF´| ~ Ber[(e-/(1-f)]

XE é suficiente para todos os experimentos.XE >XF >X XE >XF >XE´ XE >XF´ > XE´

Os outros pares não são comparáveis:(XF ;XF´ ) (X ;XE´ ) (X ;XF´ )

35

Sample Sizea,b > 1, n’=a+b, n=0,1,...| x ~ Beta(a+x,b+n-x)

m = (a+x)/(n+n’) V = m(1-m)/(n+n’+1) < 1/4(n+n’+1)For a=b=1, m=1/2 and V=1/4(n+3) we take the interval[m-2e;m+2e] = [.45;.55] 4e =.1 where e = [4(n+3)]-.5.

n = 397. Take n=398. If m=.5 then x = 199.

In this case [.45;.55] is a 95.5% credible interval.Let x in fact be x=89 and construct the interval with 95.5%.

[.187;.270]. Comprimento será .083.

36

0

0.02

0.04

0.06

0.08

0.1

0.1 0.2 0.3 0.4 0.5 0.6 0.7

37

a,b > 1, n’=a+b, n=0,1,...-x| x ~ BetaBinomial(N-n;a+x,b+n-x)

E(-x| x) = M = (N-n)(a+x)/(n+n’)=(N-n)m

V(-x| x) = (N-n)(N+n’)m(1-m)/(n+n’+1) < (N-n)(N+n’)/4(n+n’+1)

For a=b=1, m=1/2 and V=(N-n)(N+2)/4(n+3)

= /N, N=1000 e n=284 x= 142 (simétrico)95.55% [.4997;.5022] 2e = .0025

x= 80 [.2816;.2836] 2e = .002