Informação Estatística e Análise Pré-Posteriori.
Carlos Alberto de Bragança Pereira Dept. Estatística e Núcleo de Bioinformática – IME/USP
2
O objeto principal de nosso trabalho é um Parâmetro ou Estado da Natureza cujo valor é invisível no momentoem que o estatístico entra em ação.
Uma distribuição de probabilidade sobre é consideradapara descrever nossa incerteza sobre o valor de .
- P -
Coletar informação adicional sobre com o objetivo de diminuir a incerteza sobre e assim obter boas inferênciassobre é um dos objetivos do trabalho estatístico.
3
A procura por uma definição de informação me levou a considerar que: O conceito apresentado por Basu (1975), embora não operacional, parece ser o que melhor descreve aquilo que pensamos sobre informação.
D Basu (1975), Statistical information and likelihood, Sankhyã A 37:1-71. Lecture notes in statistics 45-SV
Informação é o que ela faz por você, muda a sua opinião.
O caráter subjetivo desse conceito está intrínseco com a inclusão da pessoa queestá tentando obter informação. Muitas vezes um conjunto de observações pode não alterar em nada o conhecimento de um indivíduo mas pode ser bastante relevante para um outro com conhecimento diferente do primeiro.
4
Para operacionalizar o conceito de informação devemos procurar respostas para as seguintes perguntas:
i. Informação sobre o que?ii. Onde está a informação?iii. Quanto de informação é usada?iv. Como a informação é extraída?
A informação é sobre o valor de .A informação é descrita pela distribuição atual de .Essa descrição é baseada em avaliações probabilísticas.Informações adicionais podem ser culturais ou experimentais. O maior envolvimento na área onde a pesquisa está sendo realizada produz um ganho cultural que pode modificar a distribuição de .
5
No caso de informação cultural, ela está Simplesmente contida no nosso cérebro.
A informação experimental é relativa aos resultados de experimentos, X, Y, Z etc., que são passíveis de serem observados.
6
Na verdade, o processo de incorporação da informação sobre , contida nos resultados
experimentais, é um processo de adestramento, diferente do cultural.
Aqui discutiremos apenas esse segundo tipo de informação, a experimental.
7
Vamos supor que X está sendo observado e o resultado obtido é x. Dessa forma passamos de P para P(x).
Recordemos que essa calibração da incerteza (probabilidade)
é obtida pela operação de Bayes:
P(| x) L(| x)P()
8
Respondendo as perguntas:1. Informação sobre o que?
Resposta: Sobre .2. Onde está a informação?
R.: em L(| x).3. Quanto de informação é usada?
R: Dist{ P; P(x) }.4. Como a informação é extraída?
R: Pelo operador de Bayes – P(| x) L(| x)P
9
Exemplo: Consideremos 4 bolinhas, 2 transparentes e 2 verdes.
Escolho 3 e coloco em uma urna. Você deve adivinhar qual o número de transparentes dentro da caixa. Você pode, inicialmente, retirar ao acaso 1 bolinha da caixa para
ganhar informação adicional. Para tentar ganhar mais informação, pode retirar uma 2a bolinha da Caixa
e essa retirada pode ser retiradacom ou sem a reposição da 1a.
10
Estados da Natureza
11
Amostras possíveis
X=0
X=1
Y=0
Y=1
Z=0
Z=1
1a bola 2a bola:Com reposição.
2a bola:Sem reposição
Devemos escolher entre X, (X,Y) ou (X,Z)
para observar.
12
State of PriorNature 0.5 2/3 1/3 2/3 1/3 0.5 1/3 2/3 1/3 2/3
Lik L(x) Post P(x)P L(|0) L(|1) P(|0) P(|1)
4/9 2/9 2/9 1/9 4/5 1/2 1/2 1/51/9 2/9 2/9 4/9 1/5 1/2 1/2 4/5
1/3 1/3 1/3 0 1 1/2 1/2 00 1/3 1/3 1/3 0 1/2 1/2 1
Likelihood L(x,y) Posterior P(x,y) L(|0,0) L(|0,1) L(|1,0) L(|1,1) P(|0,0) P(|0,1) P(|1,0) P(|1,1)
Likelihood L(x,z) Posterior P(x,z) L(|0,0) L(|0,1) L(|1,0) L(|1,1) P(|0,0) P(|0,1) P(|1,0) P(|1,1)
13
ProbabilityPredictive Y=0 Y=1 Z=0 Z=1 X
X=0 5/18 4/18 1/6 1/3 1/2X=1 4/18 5/18 1/3 1/6 1/2
ProbabilityInformation X (X,Y) (X,Z)
Yes 1 10/18 6/18No 0 8/18 12/18
14
GanhoAbsoluto Y=0 Y=1 Z=0 Z=1 XX=0 9/30 0 15/30 0 5/30X=1 0 9/30 0 15/30 5/30
Relativo Y=0 Y=1 Z=0 Z=1 XX=0 60% 0% 100% 0% 33%X=1 0% 60% 0% 100% 33%
15
Informação de DeGrootUm dos artigos mais importantes que li quando da minhaformação como pesquisador na área de estatística foi o do
Prof. Morris DeGroot:
M DeGroot (1962), Uncertainty, Information, and Sequential Experiments,
Ann. Math. Statistics 33:404-19.Lembrando o exemplo, tivemos dificuldades em escolher
o melhor dos 3 experimentos concorrentes,
X, (X,Y) e (X,Z).Essa dificuldade foi por falta de um critério razoável.
16
Seremos conservadores ao optar por X pois, embora ganhemos pouca informação, o ganho é garantido.Ao escolher (X,Y) poderemos ganhar boa quantidade de informação porém com um pequeno risco de não ganhar algo.
Com (X,Z) teremos a chance de ganhar toda a informação possível, embora com um alto risco de não ganhar algo.
Para resolver o problema da escolha, DeGroot considerou aprocura por uma função Uncertainty, U, definida na família de todas as funções (densidade) de probabilidade, assumindovalores na reta. A função U pode assim ser considerada como um índice que mede a incerteza de sua função de probabilidade, P, para . A única restrição exigida para essa função é a seguinte:
17
Consideremos um experimento genérico x relacionado aoparâmetro de interesse . Se P é a função de probabilidadea priori, então Px é a função de probabilidade a posteriori. Se U é uma uncertainty function e E é o operador média então:
U(P) > E{U(Px )}.Isto é, espera-se que a incerteza a posteriori
seja menor do que a incerteza a priori.
O resultado principal do artigo é o seguinte: I{ x,P,U} = U(P) - E{U(Px )} > 0 U is concave.
O operador I é a quantidade de informação sobre contida em x quando a priori é P e a incerteza é U.
18
Devemos escolher o experimento que possui o maior valor de I. A função que mais usamos é uma função incerteza.
Variância de é uma uncertainty function. Vejamos:
I{ x,P,V} =VE{V(| x)} =V(E{| x}) > 0Em nosso exemplo temos que
I{X,P,V} = .03 < I{(X,Y),P,V} = .05 < I{(X,Z),P,V} = .08
Como vimos, o experimento que produzir a maior variância do estimador de Bayes é o mais informativo e o que deve serescolhido. Note que estamos falando de máxima variância e
não de mínima como nos procedimentos frequentistas.
19
Suficiência de BlackwellProf. Basu costumava denominar a suficiência de Blackwell como suficiência Bayesiana. Demorou algum tempo para eu entender o porque dessa classificação.A suficiência de Blackwell foi concebida para generalizar o conceito de suficiência de Fisher. Note que ambas comparam variáveis aleatórias. A de Fisher exigia que elas estivessem no mesmo espaço amostral enquanto Blackwell abandonou tal restrição.
Outro artigo importante para nossos estudantes é:D Blackwell (1951), Comparison of experiments, in: Proc. of the 2nd Berkeley Symposium, 93-102.
20
O que Basu procurava era atender a seguinte definição:É suficiente observar X no lugar de Y para inferências sobre se, para qualquer observação possível y de Y, existir um ponto amostral x de X tal que P(|Y=y) = P(| X=x). Isto é,
y Y, x X tq, P(|Y= y) = P(| X= x). Na época verificou-se que essa era justamente a melhor
propriedade da suficiência de Blackwell. Lembre-se que a obtenção da posteriori é feita por intermédio da
Verossimilhança. Assim, para que a propriedade procurada fosse válida teríamos de ter
L(| y) L(| x).Isto é, Suficiência de Blackwell nunca viola o
Princípio da Verossimilhança.
21
Vamos inicialmente falar um pouco da teoria. Não faremos distinção entre um experimento e uma variável aleatória. Consideremos então dois experimentos X e Y cujos espaços amostrais são representados por X e Y . Uma função de transição, F, de X para Y é uma família F = { f x(.); x X } de funções (densidade) de probabilidade fx(y) definidas em Y e indexadas por x X .Por exemplo a família de funções de probabilidade Hipergeométrica H(y;x,n,N) é uma função de transição de {0,1,...,N} para {0,1,...n}, onde n < N são inteiros positivos.
22
Definição: Sejam X e Y dois experimentos, como pensados acima, e com funções (densidade) de probabilidade
g(x|) e h(y|).
X é suficiente para Y, com respeito a , no sentido de Blackwell, se existir uma função de transição tal que
h(y|) = xfx(y)g(x|).
23
Apresentamos o primeiro exemplo para que a idéia da Suficiência de Blackwell seja realmente entendida comouma idéia Bayesiana. Exemplo:Vamos supor que uma nova empresa afirma estar produzindo um produto com qualidade de metade da taxa de falha, , de seu concorrente. Para estimar você deve coletar amostras da nova empresa ou da antiga?
Isto é, X|~Ber() e Y|~Ber(/2). X >Y, Y >X ou X Y ?
D Basu & CA de B Pereira (1990), Blackwell Sufficiency and Bernoulli Experiments, REBRAPE 4:137-45.
24
Para entendermos a resposta é X >Y desenhamos diagramasde influência.
X Y*=ZX
Z
Ber()
Ber(1)
Y* Ber()
Y* Y X Y Y Ber()
25
Teorema: Sejam X|~ Ber [f()] e Y |~Ber[ g()].
X e Y são comparáveis no sentido de Blackwell se o conjunto {(f(),g()): }
estiver contido em uma reta que corta dois lados opostos do quadrado unitário [0,1]2: X >Y (Y >X) se a reta cortaos dois lados verticais (horizontais) do quadrado.Consequentemente, se a reta é diagonal então X Y.
Vamos usar esse resultado para mostrar que no primeiroexemplo Z >Y . Isto é, amostragem sem reposição é maisInformativa que a com reposição.
26
p
q
0
1
1
XY
XY
X>Y
X<Y
p
q
0
1
1Comparáveis
Não comparáveis
27
Quando tratamos de distribuições de Bernoully, X e Y, a existência de uma função de transição corresponde a existência de uma matriz de transição. Isto é, vamossupor que X é suficiente para Y. Isto quer dizer que
P(Y=1|) = P(X=0|)f0(1) + P(X=1|)f1(1).
Ou seja, h() = (1-g())f0(1) + g()f1(1) = f0(1) + g()[f1(1) – f0(1)]
Por outro lado 1-h() = [1-g()][1-f0(1)] + g()[1-f1(1)]
Isto é: [1- h() ; h() ] = [1- h() ; h() ]F
)(f)(f)(f)(f
F111111
11
00
28
Como consequência do resultado anterior temos que Se 0 < < 1, ao compararmos
X|~ Ber [] e Y |~Ber[c].
X >Y (Y >X ) no caso de 0 < c < 1 (c >1).
Consideremos uma caixa com N bolas das quais sãotransparentes. Vamos retirar uma primeira bola e anotarse é ou não transparente. Denotemos o experimento porX|~ Ber []. Para prosseguir amostrando, nossodesafio é decidir entre recolocar ou não a primeira bola na caixa. Como antes, Y (Z) é relativo ao experimento com (sem) reposição. Vamos novamente desenhar Diagramas de Influência.
29
P(Y=1|X = 0,= P(Y=1|X=0,) = P(Y=1|)=/N
P(Z=1|X = 0,= /(N-1) & P(Z=1|X = 1,= (/(N-1) Para X=0,f(1|)= 0g(0|q) + [(N-1)/N]g(1|)f(0|)=1-/N = [1- /(N-1)]+(1/N)[/(N-1)]==1g(0|)+(1/N)g(1|) Para X=1,f(0|)= [(N-1)/N]g(0|) + 0g(1|)f(1|)= /N = (1/N)[(N-/(N-1)]+ (/(N-1)== (1/N)g(0|) + 1g(1|)
T 0
1 01
N
N 1
N
T 1
N 1
N
1
N
0 1
30
X
Y
X
ZY| ~Ber[/N]
Ber[/N] Ber[/N]
Z|(X) ~Ber[(-X)/(N -1)]
Y*
Y*|(X,Z)~Ber[(X+(N-1)Z)/N]
Y*
Y*| ~Ber[/N]
31
X
Z
Ber[/N]
Y*
Y*|(X,Z)~Ber[(/N]
P(Y*=1|X,) = P(Y*=1,Z=0|X,) + P(Y*=1,Z=1|X,) =
P(Y*=1|Z=0,X,) P(Z=0|X,) + P(Y*=1|Z=1,X,) P(Z=1|X,)
P(Z=1|Y*= y,X,) =P(Y*=y,Z=1|X,) P(Y*=y|X,)
32
M Skibinsky (1970), A characterization of hypergeometricdistributions, JASA 65:926-29.
D Basu & CA de B Pereira (1983), A note on Blackwell sufficiency and a Skibinsky characterization of distributions,
Sankhyã A 45(1):99-104.
Usando os conceitos de famílias completas e suficiência deBlackwell, conseguimos characterizar as distribuições:
1. Multinomial como função de transição para distribuições de Poisson
1. Hipergeometrica como função de transição para distribui-ções multinomiais
3. Dirichelet-Multinomial como função de transição para distribuições Binomial-Negativas
33
R.1: x e y vetores de inteiros positivos tais que 1’x = N e1’y = n. Por outro lado, x|~Mk(N,) e y| ~Mk(n,).
f(y|) = x hx(y)g(x|) hx(y) fp da H(N,n;x).
R.2: r um k-vetor tal que 0 < r < 1 e 1’r=1. y um k-vetor de v.a independentes tal que yi| ~ Po(ri ). Se x|~ Po() então,
f(y|) = x hx(y)g(x|) hx(y) fp da Mk(1’x ;r).
R.3: r um k-vetor de inteiros positivos. y um k-vetor de v.a independentes tal que yi| ~ NB(ri ). Se x|~ NB(’r) então,
f(y|) = x hx(y)g(x|) hx(y) fp da DMk(1’x ;r).
34
classes E E´ totalF fF´ 1-f
total e 1-e 1
f-e- 1-e-f+
0 < e < f < 1-f < 1-e < 1X | ~Ber[];
XE | ~ Ber[/e]; XE´| ~ Ber[(f-/(1-e)]
XF | ~ Ber[/f]; XF´| ~ Ber[(e-/(1-f)]
XE é suficiente para todos os experimentos.XE >XF >X XE >XF >XE´ XE >XF´ > XE´
Os outros pares não são comparáveis:(XF ;XF´ ) (X ;XE´ ) (X ;XF´ )
35
Sample Sizea,b > 1, n’=a+b, n=0,1,...| x ~ Beta(a+x,b+n-x)
m = (a+x)/(n+n’) V = m(1-m)/(n+n’+1) < 1/4(n+n’+1)For a=b=1, m=1/2 and V=1/4(n+3) we take the interval[m-2e;m+2e] = [.45;.55] 4e =.1 where e = [4(n+3)]-.5.
n = 397. Take n=398. If m=.5 then x = 199.
In this case [.45;.55] is a 95.5% credible interval.Let x in fact be x=89 and construct the interval with 95.5%.
[.187;.270]. Comprimento será .083.
36
0
0.02
0.04
0.06
0.08
0.1
0.1 0.2 0.3 0.4 0.5 0.6 0.7
37
a,b > 1, n’=a+b, n=0,1,...-x| x ~ BetaBinomial(N-n;a+x,b+n-x)
E(-x| x) = M = (N-n)(a+x)/(n+n’)=(N-n)m
V(-x| x) = (N-n)(N+n’)m(1-m)/(n+n’+1) < (N-n)(N+n’)/4(n+n’+1)
For a=b=1, m=1/2 and V=(N-n)(N+2)/4(n+3)
= /N, N=1000 e n=284 x= 142 (simétrico)95.55% [.4997;.5022] 2e = .0025
x= 80 [.2816;.2836] 2e = .002