22
ALGORITMOS PARA DADOS AUMENTADOS 1. INTRODUÇÃO Dois algoritmos baseados na consideração de dados latentes. Temos os dados efetivamente observados, Y, e de uma maneira conveniente aumentamos esses dados, introduzindo os dados, Z, chamamos latentes ou não observados, de modo a facilitar o procedimento de cálculo da verossimilhança ou da densidade a posteriori. O principio de “aumento dos dados” pode ser enunciado da seguinte forma: “aumentar” ao dados observados Y, com dados latentes Z de tal forma que P(θ/y,z) ou L(θ/y,z) sejam simples. ALGORITMO EM: maximizar a verossimilhança dos dados observados utilizando-se os dados completos X={Y,Z} de maneira conveniente. ALGORITMO DE DADOS AUMENTAODS: maximizar P(θ/y) utilizando P(θ/y,z). EXEMPLO 1: suponha que se observe um processo periodicamente(por ex., peixes presos em armadilhas) que se acumule em intervalos regulares: x 1 , x 2 , ..., x 7 : quantidade nos dias 1, 2, ..., 7. y 1 = x 1 + x 2 y 2 = x 3 X = ( x 1 , x 2 , ..., x 7 ) : dados completos (o que deveria ter sido observado) y 3 = x 4 + x 5 Y = ( y 1 , y 2 , ..., y 4 ): dados incompletos (o que foi observado) y 4 = x 6 + x 7

aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

ALGORITMOS PARA DADOS AUMENTADOS

1. INTRODUÇÃO Dois algoritmos baseados na consideração de dados latentes. Temos os dados efetivamente observados, Y, e de uma maneira conveniente aumentamos esses dados, introduzindo os dados, Z, chamamos latentes ou não observados, de modo a facilitar o procedimento de cálculo da verossimilhança ou da densidade a posteriori. O principio de “aumento dos dados” pode ser enunciado da seguinte forma: “aumentar” ao dados observados Y, com dados latentes Z de tal forma que P(θ/y,z) ou L(θ/y,z) sejam simples. ALGORITMO EM: maximizar a verossimilhança dos dados observados utilizando-se os dados completos X={Y,Z} de maneira conveniente. ALGORITMO DE DADOS AUMENTAODS: maximizar P(θ/y) utilizando P(θ/y,z). EXEMPLO 1: suponha que se observe um processo periodicamente(por ex., peixes presos em armadilhas) que se acumule em intervalos regulares: x1, x2, ..., x7: quantidade nos dias 1, 2, ..., 7. y1 = x1 + x2

y2 = x3 → X = ( x1, x2, ..., x7 ): dados completos (o que deveria ter sido observado) y3 = x4 + x5 Y = ( y1, y2, ..., y4): dados incompletos (o que foi observado)

y4 = x6 + x7

Page 2: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

2. ALGORITMO EM X = ( x1, x2, ..., xn )

´ do modelo f(x/θ) → L(θ/x). Suponha que não observamos X completamente, mas alguma função de X, digamos Y=h(X). Dizemos que X: dados completos Y=h(X): dados incompletos A verossimilhança dos dados observados(incompletos) Y é dada por

∫=)(

)/()/(y

dXXLYLψ

θθ (1)

Onde )(yψ : parte do espaço amostral ψ de X determinada

pela equação y=h(x). O algoritmo EM (E: esperança, M: maximização) é um procedimento iterativo segundo o qual encontramos o valor de θ que maximiza a verossimilhança dos dados observados, L(θ/Y), usando L(θ/X) de maneira conveniente. “conveniente” significa escolher L(θ/X) que fornece L(θ/Y), utilizando (1), de modo a tornar o problema fácil. EXEMPLO 2: problema genético estudado. 197 animais distribuídos em 4 classes:

(y1, y2, y3, y4)´ segundo as prob. 4

,4

1,

4

1,

4

2 θθθθ −−+,

0 < θ < 1. Y = (125, 18, 20, 34)´ = (y1, y2, y3, y4)´ A verossimilhança dos dados incompletos, é dada por

4321

44

1

4

2

!!!!

)()/(

4321

4321

yyyy

yyyy

yyyyYL

++++=

+θθθ

θ

Page 3: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

Ou

4321

44

1

4

2)/(

yyyy

YL

+∝

+θθθ

θ → posteriori observada

Suponha que consideremos X=(x1, ..., x5) como sendo os dados aumentados (completos) onde y1 = x1+x2, y2=x3,

y3=x4 e y4=x5, com probabilidades (4

,4

1,

4

1,

4,

2

1 θθθθ −−),

de modo que

5243

44

1)/(

xxxx

XL

++

−∝

θθθ → posteriori aumentado

Podemos simplificar e utilizar

4321 )1()2()/(yyyy

YL θθθθ +−+∝

E

4352 )1()/(xxxx

XL++ −∝ θθθ (mais simples)

A formula (1) fica

)34.20.18,,/()/( 2

,

1

21

xxLYLxx

∑= θθ

Onde a soma é estendida a todos os pares (x1, x2) tais que x1+x2=125, xi≥0, i=1,2. ALGORITMO EM:

1) tomemos um valor inicial, )0(θ , como estimador de θ. 2) Encontremos a esperança condicional de X, dado Y,

(Y=(125, 18, 20, 34), y1=x1+x2), ou seja, estimamos os dados por suas esperanças condicionais, dado Y e )0(θ .

Page 4: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

Passo E: E[x3/Y,

)0(θ ]=18 E[x4/Y,

)0(θ ] = 20 E[x5/Y,

)0(θ ] = 34 E[x1/ Y,

)0(θ ] = E[x1/x1+x2=125, )0(θ ] = x1(0)

E[x2/ Y, )0(θ ] = E[x2/x1+x2=125, )0(θ ] = x2

(0)

mas, x1/x1+x2=125 ~ binomial, n=125,

)0()0(12

2

4/)2(

2/1

θθ +=

+=P

x2/x1+x2 = 125 ~ binomial, n=125, )0(

)0(

)0(

)0(

224/)2(

4/

θ

θ

θ

θ

+=

+=P

→ x1(0) = np1 =

)0(2

250

θ+ e x2

(0) = np2 = )0(

)0(

2

125

θ

θ

+

DADOS LATENTES → ´)0(

2

)0(

1

)0( )34,20,18,,( xxX = : dados

completos estimados 3. O passo M: consiste em maximizar a verossimilhança dos dados completos L(θ/X(0)). Temos

)4/log()4

1log()

4

1log()4/log()2/1log()/( 543

)0(

2

)0(

1

)0( θθθ

θθ xxxxxXl +−

+−

++=

)1log()()log()()/( 435

)0(

2

)0( θθθ −+++∝ xxxxXl

Derivando em relação a θ, obtemos

θθθ −

+−

+=

1

435

)0(

2 xxxx

d

dl

Page 5: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

72

34ˆ)0(

2

)0(

2

543

)0(

2

5

)0(

2)1(

+

+=

+++

+=⇒

x

x

xxxx

xxθ

De um modo geral, dada a estimativa na iteração (i), θ(i), estimados os dados latentes por

)(

)()(

2)(

)(

12

125,

2

250i

ii

i

ixx

θ

θ

θ +=

+=

E atualizamos o estimador de θ por

72

34)(

2

)(

2)1(

+

+=+

i

i

i

x

Se θ(0) = 0,5

Iteração(i) θ(i) 0 0,5 1 0,60800 2 0,62400 3 0,62648 4 0,62677 5 0,62681 6 0,62682 7 0,62682

1567,04

ˆˆ,0933,0

4

ˆ1ˆˆ,6567,0

4

2ˆˆ,62682,0ˆ

4431 ===−

===+

==⇒θ

πθ

ππθ

πθ

3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste caso, temos a posteriori aumentada P(θ/Y,Z)= P(θ/X). neste contexto bayesiano, temos que considerar a densidade

Page 6: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

P(Z/Y, θ(i)): distribuição condicional preditora dos dados latentes Z, condicional ao valor atual da moda ou aos dados observados. No exemplo 2, esta distribuição é a binomial com parâmetros n = 125 e p= θ(i)/(2+ θ(i)). O algoritmo descrito está em termos da verossimilhança. Para o caso da densidade a posteriori, faz-se as modificações necessárias. ALGORITMO EM: 1. passo E: calculamos

Q[θ, θ(i)] = E[l(θ/X)/Y, θ(i)]

Ou seja, a esperança condicional da log-verossimilhança aumentada, supondo dados Y e o valor atual θ(i).

2. Passo M: escolhemos o valor θ(i+1)no espaço paramétrico que maximiza Q[θ, θ(i)].

3. itere até convergência, ou seja, até que || θ(i+1) - θ(i)|| ou || Q[θ, θ(i

1)]- Q[θ, θ(i)]||

sejam suficientemente pequenos. No caso da posteriori consideramos

dzYZpZYpQZ

ii ),/(),/(log),( )()(

∫= θθθθ

c

dist. Cond. Preditor dos dados latentes

Page 7: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

EXEMOLO 3: VOLTAMOS AO EXEMPLO DO MODELO GENETICO

)1log()()log(]),/([

],/)1log()()log()[(),(

435

)(

2

)(

4352

)(

θθθ

θθθθθ

−+++=

=−+++=

xxxYxE

YxxxxEQ

i

ii

Sabemos que

)(

)()(

22

125],/[

i

ii

YxEθ

θθ

+=

Maximizando Q[θ, θ(i)], obtemos

543

)(

2

5

)(

2)1(

),/(

),/(

xxxYxE

xYxEi

i

i

+++

+=+

θ

θθ

PROPOSIÇÃO 1: seja )(θl a verossimilhança dos dados

observados. Então

)/()/( )()1(YlYl

ii θθ ≥+

Toda iteração do algoritmo EM aumenta a log-verossimilhança. O mesmo vale para a densidade a posteriori. PROPOSIÇÃO 2: supunha que uma sequencia de iterações do algoritmo EM satisfaça

i) 0|),(

)1(

)(

=∂

∂+= iQ

iQ

θθ

θθ

ii) ∗→ θθ )(i então, as iterações convergem para um ponto estacionário de L(θ/Y).

Page 8: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

4. MONTE CARLO EM No passo E do algoritmo EM, temos que calcular

dzYZpZYpQZ

ii ),/(),/(log),( )()(

∫= θθθθ

que pode ser complicado. Podemos utilizar MMC para facilitar esse passo. Wei and tanner (1990) Algoritomo MCEM para o passo E:

1) simule uma amostra iid z1, z2, ..., zm de P(Z/Y,θ(i))

2) calcule ),/(log1

)(ˆ

1

1 YzPm

Qm

j

ji ∑=

+ = θθ

3) no passo M, Q̂ é maximizado para obter )1( +iθ .

Um problema é especificar o valor de m. Uma solução é aumentar o valor de m à medida que o numero de iterações cresce e monitorar a convergência, por meio de um gráfico de θ(i)x i. EXEMPLO 3: no problema genético, (x2/θ

(i),Y)~binomial

com parâmetros n=125 e )(

)(

2 i

i

θ

+= . Geramos z1, z2, ...,

zm dessa distribuição e fazemos

zzm

YxEm

i

i

i == ∑=1

)(

2

1),/(ˆ θ

O passo M continua como antes, obtendo-se

)/(()( 5435

)1(xxxzxz

i ++++=+θ

Page 9: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

ALGORITMOS PARA DADOS AUMENTADOS

1. INTRODUÇÃO Dois algoritmos baseados na consideração de dados latentes. Temos os dados efetivamente observados, Y, e de uma maneira conveniente aumentamos esses dados, introduzindo os dados, Z, chamamos latentes ou não observados, de modo a facilitar o procedimento de cálculo da verossimilhança ou da densidade a posteriori. O principio de “aumento dos dados” pode ser enunciado da seguinte forma: “aumentar” ao dados observados Y, com dados latentes Z de tal forma que P(θ/y,z) ou L(θ/y,z) sejam simples. ALGORITMO EM: maximizar a verossimilhança dos dados observados utilizando-se os dados completos X={Y,Z} de maneira conveniente. ALGORITMO DE DADOS AUMENTAODS: maximizar P(θ/y) utilizando P(θ/y,z). EXEMPLO 1: suponha que se observe um processo periodicamente(por ex., peixes presos em armadilhas) que se acumule em intervalos regulares: x1, x2, ..., x7: quantidade nos dias 1, 2, ..., 7. y1 = x1 + x2

y2 = x3 → X = ( x1, x2, ..., x7 ): dados completos (o que deveria ter sido observado) y3 = x4 + x5 Y = ( y1, y2, ..., y4): dados incompletos (o que foi observado)

y4 = x6 + x7

Page 10: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

2. ALGORITMO EM X = ( x1, x2, ..., xn )

´ do modelo f(x/θ) → L(θ/x). Suponha que não observamos X completamente, mas alguma função de X, digamos Y=h(X). Dizemos que X: dados completos Y=h(X): dados incompletos A verossimilhança dos dados observados(incompletos) Y é dada por

∫=)(

)/()/(y

dXXLYLψ

θθ (1)

Onde )(yψ : parte do espaço amostral ψ de X determinada

pela equação y=h(x). O algoritmo EM (E: esperança, M: maximização) é um procedimento iterativo segundo o qual encontramos o valor de θ que maximiza a verossimilhança dos dados observados, L(θ/Y), usando L(θ/X) de maneira conveniente. “conveniente” significa escolher L(θ/X) que fornece L(θ/Y), utilizando (1), de modo a tornar o problema fácil. EXEMPLO 2: problema genético estudado. 197 animais distribuídos em 4 classes:

(y1, y2, y3, y4)´ segundo as prob. 4

,4

1,

4

1,

4

2 θθθθ −−+,

0 < θ < 1. Y = (125, 18, 20, 34)´ = (y1, y2, y3, y4)´ A verossimilhança dos dados incompletos, é dada por

4321

44

1

4

2

!!!!

)()/(

4321

4321

yyyy

yyyy

yyyyYL

++++=

+θθθ

θ

Page 11: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

Ou

4321

44

1

4

2)/(

yyyy

YL

+∝

+θθθ

θ → posteriori observada

Suponha que consideremos X=(x1, ..., x5) como sendo os dados aumentados (completos) onde y1 = x1+x2, y2=x3,

y3=x4 e y4=x5, com probabilidades (4

,4

1,

4

1,

4,

2

1 θθθθ −−),

de modo que

5243

44

1)/(

xxxx

XL

++

−∝

θθθ → posteriori aumentado

Podemos simplificar e utilizar

4321 )1()2()/(yyyy

YL θθθθ +−+∝

E

4352 )1()/(xxxx

XL++ −∝ θθθ (mais simples)

A formula (1) fica

)34.20.18,,/()/( 2

,

1

21

xxLYLxx

∑= θθ

Onde a soma é estendida a todos os pares (x1, x2) tais que x1+x2=125, xi≥0, i=1,2. ALGORITMO EM:

1) tomemos um valor inicial, )0(θ , como estimador de θ. 2) Encontremos a esperança condicional de X, dado Y,

(Y=(125, 18, 20, 34), y1=x1+x2), ou seja, estimamos os dados por suas esperanças condicionais, dado Y e )0(θ .

Page 12: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

Passo E: E[x3/Y,

)0(θ ]=18 E[x4/Y,

)0(θ ] = 20 E[x5/Y,

)0(θ ] = 34 E[x1/ Y,

)0(θ ] = E[x1/x1+x2=125, )0(θ ] = x1(0)

E[x2/ Y, )0(θ ] = E[x2/x1+x2=125, )0(θ ] = x2

(0)

mas, x1/x1+x2=125 ~ binomial, n=125,

)0()0(12

2

4/)2(

2/1

θθ +=

+=P

x2/x1+x2 = 125 ~ binomial, n=125, )0(

)0(

)0(

)0(

224/)2(

4/

θ

θ

θ

θ

+=

+=P

→ x1(0) = np1 =

)0(2

250

θ+ e x2

(0) = np2 = )0(

)0(

2

125

θ

θ

+

DADOS LATENTES → ´)0(

2

)0(

1

)0( )34,20,18,,( xxX = : dados

completos estimados 3. O passo M: consiste em maximizar a verossimilhança dos dados completos L(θ/X(0)). Temos

)4/log()4

1log()

4

1log()4/log()2/1log()/( 543

)0(

2

)0(

1

)0( θθθ

θθ xxxxxXl +−

+−

++=

)1log()()log()()/( 435

)0(

2

)0( θθθ −+++∝ xxxxXl

Derivando em relação a θ, obtemos

θθθ −

+−

+=

1

435

)0(

2 xxxx

d

dl

Page 13: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

72

34ˆ)0(

2

)0(

2

543

)0(

2

5

)0(

2)1(

+

+=

+++

+=⇒

x

x

xxxx

xxθ

De um modo geral, dada a estimativa na iteração (i), θ(i), estimados os dados latentes por

)(

)()(

2)(

)(

12

125,

2

250i

ii

i

ixx

θ

θ

θ +=

+=

E atualizamos o estimador de θ por

72

34)(

2

)(

2)1(

+

+=+

i

i

i

x

Se θ(0) = 0,5

Iteração(i) θ(i) 0 0,5 1 0,60800 2 0,62400 3 0,62648 4 0,62677 5 0,62681 6 0,62682 7 0,62682

1567,04

ˆˆ,0933,0

4

ˆ1ˆˆ,6567,0

4

2ˆˆ,62682,0ˆ

4431 ===−

===+

==⇒θ

πθ

ππθ

πθ

3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste caso, temos a posteriori aumentada P(θ/Y,Z)= P(θ/X). neste contexto bayesiano, temos que considerar a densidade

Page 14: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

P(Z/Y, θ(i)): distribuição condicional preditora dos dados latentes Z, condicional ao valor atual da moda ou aos dados observados. No exemplo 2, esta distribuição é a binomial com parâmetros n = 125 e p= θ(i)/(2+ θ(i)). O algoritmo descrito está em termos da verossimilhança. Para o caso da densidade a posteriori, faz-se as modificações necessárias. ALGORITMO EM: 1. passo E: calculamos

Q[θ, θ(i)] = E[l(θ/X)/Y, θ(i)]

Ou seja, a esperança condicional da log-verossimilhança aumentada, supondo dados Y e o valor atual θ(i).

2. Passo M: escolhemos o valor θ(i+1)no espaço paramétrico que maximiza Q[θ, θ(i)].

3. itere até convergência, ou seja, até que || θ(i+1) - θ(i)|| ou || Q[θ, θ(i

1)]- Q[θ, θ(i)]||

sejam suficientemente pequenos. No caso da posteriori consideramos

dzYZpZYpQZ

ii ),/(),/(log),( )()(

∫= θθθθ

c

dist. Cond. Preditor dos dados latentes

Page 15: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

EXEMOLO 3: VOLTAMOS AO EXEMPLO DO MODELO GENETICO

)1log()()log(]),/([

],/)1log()()log()[(),(

435

)(

2

)(

4352

)(

θθθ

θθθθθ

−+++=

=−+++=

xxxYxE

YxxxxEQ

i

ii

Sabemos que

)(

)()(

22

125],/[

i

ii

YxEθ

θθ

+=

Maximizando Q[θ, θ(i)], obtemos

543

)(

2

5

)(

2)1(

),/(

),/(

xxxYxE

xYxEi

i

i

+++

+=+

θ

θθ

PROPOSIÇÃO 1: seja )(θl a verossimilhança dos dados

observados. Então

)/()/( )()1(YlYl

ii θθ ≥+

Toda iteração do algoritmo EM aumenta a log-verossimilhança. O mesmo vale para a densidade a posteriori. PROPOSIÇÃO 2: supunha que uma sequencia de iterações do algoritmo EM satisfaça

i) 0|),(

)1(

)(

=∂

∂+= iQ

iQ

θθ

θθ

ii) ∗→ θθ )(i então, as iterações convergem para um ponto estacionário de L(θ/Y).

Page 16: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

4. MONTE CARLO EM No passo E do algoritmo EM, temos que calcular

dzYZpZYpQZ

ii ),/(),/(log),( )()(

∫= θθθθ

que pode ser complicado. Podemos utilizar MMC para facilitar esse passo. Wei and tanner (1990) Algoritomo MCEM para o passo E:

1) simule uma amostra iid z1, z2, ..., zm de P(Z/Y,θ(i))

2) calcule ),/(log1

)(ˆ

1

1 YzPm

Qm

j

ji ∑=

+ = θθ

3) no passo M, Q̂ é maximizado para obter )1( +iθ .

Um problema é especificar o valor de m. Uma solução é aumentar o valor de m à medida que o numero de iterações cresce e monitorar a convergência, por meio de um gráfico de θ(i)x i. EXEMPLO 3: no problema genético, (x2/θ

(i),Y)~binomial

com parâmetros n=125 e )(

)(

2 i

i

θ

+= . Geramos z1, z2, ...,

zm dessa distribuição e fazemos

zzm

YxEm

i

i

i == ∑=1

)(

2

1),/(ˆ θ

O passo M continua como antes, obtendo-se

)/(()( 5435

)1(xxxzxz

i ++++=+θ

Page 17: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

5. CÁLCULO DOS ERROS PADRÕES ALGORITMO EM → Calcula a moda da distribuição à posteriori: P(θ/Y) ou da fv L((θ/Y) Para obter erros padrões devemos calcular a matriz Lessiana. Há 3 formas possíveis: a) cálculo direto ou numérico obtido o EMV θ̂ , podemos calcular as derivadas segundas de log L((θ/Y) ou de log P((θ/Y), no ponto θ̂ .

1

0 )()ˆ(0

−→ θθθ

IVar

)]/([)( YlEI θθ θ

&&−= : informação de Fisher

Na prática, isto pode ser difícil e um enfoque alternativo é calcular as derivadas numericamente. b) método de Louis sabemos que

)/(log)],/(log[)],/(log[)]/(log[ YZPYZPZYpYP +−= θθθ

jijiji

YZPZYPYp

θθ

θ

θθ

θ

θθ

θ

∂∂

∂+

∂−=

∂∂

∂− ),/(log[)],/(log[)]/(log[ 222

Integrando ambos os lados com respeito a P(Z/Y,θ), obtemos

θθθθθθ

θθθθ

θθθθ

θ== ∂∂

∂+

∂−=

∂∂

∂−)()( |),(|),(

)]/(log[ )(2

)(22

ii

i

ji

i

jiji

HQYp

Esta identidade constitui o principio da informação faltante: Informação observada = = informação completa – informação faltante

Page 18: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

RESULTADO:

∂=

θ

θ

θ

),/(logvar

2

2ZYP

H : informação

faltante Utilizando esse resultado e a expressão acima, podemos obter o erro padrão de θ̂ . EXEMPLO 5: voltamos ao problema genético

4352 )1(),/(xxxx

ZYP++ −∝ θθθ

θθθ

θ

+−

+=

1

),/(log 4352 xxxxZYP

inf. completa

3,435)6268,0(1

2018

)6268,0(

3483,29

)ˆ,/(|

22

43

2

52ˆ2

2

=−

++

+=

++

+=

∂−⇒

θθ

θ

θ θ

xxxYxEQ

informação faltante: →

8,57ˆ

ˆ2

2

ˆ2

ˆ125

ˆ

)1(

ˆ

)ˆ/var(),/(logvar

222

2

2

2

=++=−

==

∂=

ϑ

θθ

θ

θθ

θ

θ

θ

θ

xxpnpXZYP

H

Informação observada:

5,3778,573,435)/(log

2

2

=−=∂

∂−

θ

θ YP

05,05,377

1)ˆ( ==⇒ θep

c) simulação o cálculo da informação completa pode ser complicado

Page 19: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

dZYZPZYP

z

)/ˆ/(),/(log

2

2

θθ

θ∫ ∂

∂− : informação completa

Se pudemos amostrar da densidade P(Z/θ,Y), a integral pode ser aproximada por

∑= ∂

∂m

j

jZYP

m 12

2 ),/(log1

θ

θ: informação completa simulada,

Z: valor simulado, z1, z2, ..., zm ~iid ),ˆ/( YZP θ

De modo análogo, podemos aproximar a informação faltante:

∂=

θ

θ

θ

),/(logvar

2

2ZYP

H por

2

1

2

1

),/(log1),/(log1

∂−

∂∑∑

==

m

i

jm

j

j zYP

m

zYP

m θ

θ

θ

θ : informação

faltante simulada No exemplo genético,

6268,0ˆ)ˆ2

ˆ,125(~),ˆ/( →

θ

θθ combinomialYZ

6. ALGORITMO DE DADOS AUMENTADOS O algoritmo EM utiliza a simplicidade da verossimilhança (ou densidade a posteriori) dos dados aumentados. No algoritmo de dados aumentados(ADA), em vez de obter o maxímo dessas funções, o objetivo é obter a verossimilhança ou distribuição a posteriori, a fim de obter outras informações como intervalos de confiança (ou credibilidade). Trabalharemos, aqui, com a distribuição a posteriori. A idéia é obter uma estimativa de P(θ/Y), baseada na distribuição aumentada P((θ/Y,Z).

Page 20: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

O ADA é motivado por duas identidades:

∫=z

dzYZPZYPYP )/(),/()/( θθ : identidade da posteriori

↓ P(θ/Y): densidade da posteriori de θ P(θ/Y,Z): posteriori aumentada P(Z/Y): densidade preditiva dos dados latentes dado Y

∫=θ

φφφ dYPYzPYZP )/(),/()/( : identidade da preditora

P(Z/Ф,Y): preditora dos dados latentes O ADA é um algoritmo iterativo entre essas duas identidades, aproximando sucessivamente a densidade a posteriori. ALGORITMO ADA: [1] simule z1, z2, ..., zm da estimativa atual P(Z/Y) [2] atualize a estimativa P(θ/Y) por meio de

),/(1

1

∑=

m

j

jZYPm

θ

[3] itera. No passo precisamos simular da preditora P(Z/Y). Pela identidade da preditora: ∫=

θ

φφφ dYPYzPYZP )/(),/()/( , ela é

uma mistura de preditoras aumentadas em relação à posteriori observada, esse passo pode ser implementado por meio da iteração: [1´] simule θ* da estimativa atual P(θ/Y)

Page 21: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

[2´] amostre z de P(z/ θ*,Y) Por sua vez, o passo [1´], simulação da posteriori observada atual, é realizado selecionando-se j aleatoriamente dos inteiros 1, 2, ..., m e então simulando de P(θ/zj,Y), dada a forma discreta da estimativa de P(θ/Y) em [2] (no passo [2] do ADA. Comparando esse algoritmo com o EM, temos: Substituímos os passos E e M pelos passos que chamamos S e I, onde, S: estamos simulando dos dados latentes da estimativa atual da preditora. I: depois integramos para obter a posteriori. Podemos então chamar o ADA de algoritmo SI (S de simulação e I de integração). EXEMPLO 6: continuando o exemplo do problema genético Posteriori aumentada

)1,1(~)1()/( 43524352 ++++−∝ ++

xxxxBetaXPxxxx θθθ

(X2/Y,θ) ~ Binomial(125, θ/(θ+2)), onde Z= X2

preditora aumentada ALGORITMO SI: [1] simule m

xx 2

1

2 ,,L da estimativa atual de P(X2/Y)

[2] atualize a estimativa de P(θ/Y) por meio de

Page 22: aula-ALGORITMOS PARA DADOS AUMENTADOSchang/home/mae5704/aula... · 3. ALGORITMO EM GERAL Podemos utilizar o algoritmo EM para maximizar L(θ/Y) ou então a posteriori P(θ/Y). neste

))(,(1

1

θβα j

m

j

jBetam∑

=

Com 11 4352 ++=++= xxexx j

j

j βα

O passo [1] do algoritmo consiste em repetir m vezes: [1´] gere j uniformemente de 1, 2, ..., m [2´] simule θ* da Beta(αj, βj) [3´] simule x da binomial(125, θ*/(2+ θ*))