Bioinformtica / Biologia Computacional
Introduo a Cadeias de MarkovRepresentao grfica de uma cadeia de Markov para uma sequncia de ADN
=
1.02.05.02.03.02.01.04.03.02.01.04.02.05.01.02.0
P
Probabilidades de transio
3.0]|[2.0]|[1.0]|[4.0]|[
1
1
1
1
===
===
===
===
+
+
+
+
GXTXPGXGXPGXCXPGXAXP
tt
tt
tt
ttEx:
Matriz de transio
Bioinformtica / Biologia Computacional
Cadeias de Markov
Para calcular as probabilidades do estado da sequncia na posio 1,2,...
Temos que ter em conta o teorema da probabilidade total e as propriedades da cadeia de MarKov
Tem-se ento as matrizes de transio a um passo, dois passos...
SiiXPi == ),( 0piSendo o vector de distribuio de probabilidade inicial
SjpjXP iji
ij === ,)( 1)1( pipi
SjPjXP iji
ij === ,)()( 22)2( pipi
PP =)1(...
2)2( PP =
Bioinformtica / Biologia Computacional
Cadeias de Markov
Tem-se ento
Sjpiji
ij = ,pipi P pipi = notao matricial
SjjXPj == ),( 0pisendo tP pipi =e
jt jXP pi= )(
A distribuio da cadeia ao fim de um n. elevado(?) de transies sempre a mesma, isto significa que uma distribuio estacionria.
Se uma cadeia de MarKov for finita, aperidica e irredutvel
= np nijj quando lim)(pi
A propriedade acima estabelece que
Bioinformtica / Biologia Computacional
Cadeias de Markov
140.0063.0047.0087.0051.0028.003.005.0056.001.0029.0063.0089.0058.0052.0146.0
TGCA
TGCA
Exerccio 1.Considere a seguinte matriz que apresenta as frequncias relativas observadas de dinucletidos de M. genitalium
Determine estimativas dos parmetros do modelo de Markov associado a esta sequncia, i.e., estimativas de:1- a matriz de transio2- a distribuio inicial
Bioinformtica / Biologia Computacional
Cadeias de MarkovExerccio 2. Resoluo com o R
Utilizando o R para obter matrizes de transio a vrios passos
> gengen>sum(gen[1,])
>gen2gen2
gen4markov1
Bioinformtica / Biologia Computacional
Cadeias de Markov>P> [,1] [,2] [,3] [,4][1,] 0.423 0.151 0.168 0.258[2,] 0.399 0.184 0.063 0.354[3,] 0.314 0.189 0.176 0.321[4,] 0.258 0.138 0.187 0.415
Resultado do R
>tmplength(tmp[tmp[ ]==1])#OU >sum(tmp[]==1)
veremos que resulta uma frequncia prxima da que foi dada como modelo
Bioinformtica / Biologia Computacional
Modelos de Markov Escondidos (HMM)
Principal caracterstica quando um estado visitado pela cadeia de Markov emite um sinal uma letra que independente do tempo mas dependente do estado.
Agora ao correr um modelo HMM temos
-Uma sequncia de estados Q={q1,q2,q3,...}-E uma sequncia de sinais O={o1,o2,o3,... }
O que acontece que na maioria dos casos conhece-se a sequncia O, mas no se conhece Q hidden
Um HMM semelhante a uma cadeia de Markov mas possuindo propriedades que o tornam mais flexvel e portanto permitindo modelar fenmenos mais complexos.
Bioinformtica / Biologia Computacional
Modelos de Markov Escondidos (HMM)
Questes de interesse num HMM
A estimao da sequncia de estados escondidos feita do seguinte modo:-- escolhe-se a sequncia que apresenta maior probabilidade de ocorrer dada a sequncia observada
)|(Prob maxarg OQQ
Existem algoritmos para tratar esta abordagem
Pretende-se Q tal que
Inicial q1
Emisso o1
Transio q2
Exemplo
Bioinformtica / Biologia Computacional
Modelos de Markov Escondidos (HMM)Um HMM fica definido por 5 componentes:
- Um conjunto de N estados- um alfabeto de M smbolos- a matriz de probabilidade de transio- as probabilidades de emisso . Para cada estado i e smbolo a
- um vector de distribuio inicial) smbolo oemitir (Prob)( aestadoab ii =
)inicial stadoProb( com ][ ieii === pipipi