Máxima Verossimilhança
ou Maximum Likelihood
Máxima Verossimilhança
Criada por R. A. Fisher em 1912Introduzida na filogenia por
Edwards & Cavalli-Sforza em 1964
Apesar de ser de importância central na estatística, é usualmente omitida nos cursos de biologia...
Descrição da MVVerossimilhança é a probabilidade dos
DADOS sob um determinado modelo.Por que não chamar simplesmente de
probabilidade?Na verdade é uma probabilidade, só que
estamos falando da probabilidade dos dados (que já foram coletados) e não da ocorrência de um evento (que ainda não ocorreu)
Moedas...No lançamento de uma moeda
você obteve uma cara. Este é o dadodado.
Se você achar que a moeda é uma moeda comum (modelo), o dadodado tem probabilidade de ½½.
Porém se você achar que a moeda tem duas caras (modelo), o dadodado tem probabilidade de 11.
Evolução Molecular
Dados = alinhamentoModelo = árvore + mecanismos
de modificações moleculares Normalmente chamamos os
mecanismos de modelomodelo e a árvore de árvoreárvore.
Modelos Moleculares (ou de DNA)
Um modelo tem duas partes:Composição
Proporção dos quatro nucleotídeos – Pode-se assumir proporções iguais ou pode-se deixar que os dados decidam
ProcessoEm que taxa um nucleotídeo muda
para o outro? (Jukes-Cantor? Kimura 2 P???...GTR???)
A verossimilhança de uma sequência sequência composta por uma uma base base - AA
Não precisamos da parte do modelo envolvida no processoprocesso;Modelos de composição:
1) Todas as bases são A . L=12) Todas as bases são C. L=03) A ocorre numa frequência de 33%. L=0.33
Likelihood (L)=verossimilhança)
Composição: ¼ para cada base L = 1/4 x 1/4 = 1/16 = 0,0625
Composição: 40% A e 10% CL = 0.4 x 0.1 = 0.04
A verossimilhança de uma sequência de duas bases - AC
Regra GeralA soma das verossimilhanças
(assim como acontece com as probabilidades) deve ser igual a 1Se há 16 possibilidades de di-
nucleotídeos deferentes, e você quer calcular a verossimilhança de todos eles, a soma deve ser 1
O Processo...Esta parte do modelo é
necessária quando duas ou mais sequências estão conectadas por uma árvore.
Pode ser descrito porSentençasEquaçõesMatrizes de números
0.1 0.4 0.2 0.3
P =
(Processo)
0.976 0.01 0.0070.007
0.002 0.983 0.0050.01
0.003 0.01 0.9790.007
0.002 0.013 0.0050.979
π =(Conteúdo)
MV de duas sequências com quatro bases cada
P =
(Processo)
0.976 0.01 0.0070.007 =1
0.002 0.983 0.0050.01
0.003 0.01 0.9790.007
0.002 0.013 0.0050.979
A C G T
A
C
T
G
DE
Para:
Observação Importante...
0.1 0.4 0.2 0.3
P =
(Processo)
0.976 0.01 0.0070.007
0.002 0.983 0.0050.01
0.003 0.01 0.9790.007
0.002 0.013 0.0050.979
π =(Conteúdo)
MV de duas sequências com quatro bases cada
Dados Seja o alinhamento:
C C A TC C G T
A verossimilhança de sair da primeira para a segunda sequência é:L = πC PCC πC PCC πA PAG πT PTT=
=0.4 x 0.983 x 0.4 x 0.983 x 0.1 x 0.007 x 0.3 x 0.979=0.0000300
Diferentes tamanhos de ramos
O modelo anterior não leva em conta a possibilidade de diferentes tamanhos de ramos...Ramo curto – pequena
probabilidade de modificações, grande probabilidade de permanência no mesmo estado
Ramo longo – grande probabilidade de modificações
Digamos então que a matriz P corresponda a uma certa Certa Distância Evolutiva (cde)
Já sabemos que a verossimilhança do exemplo anterior com 1 cde foi de L = 0.0000300, qual será a verossimilhança com 2 ou 3 cdes?
Diferentes tamanhos de ramos
Diferentes tamanhos de ramos
0.953 0.020.013 0.015
0.005 0.966 0.010.02
0.007 0.020.959 0.015
0.005 0.026 0.010.959
0.93 0.0290.019 0.022
0.007 0.9490.015 0.029
0.01 0.0290.939 0.022
0.007 0.0380.015 0.94
0.976 0.010.007 0.007
0.002 0.9830.005 0.01
0.003 0.010.979 0.007
0.002 0.0130.005 0.979
P =
P2= P3=
1 cde
L= 0.0000300
2 cdes
L = 0.0000559
3 cdes
L = 0.0000782
Diferentes tamanhos de ramos
Se P for elevado a potências muito altas (tamanhos de ramos muito longos, π acaba aparecendo...)0.1 0.4 0.2
0.30.1 0.4 0.2
0.30.1 0.4 0.2
0.30.1 0.4 0.2
0.3
P10 =6
Diferentes tamanhos de ramos
Matrizes de TaxasO problema de P é que os tamanhos
de ramos são obtidos em cdes, unidades arbitrárias muito pouco convenientes...
O ideal é que a matriz revele tamanhos de ramos em termos de substituições por sítio
Mais importante que isso é extrair a matriz de taxas separadas de π.
Matrizes de TaxasCom um pouco de álgebra,
obtém-se a matriz de taxas independente do conteúdocom isso não é necessária a
inclusão da probabilidade de não-modificação:
No PAUP...Use o comando Lset para expressar
a matriz de taxas da seguinte maneira:gt = 1.0 (default que não entra na
matriz)a c, ag, at, cg, ct (em
valores referentes a um. Neste caso, com a matriz anterior temos:
Lset rmat=(1.0, 1.3333, 1.0, 1.0, 1.3333)
Como escolher o melhor modelo para MV?
Programa ModelTestTrata-se de um script do PAUP, que
toma como base o alinhamento e uma árvore feita rapidamente com NJ.
Tendo a árvore e o alinhamento, 54 modelos diferentes são avaliados.
A cada modelo é atribuído um valor de Verossimilhança (L) (na verdade –logL)
JC+I
JC+G
JC+I+G
JC
Tajima – Nei ou Felsenstein 81
Jukes-Cantor (d) - JCCorreção que leva em conta a
possibilidade de substituições de bases
A T C G A - α α α T α - α α C α α - α G α α α -
Tajima-Nei (F81) Leva em conta apenas as diferentes
frequências das bases: A T C G
A - αgT αgC α1gG
T αgA - αgC α1gG
C αgA αgT - α1gG
G αgA αgT αgC -
gA, gT, gC, gG = frequência de bases
Parâmetro a ser ajustado = α
Distâncias Gamma
α=0,2
α=1α=2
α=5
α=10
Kimura 2P
Tamura-Nei
Kimura 2 parâmetros – K80
Correção que leva em conta probabilidades diferentes de transições e transversões
A T C G A - β β α T β - α β C β α - β G α β β -
Tamura-Nei (TrN) Leva em conta as diferenças em transições
e transversões (α e β), além da frequência diferencial de bases (g).
A T C G A - βgT βgC αα11ggGG
T βgA - αα22ggCC βgG
C βgA αα22ggTT - βgG
G αα11ggAA βgT βgC -
gA, gT, gC, gG = frequência de bases
GTR
General Time Reversible (GTR)
Leva em conta diferentes frequências de bases e de substituições
A T C G A - agT bgC c1gG
T agA - dgC e1gG
C bgA dgT - f1gG
G cgA egT fgC -
gA, gT, gC, gG = frequência de bases
Resultados do ModelTestLikelihood Ratio Test
hLRTs = 2(lnL1 – lnL0)dist. como qui-quadrado, com grausde liberdade igual à diferença do número de parâmetros
Resultados do ModelTestLikelihood Ratio Test
1
1 JC: nst=1 base=equal rates=equalPinv=0 F81: nst=1 base=est rates=equalPinv=0
1 parâmetro
4 parâmetros
2
2F81: nst=1 base=est tratio=est rates=equal Pinv=0 1 parâmetro
hLRTs = 2(lnL1 – lnL0)dist. como qui-quadrado, com grausde liberdade igual à diferença do número de parâmetros
Resultados do ModelTest Akaike Information Criterion
AIC = -2LnL + 2K
O que fazer com tantos números?
Colar a linha Lset do resultado do teste de AIC:
Comandos do PAUPSet criterion=LikelihoodLset (colado do modeltest)Hsearch ?
Hsearch swap=TBR start=NJ Bootstrap ?
Search=heuristic/swap=NNI start=NJ
BIC (Bayesian Information Criterion)
BIC = -2LnL + K ln (n)
Encontra modelos mais simples que o AIC, pois dá uma penalidade ainda maior para modelos com excesso de parâmetros – dá para calcular no MEGA 5.0