28
Métodos de distância e modelos de evolução molecular Almir R. Pepato

Métodos de distância e modelos de evolução molecular Almir R. Pepato

Embed Size (px)

Citation preview

Page 1: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Métodos de distância e modelos de evolução molecular

Almir R. Pepato

Page 2: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Distância genéticaDistância genética p difere da distância aparente D, devido às substituições múltiplas (D é menor ou igual).

Page 3: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Distância genéticaDistância genética p difere da distância aparente D, devido às substituições múltiplas.

Page 4: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Modelos de substituição

Siméon Denis Poisson « Recherches sur la probabilité des jugements en matière criminelle et en matière civile » de 1837

•usuários de computador ligados à Internet

•clientes chegando ao caixa de um supermercado

•acidentes com automóveis em uma determinada estrada

•Número de carros que chegam a um posto de gasolina

•Número de falhas em componentes por unidade de tempo

•Número de requisições para um servidor em um intervalo de tempo t

•Número de peças defeituosas substituídas num veículo durante o primeiro ano de vida

Page 5: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Modelos de substituição

Premissas:

1- As substituições são eventos discretos

2- A incidência de uma substituição não está relacionada à ocorrência passada de outras substituições (Processo de Markov)

Page 6: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Modelos de substituiçãoSuponha que um sítio tenha em alguma posição uma adenina. Qual é a probabilidade desse sítio ter uma adenina depois de um tempo δt, dada uma taxa de substituição α idêntica para todos os tipos de substituição e frequência idêntica de 25% para as quatro bases?

E depois de mais um tempinho δt? Dois cenários:

A A

AA

A Não A

T=0

T= δt

T= 2δt

Podemos generalizar essa equação para:

Andrey Kolmogorov- Sydney Chapman

Page 7: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Modelos de substituiçãoAté agora, racionamos a respeito de um processo que corre em tempos discretos, mas podemos imaginar que δt tende a zero, de forma que temos o valor instantâneo de PA(t) através do cálculo diferencial:

Que se resolve em:

Andrey Kolmogorov- Sydney Chapman

Page 8: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Modelos de substituiçãoPara os dois cenários delineados acima, temos:

Que se aplica, já que as taxas são as mesmas, para todos os nucleotídeos. São essas as probabilidades que devemos contabilizar para cada sítio de um alinhamento ao longo dos ramos de uma árvore.

Andrey Kolmogorov- Sydney Chapman

Page 9: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Modelos de substituição

A matriz Q para o JC69 é:

Para as probabilidades temos:

Soma zero...

Soma um...

Page 10: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Estimativa corrigida da distânciaPodemos estimar a grandeza µt partir dos dados empíricos, na verdade, a partir da distância observada p. Considere I(t) a identidade entre duas sequências:

K= número de substituições por sítio desde o tempo de divergência de duas sequências.

Page 11: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Exemplos numéricos

Seq1 /Seq2 = 5 nts de diferença*

Seq1/Seq3 = 50 nts de diferença*

*Todas as sequências alinhadas com 100 nts.

Page 12: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Modelos de substituição

Note que a matriz de taxas acima pressupõe que a taxa de evolução não mude com o tempo e que a frequência relativa das bases se mantenha estacionária. Além disso, todos os modelos que discutiremos são reversíveis, ou seja:

Até agora tratamos de um caso bastante específico: Supomos que todas as bases ocorriam na mesma proporção e que as taxas de substituição eram iguais para todas elas.

Page 13: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Modelos de substituição

A

C T

G

GTR

HKY

A

C T

Ga

a

b

b b

b

A

C T

G

A

C T

G

A

C T

G

Jukes-Cantor

Felsenstein K2P

Com ajuda do nosso amigo Poisson, podemos estender o raciocínio para todos os outros modelos.

Page 14: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Violando as premissas...Uma das premissas feitas nos modelos acima é de que todos os sítios estejam evoluindo na mesma taxa, algo bastante raro nas sequências reais.

Page 15: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Variação de taxa entre os sítiosPara entender como considerar taxas distintas pode alterar as estimativas de substituição ao longo do tempo, suponha que duas sequências com 100 nucs cada apresentem 15 substituições e considere as estimativas para dois casos:

1- Sequência com dois grupos de nucleotídeos, um dos quais invariante que inclui 20 nucs e o outro evoluindo sob JC69.

2- Sequência com uma única taxa de evolução para todos os sítios evoluindo sob JC69.

Page 16: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Variação de taxa entre os sítios

Além de distribuições de categorias discretas , podemos modelar a variação de taxas entre sites utilizando distribuições contínuas. A mais usada, devido a sua capacidade de prever o comportamento de dados empíricos é a distribuição Gama:

Page 17: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Variação de taxa entre os sítios1- Quando a as taxas de substituição são idênticas em todos os sítios o número de substituições seguirá a distribuição de Poisson, mas se as taxas são distribuídas usando uma distribuição gama, seguirá uma distribuição binomial negativa. Isso é utilizado para testar a utilidade de incorporar o parâmetro α e para inferir seu valor. 2-Na prática, a curva determinada por α é aproximada com algumas categorias discretas e não tratada de maneira contínua. A segunda alternativa é muito difícil de computar.

Page 18: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Violando as premissas...

Genes codificantes: As substituições sinônimas e não sinônimas evoluem de maneira diferente (correlação de sítios).

Page 19: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Violando as premissas...

Page 20: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Modelos de substituição

Os modelos podem ir além:

1- Podem incluir variação na taxa de evolução entre os sítios.

2- Um certo número de sítios invariáveis.

3- Frequência de bases não estacionária.

4- Covariação entre os sítios.

Page 21: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Métodos algoritmos

Transforma-se a matriz de caracteres em uma matriz de distâncias (aqui entra tudo que estudamos até agora!!!!!!!)

Page 22: Métodos de distância e modelos de evolução molecular Almir R. Pepato

UPGMA

UPGMA= Unweighted Pair Group Method with Arithmetic Mean

Page 23: Métodos de distância e modelos de evolução molecular Almir R. Pepato

UPGMA

Page 24: Métodos de distância e modelos de evolução molecular Almir R. Pepato

UPGMA

Page 25: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Neighbor-Joining

Page 26: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Neighbor-Joining

Page 27: Métodos de distância e modelos de evolução molecular Almir R. Pepato

Evolução Mínima

Deinococc

Thermusruber

Bacillus

Aquifex

0.152

0.0120.0530.081

0.0580.119

0.217

Thermus

Deinococc

ruber

Bacillus

Aquifex

0.0560.017

0.145

0.079

0.057

0.119

0.217

Critério de otimização = minimizar a soma do comprimento dos ramos Comparando as duas árvores:Árvore # 1 2ME-score 0.68998 0.69163

1

2

Page 28: Métodos de distância e modelos de evolução molecular Almir R. Pepato

O uso da distância para inferência filogenética

1- Há perda de informação com a conversão da matriz de caracteres em matriz de distâncias.

2- O comprimento dos ramos de uma árvore de distância não são independentes, mas calculados em relação aos demais. Assim mesmo que as distâncias sejam corrigidas com o emprego de modelos estocásticos, elas serão sub-estimativas. Qualquer “problema” relacionado a um dos ramos (mudança na frequência das bases, ramo especialmente longo) será propagado ao longo de toda a filogenia.