Metody molekulární biologie v ekologii a systematice rostlin 5 . Sekvenování DNA – 2. část

Metody molekulární biologie v ekologii a systematice rostlin

5. Sekvenování DNA – 2. část

Petr Koutecký & Jiří Košnar, 2013

Vytvořeno v rámci projektu Molekularizace biologických

oborů PřF JU

reg. č. CZ.1.07/2.2.00/15.0364

Fylogenetické stromy - definice

Fylogenetická analýza – konstrukce stromů

nezakořeněný strom (unrooted tree): není z něj patrný směr evoluce

rootování stromu: - předpoklad:

X je sesterské k A-F→ společný předekskupin A-F a X je zde

zakořeněný strom: tree was rooted using X as an outgroup(na této informaci záleží, ne na tvaru stromu!)

zakořenění (rootování) stromu:1. sesterský taxon dané skupiny použijeme jako outgroup (OG)2. na větev mezi ním a zbytkem stromu umístíme kořen stromu

(root)jak vybrat outgroup (OG):a) musí skutečně stát mimo zkoumanou skupinub) neměl by být příliš vzdálený od zkoumané

skupiny – aby byl zalignovatelný

je vhodné zkoušet více různých outgroupů, sledovat, zda a jak ovlivní výsledek!

topologie = konkrétní uspořádání větví

node (uzel)→ branch (větev)→ leaf (konkrétní sekvence)

polytomie = jedna větev nese více sekvencí (DEF)

Monofyletické skupiny

(všechny sekvence dané větve

= clade, monofylum)

Parafyletické skupiny

Polyfyletické skupiny

(sekvence z různých větví)

(rotace větví a změna pořadí sekvencí nemění význam)

nezakořeněné stromy - více možných monofyl! (a ty výše uvedené jsou nesmyslné, pokud z předchozích výsledků víme, že X je prokazatelně sesterské ke zbytku)

Fylogenetické stromy - definice


Definice – variabilní stavy znaku

pleziomorfie: původní znak

AA

C

T

T

del.

A


apomorfie: odvozený znak

• synapomorfie: sdílený odvozený znak; charakterizuje monofyl. skupinyskupina (C,D,E,F): AA na pozici 13-14; skupina (D,E,F): C na pozici 19

• autapomorfie: nesdílený (unikátní) odvozený znak – fylogeneticky neinformativní neovlivní topologii (pouze prodlouží větev)

sekvence E: A na pozici 15.; sekvence F: delece na pozici 21-28

homoplazie: nezávisle vzniklý znak, klamný signál!sekvence A a D: T na 3. pozici

• synpleziomorfie: sdílený původní znakskupina (X,A,B): GG na pozici 13-14; skupina (X,A,B,C): T na pozici 19)

Metody konstrukce stromů - Maximum Parsimony (MP) nejlepší strom = nejkratší strom s nejnižším počtem změn (most

parsimonious tree); parsimony = úspornost, nebo skrblictví, skoupost, nemístná šetrnost...

změna = jakákoli mutace včetně indelů (pokud je zakódujeme!) se počítá jako 1 změna → žádné apriorní předpoklady, všechny změny považuje za stejně pravděpodobné

fylogram stejný strom, ale zobrazený jako kladogram (pouze topologie, délka větví nic neznamená)

fylogram - délka jednotlivých větví nejkr. stromu odráží počet změn sekvence:


Metody konstrukce stromů - Maximum Parsimony (MP)

jak najít nejkratší strom programy: Paup, TNT, Nona apod.

a) vyzkoušet všechny možné topologie = exhaustive search (Paup: alltrees)

• zajišťuje nalezení nejkratšího stromu, ale technicky použitelné jen pro <12 sekvencí

b) heuristic search (hs)

• není zaručeno, že se skutečně podaří nalézt nejkratší strom

• různé algoritmy, lišící se výkonností a exhaustivitou, např.:

• postupným přidáváním sekvencí do stromu (addseq=random) vytvoří startovací strom, a různými postupy (swap=tbr nebo spr, mni) u něj přehazuje větve (branch swapping)

• celý postup tvorby startovacího stromu a prohazování větví lze několikrát zopakovat (addseq=random nreps=[počet opak., např. 100 apod.; default je 10])

• volba Maxtrees (např. Paup) – celkový počet uložených nejkratších stromů

• program TNT – freeware, rychlejší než Paup, používá tzv. new technology search


Metody konstrukce stromů - Maximum Parsimony (MP) často více stejně dobrých stromů → výsledný strom je vyjádřen

pomocí consensus tree (Paup: contree; pro uložení: contree/treefile=[název].tre):

• strict consensus tree – zahrne pouze monofyla přítomná na všech nejkratších stromech → bývá nejméně rozlišený, polytomie

• semi-strict consensus tree – monofyla, která nejsou v rozporu s ostatními nejkr. stromy (např. pokud je skupina na jednom nejkratším stromě jako monofylum, a na jiném je nerozlišená v polytomii)

• majority consensus tree – monofyla, která jsou přítomná u určitého min. % nejkratších stromů (např. 50 a více %); čísla na jeho větvích značí, v kolika nejkratších stromech se daný clade (monofylum) vyskytl

analýza našla 3 nejkratší stromy s délkou 1325 změn...

... 2 různé typy consensus stromů, s odlišnou topologií!

výsledky různých typů consensus tree se mohou lišit:



interpretovat radši jen strict consensus tree - stejně dlouhé stromy jsou rovnocenné hypotézy, nemá cenu některé vybírat na úkor jiných!

consensus tree nemá délky větví, pouze topologii

• pokud chceme zobrazit délku větví, zobrazit pro ilustraci ještě např. jeden z nejkratších stromů (Paup: describetrees/plot=phylogram; pro uložení: savetree file=[název].tre brlens=yes)

nevýhody MP:

• předpoklady MP příliš jednoduché: evoluce nemusí běžet nejkratší cestou (parsimoniálně) s jednotnou pravděpodobností změn

x spíše ideologický spor, nikdy s jistotou nevíme, jak evoluce běží

• long-branch attraction (LBA): tendence dávat k sobě sekvence s dlouhými větvemi, nebo dlouhé větve stahovány k outgroupu (protože OG je taky

obvykle dlouhá větev)

MP obecně funguje hůř u taxonů s nerovnoměrnou a rychlou evolucí



testování fylogenetického signálu: Bootstrap Support (BS): použitelný i pro některé další metody konstrukce

stromů

• resampling: náhodně vybraná část sloupců matice (= pozic alignmentu) z matice vymazána, a nahrazena jinými náhodně vybranými sloupci

• pro každou novou matici nalezeny nejkratší stromy

• zopakováno aspoň 500x - 1000x

• z resamplovaných stromů 50% majority consensus tree, který ukazuje BS jednotlivých monofyl. větví (protože je to 50% consensus tree, zobrazí pouze větve s BS>50) (Paup: bootstrap nreps= [počet opak.]; protože se prování velký počet replikací – tvorby stromů, u větších datasetů se často používá méně exhaustivní vyhledávání – např. méně nebo žádné replikace addseq, nižší hodnota Maxtrees)

• Jackknife – resampling bez náhrady dat, matice se zmenšuje

vyjadřuje, jaké množství znaků podporuje danou monofyl. větev

no support: BS<50; poor support: BS=50-70; good support: BS>70



testování fylogenetického signálu: Decay Index (DI, Bremer Support): lze použít pouze pro MP

• testuje, o kolik kroků delší strom způsobí zkolabování dané větve do polytomie

nejkratší strom, délka L=139 strom o 1 změnu delší (L=140) způsobí zkolabování větve → pro danou větev Decay index = 1

asi se nedá říct, jaké hodnoty DI jsou dobré (nízké hodnoty typu DI = 1 jsou ale špatné)

• např. pro větev (D,E,F):


Metody konstrukce stromů – Maximum likelihood (ML)

využívají substituční modely: ne všechny změny a stavy znaků musí být stejně pravděpodobné, evoluce nemusí běžet nejkratší cestou

hledají strom (topologie + délky větví), který za platnosti vybraného substitučního modelu nejlépe odráží variabilitu daných sekvencí = strom s tzv. maximum likelihood (největší pravděpodobností)

vytvoří konkrétní strom, a spočítá jeho likelihood (L):

vynásobí likelihoody všech konkrétních pozice alignmentu → aby výsledný likelihood stromu nebylo moc malé číslo, je vyjádřen logaritmicky (ln L)

který substituční model je správný? (např. program JModelTest)

- ten, který dává stromy s nejvyšším likelihoodem

možné použít bootstrap (může být problém s uskutečnitelností počtu replikací - kvůli výpočetní náročnosti)


1. substituční schéma:

- pravděpodobnost substitucí - tranzicí a transverzí (, ; příp. každý typ substituce se specifickou pravděpodobností)



substituční modely:

1. substituční schéma:

- pravděpodobnost substitucí - tranzicí a transverzí (, ; příp. každý typ substituce se specifickou pravděpodobností)

JC

A=C=G=T

=

JC

A=C=G=T

=

HKY

ACGT

HKY

ACGT

GTR

ACGT

a,b,c,d,e,f

GTR

ACGT

a,b,c,d,e,f

TMP1 (K2P)

A=C=G=T

TMP1 (K2P)

A=C=G=T

různá frekvence různá frekvence tranzicí/transverzí (tranzicí/transverzí (/)

různá frekvence různá frekvence trantranzziicící/transvers/transversí (í (/)

F81

ACGT

=

F81

ACGT

=rozdílná frekvence bázírozdílná frekvence bází

rozdílná frekvence bázírozdílná frekvence bází

nejsložitější model: každá báze má specifickou frekvenci, každý typ substituce má specifickou pravděpodobnost, a-f)

nejjednodušší model: všechny báze mají stejnou frekvenci (), všechny typy substitucí stejně pravděpodobné



• nejjednodušší JC (Jukes-Cantor) → odpovídá předpokladu max. parsimonie → MP je nejjednodušším případem ML

substituční modely:

- frekvence bází ()

2. součástí substitučního modelu může být dále informace o:

a) míře variability pozic alignmentu - substitution rates across sites

→ zohledňuje, že jednotlivé pozice se liší mutační rychlostí; používá se křivka gamma distribuce, její parametr α určuje tvar (shape):



b) můžeme předpokládat, že v alignmentu je určitá část pozic invariabilních: proportion of invariable sites (p-inv = [hodnota])

α < 1: velká variabilita substitučních rychlostí

α > 1: většina pozic má ± střední hodnotu rychlosti substitucí (plocha ´píku´ distribuce), zbytek (´okraje´ křivky) představuje hodně nebo naopak málo rychlá místa


likelihood konkrétní pozice alignmentu (pro daný zvažovaný strom a substituční model):

• vybere pro danou pozici možný původní stav, např. A

• spočítá jaká je pravděp. výskytu daného stavu A – z frekvence bází,

• a tu dál násobí pravděp. pro její mutaci na stav v další úrovni stromu, např. na T – z pravděp. jednotlivých typů substitucí

• tímto způsobem dopočítá likelihood pro celou topologii stromu

AT

G, C, T, A, T – stavy znaku na dané pozici alignmentu


programy pro vlastní analýzu:

Paup (set criterion=likelihood; hs - vlastní hledání stromu probíhá heuristickou metodou, obdobné jako u parsimonie - možné použít addseq, branch swapping, stejně tak ukládání stromů a bootstrap)

Phyml – přepíná z distančního modu na ML, rychlejší analýzahttp://www.atgc-montpellier.fr/phyml/binaries.php



nevýhody ML:

• výpočetně náročnější než MP a distanční metody

• nelze použít indely

• ideologický spor – zda je správné používat modely substitucí

x jsou to modely které nemusí být správné...

• najde pouze 1 nejlepší strom, a neukáže potenciálně dobré stromy s nepatrně menší hodnotou likelihoodu

• asi už překonané Bayesovskou inferencí

Metody konstrukce stromů – distanční metody

vymyšlené jako (překvapivě dobře fungující) náhražka ostatních, výpočetně náročnějších metod

v dnešní době překonané, uplatnění snad jen u příliš velkých souborů, které nejde technicky jinak zpracovat

základem je spočítání p-distancí pro každý pár sekvencí, případně jejich převedení na evolutionary distances – pomocí zvoleného substitučního modelu (JModelTest)



distance použity k tvorbě stromu:

a) pomocí optimalizačního kriteria – ME (Minimum Evolution)

sestaví strom tak, aby topologie a délky větví nejvíce odpovídaly matici distancí → dávaly nejkratší strom; nejlepší distanční metoda, ale relativně výpočetně náročná

b) pomocí klastrovacího algoritmu – UPGMA, NJ (Neighbor Joining)

např. UPGMA – postupně přidává sekvence: do prvního monofyla spojí 2 sekvence s nejmenší distancí, k nim připojí další sekvenci která k nim má nejmenší distanci atd.

možné použít bootstrapPaup: set criterion=distance; NJ; UPGMA; případně použít blok s definicí substitučního modelu – viz dále; ukládání stromů a boostrap obdobně jako u MP)



nevýhody distančních metod:

• výsledkem jediný strom, který je silně rozlišený → nemáme šanci zjistit (jen o malinko horší) alternativní topologie

reálná fylogeneze UPGMA strom:

nedá k sobě dlouhé větve A a D

• některé metody z principu takřka neumožňují detekovat určité topologie reálné fylogeneze, např. UPGMA:


Bayesian Inference – program MrBayes

založené na pravděpodobnosti podobně jako ML složitá teorie... lepší vyhledávač stromů než ML nepoužívá se bootstrap, ale podpora větví vyjádřená jako tzv.

posterior probability = clade credibility value (CC):

• CC mívá vyšší hodnoty než BS, ale to neznamená, že Bayesovský strom je lepší než strom nalezený jinou metodou a testovaný BS!

• poor support: CC<90, moderate support: CC 90-95, good support: CC>95


http://mrbayes.sourceforge.net/download.php

výběr modelu (pokud JModelTest vybere model který nejde v MrBayes nastavit, tak se doporučuje použít nejbližší složitější model)

pro analýzu není třeba specifikovat číselné hodnoty parametrů modelu, pouze jeho typ = tj. konkrétní substituční schéma + zda předpokládat gamma distribution, proportion of invariable sites


Bayesian Inference – program MrBayes

MrBayes

princip analýzy: heuristický typ analýzy program běží (minimálně) 2 nezávislé běhy – runy, začínají vytvořením

nějakého (např. náhodného) stromu jednotkou runu je generace, během 1 generace program strom změní,

dané řešení uloží → postupné vylepšování stromu výsledné stromy z obou běhů jsou porovnávány, zda se běhy blíží ke

shodě – tzv. konvergenci (shoda indikuje, že se pravděpodobně opravdu blíží nejlepší strom)

kriteriem konvergence je standard deviation of split frequencies = zda se výsledek obou běhů statisticky průkazně liší (používá se hladina průkaznosti 0.01, příp. u obtížných datasetů 0.05)

když S.D.<0.01, spočítá z uložených stromů 50% majority rule consensus tree → clade credibility values jednoduše odráží, v kolika uložených stromech se dané monofylum vyskytlo


MrBayes3D krajina potenciálních stromů: některé stromy s vyšším likelihoodem

= vyšší píky → ty chceme samplovat


šplhání po píku:

• během generace se pozmění topologie + délka větví + parametry substitučního modelu, a spočítá poměr:

R = likelihood pozměněného stromu / likelihood původního stromu

• když je R > náhodně vygenerované číslo 0-1, tak změna akceptována

→ vylepšení stromu vždy akceptováno; akceptovány obvykle i trochu horší stromy (které pak ale můžou sloužit jako mezikrok k ještě lepším...)

like

lih

oo

d

MrBayes3D krajina potenciálních stromů: zároveň riziko uvíznutí na suboptimálnímpíku, neschopnost překonat údolí k dalšímu, potenciálně ještě vyššímu píku


řešení – cold a hot chains:

• každý run z několika chains (default je 4), časem se pravděpodobně každý chain dostane na nějaký pík a stoupá po něm

• ale pouze jeden z nich – cold chain – sampluje a ukládá stromy (defaultně v každé 100. generaci)

• ostatní hot chains (defaultně 3) – vidí ´flattened´ krajinu, rozdíly mezi píky snížené → větší pravděpodobnost přeskoku z píků (přes údolí)

• v závislosti na cold chain temperature (default 0.2) se mezi chains přepíná mezi cold a hot modem → umožní samplovat více píků

like

lih

oo

d

MrBayes

nevýhody Bayesian Inference:

• výpočetně náročné – zejména pro velké datasety, nebo pro datasety se slabým signálem

• kritika použití substitučních modelů (viz ML)

• gapy možné použít jedině s binárním kódováním (0/1 = absent/present)


když je S.D. (rozdíl mezi runy) stále vysoké, může pomoci:

• přidání dalších generací

• pustit novou analýzu se změněnou teplotou cold chain mcmc ngen=[hodnota] temp=[hodnota]

• pustit novou analýzu a zvýšit celkový počet chains mcmc ngen=[hodnota] temp=[hodnota] nchains=[hodnota]

• celkově vzato to značí, že máme složitý dataset, nebo dataset s malou fylogenetickou informací...

Vizualizace fylogenetických stromů


programy: TreeView, Dendroscope aj. – pracují s .tre formátem na větve namapovat hodnoty BS, CC k sekvencím vždy připojit accession numbers z veřejné databáze


Obecné zásady interpretace fylogenetických stromů

• interpretovat radši jen topologie, které vycházejí stejně za použití různých metod

• interpretovat jen statisticky podpořené topologie (BS, CC)

• topologie může být ovlivněná i rozsahem samplingu – snažit se o co nejúplnější sampling

• důkaz polyfylie urč. skupiny: nestačí jen detekovat polyfylii u nejlepšího stromu; je dobré porovnat marginal likelihoods (MrBayes) stromů s constraints na monofylii / polyfylii (polyfyletický constraint by měl mít výrazně vyšší likelihood)

• u podezřelých sekvencí radši daný vzorek znova sekvenovat - možnost záměny vzorků, nevěřit úplně ani sekvencím z databází!

• používat data z více úseků


Gene tree vs. Species tree

fylogenezi taxonů (species tree) rekonstruujeme na základě fylogeneze daného úseku DNA (gene tree získaný z molek. dat)

každý gen ale může mít trochu jinou evoluční historii – zásadně ji ovlivňují události jako: incomplete lineage sorting (of ancestral polymorphism)

(= deep coalescence) duplikace / ztráty genů hybridizace / horizontální přenos genů rekombinace

Maddison W.P. 1996. Gene trees in species trees. Systematic Biology 46: 523-536.



Incomplete lineage sorting of ancestral polymorphism (deep coalescence) populace společného předka daných taxonů má určitý pool alel deep coalescence: koalescence ancestrálních alel je starší než určitá

speciační událost

koalescence: bod v čase, ve kterém se alely spojují do nejbližšího společného předka (MRCA = most recent common ancestor); looking backward in time

ge

ne

ratio

ns

population size



Complete lineage sorting of ancestral polymorphism

ideální stav pro rekonstrukci fylogeneze:z původního poolu alel (= ancestral polymorphism) se vlivem genet. driftu a

mutací zachovaly pouze alely reflektující fylogenezi taxonů A, B, C (= complete sorting)

ge

ne

ratio

ns

population size



Incomplete lineage sorting of ancestral polymorphism

gene tree ≠ species tree!g

en

era

tion

s

population size



Co ovlivňuje incomplete lineage sorting (of ancestral polymorphism)?

koalescenční teorie – modeluje čas koalescence alel do MRCA v závislosti na efektivní velikosti populace, počtu generací aj. parametrech

pravděpodobnost ILS je vyšší: u species trees s krátkými větvemi – rychlé/recentní speciace, množství

generací které u nich uběhlo je zatím nedostatečné pro kompletní sorting

u větších populací (= méně náchylných k ovlivnění genet. driftem) jsou alely sortovány obtížněji → vyšší pravděpodobnost ILS


př.: evolučně mladý taxon (A) – může působit parafylii taxonu, ze kterého se recentně odštěpil (B) → paraphyletic speciation (na populační úrovni)


Rosenberg 2003. The shapes of neutral gene genealogies in two species: probabilities of monophyly, paraphyly, and polyphyly in a coalescent model. Evolution 57: 1465-1477.

bezprostředně po speciaci je nepravděpodobnější polyfylie

po ~1300N generacích je nejpravděpodobnější parafylie

po ~1665N generacích je teprve pravděpodobná reciproční mohofylie

a teprve po ~5298N generacích je monofylie detekovatelná u 99% lokusů

(N = velikost populace)



Rekonstrukce species tree z gene trees zatížených ILS/DC: maximum parsimony přístup – hledá topologii, která minimalizuje počet

deep coalescence / lineage sorting události (choose the tree minimizing the number of extra gene lineages that had to coexist along species lineages); programy MDC, SD

maximum likelihood – zohledňují také pravděpodobnost deep coalescence / lineage sorting události (koalescenční modely); programy STEM, BEST, BEAST



Genové duplikace / ztráty pokud dojde k duplikaci, oba ´dceřinné´ kopie genů by ± měly odrážet

fylogenezi taxonů (pokud dokážeme určit homologii!):

→

... ale neplatí pokud dále dochází k ztrátám některých kopií:

species tree gene tree

≠→



Genové duplikace / ztráty nebo může dojít k pseudogenizaci → vyšší mutační rychlost, nižší GC

obsah, ztráta intronů → pseudogen je při PCR preferenčně amplifikován

Program GeneTree – reconciled gene trees: ze zadaného species tree vytvoří pro daný dataset gene tree(s) tak, aby

byl minimalizován počet duplikací / ztrát nebo zadáme data z více genů a vytvoří species tree který minimalizuje

počet duplikací / ztrát / případně i deep coalescent událostí



Hybridizace (reticulations)

recentní hybridi mohou mít oba rodičovské haplotypy jako paralogy (A + B)

typická je inkongruence signálu v cpDNA a jaderné DNA

někdy může být problém s odlišením od duplikace / ztráty genů

zohlednit další data (morfologie apod.)

nebo náhodně přepnou na haplotyp jednoho z rodičů → polyfyletické

může docházet i k rekombinaci

haplotyp = informace z 1 vlákna DNA; v praxi se termín používá pro označení konkrétního sekvenčního typu, ~ genotyp

vhodné pro řešení vztahů na populační úrovni: na této úrovni nemusí být dostatečná variabilita sekvenčních dat,

umožňující jednoznačnou rekonstrukci fylogeneze v populaci se vyskytují ancestrální haplotypy haplotypy můžou být ovlivněné rekombinací

x fylogenetické stromy nepředpokládají ani neumožňují zohlednit!

program TCS http://darwin.uvigo.es/software/tcs.html

Haplotypové sítě

TCS haplotype network:

Maximum Parsimonystrict consensus tree

výsledkem je síť, ve které vzdálenosti mezi haplotypy odpovídají datům z matice distancí

Haplotypové sítě

spočítá matici distancí

TCS haplotype network: haplotypy propojí, pouze pokud tzv. pravděpodobnost parsimonie

přesáhne 95% (event. lze použít i nižší cut-off) → tj. v praxi nespojí příliš diverzifikované sekvence

velikost symbolů haplotypů = četnost daného haplotypu spoující čáry = jeden mutační krok nody = hypotetické missing haplotypes retikulace sítě = nejistoty parsimoniálních vztahů mezi

sekvencemi, tj. různé evoluční scénáře, nebo ovlivnění rekombinací

Haplotypové sítě

Těšitel J, Malinová T, Štech M & Herbstová M. 2009. Variation in the Melampyrum sylvaticum group in the Carpathian and Hercynian region: two lineages with different evolutionary histories. Preslia 81: 1–22.

Haplotypové sítě

V Karpaty – potenciální refugium (větší diverzita haplotypů)

Hercynikum + Z Karpaty:nižší diverzitapostglaciální migrace z Alp?

Fylogeografie

Beatty GE & Provan J. 2011. Comparative phylogeography of two related plant species with overlapping ranges in Europe, and the potential effects of climate change on their intraspecific genetic diversity. BMC Evolutionary Biology, 11: 29.

Haplotypové sítě

JV Evropa: potenciální refugium

směrem na sever klesá diverzita haplotypů

Fylogeografie


výběr substitučního modelu: např. program JModelTest:

• naloadujeme alignment (.nex); zvolíme, kolik typů modelů chceme testovat

• program vezme náš alignment, a pro každý zvolený typ modelu zkouší měnit parametry modelu (= vlastní číselné hodnoty frekvence bází, pravděp. jednotlivých substitucí atd.) - aby dával stromy s nejlepším likelihoodem

stromy dělá např. pomocí ML, nebo u velkých datasetů možné použít rychlé distanční metody (NJ)

• pro každý typ modelu tedy vybere nejlepší parametry ...

• ... a takto vyoptimalizované typy modelů dále vzájemně porovná, vybere ten s nejlepší (= nejnižší) hodnotou:

AIC (Akaikovo informační kriterium)BIC (Bayesovo informační kriterium)

→ porovnává, zda zesložitění modelu povede k průkaznému zlepšení

Fylogenetická analýza – praktické návody


Analysis → Do AIC [nebo BIC] calculations...

vytvoří definici modelu ve formátu pro Paup

výběr substitučního modelu: např. program JModelTest:



jeho definice pro Paup(tip: u parametrů ´Lset base´ a příp. ´rmat´ je z nějakého důvodu nutné vymazat poslední číslo před závorkou, jinak to Paup nevezme)

nejlepší model podle AIC kritéria

celkové pořadí hodnocených modelů


MrBayes

vlastní průběh analýzy: .nex alignment, např. na jeho konec vložíme definici substitučního modelu

jiné než pro Paup! - např. pro GTR+G+INV:BEGIN MRBAYES;

Lset nst=6 rates=invgamma;END;

.nex nakopírujeme do složky s programem a otevřeme execute [název souboru.nex]

spustíme analýzu a zadáme počet generací - stovky tisíc až několik milionů, mcmc ngen=[hodnota], program (defaultně po každé 1000. generaci) vypíše hodnotu S.D.:

run 1 run 2


MrBayes

vlastní průběh analýzy: po uskutečnění zadaného počtu generací se zeptá, zda chceme pokračovat

přidáním dalších generací – rozhodneme se podle hodnoty S.D.

(<0.01 → ok, ukončíme hledání stromů: n; >0.01 → nutno přidat generace: y)


MrBayes

vlastní průběh analýzy: good mixing: řetězy daného runu se náhodně a ± často mění z hot

( na [ cold (předpoklad úspěšné analýzy) run 1 run 2


MrBayes

sumarizace výsledků analýzy: chain swap: zda se navzájem přepínají hot a cold chains

◄ čísla nad diagonálami by se u obou běhů měla pohybovat v rozmezí ~0.1-0.7


MrBayes

sumarizace výsledků analýzy: vizualizace nárůstu likelihoodu stromů během runu: sump

◄ burn-in phase: začátek analýzy, velké rozdíly mezi runy = sampluje horší stromy s nižším likelihoodem


MrBayes

sumarizace výsledků analýzy: odstranění dat z burn-in phase: sump burnin=[hodnota]

jak určit hodnotu burn-in: např. vyhodit první ¼ samplovaných stromů, tj.: ngen/100/4 (100 = protože se nesampluje v každé generaci, ale jen v každé 100. generaci!)

má to logiku, protože S.D. program počítá právě s vyřazením první ¼ samplovaných stromů

ale údajně na to není konzistentní názor...

◄ likelihoody runu 1 a 2 by měly být srovnatelné = promíchané, bez zřetelného trendu


MrBayes

poté už jen vlastní sumarizace stromu: sumt burnin=[hodnota]

◄ fylogram s délkou větví

◄ kladogram s hodnotami podpory větví (CC)

strom uložen s koncovkou .con → stačí přepsat na .tre a dál zpracovat


Haplotypové sítě - práce s TCS: pro analýzu použít všechny sekvence – nekolabovat do haplotypů!

pro stromové metody je naopak vhodné identické sekvence zkolabovat do haplotypů = daný sekvenční typ (haplotyp) použít v matici jen jednou (ostatní vymazat) - aby algoritmus hledání stromů nebyl zahlcen zbytečnými daty

.fas soubor převést na .phy – např. pomocí probramu Fabox

http://users-birc.au.dk/biopv/php/fabox/index.php


Haplotypové sítě - práce s TCS:

otevřeme dataspusíme analýzu


Documents

Metody molekulární biologie v ekologii a systematice rostlin 5 . Sekvenování DNA – 2. část