Upload
fausta
View
117
Download
6
Embed Size (px)
DESCRIPTION
Metody molekulární biologie v ekologii a systematice rostlin 5 . Sekvenování DNA – 2. část Petr Koutecký & Jiří Košnar, 201 3. Vytvořeno v rámci projektu Molekularizace biologických oborů PřF JU reg. č. CZ.1.07/2.2.00/15.0364. Fylogenetická analýza – konstrukce stromů. - PowerPoint PPT Presentation
Citation preview
Metody molekulární biologie v ekologii a systematice rostlin
5. Sekvenování DNA – 2. část
Petr Koutecký & Jiří Košnar, 2013
Vytvořeno v rámci projektu Molekularizace biologických
oborů PřF JU
reg. č. CZ.1.07/2.2.00/15.0364
Fylogenetické stromy - definice
Fylogenetická analýza – konstrukce stromů
nezakořeněný strom (unrooted tree): není z něj patrný směr evoluce
rootování stromu: - předpoklad:
X je sesterské k A-F→ společný předekskupin A-F a X je zde
zakořeněný strom: tree was rooted using X as an outgroup(na této informaci záleží, ne na tvaru stromu!)
zakořenění (rootování) stromu:1. sesterský taxon dané skupiny použijeme jako outgroup (OG)2. na větev mezi ním a zbytkem stromu umístíme kořen stromu
(root)jak vybrat outgroup (OG):a) musí skutečně stát mimo zkoumanou skupinub) neměl by být příliš vzdálený od zkoumané
skupiny – aby byl zalignovatelný
je vhodné zkoušet více různých outgroupů, sledovat, zda a jak ovlivní výsledek!
topologie = konkrétní uspořádání větví
node (uzel)→ branch (větev)→ leaf (konkrétní sekvence)
polytomie = jedna větev nese více sekvencí (DEF)
Monofyletické skupiny
(všechny sekvence dané větve
= clade, monofylum)
Parafyletické skupiny
Polyfyletické skupiny
(sekvence z různých větví)
(rotace větví a změna pořadí sekvencí nemění význam)
nezakořeněné stromy - více možných monofyl! (a ty výše uvedené jsou nesmyslné, pokud z předchozích výsledků víme, že X je prokazatelně sesterské ke zbytku)
Fylogenetické stromy - definice
Fylogenetická analýza – konstrukce stromů
Definice – variabilní stavy znaku
pleziomorfie: původní znak
AA
C
T
T
del.
A
Fylogenetická analýza – konstrukce stromů
apomorfie: odvozený znak
• synapomorfie: sdílený odvozený znak; charakterizuje monofyl. skupinyskupina (C,D,E,F): AA na pozici 13-14; skupina (D,E,F): C na pozici 19
• autapomorfie: nesdílený (unikátní) odvozený znak – fylogeneticky neinformativní neovlivní topologii (pouze prodlouží větev)
sekvence E: A na pozici 15.; sekvence F: delece na pozici 21-28
homoplazie: nezávisle vzniklý znak, klamný signál!sekvence A a D: T na 3. pozici
• synpleziomorfie: sdílený původní znakskupina (X,A,B): GG na pozici 13-14; skupina (X,A,B,C): T na pozici 19)
Metody konstrukce stromů - Maximum Parsimony (MP) nejlepší strom = nejkratší strom s nejnižším počtem změn (most
parsimonious tree); parsimony = úspornost, nebo skrblictví, skoupost, nemístná šetrnost...
změna = jakákoli mutace včetně indelů (pokud je zakódujeme!) se počítá jako 1 změna → žádné apriorní předpoklady, všechny změny považuje za stejně pravděpodobné
fylogram stejný strom, ale zobrazený jako kladogram (pouze topologie, délka větví nic neznamená)
fylogram - délka jednotlivých větví nejkr. stromu odráží počet změn sekvence:
Fylogenetická analýza – konstrukce stromů
Metody konstrukce stromů - Maximum Parsimony (MP)
jak najít nejkratší strom programy: Paup, TNT, Nona apod.
a) vyzkoušet všechny možné topologie = exhaustive search (Paup: alltrees)
• zajišťuje nalezení nejkratšího stromu, ale technicky použitelné jen pro <12 sekvencí
b) heuristic search (hs)
• není zaručeno, že se skutečně podaří nalézt nejkratší strom
• různé algoritmy, lišící se výkonností a exhaustivitou, např.:
• postupným přidáváním sekvencí do stromu (addseq=random) vytvoří startovací strom, a různými postupy (swap=tbr nebo spr, mni) u něj přehazuje větve (branch swapping)
• celý postup tvorby startovacího stromu a prohazování větví lze několikrát zopakovat (addseq=random nreps=[počet opak., např. 100 apod.; default je 10])
• volba Maxtrees (např. Paup) – celkový počet uložených nejkratších stromů
• program TNT – freeware, rychlejší než Paup, používá tzv. new technology search
Fylogenetická analýza – konstrukce stromů
Metody konstrukce stromů - Maximum Parsimony (MP) často více stejně dobrých stromů → výsledný strom je vyjádřen
pomocí consensus tree (Paup: contree; pro uložení: contree/treefile=[název].tre):
• strict consensus tree – zahrne pouze monofyla přítomná na všech nejkratších stromech → bývá nejméně rozlišený, polytomie
• semi-strict consensus tree – monofyla, která nejsou v rozporu s ostatními nejkr. stromy (např. pokud je skupina na jednom nejkratším stromě jako monofylum, a na jiném je nerozlišená v polytomii)
• majority consensus tree – monofyla, která jsou přítomná u určitého min. % nejkratších stromů (např. 50 a více %); čísla na jeho větvích značí, v kolika nejkratších stromech se daný clade (monofylum) vyskytl
analýza našla 3 nejkratší stromy s délkou 1325 změn...
... 2 různé typy consensus stromů, s odlišnou topologií!
výsledky různých typů consensus tree se mohou lišit:
Fylogenetická analýza – konstrukce stromů
Metody konstrukce stromů - Maximum Parsimony (MP)
interpretovat radši jen strict consensus tree - stejně dlouhé stromy jsou rovnocenné hypotézy, nemá cenu některé vybírat na úkor jiných!
consensus tree nemá délky větví, pouze topologii
• pokud chceme zobrazit délku větví, zobrazit pro ilustraci ještě např. jeden z nejkratších stromů (Paup: describetrees/plot=phylogram; pro uložení: savetree file=[název].tre brlens=yes)
nevýhody MP:
• předpoklady MP příliš jednoduché: evoluce nemusí běžet nejkratší cestou (parsimoniálně) s jednotnou pravděpodobností změn
x spíše ideologický spor, nikdy s jistotou nevíme, jak evoluce běží
• long-branch attraction (LBA): tendence dávat k sobě sekvence s dlouhými větvemi, nebo dlouhé větve stahovány k outgroupu (protože OG je taky
obvykle dlouhá větev)
MP obecně funguje hůř u taxonů s nerovnoměrnou a rychlou evolucí
Fylogenetická analýza – konstrukce stromů
Metody konstrukce stromů - Maximum Parsimony (MP)
testování fylogenetického signálu: Bootstrap Support (BS): použitelný i pro některé další metody konstrukce
stromů
• resampling: náhodně vybraná část sloupců matice (= pozic alignmentu) z matice vymazána, a nahrazena jinými náhodně vybranými sloupci
• pro každou novou matici nalezeny nejkratší stromy
• zopakováno aspoň 500x - 1000x
• z resamplovaných stromů 50% majority consensus tree, který ukazuje BS jednotlivých monofyl. větví (protože je to 50% consensus tree, zobrazí pouze větve s BS>50) (Paup: bootstrap nreps= [počet opak.]; protože se prování velký počet replikací – tvorby stromů, u větších datasetů se často používá méně exhaustivní vyhledávání – např. méně nebo žádné replikace addseq, nižší hodnota Maxtrees)
• Jackknife – resampling bez náhrady dat, matice se zmenšuje
vyjadřuje, jaké množství znaků podporuje danou monofyl. větev
no support: BS<50; poor support: BS=50-70; good support: BS>70
Fylogenetická analýza – konstrukce stromů
Metody konstrukce stromů - Maximum Parsimony (MP)
testování fylogenetického signálu: Decay Index (DI, Bremer Support): lze použít pouze pro MP
• testuje, o kolik kroků delší strom způsobí zkolabování dané větve do polytomie
nejkratší strom, délka L=139 strom o 1 změnu delší (L=140) způsobí zkolabování větve → pro danou větev Decay index = 1
asi se nedá říct, jaké hodnoty DI jsou dobré (nízké hodnoty typu DI = 1 jsou ale špatné)
• např. pro větev (D,E,F):
Fylogenetická analýza – konstrukce stromů
Metody konstrukce stromů – Maximum likelihood (ML)
využívají substituční modely: ne všechny změny a stavy znaků musí být stejně pravděpodobné, evoluce nemusí běžet nejkratší cestou
hledají strom (topologie + délky větví), který za platnosti vybraného substitučního modelu nejlépe odráží variabilitu daných sekvencí = strom s tzv. maximum likelihood (největší pravděpodobností)
vytvoří konkrétní strom, a spočítá jeho likelihood (L):
vynásobí likelihoody všech konkrétních pozice alignmentu → aby výsledný likelihood stromu nebylo moc malé číslo, je vyjádřen logaritmicky (ln L)
který substituční model je správný? (např. program JModelTest)
- ten, který dává stromy s nejvyšším likelihoodem
možné použít bootstrap (může být problém s uskutečnitelností počtu replikací - kvůli výpočetní náročnosti)
Fylogenetická analýza – konstrukce stromů
1. substituční schéma:
- pravděpodobnost substitucí - tranzicí a transverzí (, ; příp. každý typ substituce se specifickou pravděpodobností)
Metody konstrukce stromů – Maximum likelihood (ML)
Fylogenetická analýza – konstrukce stromů
substituční modely:
1. substituční schéma:
- pravděpodobnost substitucí - tranzicí a transverzí (, ; příp. každý typ substituce se specifickou pravděpodobností)
JC
A=C=G=T
=
JC
A=C=G=T
=
HKY
ACGT
HKY
ACGT
GTR
ACGT
a,b,c,d,e,f
GTR
ACGT
a,b,c,d,e,f
TMP1 (K2P)
A=C=G=T
TMP1 (K2P)
A=C=G=T
různá frekvence různá frekvence tranzicí/transverzí (tranzicí/transverzí (/)
různá frekvence různá frekvence trantranzziicící/transvers/transversí (í (/)
F81
ACGT
=
F81
ACGT
=rozdílná frekvence bázírozdílná frekvence bází
rozdílná frekvence bázírozdílná frekvence bází
nejsložitější model: každá báze má specifickou frekvenci, každý typ substituce má specifickou pravděpodobnost, a-f)
nejjednodušší model: všechny báze mají stejnou frekvenci (), všechny typy substitucí stejně pravděpodobné
Metody konstrukce stromů – Maximum likelihood (ML)
Fylogenetická analýza – konstrukce stromů
• nejjednodušší JC (Jukes-Cantor) → odpovídá předpokladu max. parsimonie → MP je nejjednodušším případem ML
substituční modely:
- frekvence bází ()
2. součástí substitučního modelu může být dále informace o:
a) míře variability pozic alignmentu - substitution rates across sites
→ zohledňuje, že jednotlivé pozice se liší mutační rychlostí; používá se křivka gamma distribuce, její parametr α určuje tvar (shape):
Metody konstrukce stromů – Maximum likelihood (ML)
Fylogenetická analýza – konstrukce stromů
b) můžeme předpokládat, že v alignmentu je určitá část pozic invariabilních: proportion of invariable sites (p-inv = [hodnota])
α < 1: velká variabilita substitučních rychlostí
α > 1: většina pozic má ± střední hodnotu rychlosti substitucí (plocha ´píku´ distribuce), zbytek (´okraje´ křivky) představuje hodně nebo naopak málo rychlá místa
Metody konstrukce stromů – Maximum likelihood (ML)
likelihood konkrétní pozice alignmentu (pro daný zvažovaný strom a substituční model):
• vybere pro danou pozici možný původní stav, např. A
• spočítá jaká je pravděp. výskytu daného stavu A – z frekvence bází,
• a tu dál násobí pravděp. pro její mutaci na stav v další úrovni stromu, např. na T – z pravděp. jednotlivých typů substitucí
• tímto způsobem dopočítá likelihood pro celou topologii stromu
AT
G, C, T, A, T – stavy znaku na dané pozici alignmentu
Fylogenetická analýza – konstrukce stromů
programy pro vlastní analýzu:
Paup (set criterion=likelihood; hs - vlastní hledání stromu probíhá heuristickou metodou, obdobné jako u parsimonie - možné použít addseq, branch swapping, stejně tak ukládání stromů a bootstrap)
Phyml – přepíná z distančního modu na ML, rychlejší analýzahttp://www.atgc-montpellier.fr/phyml/binaries.php
Metody konstrukce stromů – Maximum likelihood (ML)
Fylogenetická analýza – konstrukce stromů
nevýhody ML:
• výpočetně náročnější než MP a distanční metody
• nelze použít indely
• ideologický spor – zda je správné používat modely substitucí
x jsou to modely které nemusí být správné...
• najde pouze 1 nejlepší strom, a neukáže potenciálně dobré stromy s nepatrně menší hodnotou likelihoodu
• asi už překonané Bayesovskou inferencí
Metody konstrukce stromů – distanční metody
vymyšlené jako (překvapivě dobře fungující) náhražka ostatních, výpočetně náročnějších metod
v dnešní době překonané, uplatnění snad jen u příliš velkých souborů, které nejde technicky jinak zpracovat
základem je spočítání p-distancí pro každý pár sekvencí, případně jejich převedení na evolutionary distances – pomocí zvoleného substitučního modelu (JModelTest)
Fylogenetická analýza – konstrukce stromů
Metody konstrukce stromů – distanční metody
distance použity k tvorbě stromu:
a) pomocí optimalizačního kriteria – ME (Minimum Evolution)
sestaví strom tak, aby topologie a délky větví nejvíce odpovídaly matici distancí → dávaly nejkratší strom; nejlepší distanční metoda, ale relativně výpočetně náročná
b) pomocí klastrovacího algoritmu – UPGMA, NJ (Neighbor Joining)
např. UPGMA – postupně přidává sekvence: do prvního monofyla spojí 2 sekvence s nejmenší distancí, k nim připojí další sekvenci která k nim má nejmenší distanci atd.
možné použít bootstrapPaup: set criterion=distance; NJ; UPGMA; případně použít blok s definicí substitučního modelu – viz dále; ukládání stromů a boostrap obdobně jako u MP)
Fylogenetická analýza – konstrukce stromů
Metody konstrukce stromů – distanční metody
nevýhody distančních metod:
• výsledkem jediný strom, který je silně rozlišený → nemáme šanci zjistit (jen o malinko horší) alternativní topologie
reálná fylogeneze UPGMA strom:
nedá k sobě dlouhé větve A a D
• některé metody z principu takřka neumožňují detekovat určité topologie reálné fylogeneze, např. UPGMA:
Fylogenetická analýza – konstrukce stromů
Bayesian Inference – program MrBayes
založené na pravděpodobnosti podobně jako ML složitá teorie... lepší vyhledávač stromů než ML nepoužívá se bootstrap, ale podpora větví vyjádřená jako tzv.
posterior probability = clade credibility value (CC):
• CC mívá vyšší hodnoty než BS, ale to neznamená, že Bayesovský strom je lepší než strom nalezený jinou metodou a testovaný BS!
• poor support: CC<90, moderate support: CC 90-95, good support: CC>95
Fylogenetická analýza – konstrukce stromů
http://mrbayes.sourceforge.net/download.php
výběr modelu (pokud JModelTest vybere model který nejde v MrBayes nastavit, tak se doporučuje použít nejbližší složitější model)
pro analýzu není třeba specifikovat číselné hodnoty parametrů modelu, pouze jeho typ = tj. konkrétní substituční schéma + zda předpokládat gamma distribution, proportion of invariable sites
Fylogenetická analýza – konstrukce stromů
Bayesian Inference – program MrBayes
MrBayes
princip analýzy: heuristický typ analýzy program běží (minimálně) 2 nezávislé běhy – runy, začínají vytvořením
nějakého (např. náhodného) stromu jednotkou runu je generace, během 1 generace program strom změní,
dané řešení uloží → postupné vylepšování stromu výsledné stromy z obou běhů jsou porovnávány, zda se běhy blíží ke
shodě – tzv. konvergenci (shoda indikuje, že se pravděpodobně opravdu blíží nejlepší strom)
kriteriem konvergence je standard deviation of split frequencies = zda se výsledek obou běhů statisticky průkazně liší (používá se hladina průkaznosti 0.01, příp. u obtížných datasetů 0.05)
když S.D.<0.01, spočítá z uložených stromů 50% majority rule consensus tree → clade credibility values jednoduše odráží, v kolika uložených stromech se dané monofylum vyskytlo
Fylogenetická analýza – konstrukce stromů
MrBayes3D krajina potenciálních stromů: některé stromy s vyšším likelihoodem
= vyšší píky → ty chceme samplovat
Fylogenetická analýza – konstrukce stromů
šplhání po píku:
• během generace se pozmění topologie + délka větví + parametry substitučního modelu, a spočítá poměr:
R = likelihood pozměněného stromu / likelihood původního stromu
• když je R > náhodně vygenerované číslo 0-1, tak změna akceptována
→ vylepšení stromu vždy akceptováno; akceptovány obvykle i trochu horší stromy (které pak ale můžou sloužit jako mezikrok k ještě lepším...)
like
lih
oo
d
MrBayes3D krajina potenciálních stromů: zároveň riziko uvíznutí na suboptimálnímpíku, neschopnost překonat údolí k dalšímu, potenciálně ještě vyššímu píku
Fylogenetická analýza – konstrukce stromů
řešení – cold a hot chains:
• každý run z několika chains (default je 4), časem se pravděpodobně každý chain dostane na nějaký pík a stoupá po něm
• ale pouze jeden z nich – cold chain – sampluje a ukládá stromy (defaultně v každé 100. generaci)
• ostatní hot chains (defaultně 3) – vidí ´flattened´ krajinu, rozdíly mezi píky snížené → větší pravděpodobnost přeskoku z píků (přes údolí)
• v závislosti na cold chain temperature (default 0.2) se mezi chains přepíná mezi cold a hot modem → umožní samplovat více píků
like
lih
oo
d
MrBayes
nevýhody Bayesian Inference:
• výpočetně náročné – zejména pro velké datasety, nebo pro datasety se slabým signálem
• kritika použití substitučních modelů (viz ML)
• gapy možné použít jedině s binárním kódováním (0/1 = absent/present)
Fylogenetická analýza – konstrukce stromů
když je S.D. (rozdíl mezi runy) stále vysoké, může pomoci:
• přidání dalších generací
• pustit novou analýzu se změněnou teplotou cold chain mcmc ngen=[hodnota] temp=[hodnota]
• pustit novou analýzu a zvýšit celkový počet chains mcmc ngen=[hodnota] temp=[hodnota] nchains=[hodnota]
• celkově vzato to značí, že máme složitý dataset, nebo dataset s malou fylogenetickou informací...
Vizualizace fylogenetických stromů
Fylogenetická analýza – konstrukce stromů
programy: TreeView, Dendroscope aj. – pracují s .tre formátem na větve namapovat hodnoty BS, CC k sekvencím vždy připojit accession numbers z veřejné databáze
Fylogenetická analýza – konstrukce stromů
Obecné zásady interpretace fylogenetických stromů
• interpretovat radši jen topologie, které vycházejí stejně za použití různých metod
• interpretovat jen statisticky podpořené topologie (BS, CC)
• topologie může být ovlivněná i rozsahem samplingu – snažit se o co nejúplnější sampling
• důkaz polyfylie urč. skupiny: nestačí jen detekovat polyfylii u nejlepšího stromu; je dobré porovnat marginal likelihoods (MrBayes) stromů s constraints na monofylii / polyfylii (polyfyletický constraint by měl mít výrazně vyšší likelihood)
• u podezřelých sekvencí radši daný vzorek znova sekvenovat - možnost záměny vzorků, nevěřit úplně ani sekvencím z databází!
• používat data z více úseků
Fylogenetická analýza – konstrukce stromů
Gene tree vs. Species tree
fylogenezi taxonů (species tree) rekonstruujeme na základě fylogeneze daného úseku DNA (gene tree získaný z molek. dat)
každý gen ale může mít trochu jinou evoluční historii – zásadně ji ovlivňují události jako: incomplete lineage sorting (of ancestral polymorphism)
(= deep coalescence) duplikace / ztráty genů hybridizace / horizontální přenos genů rekombinace
Maddison W.P. 1996. Gene trees in species trees. Systematic Biology 46: 523-536.
Fylogenetická analýza – konstrukce stromů
Gene tree vs. Species tree
Incomplete lineage sorting of ancestral polymorphism (deep coalescence) populace společného předka daných taxonů má určitý pool alel deep coalescence: koalescence ancestrálních alel je starší než určitá
speciační událost
koalescence: bod v čase, ve kterém se alely spojují do nejbližšího společného předka (MRCA = most recent common ancestor); looking backward in time
ge
ne
ratio
ns
population size
Fylogenetická analýza – konstrukce stromů
Gene tree vs. Species tree
Complete lineage sorting of ancestral polymorphism
ideální stav pro rekonstrukci fylogeneze:z původního poolu alel (= ancestral polymorphism) se vlivem genet. driftu a
mutací zachovaly pouze alely reflektující fylogenezi taxonů A, B, C (= complete sorting)
ge
ne
ratio
ns
population size
Fylogenetická analýza – konstrukce stromů
Gene tree vs. Species tree
Incomplete lineage sorting of ancestral polymorphism
gene tree ≠ species tree!g
en
era
tion
s
population size
Fylogenetická analýza – konstrukce stromů
Gene tree vs. Species tree
Co ovlivňuje incomplete lineage sorting (of ancestral polymorphism)?
koalescenční teorie – modeluje čas koalescence alel do MRCA v závislosti na efektivní velikosti populace, počtu generací aj. parametrech
pravděpodobnost ILS je vyšší: u species trees s krátkými větvemi – rychlé/recentní speciace, množství
generací které u nich uběhlo je zatím nedostatečné pro kompletní sorting
u větších populací (= méně náchylných k ovlivnění genet. driftem) jsou alely sortovány obtížněji → vyšší pravděpodobnost ILS
Fylogenetická analýza – konstrukce stromů
př.: evolučně mladý taxon (A) – může působit parafylii taxonu, ze kterého se recentně odštěpil (B) → paraphyletic speciation (na populační úrovni)
Gene tree vs. Species tree
Rosenberg 2003. The shapes of neutral gene genealogies in two species: probabilities of monophyly, paraphyly, and polyphyly in a coalescent model. Evolution 57: 1465-1477.
bezprostředně po speciaci je nepravděpodobnější polyfylie
po ~1300N generacích je nejpravděpodobnější parafylie
po ~1665N generacích je teprve pravděpodobná reciproční mohofylie
a teprve po ~5298N generacích je monofylie detekovatelná u 99% lokusů
(N = velikost populace)
Fylogenetická analýza – konstrukce stromů
Gene tree vs. Species tree
Rekonstrukce species tree z gene trees zatížených ILS/DC: maximum parsimony přístup – hledá topologii, která minimalizuje počet
deep coalescence / lineage sorting události (choose the tree minimizing the number of extra gene lineages that had to coexist along species lineages); programy MDC, SD
maximum likelihood – zohledňují také pravděpodobnost deep coalescence / lineage sorting události (koalescenční modely); programy STEM, BEST, BEAST
Fylogenetická analýza – konstrukce stromů
Gene tree vs. Species tree
Genové duplikace / ztráty pokud dojde k duplikaci, oba ´dceřinné´ kopie genů by ± měly odrážet
fylogenezi taxonů (pokud dokážeme určit homologii!):
→
... ale neplatí pokud dále dochází k ztrátám některých kopií:
species tree gene tree
≠→
Fylogenetická analýza – konstrukce stromů
Gene tree vs. Species tree
Genové duplikace / ztráty nebo může dojít k pseudogenizaci → vyšší mutační rychlost, nižší GC
obsah, ztráta intronů → pseudogen je při PCR preferenčně amplifikován
Program GeneTree – reconciled gene trees: ze zadaného species tree vytvoří pro daný dataset gene tree(s) tak, aby
byl minimalizován počet duplikací / ztrát nebo zadáme data z více genů a vytvoří species tree který minimalizuje
počet duplikací / ztrát / případně i deep coalescent událostí
Fylogenetická analýza – konstrukce stromů
Gene tree vs. Species tree
Hybridizace (reticulations)
recentní hybridi mohou mít oba rodičovské haplotypy jako paralogy (A + B)
typická je inkongruence signálu v cpDNA a jaderné DNA
někdy může být problém s odlišením od duplikace / ztráty genů
zohlednit další data (morfologie apod.)
nebo náhodně přepnou na haplotyp jednoho z rodičů → polyfyletické
může docházet i k rekombinaci
haplotyp = informace z 1 vlákna DNA; v praxi se termín používá pro označení konkrétního sekvenčního typu, ~ genotyp
vhodné pro řešení vztahů na populační úrovni: na této úrovni nemusí být dostatečná variabilita sekvenčních dat,
umožňující jednoznačnou rekonstrukci fylogeneze v populaci se vyskytují ancestrální haplotypy haplotypy můžou být ovlivněné rekombinací
x fylogenetické stromy nepředpokládají ani neumožňují zohlednit!
program TCS http://darwin.uvigo.es/software/tcs.html
Haplotypové sítě
TCS haplotype network:
Maximum Parsimonystrict consensus tree
výsledkem je síť, ve které vzdálenosti mezi haplotypy odpovídají datům z matice distancí
Haplotypové sítě
spočítá matici distancí
TCS haplotype network: haplotypy propojí, pouze pokud tzv. pravděpodobnost parsimonie
přesáhne 95% (event. lze použít i nižší cut-off) → tj. v praxi nespojí příliš diverzifikované sekvence
velikost symbolů haplotypů = četnost daného haplotypu spoující čáry = jeden mutační krok nody = hypotetické missing haplotypes retikulace sítě = nejistoty parsimoniálních vztahů mezi
sekvencemi, tj. různé evoluční scénáře, nebo ovlivnění rekombinací
Haplotypové sítě
Těšitel J, Malinová T, Štech M & Herbstová M. 2009. Variation in the Melampyrum sylvaticum group in the Carpathian and Hercynian region: two lineages with different evolutionary histories. Preslia 81: 1–22.
Haplotypové sítě
V Karpaty – potenciální refugium (větší diverzita haplotypů)
Hercynikum + Z Karpaty:nižší diverzitapostglaciální migrace z Alp?
Fylogeografie
Beatty GE & Provan J. 2011. Comparative phylogeography of two related plant species with overlapping ranges in Europe, and the potential effects of climate change on their intraspecific genetic diversity. BMC Evolutionary Biology, 11: 29.
Haplotypové sítě
JV Evropa: potenciální refugium
směrem na sever klesá diverzita haplotypů
Fylogeografie
Metody konstrukce stromů – Maximum likelihood (ML)
výběr substitučního modelu: např. program JModelTest:
• naloadujeme alignment (.nex); zvolíme, kolik typů modelů chceme testovat
• program vezme náš alignment, a pro každý zvolený typ modelu zkouší měnit parametry modelu (= vlastní číselné hodnoty frekvence bází, pravděp. jednotlivých substitucí atd.) - aby dával stromy s nejlepším likelihoodem
stromy dělá např. pomocí ML, nebo u velkých datasetů možné použít rychlé distanční metody (NJ)
• pro každý typ modelu tedy vybere nejlepší parametry ...
• ... a takto vyoptimalizované typy modelů dále vzájemně porovná, vybere ten s nejlepší (= nejnižší) hodnotou:
AIC (Akaikovo informační kriterium)BIC (Bayesovo informační kriterium)
→ porovnává, zda zesložitění modelu povede k průkaznému zlepšení
Fylogenetická analýza – praktické návody
Metody konstrukce stromů – Maximum likelihood (ML)
Analysis → Do AIC [nebo BIC] calculations...
vytvoří definici modelu ve formátu pro Paup
výběr substitučního modelu: např. program JModelTest:
Fylogenetická analýza – praktické návody
Metody konstrukce stromů – Maximum likelihood (ML)
jeho definice pro Paup(tip: u parametrů ´Lset base´ a příp. ´rmat´ je z nějakého důvodu nutné vymazat poslední číslo před závorkou, jinak to Paup nevezme)
nejlepší model podle AIC kritéria
celkové pořadí hodnocených modelů
Fylogenetická analýza – praktické návody
MrBayes
vlastní průběh analýzy: .nex alignment, např. na jeho konec vložíme definici substitučního modelu
jiné než pro Paup! - např. pro GTR+G+INV:BEGIN MRBAYES;
Lset nst=6 rates=invgamma;END;
.nex nakopírujeme do složky s programem a otevřeme execute [název souboru.nex]
spustíme analýzu a zadáme počet generací - stovky tisíc až několik milionů, mcmc ngen=[hodnota], program (defaultně po každé 1000. generaci) vypíše hodnotu S.D.:
run 1 run 2
Fylogenetická analýza – praktické návody
MrBayes
vlastní průběh analýzy: po uskutečnění zadaného počtu generací se zeptá, zda chceme pokračovat
přidáním dalších generací – rozhodneme se podle hodnoty S.D.
(<0.01 → ok, ukončíme hledání stromů: n; >0.01 → nutno přidat generace: y)
Fylogenetická analýza – praktické návody
MrBayes
vlastní průběh analýzy: good mixing: řetězy daného runu se náhodně a ± často mění z hot
( na [ cold (předpoklad úspěšné analýzy) run 1 run 2
Fylogenetická analýza – praktické návody
MrBayes
sumarizace výsledků analýzy: chain swap: zda se navzájem přepínají hot a cold chains
◄ čísla nad diagonálami by se u obou běhů měla pohybovat v rozmezí ~0.1-0.7
Fylogenetická analýza – praktické návody
MrBayes
sumarizace výsledků analýzy: vizualizace nárůstu likelihoodu stromů během runu: sump
◄ burn-in phase: začátek analýzy, velké rozdíly mezi runy = sampluje horší stromy s nižším likelihoodem
Fylogenetická analýza – praktické návody
MrBayes
sumarizace výsledků analýzy: odstranění dat z burn-in phase: sump burnin=[hodnota]
jak určit hodnotu burn-in: např. vyhodit první ¼ samplovaných stromů, tj.: ngen/100/4 (100 = protože se nesampluje v každé generaci, ale jen v každé 100. generaci!)
má to logiku, protože S.D. program počítá právě s vyřazením první ¼ samplovaných stromů
ale údajně na to není konzistentní názor...
◄ likelihoody runu 1 a 2 by měly být srovnatelné = promíchané, bez zřetelného trendu
Fylogenetická analýza – praktické návody
MrBayes
poté už jen vlastní sumarizace stromu: sumt burnin=[hodnota]
◄ fylogram s délkou větví
◄ kladogram s hodnotami podpory větví (CC)
strom uložen s koncovkou .con → stačí přepsat na .tre a dál zpracovat
Fylogenetická analýza – praktické návody
Haplotypové sítě - práce s TCS: pro analýzu použít všechny sekvence – nekolabovat do haplotypů!
pro stromové metody je naopak vhodné identické sekvence zkolabovat do haplotypů = daný sekvenční typ (haplotyp) použít v matici jen jednou (ostatní vymazat) - aby algoritmus hledání stromů nebyl zahlcen zbytečnými daty
.fas soubor převést na .phy – např. pomocí probramu Fabox
http://users-birc.au.dk/biopv/php/fabox/index.php
Fylogenetická analýza – praktické návody
Haplotypové sítě - práce s TCS:
otevřeme dataspusíme analýzu
Fylogenetická analýza – praktické návody