Upload
others
View
16
Download
0
Embed Size (px)
Citation preview
1
Fernstudium"Molekulare Phylogenie"
Bernhard LiebMichael Schaffeld
Institut für ZoologieUniversität Mainz
2
Wie erhalte ich aus meinen (Sequenz-) Daten einen Stammbaum, und was sagt mir dieser?
Sequenz 1: KIADKNFTYRHHNQLVSequenz 2: KVAEKNMTFRRFNDIISequenz 3: KIADKDFTYRHW-QLV ⇒Sequenz 4: KVADKNFSYRHHNNVVSequenz 5: KLADKQFTFRHH-QLV Sequenz 5
Sequenz 3
Sequenz 2
Sequenz 4
Sequenz 1
Ziel des Kurses
3
Programm
• Datenbanken
• Sequenzalignment
• Stammbaumerstellung
• Statistische Auswertung
4
Warum Phylogenie?
⇒Weshalb ist das Verständnis von phylogenetischen Zusammenhängen wichtig?
• Organismische Evolution (Systematik)
• Evolution von Proteinfamilien (Funktion)
• Medizin (Epidemiologie)
• Forensik (CSI Miami)
=> Stammbäume
5
Voraussetzungen der
Wieso können Phylogenien aus den heute existierenden Daten abgeleitet werden?
Phylogenie
6
AAGACTT
TAGCCCT AGCACTT
AAGGCCT AGGACTT
AGCGCTTAGCACAATAGACTTTAGCCCAAGGGCAT heute
AGGGCAT
A B C D EOTU
TAGCCCT AGCACTT
AAGGCCT AGGACTT
AGCGCTTAGCACAATAGACTTTAGCCCAAGGGCAT
AGGGCAT
Evolution vollzieht sich durchVeränderungen
7
Verwandte Spezies stammen von einem gemeinsamen Vorfahren ab.
Vorfahre
Nachkomme 1 Nachkomme 2
Gemeinsame Vorfahren
© Dan Graur
8
Vorfahre
Einige Organismen haben einen
Vorfahren, der erst vor kurzem gelebt
hat.
(~5 MYA)
© Dan Graur
9
Vorfahre
© Dan Graur
(~100 MYA)
Andere gemeinsame Vorfahren haben früher gelebt.
10
Vorfahre
© Dan Graur
(1.500 MYA)
Aber: Alle Organismen haben einen gemeinsamen Vorfahren!
11
AAGACTT
TAGCCCT
AAGGCCT TGGACTT
AGCGCTTAGCACAATAGACTTTAGCCCAAGGGCAT
heute
AGGGCAT
Hierarchie und Stammbaum
A B C D E
AGCACTT
Die Entstehung der Spezies erfolgte durch hierarchische Auftrennung, die durch einen Stammbaum darstellbar ist.
12
(1.500 MYA)
(100 MYA)
(5 MYA)
© Dan Graur
13
Ein korrekter Stammbaum
AGCGCTTAGCACAATAGACTTTAGCCCAAGGGCAT heute
A B C D E
14
Rekonstruktion
AGCGCTTAGCACAATAGACTTTAGCCCAAGGGCAT Daten
A B C D E
Rek
onst
rukt
ion
In Merkmalen (Morphologie, Sequenzen) sind dieInformationen über die Vergangenheit gespeichert
15
„Das große Ziel“
Aus den Daten (Sequenzen u.a.) einen Stammbaum erstellen,
der die tatsächlichenhistorischen
Verwandtschaftsverhältnisse widerspiegelt.
16
Warum molekulare Phylogenie?
Rekonstruktion von Verwandtschaftsverhältnissen
A. morphologische Daten (Fossilien, Merkmale, Ontogenie …)B. molekulare Daten (DNA- u. AS-Sequenzen, Gene …)
Die Methoden der molekularen Evolution erlauben die Extraktion der in der DNA bzw. den Proteinen gespeicherten Informationen.
Vorteil der Sequenzdaten:
- leichte Zugänglichkeit- grosse Datenmenge- können aber dennoch zu falschen Ergebnissen führen!
17
Molekulare PhylogenieVorgehensweise zur Stammbaumerstellung:
A. Evolution der Proteine Wo liegt der Ursprung eines Proteins oder einer Proteinfamilie?� Auswahl ähnlicher Sequenzen aus Datenbanken� Sequenzalignment� Molekularphylogenetische Analyse� Statistische Überprüfung
B. Evolution der Organsimen (Tree of Life)Verwandschaft bestimmter Taxa?� Auswahl geeigneter Sequenzen� Sequenzierung (Datenbanken, Klonierung, PCR)� Sequenzalignment usw. (wie oben)
18
Datenbanken
• NCBI – GenBank• DDBJ - DNA• EMBL-EBI• SWISS-PROT• PIR• UniProt• pdb
19
Datenbanksuche
BLAST (Basic Local Alignment Search Tool)=> vergleicht zwei Sequenzen miteinander
BLASTN: Vergleicht eine Nukleinsäuresequenz mitNukleinsäuredatenbank
=> nahe verwandte SequenzenBLASTP: Vergleicht eine Aminosäuresequenz mit
Proteindatenbank.=> entfernt verwandte Sequenzen
z.B. Ausgangspunkt: eigene ermittelte Sequenz (Query)
20
Datenbanksuche
.BLASTX: Vergleicht eine Nukleinsäuresequenz translatiert in allen 6
Leserastern mit Proteindatenbank.=> Für welches Protein kodiert meine Sequenz?
TBLASTN: Vergleicht eine Aminosäuresequenz mit Nukleinsäure-datenbank, die in allen 6 Leserastern translatiert wird.
=> findet z.B. nicht annotierte Proteine in DNA-Daten
TBLASTX: Vergleicht die Translationsprodukte aller 6 Leseraster einer Nukleinsäuresequenz mit den Translationsprodukten aller 6 Leseraster einer Nukleinsäuredatenbank.
=> z.B. entfernte Verwandtschaft unbekannte DNA-Sequenzen
21
BLAST(Basic Local Alignment Search Tool)
PRAXIS 1
22
Multiples Sequenz-Alignments
Gegeben:
Gesucht:
SeqA N A F L SSeqB N A F SSeqC N A K Y L SSeqD N A Y L S
SeqA N A - F L SSeqB N A - F - SSeqC N A K Y L SSeqD N A - Y L S
Indel:
Insertion/Deletion
23
ABCD
Alle Sequenzen werden paarweisemiteinander verglichen
CLUSTALX
-D
0.77-C
0.820.45-B
0.270.890.75-A
DCBA
Berechnung der Distanzen
guide tree
A
D
CB
24
AD
CB
Lücken = "gaps"
Alignment innerhalb der Cluster
B
C
A
D
CLUSTALX
Ähnliche Sequenzen werden zu einem Clustergruppiert
25
BC
AD
ADBC
Sukzessives globales Alignment
neue Lücken = "gaps"
CLUSTALX
alte Lücken = "gaps"
AD
CB
26
Alignment ParameterPRAXIS 2
27
Schwestergruppen
Was ist ein Stammbaum?
� Darstellung der Verwandtschaftsverhältnisse
ABC
A – F auch "operational taxonomic units" (OTUs)
DEF
AB
CD
EF
t t
Taxon/Taxa
28
Phylogenetische Grundbegriffe
A B C D E A B C D E
Dichotomie Polytomie
Ast(branch)
Knotenpunkt(node)
Wurzel(root)
Innengruppe(ingroup)
29
Mono-, Para- und Polyphylie
Monophyletische Taxa:
Alle Nachkommen einer gemeinsamen Stammform
Polyphyletische Taxa:
Keine gemeinsame Stammform (unterschiedliche Vorfahren)
Paraphyletische Taxa:
Nicht alle Nachkommen einer gemeinsamen Stammform
A B C D E F
30
Paraphylumaufgrund von homologen
(ursprünglichen) MerkmalenVögel
"Reptilien"
Schildkröten Krokodile
Eidechsen +
Schlangen
Phylogenetische Grundbegriffe
aber nicht alle Nachkommen werden erfasst
31
"Geier"
Neuwelt-Geier Raubvögel
Polyphylie=> verschiedenen Ursprungs
aufgrund von Homoplasien (Konvergenzen)
Altwelt-Geier
Storchen-vögel
Phylogenetische Grundbegriffe
32
Cladogramm und Phylogramm
B
A
C
D
E
F
Änderungen
A
BC
D
E
F
Cladogramm Phylogramm
A
B
C
D
E
F
Änderungen & Zeit
metrisch ultrametrisch
33
StammbaumOhne Außengruppe: Mit Außengruppe:
Evolutionsrichtung
Neunauge
Hai
Goldfisch
Flösselhecht
Zebrafisch
Forelle
Lungenfisch
Molch
Ochsenfrosch
Krallenfrosch
Mensch
Maus
Stahlen-flosser
Land-wirbeltiere
Flösselhecht
Goldfisch
Neunauge
Hai
Zebrafisch
Lungenfisch
Maus
Mensch
ForelleMolch
Ochsen-frosch
Krallenfrosch
Evolutionsrichtung?
34
Vorgehensweise
Stammbaumberechnung
Multiples Sequenz Alignment
Auswahl der Methode
Evolutionsmodell/Algorithmus
Ergebnisüberprüfung (output)
Sequenzen (Input)
35
Stammbaumerstellung
1. Distanz-orientierte Methoden• UPGMA (Unweighted Pair-Group Method with
Arithmetric Means)• Neighbor-joining• Minimal Evolution
=> Sequenzen werden in Distanzmatrix konvertiert
2. Charakter-orientierte Methoden• Parsimony• Maximum Likelihood
=> jede Position wird als informative Einheit betrachtet
Stammbaumberechnung
Multiples Alignment
Auswahl der Methode
Evolutionsmodell/Algorithmus
Ergebnisüberprüfung
Sequenzen
36
Distanz-orientierte Methoden
Zwei Schritte:
1.Berechnen der paarweisen Abstände zwischen den Sequenzen
2. Erstellen eines Stammbaums anhand dieser Abstandsdaten
Aus ‘jedem‘ Datensatz kann eine Distanzmatrix erstellt werden
Stammbaumberechnung
Multiples Alignment
Auswahl der Methode
Evolutionsmodell/Algorithmus
Ergebnisüberprüfung
Sequenzen
37
1 2 3 4 5Sequenz 1 0.00 Sequenz 2 Sequenz 3 Sequenz 4 Sequenz 5
1 2 3 4 5 Sequenz 1 0.00 0.15 0.20 0.45 0.50Sequenz 2 0.00 0.25 0.40 0.65Sequenz 3 0.00 0.35 0.40Sequenz 4 0.00 0.50Sequenz 5 0.00
Berechnung einer DistanzmatrixSequenz 1 TATAAGCATGACTAGTAAGCSequenz 2 TATTAGCATGACTGGTAACCSequenz 3 TATTGGCATGACTAGCAGGC Sequenz 4 TGTTGCCACGATTAGCTACC Sequenz 5 CGTAGCTATGACCAACGGGC
Distanz = durchschnittliche Änderung pro Position
0.15
hier: 3 von 20 Positionen verändert
38
Korrektur der Distanzen
beobachteter Abstand
t
%tatsächlicher Abstand= Anzahl der Mutationen
Korrektur
39
Korrektur der Distanzen
Frage: Wie korrigieren wir?
� Wir wollen die tatsächliche Anzahl der evolutiven Ereignisse rekonstruieren.
� Wir brauchen also ein Evolutionsmodell, welches Rückmutationen und die Austauschwahrscheinlichkeiten etc. berücksichtigt.
40
Korrekturmodelle (Evolutionsmodell)
Modelle
für Proteinevolution sind meist
empirisch
41
Transmembran-Proteine
Evolutionsmodelle
Globuläre Proteine
K
R N
K
42
Stammbaumberechnung
Alignment
Distanzmatrix
Evolutionsmodell z.B. JTT; PAM; BLOSUM ...
Stammbaum
Algorithmusz.B UPGMA; NJ…
Protdist
neighbor
UPGMA-TreeNJ-Tree
DatenClustalX
43
Stammbaumberechnung
PRAXIS 3
output
Distanzmatrix und Newick
44
12Ente 0.000000 0.027538 0.131789 0.189059 0.254695 0.305737 0.366709 0.437865 0.342427 0.680479 0.664999 0.809168Gans 0.027538 0.000000 0.133790 0.182028 0.254414 0.305450 0.366525 0.423258 0.355341 0.689492 0.689962 0.811354Huhn 0.131789 0.133790 0.000000 0.214235 0.279128 0.343764 0.395035 0.450144 0.371808 0.687246 0.709803 0.789037Taube 0.189059 0.182028 0.214235 0.000000 0.376477 0.426717 0.437753 0.430975 0.385513 0.685211 0.706543 0.853846Krokodil 0.254695 0.254414 0.279128 0.376477 0.000000 0.127816 0.366086 0.462063 0.403623 0.715770 0.751314 0.759451Alligator 0.305737 0.305450 0.343764 0.426717 0.127816 0.000000 0.437020 0.495107 0.437141 0.741703 0.755032 0.781956Schildkrot 0.366709 0.366525 0.395035 0.437753 0.366086 0.437020 0.000000 0.441266 0.407947 0.716215 0.761426 0.758189Wal 0.437865 0.423258 0.450144 0.430975 0.462063 0.495107 0.441266 0.000000 0.159417 0.764462 0.688008 0.809193Mensch 0.342427 0.355341 0.371808 0.385513 0.403623 0.437141 0.407947 0.159417 0.000000 0.710450 0.635149 0.705371Zebrafisch 0.680479 0.689492 0.687246 0.685211 0.715770 0.741703 0.716215 0.764462 0.710450 0.000000 0.367123 1.012071Lachs 0.664999 0.689962 0.709803 0.706543 0.751314 0.755032 0.761426 0.688008 0.635149 0.367123 0.000000 0.907433Salamander 0.809168 0.811354 0.789037 0.853846 0.759451 0.781956 0.758189 0.809193 0.705371 1.012071 0.907433 0.000000
(Gans:0.01404,(Taube:0.13426,(Huhn:0.07823,((Krokodil:0.04150,Alligator:0.08631):0.10799,(Schildkrot:0.20098,((Wal:0.11272,Mensch:0.04670):0.11592,((Zebrafisch:0.19023,Lachs:0.17689):0.25250,Salamander:0.52369):0.05289):0.02137):0.03693):0.06954):0.00251):0.03752,Ente:0.01350);
45
Ente
Gans
Taube
Huhn
Krokodil
Alligator
Schildkrot
Wal
Mensch
Salamander
Zebrafisch
Lachs100
100
100
65
52
79
95
36
95
?‚Long branch attraction?‘
Der Baum
46
UPGMA - NJ
A
B
C
D
E
F
B
A
C
D
E
FUPGMA
Unweighted Pair-Group Method with Arithmetric Means
NJNeighbor Joining
•Aussengruppe festgelegt
•konstante Evolutionsrate
•Aussengruppe wählbar
•unterschiedliche Evolutionsraten
47
A B C D OTU A 0 6 10 18 OTU B 0 12 20OTU C 0 19OTU D 0
A/B C D OTU A/B 0 11 19OTU C 0 19OTU D 0
3 A
3B
6
A/B
C
5.5
5.5
2.5
=3
d AD + d BD2
=5,5
d AC + d BC2
UPGMA Unweighted Pair-Group Method with Arithmetric Means
48
A/B/C D Sequenz A/B/C 0 19Sequenz D 0
A
3 B
2.5
5.5 C
D
4
9.5
3
• nimmt konstante Evolutionsraten an• Außengruppe wird „automatisch“ bestimmt
UPGMA Unweighted Pair-Group Method with Arithmetric Means
49
A B C D OTU A 0 6 10 18 OTU B 0 12 20OTU C 0 19OTU D 0
A B C D OTU A 0 6 11 19 OTU B 0 11 19OTU C 0 19OTU D 0
A
3 B
2.5
5.5 C
D
4
9.5
3
Ausgangsmatrix
rekonstruierte Matrix
UPGMA setzt absolute molekulare Uhr voraus, aber in Realität müssen Evolutionsraten berücksichtigt werden
UPGMA Unweighted Pair-Group Method with Arithmetric Means
50
Problem UPGMA
A B C D
OTU A 0 18(21,7) 10 13OTU B 0 22(21,7) 25(21,7)OTU C 0 13OTU D 0
3
2
5
1
7
15
A
B
C
D
5
1.5
6.5
4.33
10.83
5
A
C
D
B
51
Neighbor-joining NJ
Ziel NJ => Minimierung der Summe aller Astlängen
B C
D
E
A
bc
de
a
S0 = (∑ dji)/N-1i≤j
S0=Summe aller Astlängend =Distanzen zwischen allen OTUsN =Anzahl der OTUs
S0=a+b+c+d+e
„Star-tree“
B C
D
E
A
bc
d
e
af
„modified Star-tree“
Paare werden kombiniert
A B C D E
OTU A 0 22 39 39 41OTU B 0 41 41 43OTU C 0 18 20OTU D 10OTU E 0
SAB=67,7
S0=78,5
SBC=81SCD=76
SDE=70
Aber: Welche Paare werden kombiniert?
52
Grouping -> BaumlängenAstlängen -> FMNeues taxon -> neue Matrix
B
A
b
a
C
D
E
c
d
e
f
„modified Star-tree“
„Star tree“ -> BaumlängeGrouping -> BaumlängenAstlängen -> FM
Neues taxon (AB) -> neue Matrix
Grouping -> BaumlängenAstlängen -> FMNeues taxon -> neue Matrix
Neues taxon (XY) -> neue Matrix
Neighbor-joining NJ
C
D
E
c
d
e
f
53
B C
D
E
A
b=12c
d=4
e=6
a=10f=20
„final tree“
g=5
c=9
A B C D EOTU A 0 22 39 39 41OTU B 0 41 41 43OTU C 0 18 20OTU D 0 10OTU E 0
Neighbor-joining NJ
54
• Ähnlicher Algorithmus wie UPGMA• Sukzessives Gruppieren der Taxa ohne Verlust eines
Astlängenunterschiedes• Minimierung der Gesamt-Astlängen des Baums
=> Stammbaum wird aufgelöst=> berücksichtigt unterschiedliche Evolutionsraten
(Rekonstruierte Distanzmatrix=Ausgangsmatrix)
Neighbor-joining NJ
55
Was bisher geschah...
Alignment
Distanzmatrix
Evolutionsmodell JTT, PAM, BLOSUM ...
Stammbaum
Algorithmus
z.B UPGMA; NJ…
DatenClustalX, Dialign…
UPGMANJFM
LS ME
56
Statistische Auswertung
….oder….
Wie gut passt mein Stammbaum zu den Daten?
häufigste Methode ist „Bootstrapping“…
57
Ziehen MITZurücklegen
Bootstrapping
58
D
Position Sequence 1 2 3 4 5 6 7 8 9 A A A A A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G
OrginalsequenzenPosition
Sequence 1 2 2 4 5 5 7 8 8A A A A A G G G C CB A G G C G G C C CC A G G T A A C C CD A G G G A A C C C
Pseudosample 1
z.B. 100 WiederholungenPosition
Sequence 1 1 1 4 4 6 7 7 7A A A A A A T G G GB A A A C C T G G GC A A A T T T C C CD A A A G G T C C C
Pseudosample 2
A
D
BC
A
B
C
…100 Stammbäume
Bootstrapping
59
123456789 Freq-----------------.**...... 100.00...**.... 100.00.....**.. 100.00...****.. 100.00...****** 96.00.......** 84.00...****.* 13.00...*****. 5.00.*******. 3.00.**....*. 1.00.**.....* 1.00
Majority-rule consensus tree
Taxon 1
Taxon 3
Taxon 8
Taxon 9
Taxon 4
Taxon 6
Taxon 7
100
96
84
100
100
100
Taxon 2
Taxon 5
Bootstrapping
60
Stammbaumberechnung
Protdist
ClustalX
UPGMANJ
neighbor
Alignment
Distanzmatrix
Daten
„Evolutionsmodell“
Seqboot x100
consense
100
100
1 NJ UPGMA
Bootstrapping
61
I ATAAII AAAAIII AAAA
I ATAAII AAAAIII AAAA
I AAAAII AAAAIII AAAA
IIIIII
IIIIII
IIIIII
99x
1x
62
Bootstrapping
63
Stammbaumerstellung
1. Matrix-orientierte Methoden
2. Charakter-orientierte Methoden
64
Charakter-orientierte Methoden
1. Maximum Parsimony (MP)2. Maximum Likelihood (ML)
• Arbeiten direkt mit dem Alignment indem Nukleotide
bzw. Aminosäuren als diskrete Charaktere behandelt
werden
• Der phylogenetische Stammbaum wird anhand des
Musters der Änderungen der Charaktere berechnet
• Extrahieren mehr Information als Matrix-orientierte
Methoden
65
Maximum Parsimony„Maximaler Geiz"
Annahme:• Evolution ging stets den kürzesten Weg und somit wird der Stammbaum berechnet, der die wenigsten evolutiven Schritte benötigt.
Methode:• Alle Möglichkeiten analysieren
66
A
B
C
D
A
C
B
D
A
D
B
C
3 mögliche Stammbäume
10 Mutationen 15 Mutationen 14 Mutationen
Position Sequenz 1 2 3 4 5 6 7 8 9A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G
Maximum Parsimony
67
Maximum ParsimonyPosition
Sequenz 1 2 3 4 5 6 7 8 9 A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G
2 Mutationen
=G
C
A
A
AG2 Mutationen
C
C
A
A
AG
Sequenz A
Sequenz B
Sequenz C
Sequenz D
Sequenz A
Sequenz B
Sequenz C
Sequenz D
Ort der Mutation nicht immer eindeutig definiert => Parsimony kann keine Astlängen berechnen.
68
Position Sequenz 1 2 3 4 5 6 7 8 9A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G
Gesamt-Alignment:
A
B
C
D10 Mutationen
A
B
C
D10 Mutationen
A
B
C
D10 Mutationen
= = = .....
Maximum Parsimony
69
Proteinparsimony:1. Modell (z.B. PAUP): Alle Substitutionen sind gleich wahrscheinlich (1 Schritt).
Beispiel Ile -> Trp ≡ Ile -> Met ≡ Ile -> Ala ...
2. Modell: liegt genetischen Code zugrunde, wobei "silent site mutations" ignoriert werden (PROTPARS-Modell in PHYLIP).
Beispiel: Ile -> Met: ATA/C/T -> ATG: ein SchrittIle -> Ala: ATA/C/T -> GCN: zwei Schritte Ile -> Trp: ATA/C/T -> TGG: drei Schritte
Maximum Parsimony
70
� gesamter Datensatz
Vorteile:
� empfindlich gegenüber stark unter-schiedlichen Evolutionsraten
� Evolutionsmodelle eingeschränkt möglich� hoher Rechenaufwand bei >20 Taxa
Nachteile:
Maximum Parsimony
71
Stammbaumberechnung
Alignment
Evolutionsmodell „kürzester Weg“
MaximumParsimony
Stammbaum
Protpars
DatenClustalX
72
Stammbaumberechnung
PRAXIS 5
73
Maximum Likelihood
Wahrscheinlichkeit der beobachteten Daten im Lichte der
Hypothese
L = P(data|hypothesis)
74
Likelihood
Daten: KKZKZKKZZZ
• Ereignisse sind unabhängig
• Alle ‚Kopfwürfe‘ besitzen gleiche UNBEKANNTE Kopfwahrscheinlichkeit p
Hypothese
=> Likelihood L(D|H) = pp(1-p)p(1-p)pp(1-p)(1-p)(1-p)
Für jede vorgegebene Kopfwahrschein-lichkeit p ergibt sich eine bestimmte Likelihood
=> Plot der selben Daten (KKZKZKKZZZ) gegen verschiedene Werte von p (Hypothese)
=> Mit welcher Kopfwahrscheinlichkeit p bekomme ich am ehesten diese Daten?
L = P(Daten | Hypothese )
0,0 0,2 0,4 0,6 0,8 1,0[p]
Like
lihoo
d
75
Maximum LikelihoodL = P(data|hypothesis)
• Wahrscheinlichkeit die beobachteten Daten(Sequenzen!) unter der angenommenen Hypothese(Stammbaum/Evolutionsmodell) zu erhalten.
• d.h, es wird der Stammbaum errechnet, der die beobachteten Daten (also die alignierten Sequenzen) am besten (unter der Annahme des Modells) erklärt.
Evolutions-
modell
Ein Baum wird generiert und man prüft dann ob die gegebenen Daten den Baum generieren können
76
ML - Prinzip
X,Y = A, T, G, oder C
A T C G
A 1,0 0,1 0,2 0,4
T 1,0 0,3 0,6
C 1,0 0,1
G 1,0
Sequence 1 CGAGAASequence 2 AGCGAASequence 3 AGATTTSequence 4 GGATAT
1x1x1x0,1x0,1=0,01
Sequence 1 CGAGAASequence 2 AGCGAASequence 3 AGATTTSequence 4 GGATAT
CGAGAAAGCGAAAGATTTGGATAT
Likelihood einer vorgegebenen Topologie ist das Produkt aller
Wahrscheinlichkeiten jederPosition
Berechnen aller Möglichkeiten für eine Topologie und eine Position
77
ML - Beispiel:
Stammbaum A:
1
2
3
4
Gesamt"wahrscheinlichkeit":
= 0,12427=> logL = -0,90563
1
3
2
4
Gesamt"wahrscheinlichkeit":
= 0,02302=> logL = -1,6379
Stammbaum B:
78
Maximum Likelihood
� Der Wert für die eingesetzten Wahrscheinlichkeiten p entspricht den vorgegebenen Stammbäumen.
� Die Hypothese „alle Kopfwürfe besitzen die gleiche Wahrscheinlickeit“ entspricht dem Evolutionsmodell
79
Maximum Likelihood Vorteile
� Mathematisch gut definiert� Funktioniert gut in Simulationsexperimenten � Erlaubt explizite Verbindung von
Evolutionsmodell und Daten (Sequenzen) � "Realistische" Annahmen zur Evolution� Verschiedene Modelle und Stammbäume
lassen sich testen
80
� Maximum likelihood ist nur konsistent (ergibt einen "wahren" Stammbaum) wenn die Evolution nach den gegebenen Modell ablief: Wie gut stimmt mein Modell mit den Daten überein?
� Computertechnisch nicht zu lösen wenn zu viele Taxa oder Parameter berücksichtigt werden müssen.
Maximum Likelihood Nachteile
81
Maximum Likelihood
� Bei vielen Taxa sind computertechnisch nicht alle möglichen Stammbäume berechenbar
� Lösung: "Intelligente Algorithmen"- Quartet puzzling- Bayessche Methode + MCMCMC
82
Maximum Parsimony
Exhaustive = Alle Stammbäume werden untersucht, der beste Stammbaum wird erhalten (garantiert).
Exhaustive search:Erschöpfung garantiert
83
Maximum Parsimony:Exhaustive Search
A
B C(1)Start: 3 beliebige Taxa
(2a)
A
B DC
A
BD C
A
B C
D(2b) (2c)
+ 4. Taxon (D) in jeder möglichen Position -> 3 Bäume
+ 5. Taxon (E) in jeder der fünf möglichen Positionen=> 15 Stammbäume etc.
E
E
EE
E
"Branch addition“
84
Problem: Anzahl der möglichen Stammbäume
=> bei > ~10 Sequenzenausführliche Suche allerStammbäume de factounmöglich
Maximum Parsimony:Exhaustive Search
Number
of OTUs
Number of
rooted trees
Number of
unrooted trees
2 1 13 3 1
4 15 35 105 15
6 954 1057 10 395 9548 135 135 10 395
9 2 027 025 135 13510 34 459 425 2 027 025
85
Maximum Parsimony
1. Lösung "Branch and bound":• Stammbaum wird mit schneller Methode (z.B. NJ) berechnet, die Anzahl der notwendigen Schritte (L) wird berechnet.
• => verwirft Gruppen von Bäumen, die nicht kürzer werden können als L.
• Kann für Problemlösungen mit < ~ 20 Taxa verwendet werden.
86
MaximumParsimony
„branchand bound“
„abzweigen und beenden“
87
Maximum Parsimony2. Lösung:
Heuristische Verfahren:� „stepwise addition“ drei Taxa Baum – schrittweise
Addition auf allen nächsten Ebenen (großes Problem: lokale Maxima)
� „star decomposition“: „star tree“ schrittweiser Abbau von Taxa bzw. Zusammenführung und Evaluation (großes Problem: lokale Maxima)
Kombination mit anderen Algorithmen� „branch swapping“ (Zweige vertauschen):
Nearest neighbor interchange (NNI)Subtree pruning and regrafting (SPR)Tree bisection and reconnection (TBR)
88
Problem: Lokale Maxima „stepwise addition"
„star decomposition“
Maximum Parsimony
? !
„Bauminsel“
go go go !!!
No go !!! Back up!!!
Down? Don‘t go !
Lokales Maximum
91
Durch zwischenzeitliche Einführung einer veränderten MatrixWird man aus einem lokalen maximum herauskatapultiert…
Programme wie:NONA, TNT, PRAP…
Weitere „Parsimony“-Verfahren:
• Wagner (binäre Charaktere),• Dollo (gewichtet) und• Fitch (unordered multistate characters, DNA)
Parsimony Ratchet
92
ML, MP versus NJ und UPGMA
� Stammbaum vorgegeben� Analyse aller Möglichkeiten diesen Stammbaum zu
erhalten� MP: kürzester – ML: zutreffenster
ML, MP
NJ, UPGMA� Sukkzessive Rekonstruktion des Stammbaumes� NJ: „echte“ Evolutionsraten� UPGMA: „gemittelte“ Evolutionsraten
Vorgehensweise UPGMA und NJ
Sukzessives Hinzufügen neuer OTUs zum Stammbaum
93
A
B
CA
B
C
D
A
B
Vorgehensweise MP und ML
Maximum Parsimony
94
D
A
D
BC
A
B
C
…
Maximum Likelihood
Welcher Stammbaum erfordert die wenigsten
Mutationen, um den Datensatz zu erhalten?
Welcher Stammbaum liefert die höchste
Wahrscheinlichkeit den Datensatz zu erhalten?
Alle möglichen Stammbäume
95
Stammbaumberechnung
Protdist
ClustalX
MPMLUPGMANJ
neighbor
Alignment
Distanzmatrix
Daten
„Evolutionsmodelle“
protparsproML
96
Stammbaumberechnung
Protdist
ClustalX
MPML
MP
UPGMANJ
neighbor
Alignment
Distanzmatrix
„Evolutionsmodelle“
Seqboot x100
consense
100
100
1 NJ UPGMA
100
1ML
protparsproML
97
Was ‚können‘ oder ‚kennen wir !?
Alignment
Distanz matrix
Evolutions-modelle
Neigbor JoiningMax.Parsimony
Max. Likelihood UPGMA
CharakterMatrix
Stammbaum
98
☺ �Kritik,
AnregungenVorschläge
Verbesserungen…
…. oder was auch immer,bitte
anBernd
oder
Michael
Merke ☺
� Alles außer UPGMA ist radial � „rooting“
� Nur UPGMA gibt Außengruppe vor
� Alles außer MP zeigt Abstände
� MP � Cladogramm-Darstellung
� UPGMA, NJ, ML � Phylogramm-Darstellung
� Bootstrapping zeigt Info des Datensatzes
99
DATEN
alignment
ClustalX
Matrix
protdist
seqboot
100 aln
100 Matrizen
Matrix orientierte Methoden:
UPGMA / NJ
Tree
Evolutionsmodell:
JTT
Neighbor
(UPGMA / NJ)
Tree100 Trees
consense
bootstrap Tree
Bootstrap-
Werte
≥ 100 Trees
protpars
Evolutionsmodell:
parsimony (Geiz)
bootstrap Tree
Bootstrap-
Werte
Charakter orientierte Methoden:
MP
HbA.seq
HbA.phy
HbA_JTT.dst
HbA_UPGMA.tre (.out)
HbA_NJ.tre (.out)
HbA_seqboot.txt
HbA_seqboot_ protdist.txt
HbA_seqboot_ protdist_UPGMA.tre
HbA_seqboot_ protdist_NJ.tre
HbA_seqboot_ protdist_UPGMA_con.tre
HbA_seqboot_ protdist_NJ_con.tre
HbA_MP.tre (.out)sbmp.tre (.out)
HbA_seqboot_ MP_con.tre
Programm
File name
Datenform