96
1 Biophysik F1-Praktikum – Kursteil "Molekulare Evolution" Thorsten Burmester Institut für Zoologie Universität Mainz

Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

Embed Size (px)

DESCRIPTION

Biophysik F1-Praktikum – Kursteil "Molekulare Evolution". Thorsten Burmester Institut für Zoologie Universität Mainz. Ziel des Kurses:. Wie erhalte ich aus meinen (Sequenz-) Daten einen Stammbaum, und was sagt mir dieser?. Sequenz 1: KIADKNFTYRHHNQLV Sequenz 2: KVAEKNMTFRRFNDII - PowerPoint PPT Presentation

Citation preview

Page 1: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

1

Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

Thorsten BurmesterInstitut für Zoologie

Universität Mainz

Page 2: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

2

Wie erhalte ich aus meinen (Sequenz-) Daten einen Stammbaum, und was sagt mir dieser?

Sequenz 1: KIADKNFTYRHHNQLVSequenz 2: KVAEKNMTFRRFNDIISequenz 3: KIADKDFTYRHW-QLV Sequenz 4: KVADKNFSYRHHNNVVSequenz 5: KLADKQFTFRHH-QLV Sequenz 5

Sequenz 3

Sequenz 2

Sequenz 4

Sequenz 1

Ziel des Kurses:

Page 3: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

3

Programm

Grundlagen der Molekularen Evolution Datenbanken und Datenbankanalysen Sequenzalignment Stammbaumerstellung Statistische Auswertung

Page 4: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

4

Warum molekulare Phylogenie?

Verständnis von phylogenetischen Zusammenhängen:

• Organismische Evolution (Systematik)

• Evolution von Proteinfamilien (Funktion!)

• forensische Medizin (Bsp. HIV)

• Epidemiologie

• Mathematische Probleme

Page 5: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

5

Rekonstruktion von Verwandtschaftsverhältnissen

A. Morphologische DatenB. Sequenzdaten

Vorteil der Sequenzdaten:

- leichte Zugänglichkeit- Grosse Datenmenge- Zumeist frei von Gewichtungen- können aber dennoch zu falschen Ergebnissen führen!

Warum molekulare Phylogenie?

Page 6: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

6

Voraussetzungen der molekularen Phylogenie

1. Evolution vollzieht sich durch Veränderungen.

2. Verwandte Spezies stammen von einem gemeinsamen Vorfahren ab.

3. Die Speziesbildung vollzog sich durch hierarchische Auftrennung.

4. Deren Verlauf läßt sich durch Stammbäume darstellen.

5. Es gibt nur einen historisch korrekten Stammbaum.

6. Organismen sind historisch. Sowohl die Morphologie als auch die DNA- und

Aminosäuresequenzen speichern die Informationen über die Vergangenheit.

7. Die Methoden der molekularen Evolution erlauben die Extraktion der in der

DNA bzw. den Proteinen gespeicherten Informationen.

Page 7: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

7

Schwestergruppen

Was ist ein Stammbaum?

Darstellung der Verwandtschaftsverhältnisse

A

B

C

A – F auch "operational taxonomic units" (OTUs)

D

E

F

A

B

C

D

E

F

t t

Page 8: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

8

Phylogenetische Grundbegriffe

A B C D E A B C D E

Dichotomie Polytomie

Ast(branch)

Knotenpunkt(node)

Außengru

ppe

(outg

roup)

Page 9: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

9

Phylogenetische Grundbegriffe

Monophylie

A B C D E F (AB)(CDEF)(DEF)(EF)

monophyletische Taxa

Page 10: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

10

Paraphylie=> nicht alle Nachkommen werden erfasst

Vögel

aufgrund von Plesiomorphien(ursprünglichen Merkmalen)

Phylogenetische Grundbegriffe

"Reptilien"

Schildkröten Krokodile

Eidechsen +Schlangen

Page 11: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

11

"Geier"

Neuwelt-Geier

Storchen-vögel Raubvögel

Altwelt-Geier

Polyphylie=> verschiedenen Ursprungs

aufgrund von Homoplasien (Konvergenzen)

Phylogenetische Grundbegriffe

Page 12: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

12

ungewurzeletes Phylogramm

Vogelspinne

Heuschrecke

Languste

Tausendfüsser

Regenwurm

Tintenfisch

Schnecke

=> keine Evolutions"richtung"

Page 13: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

13

Stammbaum

Regenwurm

TintenfischSchnecke

Tausendfüsser

Vogelspinne

Languste

Heuschrecke

Mensch (Außengruppe)

Wurzel("Root")

Mit Außengruppe gewurzelt

= "outgroup"

t

Page 14: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

14

Molekure Phylogenie

Vorgehensweise zur Stammbaumerstellung:A. Wie ist meine Sequenz zu anderen verwandt?• Auswahl ähnlicher Sequenzen aus Datenbanken• Sequenzalignment• Molekularphylogenetische Analyse• Statistische Überprüfung

B. Wie sind bestimmte Taxa miteinander verwandt?• Auswahl geeigneter Sequenzen• Sequenzierung (Datenbanken, Klonierung, PCR)• Sequenzalignment usw. wie oben

Page 15: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

15

Datenbanksuche:

Welche Sequenz ist meiner Sequenz "ähnlich"?

=> Sequenzvergleich: "Alignment" (dt. Alignierung)DPEFKLSYFREDIAINSHHWHWHVIYPVGSNPS--DKKINRKGELFYYMHEQMLARYDAE

::: ::::::::: :: :::::: :: :: : :::::: ::: :: :::: :DPEYKLSYFREDIGINAHHWHWHIVYPATWNPTVMGKEKDRKGELFFYMHQQMCARYDSE

Page 16: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

16

Datenbanksuche

z.B. BLAST (Basic Local Alignment Search Tool)=> vergleicht zwei Sequenzen miteinander

BLASTN: Vergleicht eine Nukleinsäuresequenz mit Nukleinsäuredatenbank

=> nahe verwandte SequenzenBLASTP: Vergleicht eine Aminosäuresequenz mit Proteindatenbank.

=> entfernt verwandte Sequenzen

Page 17: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

17

Datenbanksuche

.BLASTX: Vergleicht eine Nukleinsäuresequenz translatiert in allen 6 Leserastern mit Proteindatenbank.

=> Für welches Protein kodiert meine Sequenz?

TBLASTN: Vergleicht eine Aminosäuresequenz mit Nukleinsäure- datenbank, die in allen 6 Leserastern translatiert wird.

=> findet z.B. nicht annotierte Proteine in DNA-Daten

TBLASTX: Vergleicht die Translationsprodukte aller drei Leseraster einer Nukleinsäuresequenz mit den Translationsprodukten aller 6

Leseraster einer Nukleinsäuredatenbank. => z.B. entfernte Verwandtschaft unbek. DNA-Sequenzen

Page 18: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

18

BLAST (Basic Local Alignment Search Tool)

Page 19: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

19

Multiples Sequenz-Alignments

Gegeben:

Gesucht:

SeqA N A F L S SeqB N A F SSeqC N A K Y L SSeqD N A Y L S

SeqA N A - F L S SeqB N A - F - SSeqC N A K Y L SSeqD N A - Y L S

Page 20: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

20

Sequenzalignments

Algorithmus (z.B. ClustalX): 1. paarweiser Vergleichen aller Sequenzen

miteinander => Berechnung der Distanzen zw. Sequenzen

2. gruppiert Sequenzen nach Ähnlichkeit (Cluster-Bildung)

3. Erstellung paarweiser Alignments4. sukzessives Alignment nach Ähnlichkeit, dabei die ähnlichsten Sequenzpaare zuerst

Wie erhält man ein multiples Sequenzalignment?

Page 21: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

21

CLUSTALX

ABCD

1) Sequenzvergleich

Alle Sequenzen werden miteinander verglichen (schnelles "quick and dirty" Alignment) => Berechnen der Distanzen

Page 22: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

22

CLUSTALX

"guide tree"

ADBC

2) Ähnliche Sequenzen werden gruppiert

=> Cluster-Analyse = Erstellung eines hierarchischen Stammbaums ("guide tree").

-D

0.77-C

0.820.45-B

0.270.890.75-A

DCBA

Page 23: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

23

ADBC

CLUSTALX

3) Alignment von nahe verwandten Sequenzen; die ähnlichsten zuerst.

BC

AD

Page 24: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

24

BC

AD

AD

BC

ADBC

CLUSTALX

4) Sukzessives globales Alignment

Lücken = "gaps"

Page 25: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

25

Alignment Parameter

Substitutionsmatrix (Wahrscheinlichkeit von nt bzw. AS-Austauschen)

"Gap creation" und "Gap length weights"

jeweils für paarweise und Multi-Alignments

Page 26: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

26

StammbaumerstellungAnzahl der möglichen Stammbäume:

Number

of OTUs

Number of

rooted trees

Number of

unrooted trees

2 1 1

3 3 1

4 15 3

5 105 15

6 954 105

7 10395 954

8 135135 10395

9 2027025 135135

10 34459425 2027025

Page 27: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

27

Stammbaumerstellung

1. Matrix-orientierte Methoden• UPGMA (Unweighted Pair-Group Method with Arithmetric Means)

• Neighbor-joining• Minimal Evolution (least squares)

2. Charakter-orientierte Methoden• Maximum Parsimony• Maximum Likelihood

Page 28: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

28

Matrix-orientierte Methoden

Aus jedem Datensatz kann im Prinzip eine Distanzmatrix erstellt werden

Zwei Schritte:

1. Berechnen der paarweisen Abstände zwischen den einzelnen Sequenzen

2. Erstellen eines Stammbaums anhand dieser Abstandsdaten

Page 29: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

29

Sequenzevolution

Ursprungssequenz

Sequenz A

Sequenz B

ZeitMutationen

Unterschied = Divergenz = Distanz

Page 30: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

30

Berechnung einer Distanzmatrix

Sequenz 1 TATAAGCATGACTAGTAAGCSequenz 2 TATTAGCATGACTGGTAACCSequenz 3 TATTGGCATGACTAGCAGGC Sequenz 4 TGTTGCCACGATTAGCTACC Sequenz 5 CGTAGCTATGACCAACGGGC

Distanz = Durchschnittliche Änderung pro Position

hier: 20 Positionen; => Wieviele beobachtete Änderungen?

Page 31: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

31

1 2 3 4 5Sequenz 1 0.00 0.15Sequenz 2 Sequenz 3 Sequenz 4 Sequenz 5

1 2 3 4 5Sequenz 1 0.00 0.15Sequenz 2 Sequenz 3 Sequenz 4 Sequenz 5

Distanzmatrix

1 2 3 4 5 Sequenz 1 0.00 0.15 0.20 0.45 0.50Sequenz 2 0.00 0.25 0.40 0.65Sequenz 3 0.00 0.35 0.40Sequenz 4 0.00 0.50Sequenz 5 0.00

1 2 3 4 5 Sequenz 1 0.00 0.15 0.20 0.45 0.50Sequenz 2 0.00 0.25 0.40 0.65Sequenz 3 0.00 0.35 0.40Sequenz 4 0.00 0.50Sequenz 5 0.00

Abstand zwischen Sequenz 1 und Sequenz 2, ausgedrückt in durchschnittlichen Änderungen pro Nukleotidposition (unkorrigierte Hamming-Distanz).

Page 32: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

32

Abstand gegen Zeit!

t

%

beobachteter Abstand

tatsächlicher Abstand zweier Sequenzen= Anzahl der Mutationen

=> Abstand wird unterschätzt!

Sättigung

Page 33: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

33

Warum?

13 Mutationen =>3 Unterschiede

Page 34: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

34

Korrektur der Distanzen

t

%

beobachteter Abstand

tatsächlicher Abstand= Anzahl der Mutationen

Korrektur

Page 35: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

35

Korrektur der Distanzen

Frage: Wie korrigieren wir?

Wir wollen die tatsächliche Anzahl der evolutiven Ereignisse rekonstruieren.

Wir brauchen also ein Evolutionsmodell, welches die Wahrscheinlichkeit von multiplen Austauschen, Rückmutationen etc. berücksichtigt.

Page 36: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

36

DNA-Evolutionsmodelle

1969: Jukes & Cantor (JC) 1980: Kimura 2-Parameter (K2P) 1981: Felsenstein 81 (F81) 1985: Hasegawa, Koshino & Yano

(HKY85) 1990: General Reversible Model (REV) etc.

Page 37: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

37

Evolutionsmodell Jukes & Cantor

pK

3

41ln

4

3

K ist der berechnete Abstand (Anzahl der tatsächlichen Substitutionen), p der beobachtete Abstand zwischen zwei Sequenzen.

Korrigierte Distanz nach Jukes & Cantor:

Page 38: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

38

Abstandsberechnung - Proteine

Modelle für Proteinevolution meist empirisch.

Nach Kimura 1983: D = - ln(1 - p - 0.2 x p2) Beispiel: Beobachtete Distanz = 60% => p = 0.6 => D = - ln(1 – 0.6 – 0.2 x 0.62) = 1.11474

=> d.h., im Schnitt hat an jeder Position ~ 1,11 AS-Austausche stattgefunden

Page 39: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

39

Aber: Modell ist zu einfach! Denn jeder Aminosäureaustausch

wird gleich bewertet. In der Natur aber nicht so

beobachtet. In der Praxis sind meist bessere

Modelle notwendig. Wir kennen diese Modelle: => PAM, BLOSUM-Matrizen

Page 40: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

40

Aminosäureeigenschaften

CP

GGAVI

L

MF

Y

W HK

RE Q

DN

S

T

CSH

S+S

positiv

geladenpolar

aliphatisch

aromatisch

klein

Sehr klein

hydrophob

Page 41: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

A R N D C Q E G H I L K M F P S T W Y V B Z

A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -2 -3 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6

F

FC

PAM-Distanzmatrix

Y

79-4

Page 42: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

42

PAM und BLOSUM Matricen

Hohe Sequenzähnlichkeit

Geringe Sequenzähnlichkeit

PAM 1

PAM 120

PAM 250

Hohe Sequenzähnlichkeit

Geringe Sequenzähnlichkeit

BLOSUM 80

BLOSUM 62

BLOSUM 30

Page 43: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

43

Distanzmatrix

Sequenz 1 0.000 0.236 0.621 0.702 1.510Sequenz 2 0.000 0.599 0.672 1.482Sequenz 3 0.000 0.112 1.561Sequenz 4 0.000 1.425Sequenz 5 0.000

Sequenz 1 0.000 0.236 0.621 0.702 1.510Sequenz 2 0.000 0.599 0.672 1.482Sequenz 3 0.000 0.112 1.561Sequenz 4 0.000 1.425Sequenz 5 0.000

• Ausgedrückt i.d.R. als Mutationen pro Position• Abstand kann > 1 werden!

Berechnen des paarweisen Abstands

Page 44: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

44

Stammbaumerstellung

Wie kommen wir von einer Distanzmatrix zu einem Stammbaum?

=> Algorithmus berechnet aus den Distanzen den "besten" Stammbaum.

Sequenzen selbst werden nicht mehr berücksichtigt.

Page 45: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

45

UPGMA Unweighted Pair-Group Method with Arithmetric Means

Additive Methode. OTUs werden durch sequenzielles Clustern nach absteigender Ähnlichkeit gruppiert.

Page 46: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

46

UPGMA Unweighted Pair-Group Method with Arithmetric Means

A B C D OTU A 0 6 10 18 OTU B 0 12 20OTU C 0 19OTU D 0

A B C D OTU A 0 6 10 18 OTU B 0 12 20OTU C 0 19OTU D 0

A/B C D OTU A/B 0 11 19 OTU C 0 19OTU D 0

A/B C D OTU A/B 0 11 19 OTU C 0 19OTU D 0

3 A

3B

2.5

5.5C

3 A

3B

6

Page 47: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

47

UPGMA

A/B/C D Sequenz A/B/C 0 19Sequenz D 0

A/B/C D Sequenz A/B/C 0 19Sequenz D 0

A

3B

2.5

5.5 C

D

4

9.5

3

• nimmt konstante Evolutionsraten an• Außengruppe wird "automatisch" bestimmt

Page 48: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

48

UPGMA

A B C D OTU A 0 6 10 18 OTU B 0 12 20OTU C 0 19OTU D 0

A B C D OTU A 0 6 10 18 OTU B 0 12 20OTU C 0 19OTU D 0

A B C D OTU A 0 6 11 19 OTU B 0 11 19OTU C 0 19OTU D 0

A B C D OTU A 0 6 11 19 OTU B 0 11 19OTU C 0 19OTU D 0

A

3B

2.5

5.5 C

D

4

9.5

3

Ausgangsmatrix

rekonstruierte Matrix

Page 49: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

49

Neighbor-joining (NJ)

• Ähnlicher Algorithmus wie UPGMA • berücksichtigt unterschiedliche Evolutionsraten:

=> Astlängenberechnung• Sukzessives Gruppieren der OTUs• Minimierung der Astlängen

=> Stammbaum wird aufgelöst

=> keine konstante Evolutionsrate angenommen

Page 50: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

50

Neighbor-joining (NJ)

1

2

3

4

5

6

7

8

X

a.1

3

4

5

6

72

8

X Y

b.

S = ( dji)/N; 1ijN

S = Summe aller Astlängen d = Distanzen zwischen allen OTUs N = Anzahl der OTUs

Ziel NJ => Minimierung von S

Page 51: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

51

Neighbor-joining (NJ)

Beispiel:

A B C D

OTU A 0 6 10 18OTU B 0 12 20 OTU C 0 19 OTU D 0

A B C D

OTU A 0 6 10 18OTU B 0 12 20 OTU C 0 19 OTU D 0

10 1812 20

Abstand OTU A zu allen anderen ist aber kürzer als der von OTU B

=> Astlängen werden bei ungleichen Raten falsch berechnet. NJ korrigiert dies, indem es den Gesamtabstand des

betrachteten OTUs zu allen anderen Sequenzen berücksichtigt

B

A

D

C

Page 52: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

52

Neighbor-joining (NJ)

Beispiel: A B C D OTU A 0 6 10 18OTU B 0 12 20 OTU C 0 19 OTU D 0

A B C D OTU A 0 6 10 18OTU B 0 12 20 OTU C 0 19 OTU D 0

1. Schritt: Berechnung der Summe der Abstände

SA = dAB + dAC + dAD

S

34 38 41 57

Page 53: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

53

Neighbor-joining (NJ)

A B C D OTU A 0 6 10 18OTU B 0 12 20 OTU C 0 19 OTU D 0

A B C D OTU A 0 6 10 18OTU B 0 12 20 OTU C 0 19 OTU D 0

2. Schritt: Transformation der Matrix:

d'AB = dAB – (SA + SB)/2

= 6 – (34 + 38)/2 = –30 usw.

-30

S

34 38 41 57

Page 54: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

54

Neighbor-joining (NJ)Transformation der Matrix:

d'AB = dAB – (SA + SB)/2

= 6 – (34 + 38)/2 = –30 usw.

A B C D S

OTU A 0 6 10 18 34OTU B -30 0 12 20 38 OTU C -27.5 -27.5 0 19 41OTU D -27.5 -29.5 -30 0 57

A B C D S

OTU A 0 6 10 18 34OTU B -30 0 12 20 38 OTU C -27.5 -27.5 0 19 41OTU D -27.5 -29.5 -30 0 57

=> Auswahl der Nachbarn (negativster Wert) hier: A+B oder C+D (führen zum gleichen Ergebnis)=> Werden durch Knotenpunkt verbunden

Page 55: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

55

Neighbor-joining (NJ)3. Schritt: Berechnen des Abstands von A und B zu Knotenpunkt X:

dXA = dAB/2 + [SA/(N-2)* - SB/(N-2)]/2

<=> 6/2 + (17 - 19)/2 = 2

dXB = dAB/2 + [SB/(N-2) - SA/(N-2)]/2 <=>

<=> 6/2 + (19 - 17)/2 = 4

oder einfacher: dAB – dXA = 6 – 2 = 4

B

A

X4

2

C

D*N-2 = Anzahl der Knotenpunkte

A B C D S

OTU A 0 6 10 18 34OTU B -30 0 12 20 38 OTU C -27.5 -27.5 0 19 41OTU D -27.5 -29.5 -30 0 57

A B C D S

OTU A 0 6 10 18 34OTU B -30 0 12 20 38 OTU C -27.5 -27.5 0 19 41OTU D -27.5 -29.5 -30 0 57

Page 56: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

56

Neighbor-joining (NJ)

Erstellen einer reduzierten Datenmatrix

dXC = (dAC – dAX + dBC – dBX)/2

<=> (10 – 2 + 12 –4)/2 = 8 usw.

X C D S

OTU X 0 8 16 24OTU C -17.5 0 19 27 OTU D -15.5 -12 0 35

X C D S

OTU X 0 8 16 24OTU C -17.5 0 19 27 OTU D -15.5 -12 0 35

usw...

Page 57: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

57

Neighbor-joining (NJ)

A

B

2

4

C5.5

2.5

13.5

D

Page 58: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

58

Neighbor-joining (NJ)

A B C D OTU A 0 6 10 18 OTU B 0 12 20OTU C 0 19OTU D 0

A B C D OTU A 0 6 10 18 OTU B 0 12 20OTU C 0 19OTU D 0

A B C D OTU A 0 6 10 18 OTU B 0 12 20OTU C 0 19OTU D 0

A B C D OTU A 0 6 10 18 OTU B 0 12 20OTU C 0 19OTU D 0

Ausgangsmatrix

rekonstruierte Matrix

A

B

2

4

C5.5

2.5

13.5

D

Page 59: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

59

Neighbor-joining (NJ)Warum Transformation?

A B C D

OTU A 0 18 10 13 OTU B 0 22 25 OTU C 0 13 OTU D 0

A B C D

OTU A 0 18 10 13 OTU B 0 22 25 OTU C 0 13 OTU D 0

3

2

5

1

7

15

A

B

C

D

Page 60: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

60

Neighbor-joining (NJ)UPGMA würde rekonstruieren:

A B C D

OTU A 0 18 10 13 OTU B 0 22 25 OTU C 0 13 OTU D 0

A B C D

OTU A 0 18 10 13 OTU B 0 22 25 OTU C 0 13 OTU D 0

5

1.5

6.5

4.33

10.83

5

A

C

D

B

=> "long branch attraction"

Page 61: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

61

Neighbor-joining (NJ)NJ konstruiert?

A B C D S

OTU A 0 18 10 13 41OTU B -35 0 22 25 65 OTU C -33 -33 0 13 45OTU D -31.5 -31.5 -33.5 0 48

A B C D S

OTU A 0 18 10 13 41OTU B -35 0 22 25 65 OTU C -33 -33 0 13 45OTU D -31.5 -31.5 -33.5 0 48

3

2

5

1

7

15

A

B

C

D

Page 62: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

62

A

3B

2.5

5.5 C

D

4

9.5

3

UPGMA

A

B

2

4

C5.5

2.5

13.5

D

Neighbor-joining

Matrix-orientierte Methoden

Page 63: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

63

Charakter-orientierte Methoden

1. Maximum Parsimony (MP)2. Maximum Likelihood (ML)

• Arbeiten direkt mit dem Alignment• Extrahieren mehr Information

Page 64: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

64

Charakter-orientierte Methoden

Charaktere• kontinuierliche oder diskontinuierliche Eigenschaften

• Nukleotide und Aminosäuren können als diskrete, diskontinuierliche Charaktere behandelt werden

• Der phylogenetische Stammbaum wird anhand des Musters der Änderungen der Charaktere berechnet

1,2,3,4.... = kontinuierliche Charaktere

A,T,G,C = diskontinuierliche Charaktere

Page 65: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

65

Maximum Parsimony

• Annahme: Evolution ging stets den

kürzesten Weg• => Methode des "maximalen Geizes" • kürzester Stammbaum wird berechnet,

d.h., der die wenigsten evolutiven

Schritten benötigt.

Page 66: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

66

Maximum Parsimony

Position Sequenz 1 2 3 4 5 6 7 8 9 A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G

Beispiel:

A

B

C

D

A

C

B

D

A

D

B

C

3 mögliche Stammbäume

((A,B)(C,D)) ((A,C)(B,D)) ((A,D)(B,C))

Page 67: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

67

Maximum Parsimony

Position Sequenz 1 2 3 4 5 6 7 8 9 A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G

3 Positionen invariabel => nicht informativ

Welche Positionen sind informativ, bevorzugen also eine bestimmte Topologie?

Page 68: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

68

Maximum Parsimony

Position Sequenz 1 2 3 4 5 6 7 8 9 A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G

6 Positionen sind variabel=> aber auch informativ?

Page 69: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

69

Maximum Parsimony

Position Sequenz 1 2 3 4 5 6 7 8 9 A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G

3 Positionen sind zwar variabel, aber nicht informativ

Page 70: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

70

Maximum Parsimony

Position Sequenz 1 2 3 4 5 6 7 8 9 A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G * * *

Welche Positionen sind aber nun informativ?

=> nur 3 von 9 Positionen sind informativ, d.h., favorisieren eine best. Topologie.

10 11 - A - G C G C G *

=> Indels sind Charaktere!

Page 71: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

71

Maximum Parsimony

Position 3:

((A,B),(C,D)) ((A,C),(B,D)) ((A,D),(B,C))

G

C

A

A

G

A

A

C

G

A

A

C

•• •

••

•A AAAAA

G

G

A

A

G

A

A

G

G

A

A

G

••

••

•G AAAAA

A

G

A

G

A

A

G

G

A

G

A

G•• ••

•A AAGAA

Position 5:

Position 9:

?

Page 72: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

72

Maximum Parsimony

A

B

C

D

A

C

B

D

A

D

B

C

3 mögliche Stammbäume

10 Mutationen 15 Mutationen 14 Mutationen

Position Sequenz 1 2 3 4 5 6 7 8 9 A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G * * *

Page 73: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

73

Maximum Parsimony

Position Sequenz 1 2 3 4 5 6 7 8 9 A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G

Aber: Ort der Mutation nicht (immer) eindeutig definiert => Parsimony kann keine Astlängen berechnen.

A

B

C

D

10 Mutationen

A

B

C

D

10 Mutationen

A

B

C

D

10 Mutationen

= = = .....

Page 74: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

74

Proteinparsimony:

1. Modell (z.B. PAUP): Alle Substitutionen sind gleich wahrscheinlich (1 Schritt).

Beispiel Ile -> Trp Ile -> Met Ile -> Ala ...

2. Modell: liegt genetischen Code zugrunde, wobei "silent site mutations" ignoriert werden (PROTPARS-Modell in PHYLIP).

Beispiel: Ile -> Met: ATA/C/T -> ATG: ein Schritt Ile -> Ala: ATA/C/T -> GCN: zwei Schritte

Ile -> Trp: ATA/C/T -> TGG: drei Schritte

Maximum Parsimony

Page 75: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

75

Maximum Parsimony

A

B C(1)Start: 3 bel. Taxa

(2a)

A

B D

C

A

BD C

A

B C

D(2b) (2c)

+ 4. Taxon (D) in jeder möglichen Position -> 3 Bäume

+ 5. Taxon (E) in jeder der fünf möglichen Positionen=> 15 Stammbäume etc.

E

E

EE

E

Page 76: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

76

Maximum ParsimonyProblem: Anzahl der möglichen Stammbäume

Number

of OTUs

Number of

rooted trees

Number of

unrooted trees

2 1 1

3 3 1

4 15 3

5 105 15

6 954 105

7 10395 954

8 135135 10395

9 2027025 135135

10 34459425 2027025

=> bei > 10 Sequenzenausführliche Suche allerStammbäume de facto unmöglich

Page 77: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

77

Maximum Parsimony

1. Lösung: "Branch and bound"-Methode verwirft Gruppen von

Bäumen, die nicht kürzer werden können als der bis dahin erhaltene kürzeste Stammbaum.

Man kann die maximale Stammbaumlänge (in Schritten) vorgeben.

Kann für Problemlösungen mit < ~ 20 Taxa verwendet werden.

Page 78: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

78

Maximum Parsimony

2. Lösung: Heuristische Verfahren: "Random addition" "Branch Swapping": Nearest neighbor interchange (NNI) Subtree pruning and regrafting (SPR) Tree bisection and reconnection (TBR)

Page 79: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

79

Maximum Parsimony

einfach; ohne konkretes Evolutionsmodell Errechnung ancestraler Positionen funktioniert gut mit konsistenen Datensätzen

Vorteile:

empfindlich gegen Homoplasien (Konvergenz) empfindlich gegen "Long Branch Attraction" Astlängen werden unterschätzt kein Evolutionsmodell möglich für die meisten molekularen Analysen nicht sehr gut geeignet

Nachteile:

Page 80: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

80

Charakter-orientierte Methoden

1. Maximum Parsimony (MP)

2. Maximum Likelihood (ML)

Page 81: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

81

Maximum Likelihood

L = P(data|tree)•Die "Likelihood" ist die Wahrscheinlichkeit

der beobachteten Daten (Sequenzen!), gegeben die Hypothese (Stammbaum).

•d.h, es wird der Stammbaum errechnet, der die beobachteten Daten (also die alignierten Sequenzen) am besten (unter der Annahme des Modells) erklärt.

Page 82: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

82

Maximum Likelihood

Probability (P) = Wahrscheinlichkeit

Wahrscheinlichkeiten summieren sich stets auf 1 auf:Wie wahrscheinlich ist es, dass ich eine 6 würfele? Antwort: 1/6. Wie wahrscheinlich ist es, dass ich keine 6 würfele? Antwort 5/6. => 1/6 + 5/6 =1.

Maximum Likelihood (L) Wahrscheinlichkeit (P)

Für "Likelihood"-Werte summieren sich nicht auf 1 auf:=> Wie wahrscheinlich ist meine Hypothese unter dem gegebenen Randbedingungen?

Page 83: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

83

Maximum Likelihood

Seq1 CGAGACSeq2 AGCGACSeq3 AGATTASeq4 GGATAG

1

2

3

4

Frage: Wie hoch ist die Wahrscheinlichkeit, daß der Stammbaum A für die Daten (Sequenzen) unter dem gegebenen Modell verantwortlich ist?

A

Page 84: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

84

Maximum Likelihood

OTU 1 CGAGA COTU 2 AGCGA COTU 3 AGATT AOTU 4 GGATA A

j

ACGT

?

?

C C A A

ACGT 4 x 4 Möglichkeiten

Wurzel willkürlich!

Die Wahrscheinlichkeit für eine best. Position j ist die Summe der Einzelwahrscheinlichkeiten aller möglichen ancestralen Nukleotide unter dem gegebenen Modell.

Page 85: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

85

ML – Beispiel (vereinfacht):

CCAA

Daten: Modell (nicht realistisch):

A T C G

A 1 0.1 0.1 0.1

T 1 0.1 0.1

C 1 0.1

G 1

OTU 1 OTU 2OTU 3OTU 4

Page 86: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

86

ML - Beispiel:

C

C

A

A

Stammbaum A:

X YX,Y = A, T, G, oder C

ML: Summe der 4 x 4 Einzelwahrscheinlichkeiten

Page 87: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

87

ML - Beispiel:

Stammbaum 1:

C

C

A

A

C T

C

C

A

A

C A

1 x 1 x 0.1 x 1 x 1 = 0.1 1 x 1 x 0.1 x 0.1 x 0.1 = 0.001

usw... Summe aus 16 möglichen Stammbäumen!

Stammbaum 2:

Page 88: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

88

ML - Beispiel:

Stammbaum A:

C

C

A

A

Gesamt"wahrscheinlichkeit":

= 0.12427=> logL = -0.90563

C

A

C

A

Gesamt"wahrscheinlichkeit":

= 0.02302=> logL = -1.6379

Stammbaum B:

Page 89: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

89

Wahrscheinlichkeit des Stammbaums A ist das Produkt aller Wahrscheinlichkeiten für jede Position. ML-Stammbaum = Stammbaum mit größter "Likelihood".

Maximum Likelihood

1 CGAGAC2 AGCGAC3 AGATTA4 GGATAG i . . . . z

1

2

3

4

A

Page 90: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

90

Maximum Likelihood

Austauschparameter werden aus Evolutionsmodell berechnet

Typisches Evolutionsmodell:

•Substitationswahrscheinlichkeit unabhängig von der Historie der Position (Markov-Modell).

•Eine Substitutationswahrscheinlichkeit im Stammbaum unabhängig von Zeit oder Position (homogener Markov-Prozeß).

•Ratenreversibilität: P(A -> T) = P(T -> A).

Page 91: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

91

Maximum Likelihood - Vorteile

Mathematisch gut definiert Funktioniert gut in

Simulationsexperimenten Erlaubt explizite Verbindung von

Evolutionsmodell und Daten (Sequenzen) "Realistische" Annahmen zur Evolution Verschiedene Modelle und Stammbäume

lassen sich testen

Page 92: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

92

Maximum Likelihood - Nachteile

Maximum likelihood ist nur konsistent (ergibt einen "wahren" Stammbaum) wenn die Evolution nach den gegebenen Modell ablief: Wie gut stimmt mein Modell mit den Daten überein?

Computertechnisch nicht zu lösen wenn zu viele Taxa oder Parameter berücksichtigt werden müssen.

Page 93: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

93

Maximum Likelihood Bei vielen Taxa sind

computertechnisch nicht alle möglichen Stammbäume berechenbar

Lösung: "Intelligente Algorithmen" - Quartet puzzling - Bayessche Methode + MCMCMC

Page 94: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

94

Statistische Auswertung

ML-Methoden Parametrisches Bootstrapping (Datensimulation) Nicht-parametrisches

Bootstrapping=> häufigste Methode

Page 95: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

95

Bootstrapping

Position Sequence 1 2 3 4 5 6 7 8 9 A A A A A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G

Orginalsequenzen Position Sequence 1 2 2 4 5 5 7 8 8 A A A A A G G G C C B A G G C G G C C C C A G G T A A C C C D A G G G A A C C C

Pseudosample 1

z.B. 100 Wiederholungen Position Sequence 1 1 1 4 4 6 7 7 7 A A A A A A T G G G B A A A C C T G G G C A A A T T T C C C D A A A G G T C C C

Pseudosample 2

Page 96: Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

96

Bootstrapping

123456789 Freq-----------------.**...... 100.00...**.... 100.00.....**.. 100.00...****.. 100.00...****** 95.50.......** 84.33...****.* 11.83...*****. 3.83.*******. 2.50.**....*. 1.00.**.....* 1.00

Majority-rule consensus tree

Taxon 1

Taxon 3

Taxon 8

Taxon 9

Taxon 4

Taxon 6

Taxon 7

100

96

84

100

100

100

Taxon 2

Taxon 5