31
6. Vorlesung WS 2006/07 Softwarewerkzeuge 1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition von Folds: siehe V5 Structural genomics soll die Strukturen von 1000-10.000 Proteinen vor allem mit neuen Faltungsmustern („folds“) aufklären. V7 Homologiemodellierung von Proteinen.

6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

Embed Size (px)

Citation preview

Page 1: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 1

V6: Proteinstrukturvorhersage

Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung.

Definition von Folds: siehe V5

Structural genomics soll die Strukturen von 1000-10.000 Proteinen vor allem

mit neuen Faltungsmustern („folds“) aufklären.

V7 Homologiemodellierung von Proteinen.

Page 2: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 2

Analyse einer unbekannten Sequenz

Suche in Sequenzdatenbankennach identischer Sequenz bzw. ähnlichen Sequenzen

Gibt es ähnliche Sequenz mit bekannter 3D-Struktur?

Vorhersage der Sekundärstruktur

Kann man Funktionzuordnen?

Modellierung der Proteinstruktur durch Homologiemodellierung

Ab inito Vorhersage der Tertiärstruktur

Zuordnung eines Protein-Folds

Multiples Sequenzalignment

Input: neue Proteinsequenz

Alignment der Sekundärstrukturen.

Erkenne Domänen

Analyse dieses Folds, Nachbarn?

ExperimentelleDaten vorhanden?

3D-Proteinstruktur

Alignment der Sequenzmit einer Target-Struktur

Fold erkannt?

Nein

Ja

Nein

Ja

Nach Rob Russell,http://speedy.embl-heidelberg.de/gtsp/flowchart2.html

Page 3: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 3

Integrative Datenbankanalyse

Gibt es Faltungsmuster, die es nur in bestimmten phylogenetischen

Gruppen gibt?

Diese Proteine könnte gute Targets für selektive Inhibitoren sein.

Das Ziel von structural genomics könnte sein, die Lücken zwischen den

bekannten Regionen zu füllen.

Page 4: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 4

Integrative DatenbankanalyseIntegrative database analysis in

structural genomics

M. Gerstein, Nat. Struct. Biol. 7, 960

(2000)

10 most common folds in yeast genome (= number ofgene duplications); table shows ranking according to various measures. It shows how common popular folds in yeast occur in othergenomes and in the PDB data base; variety of functions; level of expression.

Bestimmte Faltungsmuster kommen in allen Organismen vor!

Page 5: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 5

Beziehung zwischen Fold, Funktion, und WWs

Integrative database analysis in structural

genomics

M. Gerstein, Nat. Struct. Biol. 7, 960 (2000)

- die meisten Proteine

derselben Proteinfaltung

haben dieselbe (oder

eine von zwei)

Funktionen

Kenntnis des “folds”

ermöglicht oft

Funktionszuordnung!

“fold prediction” alleine

ist bereits sehr wertvoll.

Page 6: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 6

Proteinstrukturmodellierung für Structural Genomics

Protein structure modeling for structural genomics.

R. Sánchez et al. Nat. Struct. Biol. 7, 986 - 990 (2000)

Grad an Sequenzidentität

zwischen den bekannten

Proteinstrukturen und den

Proteinen von M. Genitalium. Für

333 von 479 Sequenzen konnte

mindestens für ein Stück von 30

Residuen ein Modell erstellt oder

ein Fold zugeordnet werden.

Page 7: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 7

Genomweite Strukturmodellierung

R. Sánchez et al. Nat. Struct. Biol. 7, 986 - 990 (2000)

Effekt des Wachstums der PDB-

Datenbank auf die Zahl der Protein des

Bakteriums M. Genitalium, deren Fold

und Struktur im jeweiligen Jahr

vorhergesagt werden konnte.

Homologie-Modellierung ist nicht

aufwendig, dauert pro Struktur nur

wenige Minuten.

Akkurate Modellierung von Loops und

Seitenketten kann jedoch erheblich

aufwendiger sein.

Grün: Proteine mit Modell oder fold assignment

aus PSI-BLAST für mindestens 30 ihrer

Residuen.

Blau: nur Modell

Rot: Anteil der Residuen des Genoms, die in

Modell oder fold assignment vorkommen.

Page 8: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 8

Schliesse von Struktur auf Funktion?

From structure to function: Approaches and limitations

J. M. Thornton et al. Nat. Struct. Biol. 7, 991  (2000)

Page 9: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 9

Faltung homologe Superfamilie Funktion

From structure to function: Approaches and limitations J. M.

Thornton et al. Nat. Struct. Biol. 7, 991  (2000)

Verteilung homologer Superfamilien in CATH

Klassifizierung von Proteinstrukturen.

Obwohl manche Folds sehr unterschiedliche

Funktionen ausüben können, enthalten 556

Folds jeweils nur eine homologe Superfamilie.

Page 10: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 10

Faltung homologe Superfamilie Funktion

From structure to function: Approaches and limitations J.

M.Thornton et al. Nat. Struct. Biol. 7, 991  (2000)

Konservierung von Enzymfunktion (durch EC-

Nummer definiert) innerhalb einer homologen

Superfamilie ist relativ gut erfüllt. Dennoch

gibt es eine Reihe von absoluten

Ausnahmen.

Ähnlichkeit der Enzymfunktion

Page 11: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 11

Faltung homologe Superfamilie Funktion

From structure to function: Approaches and limitations J.

M.Thornton et al. Nat. Struct. Biol. 7, 991  (2000)

Diversität der Enzymfunktion in

der Familie der Typ1-

Aspartat-Aminotransferasen:

gezeigt sind die verschiedenen

EC-Klassifizierungen von

Mitgliedern dieser Superfamilie.

Dies ist ein Beispiel für eine der

wenigen Superfamilien, bei denen

die Zuordnung

Fold Funktion

nicht eindeutig ist.

Page 12: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 12

Aktives Zentrum der Aspartat Proteasen

From structure to function: Approaches and limitations J.

M.Thornton et al. Nat. Struct. Biol. 7, 991  (2000)

Kristallstruktur des

menschlichen Pepsins.

Beide Domänen steuern

Residuen für aktives Zentrum

bei.

Page 13: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 13

From structure to function: Approaches and limitations J.

M.Thornton et al. Nat. Struct. Biol. 7, 991  (2000)

Superposition der Residuen

des aktiven Zentrums in 18

unterschiedlichen Aspartat-

Protease Proteinfamilien

das aktive Zentrum der

Aspartat-Protease kann durch

die Position von 8 Atomen

beschrieben werden.

Aktives Zentrum der Aspartat Proteasen

Page 14: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 14

Genomweite Sequenzanalyse bzw. Sequenzvergleich:Auswahl der Target-Proteine

Completeness in structural genomics

D. Vitkup et al. Nat. Struct. Biol. 8, 559  (2001)

Genauigkeit der CASP

Proteinstrukturen als Funktion

der Sequenzidentität von Ziel

und Vorlage.

Sobald die Identität unter 30%

sinkt, nimmt die Abweichung

der Modelle von der korrekten

exp. Struktur schnell zu.

Page 15: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 15

Completeness in structural genomics

D. Vitkup et al. Nat. Struct. Biol. 8, 559  (2001)

Korrektheit von Alignments

Die Hauptursache für diesen

Effekt sind Fehler im

Alignment von Zielprotein und

Vorlage.

Hier ist der Anteil der korrekt

alignierten Residuen gezeigt

(bewertet anhand der 3D-

Struktur).

Page 16: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 16

Strukturelle Abdeckung der Sequenzdatenbanken

Zahl an (Struktur-)Modellen,

die korrekt erzeugt werden

können als Funktion der

Sequenzidentität (x-Achse)

und des passenden

Sequenzabschnitts (y-Achse).

Der rechte-obere Quadrant

umfasst 19% aller Proteine in

Swissprot+TrEMBL, für die

eine zuverlässige Vorlage in

der PDB-Datenbank existiert.

Completeness in structural genomics

D. Vitkup et al. Nat. Struct. Biol. 8, 559  (2001)

Page 17: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 17

Strukturelle Information für gesamte Genome

Completeness in structural genomics.

Vitkup et al. Nat. Struct. Biol. 8, 559 (2001)

Page 18: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 18

Strukturelle Abdeckung der ras-Proteinfamilie

Completeness in structural

Genomics. D. Vitkup et al. Nat.

Struct. Biol. 8, 559  (2001)

Ras-Proteine in Hefe. Der

Abstand zwischen den

Proteinen entspricht

100% - Sequenzidentität.

Mit 1 Struktur (YPT6) kann

man alle Proteine aufgrund

von 20% Identität

modellieren (grüner Kreis),

mit 5 Strukturen alle mit

30% Identität (rote Kreise).

Page 19: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 19

Wie viele Proteinstrukturen werden benötigt?

Geplante Modellierung

aller Nichtmembran-

proteine.

Completeness in structural

Genomics. D. Vitkup et al. Nat.

Struct. Biol. 8, 559  (2001)

Page 20: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 20

Wie viele Strukturen werden praktisch benötigt?

Wie gut ist die strukturelle

Abdeckung, wenn man

Erfolgsraten von 100% (1:1)

bis runter zu 10% (1:10) für

die Kristallisationsprojekte

ansetzt?

Man kann auch für geringere

Erfolgsraten eine ähnlich gute

Abdeckung erwarten!

Completeness in structural

Genomics. D. Vitkup et al. Nat.

Struct. Biol. 8, 559  (2001)

Page 21: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 21

Blau: optimale Auswahl der

Targetproteine

Grün: Targetproteine werden

zufällig ausgewählt. Man

benötigt 7 x mehr Strukturen

um 90% Abdeckung zu

erreichen.

Rot: Auswahl ebenfalls

zufällig unter der Bedingung,

dass die Ähnlichkeit zu allen

anderen Strukturen < 30%

liegt.

Auswahl der zu kristallisierenden Proteine

Completeness in structural

Genomics. D. Vitkup et al. Nat.

Struct. Biol. 8, 559  (2001)

Page 22: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 22

Genomweite Sequenzanalyse bzw. Sequenzvergleich

Etwa die Hälfte aller Sequenzen und damit etwa ein

Viertel aller Residuen in bekannten Genomen kann

einer der 2000 bekannten Pfam Proteinfamilien

zugeordnet werden. Daher erwarten wir ca. 8000

Proteinfamilien. Für die strukturelle Abdeckung der

2000 bekannten Proteinfamilien zu 90% sind etwa 4000

Proteinstrukturen notwendig. Damit sind bei optimaler

Auswahl der Targetproteine 16000 Strukturbestim-

mungen notwendig.

Completeness in structural

Genomics. D. Vitkup et al. Nat.

Struct. Biol. 8, 559  (2001)

Page 23: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 23

Bryngelson, Wolynes, PNAS

(1987)

Gradient Rauhigkeit

beschleunigt bremst

Faltung Faltung

“Frustration”

„New view of protein folding“:Faltung entlang trichterähnlichen Energielandschaften

Brooks, Gruebele, Onuchic, Wolynes,

PNAS 95, 11037 (1998)

Page 24: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 24

Simulation des Faltungsprozesses

Wie lang dauert Proteinfaltung?

Welche Zeitskala können MD-Simulationen abdecken?

Kann man einen Protein-Faltungsprozess simulieren?

Page 25: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 25

Faltungs-Simulationen

Kann man einen Faltungsprozess mit MD-Simulationen simulieren?

1998 1 s Simulation der 36-Residuen des Villin-Fragments

exp. Faltungszeit: zwischen 10 – 100 s, Tm = 70 C

- enthält 3 kurze Helices (NMR), die durch Loop und Schleife verbunden sind

- dicht gepackter hydrophober Kern

4 Monate CPU Zeit auf 256 Prozessor Cray T3D und T3E

Page 26: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 26

Faltung des Villin-Fragments

entfaltet teilweise gefaltet native Strukturen

Duan & Kollman, Science 282, 740 (1998)

Vergleich der nativen Struktur (rot)

und des stabilsten clusters (blau)

Page 27: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 27

Faltung des Villin-Fragments

(A) relativer Helix-Anteil (C) Gyrationsradius und RMSD von nativer Struktur

(B) relativer nativer Anteil (D) freie Solvatationsenergie (Eisenberg-Parameter)

Duan & Kollman, Science 282, 740 (1998)

Page 28: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 28

Zusammenfassung

- Proteinstruktur ist Schlüssel zum Verständnis mechanistischer Details der

Proteinfunktion

- ab initio Vorhersage der Proteinstruktur durch Faltungssimulationen ist noch sehr

problematisch; funktioniert nur für kurze Proteine

Page 29: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 29

zusätzliche Folien

Page 30: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 30

Fold Optimierung

• Einfache Gittermodelle (HP-Modelle)

– Zwei Sorten von Seitenketten:

hydrophob und polar

– 2-D oder 3-D Gitter

– Treibende Kräfte:

hydrophober Kollaps – es ist günstig,

Kontakte zwischen hydropoben

Seitenketten zu bilden

– Bewertung = Anzahl an HH Kontakten

Page 31: 6. Vorlesung WS 2006/07Softwarewerkzeuge1 V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition

6. Vorlesung WS 2006/07

Softwarewerkzeuge 31

HP-Gittermodelle

Ken Dill ~ 1997

Vorteil solch einfacher Modelle:man kann den Konformationsraum systematisch absuchen.