Upload
fritzi-kemner
View
105
Download
0
Embed Size (px)
Citation preview
6. Vorlesung WS 2006/07
Softwarewerkzeuge 1
V6: Proteinstrukturvorhersage
Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung.
Definition von Folds: siehe V5
Structural genomics soll die Strukturen von 1000-10.000 Proteinen vor allem
mit neuen Faltungsmustern („folds“) aufklären.
V7 Homologiemodellierung von Proteinen.
6. Vorlesung WS 2006/07
Softwarewerkzeuge 2
Analyse einer unbekannten Sequenz
Suche in Sequenzdatenbankennach identischer Sequenz bzw. ähnlichen Sequenzen
Gibt es ähnliche Sequenz mit bekannter 3D-Struktur?
Vorhersage der Sekundärstruktur
Kann man Funktionzuordnen?
Modellierung der Proteinstruktur durch Homologiemodellierung
Ab inito Vorhersage der Tertiärstruktur
Zuordnung eines Protein-Folds
Multiples Sequenzalignment
Input: neue Proteinsequenz
Alignment der Sekundärstrukturen.
Erkenne Domänen
Analyse dieses Folds, Nachbarn?
ExperimentelleDaten vorhanden?
3D-Proteinstruktur
Alignment der Sequenzmit einer Target-Struktur
Fold erkannt?
Nein
Ja
Nein
Ja
Nach Rob Russell,http://speedy.embl-heidelberg.de/gtsp/flowchart2.html
6. Vorlesung WS 2006/07
Softwarewerkzeuge 3
Integrative Datenbankanalyse
Gibt es Faltungsmuster, die es nur in bestimmten phylogenetischen
Gruppen gibt?
Diese Proteine könnte gute Targets für selektive Inhibitoren sein.
Das Ziel von structural genomics könnte sein, die Lücken zwischen den
bekannten Regionen zu füllen.
6. Vorlesung WS 2006/07
Softwarewerkzeuge 4
Integrative DatenbankanalyseIntegrative database analysis in
structural genomics
M. Gerstein, Nat. Struct. Biol. 7, 960
(2000)
10 most common folds in yeast genome (= number ofgene duplications); table shows ranking according to various measures. It shows how common popular folds in yeast occur in othergenomes and in the PDB data base; variety of functions; level of expression.
Bestimmte Faltungsmuster kommen in allen Organismen vor!
6. Vorlesung WS 2006/07
Softwarewerkzeuge 5
Beziehung zwischen Fold, Funktion, und WWs
Integrative database analysis in structural
genomics
M. Gerstein, Nat. Struct. Biol. 7, 960 (2000)
- die meisten Proteine
derselben Proteinfaltung
haben dieselbe (oder
eine von zwei)
Funktionen
Kenntnis des “folds”
ermöglicht oft
Funktionszuordnung!
“fold prediction” alleine
ist bereits sehr wertvoll.
6. Vorlesung WS 2006/07
Softwarewerkzeuge 6
Proteinstrukturmodellierung für Structural Genomics
Protein structure modeling for structural genomics.
R. Sánchez et al. Nat. Struct. Biol. 7, 986 - 990 (2000)
Grad an Sequenzidentität
zwischen den bekannten
Proteinstrukturen und den
Proteinen von M. Genitalium. Für
333 von 479 Sequenzen konnte
mindestens für ein Stück von 30
Residuen ein Modell erstellt oder
ein Fold zugeordnet werden.
6. Vorlesung WS 2006/07
Softwarewerkzeuge 7
Genomweite Strukturmodellierung
R. Sánchez et al. Nat. Struct. Biol. 7, 986 - 990 (2000)
Effekt des Wachstums der PDB-
Datenbank auf die Zahl der Protein des
Bakteriums M. Genitalium, deren Fold
und Struktur im jeweiligen Jahr
vorhergesagt werden konnte.
Homologie-Modellierung ist nicht
aufwendig, dauert pro Struktur nur
wenige Minuten.
Akkurate Modellierung von Loops und
Seitenketten kann jedoch erheblich
aufwendiger sein.
Grün: Proteine mit Modell oder fold assignment
aus PSI-BLAST für mindestens 30 ihrer
Residuen.
Blau: nur Modell
Rot: Anteil der Residuen des Genoms, die in
Modell oder fold assignment vorkommen.
6. Vorlesung WS 2006/07
Softwarewerkzeuge 8
Schliesse von Struktur auf Funktion?
From structure to function: Approaches and limitations
J. M. Thornton et al. Nat. Struct. Biol. 7, 991 (2000)
6. Vorlesung WS 2006/07
Softwarewerkzeuge 9
Faltung homologe Superfamilie Funktion
From structure to function: Approaches and limitations J. M.
Thornton et al. Nat. Struct. Biol. 7, 991 (2000)
Verteilung homologer Superfamilien in CATH
Klassifizierung von Proteinstrukturen.
Obwohl manche Folds sehr unterschiedliche
Funktionen ausüben können, enthalten 556
Folds jeweils nur eine homologe Superfamilie.
6. Vorlesung WS 2006/07
Softwarewerkzeuge 10
Faltung homologe Superfamilie Funktion
From structure to function: Approaches and limitations J.
M.Thornton et al. Nat. Struct. Biol. 7, 991 (2000)
Konservierung von Enzymfunktion (durch EC-
Nummer definiert) innerhalb einer homologen
Superfamilie ist relativ gut erfüllt. Dennoch
gibt es eine Reihe von absoluten
Ausnahmen.
Ähnlichkeit der Enzymfunktion
6. Vorlesung WS 2006/07
Softwarewerkzeuge 11
Faltung homologe Superfamilie Funktion
From structure to function: Approaches and limitations J.
M.Thornton et al. Nat. Struct. Biol. 7, 991 (2000)
Diversität der Enzymfunktion in
der Familie der Typ1-
Aspartat-Aminotransferasen:
gezeigt sind die verschiedenen
EC-Klassifizierungen von
Mitgliedern dieser Superfamilie.
Dies ist ein Beispiel für eine der
wenigen Superfamilien, bei denen
die Zuordnung
Fold Funktion
nicht eindeutig ist.
6. Vorlesung WS 2006/07
Softwarewerkzeuge 12
Aktives Zentrum der Aspartat Proteasen
From structure to function: Approaches and limitations J.
M.Thornton et al. Nat. Struct. Biol. 7, 991 (2000)
Kristallstruktur des
menschlichen Pepsins.
Beide Domänen steuern
Residuen für aktives Zentrum
bei.
6. Vorlesung WS 2006/07
Softwarewerkzeuge 13
From structure to function: Approaches and limitations J.
M.Thornton et al. Nat. Struct. Biol. 7, 991 (2000)
Superposition der Residuen
des aktiven Zentrums in 18
unterschiedlichen Aspartat-
Protease Proteinfamilien
das aktive Zentrum der
Aspartat-Protease kann durch
die Position von 8 Atomen
beschrieben werden.
Aktives Zentrum der Aspartat Proteasen
6. Vorlesung WS 2006/07
Softwarewerkzeuge 14
Genomweite Sequenzanalyse bzw. Sequenzvergleich:Auswahl der Target-Proteine
Completeness in structural genomics
D. Vitkup et al. Nat. Struct. Biol. 8, 559 (2001)
Genauigkeit der CASP
Proteinstrukturen als Funktion
der Sequenzidentität von Ziel
und Vorlage.
Sobald die Identität unter 30%
sinkt, nimmt die Abweichung
der Modelle von der korrekten
exp. Struktur schnell zu.
6. Vorlesung WS 2006/07
Softwarewerkzeuge 15
Completeness in structural genomics
D. Vitkup et al. Nat. Struct. Biol. 8, 559 (2001)
Korrektheit von Alignments
Die Hauptursache für diesen
Effekt sind Fehler im
Alignment von Zielprotein und
Vorlage.
Hier ist der Anteil der korrekt
alignierten Residuen gezeigt
(bewertet anhand der 3D-
Struktur).
6. Vorlesung WS 2006/07
Softwarewerkzeuge 16
Strukturelle Abdeckung der Sequenzdatenbanken
Zahl an (Struktur-)Modellen,
die korrekt erzeugt werden
können als Funktion der
Sequenzidentität (x-Achse)
und des passenden
Sequenzabschnitts (y-Achse).
Der rechte-obere Quadrant
umfasst 19% aller Proteine in
Swissprot+TrEMBL, für die
eine zuverlässige Vorlage in
der PDB-Datenbank existiert.
Completeness in structural genomics
D. Vitkup et al. Nat. Struct. Biol. 8, 559 (2001)
6. Vorlesung WS 2006/07
Softwarewerkzeuge 17
Strukturelle Information für gesamte Genome
Completeness in structural genomics.
Vitkup et al. Nat. Struct. Biol. 8, 559 (2001)
6. Vorlesung WS 2006/07
Softwarewerkzeuge 18
Strukturelle Abdeckung der ras-Proteinfamilie
Completeness in structural
Genomics. D. Vitkup et al. Nat.
Struct. Biol. 8, 559 (2001)
Ras-Proteine in Hefe. Der
Abstand zwischen den
Proteinen entspricht
100% - Sequenzidentität.
Mit 1 Struktur (YPT6) kann
man alle Proteine aufgrund
von 20% Identität
modellieren (grüner Kreis),
mit 5 Strukturen alle mit
30% Identität (rote Kreise).
6. Vorlesung WS 2006/07
Softwarewerkzeuge 19
Wie viele Proteinstrukturen werden benötigt?
Geplante Modellierung
aller Nichtmembran-
proteine.
Completeness in structural
Genomics. D. Vitkup et al. Nat.
Struct. Biol. 8, 559 (2001)
6. Vorlesung WS 2006/07
Softwarewerkzeuge 20
Wie viele Strukturen werden praktisch benötigt?
Wie gut ist die strukturelle
Abdeckung, wenn man
Erfolgsraten von 100% (1:1)
bis runter zu 10% (1:10) für
die Kristallisationsprojekte
ansetzt?
Man kann auch für geringere
Erfolgsraten eine ähnlich gute
Abdeckung erwarten!
Completeness in structural
Genomics. D. Vitkup et al. Nat.
Struct. Biol. 8, 559 (2001)
6. Vorlesung WS 2006/07
Softwarewerkzeuge 21
Blau: optimale Auswahl der
Targetproteine
Grün: Targetproteine werden
zufällig ausgewählt. Man
benötigt 7 x mehr Strukturen
um 90% Abdeckung zu
erreichen.
Rot: Auswahl ebenfalls
zufällig unter der Bedingung,
dass die Ähnlichkeit zu allen
anderen Strukturen < 30%
liegt.
Auswahl der zu kristallisierenden Proteine
Completeness in structural
Genomics. D. Vitkup et al. Nat.
Struct. Biol. 8, 559 (2001)
6. Vorlesung WS 2006/07
Softwarewerkzeuge 22
Genomweite Sequenzanalyse bzw. Sequenzvergleich
Etwa die Hälfte aller Sequenzen und damit etwa ein
Viertel aller Residuen in bekannten Genomen kann
einer der 2000 bekannten Pfam Proteinfamilien
zugeordnet werden. Daher erwarten wir ca. 8000
Proteinfamilien. Für die strukturelle Abdeckung der
2000 bekannten Proteinfamilien zu 90% sind etwa 4000
Proteinstrukturen notwendig. Damit sind bei optimaler
Auswahl der Targetproteine 16000 Strukturbestim-
mungen notwendig.
Completeness in structural
Genomics. D. Vitkup et al. Nat.
Struct. Biol. 8, 559 (2001)
6. Vorlesung WS 2006/07
Softwarewerkzeuge 23
Bryngelson, Wolynes, PNAS
(1987)
Gradient Rauhigkeit
beschleunigt bremst
Faltung Faltung
“Frustration”
„New view of protein folding“:Faltung entlang trichterähnlichen Energielandschaften
Brooks, Gruebele, Onuchic, Wolynes,
PNAS 95, 11037 (1998)
6. Vorlesung WS 2006/07
Softwarewerkzeuge 24
Simulation des Faltungsprozesses
Wie lang dauert Proteinfaltung?
Welche Zeitskala können MD-Simulationen abdecken?
Kann man einen Protein-Faltungsprozess simulieren?
6. Vorlesung WS 2006/07
Softwarewerkzeuge 25
Faltungs-Simulationen
Kann man einen Faltungsprozess mit MD-Simulationen simulieren?
1998 1 s Simulation der 36-Residuen des Villin-Fragments
exp. Faltungszeit: zwischen 10 – 100 s, Tm = 70 C
- enthält 3 kurze Helices (NMR), die durch Loop und Schleife verbunden sind
- dicht gepackter hydrophober Kern
4 Monate CPU Zeit auf 256 Prozessor Cray T3D und T3E
6. Vorlesung WS 2006/07
Softwarewerkzeuge 26
Faltung des Villin-Fragments
entfaltet teilweise gefaltet native Strukturen
Duan & Kollman, Science 282, 740 (1998)
Vergleich der nativen Struktur (rot)
und des stabilsten clusters (blau)
6. Vorlesung WS 2006/07
Softwarewerkzeuge 27
Faltung des Villin-Fragments
(A) relativer Helix-Anteil (C) Gyrationsradius und RMSD von nativer Struktur
(B) relativer nativer Anteil (D) freie Solvatationsenergie (Eisenberg-Parameter)
Duan & Kollman, Science 282, 740 (1998)
6. Vorlesung WS 2006/07
Softwarewerkzeuge 28
Zusammenfassung
- Proteinstruktur ist Schlüssel zum Verständnis mechanistischer Details der
Proteinfunktion
- ab initio Vorhersage der Proteinstruktur durch Faltungssimulationen ist noch sehr
problematisch; funktioniert nur für kurze Proteine
6. Vorlesung WS 2006/07
Softwarewerkzeuge 29
zusätzliche Folien
6. Vorlesung WS 2006/07
Softwarewerkzeuge 30
Fold Optimierung
• Einfache Gittermodelle (HP-Modelle)
– Zwei Sorten von Seitenketten:
hydrophob und polar
– 2-D oder 3-D Gitter
– Treibende Kräfte:
hydrophober Kollaps – es ist günstig,
Kontakte zwischen hydropoben
Seitenketten zu bilden
– Bewertung = Anzahl an HH Kontakten
6. Vorlesung WS 2006/07
Softwarewerkzeuge 31
HP-Gittermodelle
Ken Dill ~ 1997
Vorteil solch einfacher Modelle:man kann den Konformationsraum systematisch absuchen.