Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
Bioinformatik September 2002
Sommerakademie St. Johann 2002
Seminar Bioinformatik
Strukturvorhersage von ProteinenVereinfachte Proteinmodelle
Christian Müller
September 2002
Strukturvorhersage von Proteinen Christian Müller 1
Bioinformatik September 2002
Übersicht
1. Einleitung: Vorhersage von Proteinstrukturen
2. Strukturvorhersage auf einem Tetraedergitter
3. Strukturvorhersage unter Verwendung der Sekundärstruktur
4. Strukturvorhersage mit einem kubischen HP-Modell
5. Vergleich von Struckturvorhersagemodellen
6. Zusammenfassung und Ausblick
Strukturvorhersage von Proteinen Christian Müller 2
Bioinformatik September 2002
1. Einleitung: Vorhersage von Proteinstrukturen
Ziel: Vorhersage der Struktur/Faltung von Proteinen aufgrund ihrer
Aminosäurensequenz
Schwierungkeiten:
� exponentiell grosse Anzahl von möglichen Proteinfaltungen
� keine ausreichende Computerleistung
� keine effizienten Qualitätskriterien
Strukturvorhersage von Proteinen Christian Müller 3
Bioinformatik September 2002
Vereinfachungen
1. Die einzelnen Aminosäuren werden als punktförmig angenommen
� Ein Protein besteht aus einer Kette von aneinandergereihtenPunkten
2. Jede Aminosäure darf sich nur auf einem Punkt in einem Gitter
befinden
� Reduzierung der Anzahl der möglichen Faltungen
Strukturvorhersage von Proteinen Christian Müller 4
Bioinformatik September 2002
Modelle unterschiedlicher Komplexität
mögliche Zustände Komplexität
Tetraedermodell ��� ��� � 3Einfache kubische Modell und
Nichtgittermodell �� � 5...
......
ext. knight’s walk modell � �� � 55kubisches Modell: �� �� ��� � � �� �� � �� ��� �� oder � � ��
Nichtgittermodelle: � �� � ��� � � � � � � � �� � �� ��� � � ��� ��
Strukturvorhersage von Proteinen Christian Müller 5
Bioinformatik September 2002
2. Strukturvorhersage auf einem Tetraedergitter [?]
Kompromiss zwischen
� Modell geringer Komplexität � erschöpfende Suche möglich
� Modell hoher Komplexiät
� Mikrostruktur wird (!) angemessen modelliertVorgehensweise:
1. Start mit einem Ende der Aminosäurensequenz
2. Hinzufügen der nächsten Aminosäure
3. Bewertung gemäss Interaktion zwischen den Aminosäuren
4. weiter bei Schritt 2
Strukturvorhersage von Proteinen Christian Müller 6
Bioinformatik September 2002
Interaktionen zwischen den Aminosäuren
2 Aminosäuren näher als 4,5 Ȧ �
mindestens 5 Aminosäuren auseinander
� Interaktion mit effektiver Energie � ��
� �� � � � !" #%$ �� #
#& '( ' �� #
(1)
$ �� #*) Anzahl der + � , Kontakte
$ #*) Anzahl der tertiären Kontakte
#*) Anzahl der möglichen tertiären Kontakte
�� #*) Anzahl von möglichen + � , KontaktenStrukturvorhersage von Proteinen Christian Müller 7
Bioinformatik September 2002
Berechnung der Gesamtenergie
für jeden Kontakt: Berechnung der Energie
- . � � � � / 0 / 132 � / 054 6 / 1 2 � / 054 6 / 1 2 � / 0 / 14 62 � / 0 / 1 7 6 (2)mit 8 . Elementtyp von Element 9 in der Kette
� Berechnung aller Faltungen
� Auswahl der Struktur mit der kleinsten lokalen Energie
Strukturvorhersage von Proteinen Christian Müller 8
Bioinformatik September 2002
Optimierung des Abstandes
In natürlichen Proteinen:
Der Abstand zwischen den Proteinen variiert zwischen
1,5Ȧ( -Helices) und 3,4 Ȧ(antiparallele : -sheets)
� Optimierung des Abstandes (mit Hilfe der Energiefunktion)
Strukturvorhersage von Proteinen Christian Müller 9
Bioinformatik September 2002
Grenzen
� Keine Repräsentation von Sekundärstrukturen
� keine Berechnung der Seitenkettenorientierung(u.a. wichtig für die Gesamttopologie)
Strukturvorhersage von Proteinen Christian Müller 10
Bioinformatik September 2002
3. Vorhersage unter Hilfe der Sekundärstruktur [?]
bisher: Hinzufügen von einzelnen Aminosäuren
jetzt: auch Hinzufügen von Sekundärstrukturelementen erlaubt
Analyse wird aufgeteilt in 2 Schritte:
1. Analyse der Sequenz zur Bildung einer Sekundärstruktur
2. Verwendung der Sekundärstrukur zur Vorhersage der
Tertiärstruktur
Strukturvorhersage von Proteinen Christian Müller 11
Bioinformatik September 2002
Das Einsetzen von Sekundärstrukturelementen
Sekundärstrukturelemente sind
� in der Natur faltbar (besitzen viele Freiheitsgrade)
� aber im Modell star (keine inneren Freiheitsgrade)Das Andocken von grossen Strukturen wie : -sheets ergibt
� eine zu dichte Packung
� eine zu lose Packung
� oder beides
Strukturvorhersage von Proteinen Christian Müller 12
Bioinformatik September 2002
Algorithmus: Geocore 2
Wieder werden eine endliche Anzahl von Faltungen durchgerechnet
1. Kettenwachsprozess: Die Aminosäuren bzw.
Sekundärstrukturelemente werden schrittweise plaziert
2. Die Faltungen bewertet (durch einfache Potentialfunktion)
� Struktur mit geringster Energie ist die wahrscheinlichste
Strukturvorhersage von Proteinen Christian Müller 13
Bioinformatik September 2002
4. Vorhersage mit kubischen HP-Modell [?]
Ansatz:
� Die Proteinstruktur wird stabilisiert durch ihre Kompaktheit
� Die Struktur wird hauptsächlich bestimmt durch polare undnichtpolare Aminosäuren
Strukturvorhersage von Proteinen Christian Müller 14
Bioinformatik September 2002
Das HP-Modell
Modellierung durch eine Sequenze von hydrophoben (H) und
polaren (P) Monomere
hydrophobe Monomere (nicht wasserliebend)
� wenden sich nach innenpolare Monomere (wasserliebend)
� wenden sich nach aussenIn wie weit reicht dies aus zur Strukturvorhersage?
Strukturvorhersage von Proteinen Christian Müller 15
Bioinformatik September 2002
Beispiel
P1 H2 P3 H4 H5 P6 H7 H8 P9 H10 P11 P12 H13 H14 H15 P16 P17
P18 H19 P20 H21 H22 P23 H24 H25 P26 H27 P28 P29 H30 H31 H32
P33 P34 P35 H36 P37 H38 H39 P40 H41 H42 P43 H44 P45 P46 H47
H48 H49 P50 P51 P52 H53 P54 H55 H56 P57 H58 H59 P60 H61 P62
P63 H64 H65 H66 P67
Segment eine Kette von gleichen Monomeren (z.B. H13-H15)
Singlet ein Segment mit nur einem Element (z.B. P6 oder P9)
Strukturvorhersage von Proteinen Christian Müller 16
Bioinformatik September 2002
Modellierung
Ziel: Die Kette muss wird in das 3-dim. Gitter gelegt
� Jedes Monomer hat bis zu 6 Kontakten
� Jeder Kontakt zwischen 2 H-Monomeren bewirkt eine Freisetzungvon Energie
Maximierung der H-H Kontakte � Faltung mit geringster Energie
Strukturvorhersage von Proteinen Christian Müller 17
Bioinformatik September 2002
Strukturvorhersage von Proteinen Christian Müller 18
Bioinformatik September 2002
Strategien� Erzeugung eines H-Kerns mit minimaler Oberfläche
– Erzeugung einer optimalen geometrischen Hülle
– dann systematisches Hineinlegen der Kette
� die längsten H-Segmente sollten in den Kern gelegt werden
� P-singlets sollten aussen liegen
� Einschränkung des Suchraums Aufstellen von Bedingungen(Gleichungen und Ungleichungen)
Strukturvorhersage von Proteinen Christian Müller 19
Bioinformatik September 2002
Aufstellen der Restriktionen
Berechnung der Oberfläche
Dazu wird der H-Kern in Scheiben geschnitten:
;< � � =>@? � A< � ? B A< C2 >@D � A< � D B A< C E (3)Strukturvorhersage von Proteinen Christian Müller 20
Bioinformatik September 2002
Summierung über die F , G und H -Achse ergibt Oberfläche I :
J F C E (5)
Ziel: Minimierung von VW .
Strukturvorhersage von Proteinen Christian Müller 21
Bioinformatik September 2002
Aufstellen weiterer Bedingungen:� Seien 8 B und 8 � die Sequenzlängen von einem H-Monomer bis zu
den begrenzenden P-Monomeren
� Seien X B und X � die zwei kürzesten Wege bis zur Oberfläche9Y Z > 8 B � 8 � C [ 9Y Z > X B � X � C (6)
9 ? F > 8 B � 8 � C \ 9 ? F > 8 B � 8 � C (7)
� ] ] ]
Strukturvorhersage von Proteinen Christian Müller 22
Bioinformatik September 2002
Grenzen
� alle Aminosäuren werden als H- bzw. P-Monomere behandelt
� Mikroscopische Details werden nicht beachtet
� Trotz der Optimierungen bleibt es ein grossesOptimierungsproblem
Strukturvorhersage von Proteinen Christian Müller 23
Bioinformatik September 2002
5. Vergleich von Strukturvorhersagemodellen [?]
Komplexität = Anzahl möglicher Positionen pro Element
Entwicklung verschiedener Masse
Strukturvorhersage von Proteinen Christian Müller 24
Bioinformatik September 2002
Mass 1: Abweichung von der Röntgenstruktur
Standardabweichung der vorhergesagten Koordinaten zu den
gemessenen
> c.r.m.s. C � �
� ^K B_` 8 ^ � 8 ^_ �
Z (8)
Strukturvorhersage von Proteinen Christian Müller 25
Bioinformatik September 2002
Strukturvorhersage von Proteinen Christian Müller 26
Bioinformatik September 2002
Resultate:
� c.r.m.s scheint nur von der Komplexität abzuhängen
Genauigkeit� �
Complexität(9)
� Ab einem bestimmten Punkt bringt eine Erhöhung der Komplexitätkeinen weiteren Nutzen
� Optimierte Modelle können eine Verbesserung bringen
Strukturvorhersage von Proteinen Christian Müller 27
Bioinformatik September 2002
Mass 2: Erhaltung der ursprünglichen Kontakte
Standardabweichung der vorhergesagten Distanzen zwischen den
Aminosäuren zu den gemessenen
> d.r.m.s. C � �
� B^K B � aK ^ b B > _` 8 ^ � ` 8 a_ � � _ 8 ^ � 8 a_ � C
Z > Z � � C c� (10)
Strukturvorhersage von Proteinen Christian Müller 28
Bioinformatik September 2002
Leichte Verbesserung bei Steigerung der Komplexität
Strukturvorhersage von Proteinen Christian Müller 29
Bioinformatik September 2002
Mass 3: Erhaltung der Sekundärstruktur
� Proteinstruktur ist– hierarchisch und
– wird durch ihre Sekundärstruktur dominiert
� Natürliche Faltungen sind Anordnungen von -Helices undP-sheets
� Ein gutes Modell sollte diese Strukturen wiedergeben
Strukturvorhersage von Proteinen Christian Müller 30
Bioinformatik September 2002
Komplexere Modelle erhalten i.a. besser die Sekundärstrukturen.
Strukturvorhersage von Proteinen Christian Müller 31
Bioinformatik September 2002
Fazit� Erhöhung der Komplexität
� nur leichte Verbesseung
� Bei Optimierung des Modells
� Modelle niedriger Komplexität fast gleiche Qualität
� Modell hat einen grossen Einfluss auf die Vorhersage der Struktur
� Eventuell fundamentales Problem
� Resultat unabhängig von der Suchfunktion
Strukturvorhersage von Proteinen Christian Müller 32
Bioinformatik September 2002
6. Zusammenfassung und Ausblick� viele verschiedene Ansätze
� Variation der Komplexität des Gitters
� Alle Modelle müssen vereinfachen
� Zusätzliches Optimieren durch Heuristiken– Bevorzugung einer Faltung mit hydrophoben Kern
� Modelle einsetzbar bis zu 100 Aminosäuren
Strukturvorhersage von Proteinen Christian Müller 33
Literatur
[HM94] D. A. Hinds and M. Levitt M. Exploring conformational space with a simple lattice
model for protein structure. Journal of Molecular Biology, 243(4):668–82, 1994.
[PL95] B. H. Park and M. Levitt. The complexity and accuracy of discrete state models of
protein structure. Journal of Molecular Biology, 249(2):493–507, 1995.
[YD95] K Yue and KA Dill. Forces of tertiary structural organization in globular proteins. Proc.
Natl. Acad. Sci. USA, 92(1):146–50, 1995.
[YD00] K. Yue and K. A. Dill. Constraint-based assembly of tertiary protein structures from
secondary structure elements. Protein Sci, 9(19):1935–46, 2000.
33-1