Strukturvorhersage von Proteinen Vereinfachte Proteinmodelle · 2002. 11. 20. · Strukturvorhersage von Proteinen Christian Muller¨ 16. Bioinformatik September 2002 Modellierung

Bioinformatik September 2002

Sommerakademie St. Johann 2002

Seminar Bioinformatik

Strukturvorhersage von ProteinenVereinfachte Proteinmodelle

Christian Müller

September 2002

Strukturvorhersage von Proteinen Christian Müller 1


Übersicht

1. Einleitung: Vorhersage von Proteinstrukturen

2. Strukturvorhersage auf einem Tetraedergitter

3. Strukturvorhersage unter Verwendung der Sekundärstruktur

4. Strukturvorhersage mit einem kubischen HP-Modell

5. Vergleich von Struckturvorhersagemodellen

6. Zusammenfassung und Ausblick



1. Einleitung: Vorhersage von Proteinstrukturen

Ziel: Vorhersage der Struktur/Faltung von Proteinen aufgrund ihrer

Aminosäurensequenz

Schwierungkeiten:

� exponentiell grosse Anzahl von möglichen Proteinfaltungen

� keine ausreichende Computerleistung

� keine effizienten Qualitätskriterien



Vereinfachungen

1. Die einzelnen Aminosäuren werden als punktförmig angenommen

� Ein Protein besteht aus einer Kette von aneinandergereihtenPunkten

2. Jede Aminosäure darf sich nur auf einem Punkt in einem Gitter

befinden

� Reduzierung der Anzahl der möglichen Faltungen



Modelle unterschiedlicher Komplexität

mögliche Zustände Komplexität

Tetraedermodell �� 3Einfache kubische Modell und

Nichtgittermodell �� 5...

......

ext. knight’s walk modell � �� 55kubisches Modell: �� oder � � ��

Nichtgittermodelle: � ��



2. Strukturvorhersage auf einem Tetraedergitter [?]

Kompromiss zwischen

� Modell geringer Komplexität � erschöpfende Suche möglich

� Modell hoher Komplexiät

� Mikrostruktur wird (!) angemessen modelliertVorgehensweise:

1. Start mit einem Ende der Aminosäurensequenz

2. Hinzufügen der nächsten Aminosäure

3. Bewertung gemäss Interaktion zwischen den Aminosäuren

4. weiter bei Schritt 2



Interaktionen zwischen den Aminosäuren

2 Aminosäuren näher als 4,5 Ȧ �

mindestens 5 Aminosäuren auseinander

� Interaktion mit effektiver Energie � ��

� �� !" #%$ �� #

#& '( ' �� #

(1)

$ �� #*) Anzahl der + � , Kontakte

$ #*) Anzahl der tertiären Kontakte

#*) Anzahl der möglichen tertiären Kontakte

�� #*) Anzahl von möglichen + � , KontaktenStrukturvorhersage von Proteinen Christian Müller 7


Berechnung der Gesamtenergie

für jeden Kontakt: Berechnung der Energie

- . � � � � / 0 / 132 � / 054 6 / 1 2 � / 054 6 / 1 2 � / 0 / 14 62 � / 0 / 1 7 6 (2)mit 8 . Elementtyp von Element 9 in der Kette

� Berechnung aller Faltungen

� Auswahl der Struktur mit der kleinsten lokalen Energie



Optimierung des Abstandes

In natürlichen Proteinen:

Der Abstand zwischen den Proteinen variiert zwischen

1,5Ȧ( -Helices) und 3,4 Ȧ(antiparallele : -sheets)

� Optimierung des Abstandes (mit Hilfe der Energiefunktion)



Grenzen

� Keine Repräsentation von Sekundärstrukturen

� keine Berechnung der Seitenkettenorientierung(u.a. wichtig für die Gesamttopologie)



3. Vorhersage unter Hilfe der Sekundärstruktur [?]

bisher: Hinzufügen von einzelnen Aminosäuren

jetzt: auch Hinzufügen von Sekundärstrukturelementen erlaubt

Analyse wird aufgeteilt in 2 Schritte:

1. Analyse der Sequenz zur Bildung einer Sekundärstruktur

2. Verwendung der Sekundärstrukur zur Vorhersage der

Tertiärstruktur



Das Einsetzen von Sekundärstrukturelementen

Sekundärstrukturelemente sind

� in der Natur faltbar (besitzen viele Freiheitsgrade)

� aber im Modell star (keine inneren Freiheitsgrade)Das Andocken von grossen Strukturen wie : -sheets ergibt

� eine zu dichte Packung

� eine zu lose Packung

� oder beides



Algorithmus: Geocore 2

Wieder werden eine endliche Anzahl von Faltungen durchgerechnet

1. Kettenwachsprozess: Die Aminosäuren bzw.

Sekundärstrukturelemente werden schrittweise plaziert

2. Die Faltungen bewertet (durch einfache Potentialfunktion)

� Struktur mit geringster Energie ist die wahrscheinlichste



4. Vorhersage mit kubischen HP-Modell [?]

Ansatz:

� Die Proteinstruktur wird stabilisiert durch ihre Kompaktheit

� Die Struktur wird hauptsächlich bestimmt durch polare undnichtpolare Aminosäuren



Das HP-Modell

Modellierung durch eine Sequenze von hydrophoben (H) und

polaren (P) Monomere

hydrophobe Monomere (nicht wasserliebend)

� wenden sich nach innenpolare Monomere (wasserliebend)

� wenden sich nach aussenIn wie weit reicht dies aus zur Strukturvorhersage?



Beispiel

P1 H2 P3 H4 H5 P6 H7 H8 P9 H10 P11 P12 H13 H14 H15 P16 P17

P18 H19 P20 H21 H22 P23 H24 H25 P26 H27 P28 P29 H30 H31 H32

P33 P34 P35 H36 P37 H38 H39 P40 H41 H42 P43 H44 P45 P46 H47

H48 H49 P50 P51 P52 H53 P54 H55 H56 P57 H58 H59 P60 H61 P62

P63 H64 H65 H66 P67

Segment eine Kette von gleichen Monomeren (z.B. H13-H15)

Singlet ein Segment mit nur einem Element (z.B. P6 oder P9)



Modellierung

Ziel: Die Kette muss wird in das 3-dim. Gitter gelegt

� Jedes Monomer hat bis zu 6 Kontakten

� Jeder Kontakt zwischen 2 H-Monomeren bewirkt eine Freisetzungvon Energie

Maximierung der H-H Kontakte � Faltung mit geringster Energie



Strategien� Erzeugung eines H-Kerns mit minimaler Oberfläche

– Erzeugung einer optimalen geometrischen Hülle

– dann systematisches Hineinlegen der Kette

� die längsten H-Segmente sollten in den Kern gelegt werden

� P-singlets sollten aussen liegen

� Einschränkung des Suchraums Aufstellen von Bedingungen(Gleichungen und Ungleichungen)



Aufstellen der Restriktionen

Berechnung der Oberfläche

Dazu wird der H-Kern in Scheiben geschnitten:

;< � � =>@? � A< � ? B A< C2 >@D � A< � D B A< C E (3)Strukturvorhersage von Proteinen Christian Müller 20


Summierung über die F , G und H -Achse ergibt Oberfläche I :

J F C E (5)

Ziel: Minimierung von VW .



Aufstellen weiterer Bedingungen:� Seien 8 B und 8 � die Sequenzlängen von einem H-Monomer bis zu

den begrenzenden P-Monomeren

� Seien X B und X � die zwei kürzesten Wege bis zur Oberfläche9Y Z > 8 B � 8 � C [ 9Y Z > X B � X � C (6)

9 ? F > 8 B � 8 � C \ 9 ? F > 8 B � 8 � C (7)

� ] ] ]



Grenzen

� alle Aminosäuren werden als H- bzw. P-Monomere behandelt

� Mikroscopische Details werden nicht beachtet

� Trotz der Optimierungen bleibt es ein grossesOptimierungsproblem



5. Vergleich von Strukturvorhersagemodellen [?]

Komplexität = Anzahl möglicher Positionen pro Element

Entwicklung verschiedener Masse



Mass 1: Abweichung von der Röntgenstruktur

Standardabweichung der vorhergesagten Koordinaten zu den

gemessenen

> c.r.m.s. C � �

� ^K B_` 8 ^ � 8 ^_ �

Z (8)



Resultate:

� c.r.m.s scheint nur von der Komplexität abzuhängen

Genauigkeit� �

Complexität(9)

� Ab einem bestimmten Punkt bringt eine Erhöhung der Komplexitätkeinen weiteren Nutzen

� Optimierte Modelle können eine Verbesserung bringen



Mass 2: Erhaltung der ursprünglichen Kontakte

Standardabweichung der vorhergesagten Distanzen zwischen den

Aminosäuren zu den gemessenen

> d.r.m.s. C � �

� B^K B � aK ^ b B > _` 8 ^ � ` 8 a_ � � _ 8 ^ � 8 a_ � C

Z > Z � � C c� (10)



Leichte Verbesserung bei Steigerung der Komplexität



Mass 3: Erhaltung der Sekundärstruktur

� Proteinstruktur ist– hierarchisch und

– wird durch ihre Sekundärstruktur dominiert

� Natürliche Faltungen sind Anordnungen von -Helices undP-sheets

� Ein gutes Modell sollte diese Strukturen wiedergeben



Komplexere Modelle erhalten i.a. besser die Sekundärstrukturen.



Fazit� Erhöhung der Komplexität

� nur leichte Verbesseung

� Bei Optimierung des Modells

� Modelle niedriger Komplexität fast gleiche Qualität

� Modell hat einen grossen Einfluss auf die Vorhersage der Struktur

� Eventuell fundamentales Problem

� Resultat unabhängig von der Suchfunktion



6. Zusammenfassung und Ausblick� viele verschiedene Ansätze

� Variation der Komplexität des Gitters

� Alle Modelle müssen vereinfachen

� Zusätzliches Optimieren durch Heuristiken– Bevorzugung einer Faltung mit hydrophoben Kern

� Modelle einsetzbar bis zu 100 Aminosäuren


Literatur

[HM94] D. A. Hinds and M. Levitt M. Exploring conformational space with a simple lattice

model for protein structure. Journal of Molecular Biology, 243(4):668–82, 1994.

[PL95] B. H. Park and M. Levitt. The complexity and accuracy of discrete state models of

protein structure. Journal of Molecular Biology, 249(2):493–507, 1995.

[YD95] K Yue and KA Dill. Forces of tertiary structural organization in globular proteins. Proc.

Natl. Acad. Sci. USA, 92(1):146–50, 1995.

[YD00] K. Yue and K. A. Dill. Constraint-based assembly of tertiary protein structures from

secondary structure elements. Protein Sci, 9(19):1935–46, 2000.

33-1

Documents

Strukturvorhersage von Proteinen Vereinfachte Proteinmodelle · 2002. 11. 20. · Strukturvorhersage von Proteinen Christian Muller¨ 16. Bioinformatik September 2002 Modellierung