Upload
heinrich-brandt
View
215
Download
0
Tags:
Embed Size (px)
Citation preview
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genesMoments of the Boltzmann distribution for RNA secondary structures
Joanna WisniewskaSeminar
“Aktuelle Themen der Bioinformatik”
SS 2005 [email protected]
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
Einleitung Fragestellung: „Ob und wie co-transkriptionelle Faltung in Primär-
und Sekundärstruktur von RNA Sequenzen verschlüsselt ist“„Hilft die RNA-Organisation der Entstehung der funktionalen Struktur während der Transkription“
Durch Menge Statistiken, die verschiedene Konkurrenzfälle innerhalb einer Sequenz zählen, untersuchen.
Ergebnis: unterdrücken von alternativen Helices, die in Konkurrenz mit der
funktionalen Struktur stehen fördern von transienten „guide“-Strukturen, die zur co-transkriptioneller
Faltung führen
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
BackgroundBiologische Grundlagen:
Transkription:- gerichteter Prozess: 5`-Ende entsteht zuerst- kann mit unterschiedlicher Geschwindigkeit ablaufen
beeinflusst Faltungsweg und funktionelle Struktur- ob entstandene Struktur transient von Stabilität, ihrer
Entstehungszeit und Konkurrenzsituation zu alternativen Strukturen abhängig
RNA-Faltung:- co-transkriptionell temporäre Sekundärstruktur Elemente- RNA kann zur korrekten Faltung anderer RNA beitragen
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
Struktur:- funktionale Struktur muss nicht Struktur mit minimaler freier
Energie (mfe) sein, kann also auch eine temporäre sein- kinetische Struktur entsteht durch co-transkriptionelle /
sequentielle Faltung
Vermeiden von Miss-Faltungen:- durch RNA-Chaperone- sie setzten die kinetische Barriere zwischen korrekt und falsch
gefalteten Strukturen herab- können Faltungsweg guiden oder korrekte Struktur stabilisieren
Wenig bekannt, ob:co-transkriptionelle Faltung durch spezifische oder nicht-
spezifische Bindeproteine beherrscht wirdPrimärstruktur selbst notwenige Eigenschaften übermittelt
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
allgemeines Beispiel für co-transkriptionelle Faltung:
Anfang der Transkription: 2 Helices und Pseudoknoten (a)
Sekundärstruktur wird kompaktgehalten (b)-(c)
Gegen Ende der Transkription: Endstruktur-ähnlichekeiten (d)-(e)
hairpin-Struktur als funktionale Struktur (f)
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
Konformationen, die den Statistiken entsprechen:RNA-Sequenz mit bekanntem Basenpaar iī in bekannter Sekundärstruktur
Konkurrenzbase c, die potentiell eine Wasserstoffbrückenbindung mit Base i ausbilden kann alternative Helices entstehen
Base c kann vor dem bekannten Basenpaar liegen: 5`-KonformationBase c kann nach dem bekannten Basenpaar liegen: 3`-Konformation
Cis: Base c ist zu Base i „benachbart“Trans: Base c ist zu Base ī „benachbart“
4 Ereignisse: 3´-cis, 5´-cis, 3´-trans und 5´-trans
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
• gibt keinen Hinweis auf co-transkritionelle Faltung
• führt öfter zu falsch gefalteten Helices
•weist auf co-transkritionelle Faltung hin
• es entstehen weniger konkurrierende Helices
• liegt öfter als 5`-trans vor
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
• führt zu transienten Helices guiding
• pathway, der zur funktionellen Sekundärstruktur führt wird gefördert
• liegt öfter als 3`-cis vor
• schlechter pathway wird unterdrückt
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
Ziel:Hypothese: „Keine co-transkriptionelle Faltung liegt vor“ soll verworfen
werden.
Weg:Kopplung von Statistiken, die auf bekannter Primär- und
Sekundärstrukturder RNA-Sequenzen beruhen
Paare von Statistiken bilden messen Präsens von alternativen Helices, die mit bekannter Struktur um ein Basenpaar konkurrieren
konkurrierende Alternativ-Helices über dynamische Programmierungbestimmen
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
An Hand von 2 Datenmengen:A: entspricht den original transkripierten SequenzeinheitenB: unterscheiden sich von den original transkripierten Sequenzeinheiten, Menge sehr kurzer Sequenzen
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
Statistiken2 Eigenschaften:
1) Unterdrücken von möglichen Konkurrenz-Helices2) Fördern von temporären Guide-Helices
H0: es liegt keine co-transkriptionelle Faltung vor
Koppeln von mehreren Statistiken, mit gleichem unbekannten Erwartungswert im H0-Fall1. hat gleiches Verhalten, auch wenn H0-Fall nicht vorliegt2. verändert ihr Verhalten im Fall, dass H0 nicht vorliegt
Differenz zweier Statistiken: neue Statistik mit Erwartungswert gleich Null im H0-Fall
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
2 Gewichtungen pro Ereignis:– plain p: 1 / ( d • log (l) )– free energy g: |G| / ( d • log (l) )
l: Raum aller Möglichkeiten für Konkurrenzbase cSub-String Länge
bei 3`: vom 3´-Ende bis zur mittleren Basebei 5`: vom 5´-Ende bis zur mittleren Base
d: Distanz zwischen c und i (cis) bzw. ī (trans)
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
d: Distanz zwischen ī und c
l: Länge des Sequenzstücks vom 3´-Ende bis ī
p:
g:
d: Distanz zwischen ī und c
l: Länge des Sequenzstücks vom 5´-Ende bis ī
p:
g:
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
d: Distanz zwischen i und c
l: Länge des Sequenzstücks vom 5´-Ende bis i
p:
g:
d: Distanz zwischen i und c
l: Länge des Sequenzstücks vom 3´-Ende bis i
p:
g:
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
1/d: je weiter c von iī liegt, desto unwahrscheinlicher wird es, dass es zu ic kommt also: geht weniger in Statistik ein
1/log(l): je weiter c von iī liegt, desto unwahrscheinlicher wird es, dass es zu ic kommt, log (l) ist proportional zur erwarteten Summe von 1/d Statistikalso: geht weniger in Statistik ein
|G|: stabile Alternativ-Helices gehen mehr ein, wegen größerem Einfluss auf den Faltungsweg fördern co-transkriptionelle Faltung
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
pro Sequenz: 8 skalare Werte
pro Gewichtung: Cis = 5´-Cis – 3´-CisTrans = 3´-Trans – 5´-Trans
mit: 3`-Cis = 3`-cis5`-Cis = 5`-cis3`-Trans = 3`-trans5`-Trans = 5`-trans
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
Falls H0 zutrifft: positive Fälle sind binomial verteilt mit
p = 0,5 und der Statistik
mit Anzahl aller Fälle n
Wert > 0 Hypothese H0 verwerfen
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
Verteilung der Cis- und Trans-Werte:
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
Ergebnisse• approximativ symmetrisch verteilt• Daten A: Durchschnitt > 0 co-transkriptionelle Faltung• Daten B: Durchschnitt = 0 oder kleiner Hypothese nicht verworfen
Durchschnittswerte der Statistiken:
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
Erklärung• Cis > 0: - 5`-Cis > 3´-Cis
- 5`-Cis: ciī transiente Helices, die Weg zur Endstruktur guiden (weniger stabil als diese)
- 3´-Cis: īic wird unterdrückt, da īi dann schon gepaart ist, c entsteht erst später
Guiding durch temporäre Strukturen
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
• Trans > 0: - 5´-Trans < 3´-Trans- 5´-Trans: cīi c und ī entstehen vor i, damit Konkurrenz
und öfter falsche Helices- 3´-Trans: iīc c entsteht erst nach ī, damit weniger Miss-
Faltungen Unterdrücken von Konkurrenzstrukturen
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
• 3´-Trans > 3´-Cis: - iīc > īic: falls H-Brücken-Bruch zwischen iī / īi kommt es bei 3´-Cis öfter zu falschen
Helices Stabilisierung der
funktionalen Sekundärstruktur
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
t-test: für die Hypothese, dass die Statistik den Erwartungswert gleich Null hat
p-Wert: der positiven Fälle der zwei co-transkriptionellen Faltungs-Indikatoren
Stimmt mit den Ergebnissen überein (p-Wert < 0,05: Verwerfen der Hypothese)
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Co-transcriptional folding is encoded within RNA genes
Erkenntnisse• angemessene Transkriptionszeit hilft der korrekten RNA-
Faltung• funktionale Struktur muss nicht der mfe Struktur entsprechen• Statistiken zeigen generelle Effekte, sind nicht mächtig genug
für Aussagen für einzelne Sequenzen• co-transkriptionalle Faltung:
- „guiding principle“ - kann Primär- und Sekundärstruktur beeinflussen- kann in andere Algorithmen integriert werden- erklärt wie RNA faltet (warum Miss-Faltungen, Funktionsausfall
usw.)
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary
structures
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Einleitung:RNA-Variance:
dynamisch programmierter Algorithmus berechnet beliebige Momente der Boltzmann Verteilung (BV) untersucht Unterschiede zwischen biologischen und random RNA Sequenzen
an hand von minimaler freier Energie Strukturen (mfe), Varianz der freien Energie der Strukturen und den
Vergleich zwischen der mfe und der freien Energie der restlichen Strukturen
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Ergebnisse:• Menge der biologischen Sequenzen von Menge random
Sequenzen unterscheidbar• bei einzelnen Sequenzen nicht erkennbar ob biologisch oder
random• biologische Sequenzen:
• kleinere Varianz der freien Energie• mfe Struktur liegt nahe an erwarteter freien Energie der restlichen
Strukturen
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Biologisch funktionelle RNA Sequenz benötigt thermodynamisch stabile mfe Struktur und Menge von Strukturen mit einer freien Energie nahe an mfe
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Background:Biologische Grundlagen:
null loop: „Fuß“
stacking-loop: aus 4 Basen mit 2 H-Brücken
multi-loop: > 2 H-Brücken ohne bestimmte Anordnung
bulge-loop: 2 H-Brücken mit der Entfernung einer kovalenten Bindung
internal-loop: 2 H-Brücken
hairpin loop: 1 H-Brücke
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
• Energie-Beiträge nach Sankoff‘s k-loop decomposition: freie Energie einer Struktur ergibt sich aus der Summe der
freien Energien der loops• Problem: mfe Struktur finden
Zu beachten:• Anzahl möglicher Sekundärstrukturen wächst exponentiell mit
Länge der RNA-Sequenz• RNA Sekundärstrukturen vor allem durch Basenpaarung
stabilisiert• mfe hängt mehr von Verteilung benachbarter Nukleotidpaare ab,
als von Wasserstoffbrücken komplementärer Nukleotide
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Daten:• ohne Pseudo-Knoten• sehr kurz: 100-200 Nukleotide• 3 Datenmengen: (1) precursor miRNA:
- einzelnes hairpin- nicht posttranskriptionell verändert- reife miRNA hat keine ausgeprägte Sekundärstruktur deutlicher Unterschied zu (2) und (3)
(2) tRNA(3) rRNA
(2) und (3): - mehrer posttranskriptionelle Veränderungen möglich - Sekundärstrukturveränderungen während biochemischer Reaktionen
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
• random Sequenzen:- zu jeder Menge korrespondierende random-Menge (500
RNA-Sequenzen)- gleiche Dinukleotid Statistik und Längenverteilung wie
korrespondierende Menge- über Markov Ketten 1. Ordnung
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Bioinformatische Grundlagen:frühere Algorithmen: approximativ
Tinoco (1983): Energiemodel für RNA-Faltung molare freie Energie entspricht der Summe unabhängiger
Beiträge von Basepaarungen und loop-Destabilisierungstermen
Nussinov (1980): findet maximale Anzahl an Basenpaaren in einer Sequenz dynamisch programmiert: polynomiale Zeit und
Speicherplatz
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Falls i und j gepaart sind
Ausgabe: P(1,n) Struktur über traceback-Algorithmus rekonstruieren
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Zuker-Sankoff (1983): Vorhersage von mfe Strukturen dynamisch programmiert: polynomiale Zeit und
Speicherplatz ungenaue Energie-Parameter kein Einbeziehen von Tertiärstrukturen in Biochemie liegt nicht nur mfe Struktur, sondern auch
suboptimale Strukturen mit funktionellen Eigenschaften vor kann falsche Vorhersagen liefern
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
multi-loop
hairpin loop stacking-loop
internal-loop
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Cij,= min {Hij ,
Ci+1,j+1 + Stackingi,i+1,j-1,j ,
min{Cp,q + Li,p,q,j},i+1<p<j-m-2
p+m+1<q<j-1
p=i+1=>q¬=j-1
min{Fmi+1,k-1 + FM1
k,j-1 + a}}i+m+3<k<j-m-2
Ci,j: mfe der Sub-Sequenz (i,j)
Hij: hairpin Energie
Ci+1,j+1 + Stackingi,i+1,j-1,j: stacking-loop Energie
min{Cp,q + Li,p,q,j}: internal-loop Energie
min{Fmi+1,k-1 + FM1
k,j-1 + a}: multi-loop Energie
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
dynamische Programmierung: es werden immer um ein Nukleotid längere Sub-Sequenzen betrachtet
mfe der gesamten Sequenz ergibt sich aus: C1,n
Über traceback-Algorithmus durch die Matrizen ist die mfe Struktur bestimmbar
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Zuker (1989). Algorithmus, der mfe Struktur einer Sequenz mit
vorgeschriebener fester Basenpaarung
Wuchty (1999): alle möglichen Strukturen mit fallender freier Energie mit
vorgeschriebenem Abstand zu mfe nur kleines Intervall nahe an mfe wird beschrieben, wegen
exponentiell wachsender Anzahl an suboptimalen Faltungen bei größerer Distanz zu mfe
Kein Algorithmus kann die Boltzmann Verteilung vollständig vorhersagen
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Boltzmann Verteilung (BV):• Wahrscheinlichkeitsverteilung aus der statistischen Physik
kinetische Gastheorie• statistische Verteilung der freien Energie von suboptimalen
RNA-Strukturen • exakte Wahrscheinlichkeit, dass einzelne RNA-Struktur eine
bestimmte molare freie Energie hat, ist proportional zu • – Verteilungsfunktion
– dient als normierende Konstante – durch McCaskill-Algorithmus berechenbar (1990)
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Ziele:• erwartete freie Energie berechnen• Varianz der erwarteten freien Energie berechnen• Vergleich von erwarteter freier Energie und mfe Wert• Menge an biologischen und random Sequenzen
unterscheiden
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Definitionen
• erwartete freie Energie • Varianz
• S: Struktur der Sequenz L • G(S): molare frei Energie einer Struktur S• Z: Verteilungsfunktion der BV
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Algorithmusberechnet:
folgert:
- ist Variante des Wuchty-Algorithmus (mfe Berechnung)- benutzt McCaskill-Algorithmus um Verteilungsfunktion Z zu
berechnen
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Wuchty-Algorithmus:• Variante des Zuker-Sankoff-Algorithmus• 3 verschiedene Funktionen zur Berechnung: initial, merge
und choose function
initial function: für Sub-Sequenz Li freie Energie Gi für eine elementare Sekundärstruktur berechnen
hairpin loop, bulge loop, internal loop, multi-loop, stacking loop oder null-loop
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
merge function: aus zwei Substrukturen Li und Lj mit deren mfes Mi und Mj, Mij der gemischten Sequenz berechnen (Summe der mfes)
- Konkatenation- stacking loop-Erweiterung
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
choose function: Li mit zwei konkurrierenden Sekundärstrukturen Mi(a) und Mi(b) das Minimum der beiden berechnen kann zu Beschränkungen der Sekundärstruktur führen
erstes und letztes Nukleotid soll gepaart werden
links: optimal, wenn stacking loop entstehen soll
rechts: optimal, wenn multi-loop entstehen soll
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
• um mfe Strukturen in polynomialer Zeit zu berechen:- Beschränkungen der Energie-Funktion zulassen- lineare Funktionen um multi-loop- / null-loop-Energien durch
Hilfsvariablen berechnen (über initial function)
• Start: kurze Sub-Strukturen, wg. merge function immer längere • ohne Beschränkungen der Energie-Funktion ist es nicht möglich
die mfe Struktur in polynomialer Zeit zu berechnen• mfe bekannt mit traceback-Algorithmus mfe Struktur
bestimmbar
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Wuchty-Variante des Zucker-Sankoff-Algorithmus:• errechnet die mfe Sekundärstruktur (entspricht „Best structure“)
• betrachtet jede Struktur exakt ein mal
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
McCaskill:• Variante von Wuchty um Verteilungsfunktion Z zu berechnen• statt freie Energien korrespondierende exponentielle Werte
verwenden• Änderungen:
• merge function: Multiplikation• choose function: Addition
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Miklós-Meyer-Nagy:• berechnet Variablen X und Y• merge function: zwei Sub-Sequenzen Li und Lj mischen
X =
Y =
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Mit dem selben dynamisch programmierten Algorithmus
- mfe M- Verteilungsfunktion Z- X- Y also EB[G], VB[G]
berechnen
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Eine Rekursion an hand der verschiedenen Funktionen berechen (Beispiel für mfe)
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Zusammenfassend
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Implementierung• alle vier Variablen einer Sub-Sequenz werden innerhalb
einer Traversierung der Schleife des Programms berechnet• freie Energie Parameter nach MFOLD• internal-loop Berechnung nach Lyngsø• Zeit O(l3) für eine Sequenz der Länge l• Speicher O(l2) für eine Sequenz der Länge l• berücksichtigt keine Pseudo-Knoten
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Ergebnisse– pro Datenmenge: 4 Statistiken– pro Sequenz: M, Z, EB[G], VB[G]
• mfe M normiert zur Länge li
• log der mfe-Struktur-Wahrscheinlichkeit
• Differenz zwischen mfe und erwarteter freien Energie, normiert zur Länge li
Der Erwartungswert der freien Energie-Verteilung:
• Varianz der BV
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Ergebnisse der miRNA-Daten
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Ergebnisse der tRNA-Daten
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Qualitativ gleiches Verhalten, nur quantitative Unterschiede
Biologische Sequenzen haben- kleinere mfe- größere Wahrscheinlichkeit für die mfe Struktur- kleiner Varianz der BV- kleinere Differenz zwischen mfe und erwarteter freier
Energie ...als
random Sequenzen
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Erkenntnisse nur Menge an biologischen Sequenzen von Menge von
random Sequenzen unterscheidbar, nicht einzelnen Sequenzen
mfe Struktur wird von Natur aus nicht durch deutlich kleineren Wert als erwartete freie Energie hervorgehoben
Sekundärstrukturen mit einer freien Energie nahe an mfe Wert werden gefördert
• haben eigene funktionelle Rolle• z. B. Ensemble-Bildung, dass zur Evolution neuer
Strukturen mit biologischer Funktion führt durch co-transkriptionelle Faltung entstehen temporäre
Strukturen
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Zwei gegensätzliche Beschränkungen:
• Wahrscheinlichkeit für mfe Struktur soll maximiert werden: gewährleistet energetische Stabilität
• Differenz zwischen mfe und erwarteter freier Energie soll minimiert werden: sichert Funktionalität
Dies steht in Konkurrenz, eventuell sind deshalb einzelne Sequenzen nicht in die Menge biologische oder random Sequenz einzuordnen.
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
frühere Algorithmen:– BV nur approximativ bestimmbar– über Aufzählung suboptimaler Faltungen sehr langsam
hier:– Berechnung exakter Werte– nur konstant langsamer, nicht von Anzahl der suboptimalen
Faltungen abhängig– einfacher Algorithmus – leicht erweiterbar: höhere Momente der BV berechnen– auch Pseudo-Knoten können integriert werden
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Andere Standard Techniken: über stochastische kontextfrei Grammatiken (SCFDs)
– jeder Ableitungsbaum entspricht einer Sekundärstruktur einer RNA-Sequenz
– Zuker-Tinoco und dynamisch programmiertem Algorithmus für SCFDs ähnlich, aber noch nicht ineinander überführt
– Analogon zu diesem Algorithmus berechnet Momente der log-Wahrscheinlichkeiten der Ableitungsbäume einer Sequenz
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005
Moments of the Boltzmann distribution for RNA secondary structures
Offene Fragen: Ist der Faltungsweg konservativ? Können Faltungsinformationen für Struktur- und / oder
Evolutions-Vorhersagen genutzt werden? Können Faltungssimulationen entwickelt werden?