joanna wisniewskaseminar: „aktuelle themen der bioinformatik“ss 2005 co-transcriptional folding...

63
Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution for RNA secondary structures Joanna Wisniewska Seminar “Aktuelle Themen der Bioinformatik” SS 2005 [email protected]

Upload: heinrich-brandt

Post on 06-Apr-2016

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genesMoments of the Boltzmann distribution for RNA secondary structures

Joanna WisniewskaSeminar

“Aktuelle Themen der Bioinformatik”

SS 2005 [email protected]

Page 2: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

Einleitung Fragestellung: „Ob und wie co-transkriptionelle Faltung in Primär-

und Sekundärstruktur von RNA Sequenzen verschlüsselt ist“„Hilft die RNA-Organisation der Entstehung der funktionalen Struktur während der Transkription“

Durch Menge Statistiken, die verschiedene Konkurrenzfälle innerhalb einer Sequenz zählen, untersuchen.

Ergebnis: unterdrücken von alternativen Helices, die in Konkurrenz mit der

funktionalen Struktur stehen fördern von transienten „guide“-Strukturen, die zur co-transkriptioneller

Faltung führen

Page 3: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

BackgroundBiologische Grundlagen:

Transkription:- gerichteter Prozess: 5`-Ende entsteht zuerst- kann mit unterschiedlicher Geschwindigkeit ablaufen

beeinflusst Faltungsweg und funktionelle Struktur- ob entstandene Struktur transient von Stabilität, ihrer

Entstehungszeit und Konkurrenzsituation zu alternativen Strukturen abhängig

RNA-Faltung:- co-transkriptionell temporäre Sekundärstruktur Elemente- RNA kann zur korrekten Faltung anderer RNA beitragen

Page 4: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

Struktur:- funktionale Struktur muss nicht Struktur mit minimaler freier

Energie (mfe) sein, kann also auch eine temporäre sein- kinetische Struktur entsteht durch co-transkriptionelle /

sequentielle Faltung

Vermeiden von Miss-Faltungen:- durch RNA-Chaperone- sie setzten die kinetische Barriere zwischen korrekt und falsch

gefalteten Strukturen herab- können Faltungsweg guiden oder korrekte Struktur stabilisieren

Wenig bekannt, ob:co-transkriptionelle Faltung durch spezifische oder nicht-

spezifische Bindeproteine beherrscht wirdPrimärstruktur selbst notwenige Eigenschaften übermittelt

Page 5: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

allgemeines Beispiel für co-transkriptionelle Faltung:

Anfang der Transkription: 2 Helices und Pseudoknoten (a)

Sekundärstruktur wird kompaktgehalten (b)-(c)

Gegen Ende der Transkription: Endstruktur-ähnlichekeiten (d)-(e)

hairpin-Struktur als funktionale Struktur (f)

Page 6: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

Konformationen, die den Statistiken entsprechen:RNA-Sequenz mit bekanntem Basenpaar iī in bekannter Sekundärstruktur

Konkurrenzbase c, die potentiell eine Wasserstoffbrückenbindung mit Base i ausbilden kann alternative Helices entstehen

Base c kann vor dem bekannten Basenpaar liegen: 5`-KonformationBase c kann nach dem bekannten Basenpaar liegen: 3`-Konformation

Cis: Base c ist zu Base i „benachbart“Trans: Base c ist zu Base ī „benachbart“

4 Ereignisse: 3´-cis, 5´-cis, 3´-trans und 5´-trans

Page 7: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

• gibt keinen Hinweis auf co-transkritionelle Faltung

• führt öfter zu falsch gefalteten Helices

•weist auf co-transkritionelle Faltung hin

• es entstehen weniger konkurrierende Helices

• liegt öfter als 5`-trans vor

Page 8: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

• führt zu transienten Helices guiding

• pathway, der zur funktionellen Sekundärstruktur führt wird gefördert

• liegt öfter als 3`-cis vor

• schlechter pathway wird unterdrückt

Page 9: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

Ziel:Hypothese: „Keine co-transkriptionelle Faltung liegt vor“ soll verworfen

werden.

Weg:Kopplung von Statistiken, die auf bekannter Primär- und

Sekundärstrukturder RNA-Sequenzen beruhen

Paare von Statistiken bilden messen Präsens von alternativen Helices, die mit bekannter Struktur um ein Basenpaar konkurrieren

konkurrierende Alternativ-Helices über dynamische Programmierungbestimmen

Page 10: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

An Hand von 2 Datenmengen:A: entspricht den original transkripierten SequenzeinheitenB: unterscheiden sich von den original transkripierten Sequenzeinheiten, Menge sehr kurzer Sequenzen

Page 11: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

Statistiken2 Eigenschaften:

1) Unterdrücken von möglichen Konkurrenz-Helices2) Fördern von temporären Guide-Helices

H0: es liegt keine co-transkriptionelle Faltung vor

Koppeln von mehreren Statistiken, mit gleichem unbekannten Erwartungswert im H0-Fall1. hat gleiches Verhalten, auch wenn H0-Fall nicht vorliegt2. verändert ihr Verhalten im Fall, dass H0 nicht vorliegt

Differenz zweier Statistiken: neue Statistik mit Erwartungswert gleich Null im H0-Fall

Page 12: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

2 Gewichtungen pro Ereignis:– plain p: 1 / ( d • log (l) )– free energy g: |G| / ( d • log (l) )

l: Raum aller Möglichkeiten für Konkurrenzbase cSub-String Länge

bei 3`: vom 3´-Ende bis zur mittleren Basebei 5`: vom 5´-Ende bis zur mittleren Base

d: Distanz zwischen c und i (cis) bzw. ī (trans)

Page 13: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

d: Distanz zwischen ī und c

l: Länge des Sequenzstücks vom 3´-Ende bis ī

p:

g:

d: Distanz zwischen ī und c

l: Länge des Sequenzstücks vom 5´-Ende bis ī

p:

g:

Page 14: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

d: Distanz zwischen i und c

l: Länge des Sequenzstücks vom 5´-Ende bis i

p:

g:

d: Distanz zwischen i und c

l: Länge des Sequenzstücks vom 3´-Ende bis i

p:

g:

Page 15: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

1/d: je weiter c von iī liegt, desto unwahrscheinlicher wird es, dass es zu ic kommt also: geht weniger in Statistik ein

1/log(l): je weiter c von iī liegt, desto unwahrscheinlicher wird es, dass es zu ic kommt, log (l) ist proportional zur erwarteten Summe von 1/d Statistikalso: geht weniger in Statistik ein

|G|: stabile Alternativ-Helices gehen mehr ein, wegen größerem Einfluss auf den Faltungsweg fördern co-transkriptionelle Faltung

Page 16: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

pro Sequenz: 8 skalare Werte

pro Gewichtung: Cis = 5´-Cis – 3´-CisTrans = 3´-Trans – 5´-Trans

mit: 3`-Cis = 3`-cis5`-Cis = 5`-cis3`-Trans = 3`-trans5`-Trans = 5`-trans

Page 17: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

Falls H0 zutrifft: positive Fälle sind binomial verteilt mit

p = 0,5 und der Statistik

mit Anzahl aller Fälle n

Wert > 0 Hypothese H0 verwerfen

Page 18: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

Verteilung der Cis- und Trans-Werte:

Page 19: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

Ergebnisse• approximativ symmetrisch verteilt• Daten A: Durchschnitt > 0 co-transkriptionelle Faltung• Daten B: Durchschnitt = 0 oder kleiner Hypothese nicht verworfen

Durchschnittswerte der Statistiken:

Page 20: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

Erklärung• Cis > 0: - 5`-Cis > 3´-Cis

- 5`-Cis: ciī transiente Helices, die Weg zur Endstruktur guiden (weniger stabil als diese)

- 3´-Cis: īic wird unterdrückt, da īi dann schon gepaart ist, c entsteht erst später

Guiding durch temporäre Strukturen

Page 21: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

• Trans > 0: - 5´-Trans < 3´-Trans- 5´-Trans: cīi c und ī entstehen vor i, damit Konkurrenz

und öfter falsche Helices- 3´-Trans: iīc c entsteht erst nach ī, damit weniger Miss-

Faltungen Unterdrücken von Konkurrenzstrukturen

Page 22: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

• 3´-Trans > 3´-Cis: - iīc > īic: falls H-Brücken-Bruch zwischen iī / īi kommt es bei 3´-Cis öfter zu falschen

Helices Stabilisierung der

funktionalen Sekundärstruktur

Page 23: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

t-test: für die Hypothese, dass die Statistik den Erwartungswert gleich Null hat

p-Wert: der positiven Fälle der zwei co-transkriptionellen Faltungs-Indikatoren

Stimmt mit den Ergebnissen überein (p-Wert < 0,05: Verwerfen der Hypothese)

Page 24: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

Erkenntnisse• angemessene Transkriptionszeit hilft der korrekten RNA-

Faltung• funktionale Struktur muss nicht der mfe Struktur entsprechen• Statistiken zeigen generelle Effekte, sind nicht mächtig genug

für Aussagen für einzelne Sequenzen• co-transkriptionalle Faltung:

- „guiding principle“ - kann Primär- und Sekundärstruktur beeinflussen- kann in andere Algorithmen integriert werden- erklärt wie RNA faltet (warum Miss-Faltungen, Funktionsausfall

usw.)

Page 25: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary

structures

Page 26: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Einleitung:RNA-Variance:

dynamisch programmierter Algorithmus berechnet beliebige Momente der Boltzmann Verteilung (BV) untersucht Unterschiede zwischen biologischen und random RNA Sequenzen

an hand von minimaler freier Energie Strukturen (mfe), Varianz der freien Energie der Strukturen und den

Vergleich zwischen der mfe und der freien Energie der restlichen Strukturen

Page 27: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Ergebnisse:• Menge der biologischen Sequenzen von Menge random

Sequenzen unterscheidbar• bei einzelnen Sequenzen nicht erkennbar ob biologisch oder

random• biologische Sequenzen:

• kleinere Varianz der freien Energie• mfe Struktur liegt nahe an erwarteter freien Energie der restlichen

Strukturen

Page 28: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Biologisch funktionelle RNA Sequenz benötigt thermodynamisch stabile mfe Struktur und Menge von Strukturen mit einer freien Energie nahe an mfe

Page 29: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Background:Biologische Grundlagen:

null loop: „Fuß“

stacking-loop: aus 4 Basen mit 2 H-Brücken

multi-loop: > 2 H-Brücken ohne bestimmte Anordnung

bulge-loop: 2 H-Brücken mit der Entfernung einer kovalenten Bindung

internal-loop: 2 H-Brücken

hairpin loop: 1 H-Brücke

Page 30: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

• Energie-Beiträge nach Sankoff‘s k-loop decomposition: freie Energie einer Struktur ergibt sich aus der Summe der

freien Energien der loops• Problem: mfe Struktur finden

Zu beachten:• Anzahl möglicher Sekundärstrukturen wächst exponentiell mit

Länge der RNA-Sequenz• RNA Sekundärstrukturen vor allem durch Basenpaarung

stabilisiert• mfe hängt mehr von Verteilung benachbarter Nukleotidpaare ab,

als von Wasserstoffbrücken komplementärer Nukleotide

Page 31: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Daten:• ohne Pseudo-Knoten• sehr kurz: 100-200 Nukleotide• 3 Datenmengen: (1) precursor miRNA:

- einzelnes hairpin- nicht posttranskriptionell verändert- reife miRNA hat keine ausgeprägte Sekundärstruktur deutlicher Unterschied zu (2) und (3)

(2) tRNA(3) rRNA

(2) und (3): - mehrer posttranskriptionelle Veränderungen möglich - Sekundärstrukturveränderungen während biochemischer Reaktionen

Page 32: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

• random Sequenzen:- zu jeder Menge korrespondierende random-Menge (500

RNA-Sequenzen)- gleiche Dinukleotid Statistik und Längenverteilung wie

korrespondierende Menge- über Markov Ketten 1. Ordnung

Page 33: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Bioinformatische Grundlagen:frühere Algorithmen: approximativ

Tinoco (1983): Energiemodel für RNA-Faltung molare freie Energie entspricht der Summe unabhängiger

Beiträge von Basepaarungen und loop-Destabilisierungstermen

Nussinov (1980): findet maximale Anzahl an Basenpaaren in einer Sequenz dynamisch programmiert: polynomiale Zeit und

Speicherplatz

Page 34: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Falls i und j gepaart sind

Ausgabe: P(1,n) Struktur über traceback-Algorithmus rekonstruieren

Page 35: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Zuker-Sankoff (1983): Vorhersage von mfe Strukturen dynamisch programmiert: polynomiale Zeit und

Speicherplatz ungenaue Energie-Parameter kein Einbeziehen von Tertiärstrukturen in Biochemie liegt nicht nur mfe Struktur, sondern auch

suboptimale Strukturen mit funktionellen Eigenschaften vor kann falsche Vorhersagen liefern

Page 36: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

multi-loop

hairpin loop stacking-loop

internal-loop

Page 37: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Cij,= min {Hij ,

Ci+1,j+1 + Stackingi,i+1,j-1,j ,

min{Cp,q + Li,p,q,j},i+1<p<j-m-2

p+m+1<q<j-1

p=i+1=>q¬=j-1

min{Fmi+1,k-1 + FM1

k,j-1 + a}}i+m+3<k<j-m-2

Ci,j: mfe der Sub-Sequenz (i,j)

Hij: hairpin Energie

Ci+1,j+1 + Stackingi,i+1,j-1,j: stacking-loop Energie

min{Cp,q + Li,p,q,j}: internal-loop Energie

min{Fmi+1,k-1 + FM1

k,j-1 + a}: multi-loop Energie

Page 38: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

dynamische Programmierung: es werden immer um ein Nukleotid längere Sub-Sequenzen betrachtet

mfe der gesamten Sequenz ergibt sich aus: C1,n

Über traceback-Algorithmus durch die Matrizen ist die mfe Struktur bestimmbar

Page 39: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Zuker (1989). Algorithmus, der mfe Struktur einer Sequenz mit

vorgeschriebener fester Basenpaarung

Wuchty (1999): alle möglichen Strukturen mit fallender freier Energie mit

vorgeschriebenem Abstand zu mfe nur kleines Intervall nahe an mfe wird beschrieben, wegen

exponentiell wachsender Anzahl an suboptimalen Faltungen bei größerer Distanz zu mfe

Kein Algorithmus kann die Boltzmann Verteilung vollständig vorhersagen

Page 40: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Boltzmann Verteilung (BV):• Wahrscheinlichkeitsverteilung aus der statistischen Physik

kinetische Gastheorie• statistische Verteilung der freien Energie von suboptimalen

RNA-Strukturen • exakte Wahrscheinlichkeit, dass einzelne RNA-Struktur eine

bestimmte molare freie Energie hat, ist proportional zu • – Verteilungsfunktion

– dient als normierende Konstante – durch McCaskill-Algorithmus berechenbar (1990)

Page 41: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Ziele:• erwartete freie Energie berechnen• Varianz der erwarteten freien Energie berechnen• Vergleich von erwarteter freier Energie und mfe Wert• Menge an biologischen und random Sequenzen

unterscheiden

Page 42: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Definitionen

• erwartete freie Energie • Varianz

• S: Struktur der Sequenz L • G(S): molare frei Energie einer Struktur S• Z: Verteilungsfunktion der BV

Page 43: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Algorithmusberechnet:

folgert:

- ist Variante des Wuchty-Algorithmus (mfe Berechnung)- benutzt McCaskill-Algorithmus um Verteilungsfunktion Z zu

berechnen

Page 44: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Wuchty-Algorithmus:• Variante des Zuker-Sankoff-Algorithmus• 3 verschiedene Funktionen zur Berechnung: initial, merge

und choose function

initial function: für Sub-Sequenz Li freie Energie Gi für eine elementare Sekundärstruktur berechnen

hairpin loop, bulge loop, internal loop, multi-loop, stacking loop oder null-loop

Page 45: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

merge function: aus zwei Substrukturen Li und Lj mit deren mfes Mi und Mj, Mij der gemischten Sequenz berechnen (Summe der mfes)

- Konkatenation- stacking loop-Erweiterung

Page 46: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

choose function: Li mit zwei konkurrierenden Sekundärstrukturen Mi(a) und Mi(b) das Minimum der beiden berechnen kann zu Beschränkungen der Sekundärstruktur führen

erstes und letztes Nukleotid soll gepaart werden

links: optimal, wenn stacking loop entstehen soll

rechts: optimal, wenn multi-loop entstehen soll

Page 47: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

• um mfe Strukturen in polynomialer Zeit zu berechen:- Beschränkungen der Energie-Funktion zulassen- lineare Funktionen um multi-loop- / null-loop-Energien durch

Hilfsvariablen berechnen (über initial function)

• Start: kurze Sub-Strukturen, wg. merge function immer längere • ohne Beschränkungen der Energie-Funktion ist es nicht möglich

die mfe Struktur in polynomialer Zeit zu berechnen• mfe bekannt mit traceback-Algorithmus mfe Struktur

bestimmbar

Page 48: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Wuchty-Variante des Zucker-Sankoff-Algorithmus:• errechnet die mfe Sekundärstruktur (entspricht „Best structure“)

• betrachtet jede Struktur exakt ein mal

Page 49: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

McCaskill:• Variante von Wuchty um Verteilungsfunktion Z zu berechnen• statt freie Energien korrespondierende exponentielle Werte

verwenden• Änderungen:

• merge function: Multiplikation• choose function: Addition

Page 50: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Miklós-Meyer-Nagy:• berechnet Variablen X und Y• merge function: zwei Sub-Sequenzen Li und Lj mischen

X =

Y =

Page 51: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Mit dem selben dynamisch programmierten Algorithmus

- mfe M- Verteilungsfunktion Z- X- Y also EB[G], VB[G]

berechnen

Page 52: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Eine Rekursion an hand der verschiedenen Funktionen berechen (Beispiel für mfe)

Page 53: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Zusammenfassend

Page 54: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Implementierung• alle vier Variablen einer Sub-Sequenz werden innerhalb

einer Traversierung der Schleife des Programms berechnet• freie Energie Parameter nach MFOLD• internal-loop Berechnung nach Lyngsø• Zeit O(l3) für eine Sequenz der Länge l• Speicher O(l2) für eine Sequenz der Länge l• berücksichtigt keine Pseudo-Knoten

Page 55: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Ergebnisse– pro Datenmenge: 4 Statistiken– pro Sequenz: M, Z, EB[G], VB[G]

• mfe M normiert zur Länge li

• log der mfe-Struktur-Wahrscheinlichkeit

• Differenz zwischen mfe und erwarteter freien Energie, normiert zur Länge li

Der Erwartungswert der freien Energie-Verteilung:

• Varianz der BV

Page 56: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Ergebnisse der miRNA-Daten

Page 57: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Ergebnisse der tRNA-Daten

Page 58: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Qualitativ gleiches Verhalten, nur quantitative Unterschiede

Biologische Sequenzen haben- kleinere mfe- größere Wahrscheinlichkeit für die mfe Struktur- kleiner Varianz der BV- kleinere Differenz zwischen mfe und erwarteter freier

Energie ...als

random Sequenzen

Page 59: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Erkenntnisse nur Menge an biologischen Sequenzen von Menge von

random Sequenzen unterscheidbar, nicht einzelnen Sequenzen

mfe Struktur wird von Natur aus nicht durch deutlich kleineren Wert als erwartete freie Energie hervorgehoben

Sekundärstrukturen mit einer freien Energie nahe an mfe Wert werden gefördert

• haben eigene funktionelle Rolle• z. B. Ensemble-Bildung, dass zur Evolution neuer

Strukturen mit biologischer Funktion führt durch co-transkriptionelle Faltung entstehen temporäre

Strukturen

Page 60: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Zwei gegensätzliche Beschränkungen:

• Wahrscheinlichkeit für mfe Struktur soll maximiert werden: gewährleistet energetische Stabilität

• Differenz zwischen mfe und erwarteter freier Energie soll minimiert werden: sichert Funktionalität

Dies steht in Konkurrenz, eventuell sind deshalb einzelne Sequenzen nicht in die Menge biologische oder random Sequenz einzuordnen.

Page 61: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

frühere Algorithmen:– BV nur approximativ bestimmbar– über Aufzählung suboptimaler Faltungen sehr langsam

hier:– Berechnung exakter Werte– nur konstant langsamer, nicht von Anzahl der suboptimalen

Faltungen abhängig– einfacher Algorithmus – leicht erweiterbar: höhere Momente der BV berechnen– auch Pseudo-Knoten können integriert werden

Page 62: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Andere Standard Techniken: über stochastische kontextfrei Grammatiken (SCFDs)

– jeder Ableitungsbaum entspricht einer Sekundärstruktur einer RNA-Sequenz

– Zuker-Tinoco und dynamisch programmiertem Algorithmus für SCFDs ähnlich, aber noch nicht ineinander überführt

– Analogon zu diesem Algorithmus berechnet Momente der log-Wahrscheinlichkeiten der Ableitungsbäume einer Sequenz

Page 63: Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Offene Fragen: Ist der Faltungsweg konservativ? Können Faltungsinformationen für Struktur- und / oder

Evolutions-Vorhersagen genutzt werden? Können Faltungssimulationen entwickelt werden?