v4 – analyse von genomsequenzen

85
4. Vorlesung SS 2011 Softwarewerkzeuge 1 V4 – Analyse von Genomsequenzen - Gene identifizieren Intrinsische und Extrinsische Verfahren: Homologie bzw. Hidden Markov Modelle - Transkriptionsfaktorbindestellen identifizieren Position Specific Scoring Matrices (PSSM) - Ganz kurz: finde Repeat-Sequenzen Suche nach bekannten Repeat-Motiven - Alignment zweier Genom-Sequenzen Suffix Bäume

Upload: triage

Post on 14-Feb-2016

29 views

Category:

Documents


0 download

DESCRIPTION

V4 – Analyse von Genomsequenzen. - Gene identifizieren Intrinsische und Extrinsische Verfahren: Homologie bzw. Hidden Markov Modelle - Transkriptionsfaktorbindestellen identifizieren Position Specific Scoring Matrices (PSSM) - Ganz kurz: finde Repeat-Sequenzen - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 1

V4 – Analyse von Genomsequenzen- Gene identifizieren

Intrinsische und Extrinsische Verfahren:Homologie bzw. Hidden Markov Modelle

- Transkriptionsfaktorbindestellen identifizierenPosition Specific Scoring Matrices (PSSM)

- Ganz kurz: finde Repeat-SequenzenSuche nach bekannten Repeat-Motiven

- Alignment zweier Genom-SequenzenSuffix Bäume

Page 2: V4 – Analyse von Genomsequenzen

Frage1: Wie können wir funktionell wichtige Bereiche in Genom-sequenzen finden?

Ansatz: leite aus bekannten Genen bzw. Transkriptionsfaktorbindestellen allgemeine Prinzipen ab und verwende diese dann zur Vorhersage.

Leitfragen für V4

4. Vorlesung SS 2011 2Softwarewerkzeuge

Frage2: Wie können wir funktionell entsprechende Bereiche in anderen Genomsequenzen finden?

Ansatz: finde homologe, nur einmal vorkommende Bereiche in beiden Genomen als Ankerpunkte für das Genom-Alignment.

Page 3: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 3

Zur Erinnerung: Aufbau der DNA

Page 4: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 4

Zur Erinnerung: Aufbau der Doppelstrang-DNA

Page 5: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 5

Zur Erinnerung: Packung der DNA

Page 6: V4 – Analyse von Genomsequenzen

Zur Erinnerung: Transkription durch RNA Polymerase II

Tamkun J. Nat. Gen. 39, 1421 (2007)

4. Vorlesung SS 2011 Softwarewerkzeuge 6

Page 7: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 7

Zur Erinnerung: Transkriptions – Gen-Regulationsnetzwerke

Die Maschine, die ein Gen transkribiert, besteht aus etwa 50 Proteinen, einschließlich der RNA Polymerase. Dies ist ein Enzym, das DNA code in RNA code übersetzt.

Eine Gruppe von Transkriptions- faktoren bindet an die DNA gerade oberhalb der Stelle desKern-Promoters, während assoziierte Aktivatoren an Enhancer-Regionen weiter oberhalb der Stelle binden.

ahttp://www.berkeley.edu/news/features/1999/12/09_nogales.html

Page 8: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 8

Identifikation von GenenDie einfachste Methode, DNA Sequenzen zu finden, die für Proteine kodieren, ist nach offenen Leserahmen (open reading frames oder ORFs) zu suchen.

In jeder Sequenz gibt es 6 mögliche offene Leserahmen:3 ORFs starten an den Positionen 1, 2, und 3 und gehen in die 5‘ 3‘ Richtung,3 ORFs starten an den Positionen 1, 2, und 3 und gehen in die 5‘ 3‘ Richtung des komplementären Strangs.

In prokaryotischen Genomen werden Protein-kodierende DNA-Sequenzen gewöhnlich in mRNA transkribiert und die mRNA wird ohne wesentliche Änderungen direkt in einen Aminosäurestrang übersetzt.

Daher ist der längste ORF von dem ersten verfügbaren Met codon (AUG) auf der mRNA, das als Codon für den Transkriptionsstart fungiert, bis zu dem nächsten Stopcodon in demselben offenen Leserahmen, gewöhnlich eine gute Vorhersage für die Protein-kodierende Region.

Page 9: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 9

Vorgehen zur GenidentifikationErhalte neue genomische DNA-Sequenz

Übersetze sie in allen6 Leserahmen und vergleiche sie mit derDatenbank für Protein-sequenzen.

Führe Suche in EST-Datenbank oder cDNA-Datenbank desselbenOrganismus nachähnlichen Sequenzendurch, falls verfügbar.

Benutze Genvorhersage-programm um Gene zufinden

Analysiere regulatorischeSequenzen des Gens.

Page 10: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 10

Extrinsische und intrinsische MethodenViele Verfahren kombinieren nun(a) Homologie-Methoden = „extrinsische Methoden“ mit(b) Genvorhersage-Methoden = „intrinsische Methoden“

Etwa die Hälfte aller Gene kann durch Homologie zu anderen bekannten Genen oder Proteinen gefunden werden. Dieser Anteil wächst stetig, da die Anzahl an sequenzierten Genomen und bekannten cDNA/EST Sequenzen kontinuierlich wächst.

Um die übrige Hälfte an Genen zu finden, muss man Vorhersage-Methoden einsetzen.

Mathé et al. Nucl. Acids. Res. 30, 4103 (2002)

Page 11: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 11

Beispiel: Vergleich von Glimmer und GeneMarksS

Besemer et al. Nucl. Acids. Res. 29, 2607 (2003)

Page 12: V4 – Analyse von Genomsequenzen

Ein Hidden Markov Modell ist ein Graph, der verschiedene Zustände verbindet.

Im Modell rechts gibt es 3 „verborgene“ Zustände: X1, X2, X3.

Zwischen den Zuständen X1 und X2 und zurück und von X2 nach X3 sind hier Übergänge erlaubt.Die Übergangswahrscheinlichkeiten hierfür sind a12, a21 und 23.

y1 bis y4 sind die möglichen Output-Zustände, die aus den verborgenen Zuständen mit den Wahrscheinlichkeiten b11 bis b34 erzeugt werden.

Die Topologie des Graphen gibt an, zwischen welchen Zuständen Übergänge erlaubt sind. Diese gibt man bei der Spezifikation des HMM vor. Jeder Übergang hängt nur von den beiden Zuständen i und j ab, nicht von früheren Zuständen.

Die Übergangswahrscheinlichkeiten aij und bij müssen in der Trainingsphase des HMM hergeleitet werden.

4. Vorlesung SS 2011 Softwarewerkzeuge 12

Hidden Markov Modell (HMM)

Page 13: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 13

Wettervorhersage mit Hidden Markov ModellEin Gefangener im Kerkerverlies möchte das aktuelle Wetter herausfinden.

Er weiß, dass auf einen sonnigen Tag zu 70 % ein Regentag folgt und dass auf einen Regentag zu 50 % ein Sonnentag folgt.

Weiß er zusätzlich, dass die Schuhe der Wärter bei Regen zu 90 % dreckig, bei sonnigem Wetter aber nur zu 60 % dreckig sind, so kann er durch Beobachtung der Wärterschuhe Rückschlüsse über das Wetter ziehen.

VerborgenerZustand

Beobachtung

www.wikipedia.de

Page 14: V4 – Analyse von Genomsequenzen

Direkt aufeinander folgende CG-Nukleotide (CpG) sind im Genom unter-repräsentiert. Sie kommen nicht mit der erwarteten Frequenz von 1/16 vor,sondern viel seltener, da sich methlyiertes Cytosin inThymin umwandeln kann.

Bereiche mit einer scheinbaren Anreicherung von CGs nennt man CpG-Inseln. Sie lassen sich in einer DNA-Sequenz z.B. mit einem HMM aufspüren und liegen oft an Transkriptionsstartstellen, da dort ein erhöhter Selektionsdruck herrscht.

Dabei stellt die DNA-Sequenz die Beobachtung dar, deren Zeichen {A,C,G,T} bilden das Ausgabealphabet.

Im einfachsten Fall besitzt das HMM zwei verborgene Zustände, nämlich „CpG-Insel“ und „nicht-CpG-Insel“.

Diese beiden Zustände unterscheiden sich in ihrer Ausgabeverteilung, so dass zum Zustand CpG-Insel mit größerer Wahrscheinlichkeit Zeichen C und G ausgegeben werden.

4. Vorlesung SS 2011 Softwarewerkzeuge 14

Hidden Markov Modell für CpG-Inseln

Page 15: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 15

Generkennung mit Hidden Markov Modellen

Bei der Generkennung möchte man bestimmen, wo in einem Genom Exons (E) und Introns (I) sind.

Der Output ist die bekannte Genomsequenz.

Aus dieser soll jedem Basenpaar der günstigste verborgene Zustand (E/I) zugeordnet werden.

Page 16: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 16

TIGR: GlimmerM, Exonomy und UnveilTopologien vonUnveil Exonomy283-Zustands-HMM 23-Zustands-GHMM

Majoros et al. Nucl. Acids. Res. 31, 3601 (2003)

Für Markov-Modelle gilt:Zustand des i-ten Buchstabenhängt nur von seinem direkten Vorgänger, dem (i-1)- tenBuchstaben ab.

Man kann jedoch auch einsliding window einer bestimmtenBreite benutzen, um der zentralenResidue des Fensters z.B. diemittlere Hydrophobizität in diesem Fenster zuzuordnen.

Page 17: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 17

Methoden funktionieren nicht überallEin Beispiel, in dem Exonomy die Gene richtig erkennt.

Ein Beispiel, in dem GlimmerM die Gene richtig erkennt.

Ein Beispiel, in dem Unveil die Gene richtig erkennt (auch Genscan).

Majoros et al. Nucl. Acids. Res. 31, 3601 (2003)

Page 18: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 18

Zusammenfassung - GenvorhersageDie Resultate der intrinsischen Genvorhersage werden zuverlässiger; dennoch sollte man sie stets mit Vorsicht behandeln.

Sie sind sehr nützlich um die Entdeckung von Genen zu beschleunigen.Dennoch sind biologische Techniken notwendig um die Existenz von virtuellen Proteinen zu bestätigen und um dessen biologischen Funktion zu finden bzw. zu beweisen.

Deshalb werden vergleichende Genom-Ansätze immer wichtiger, in denen Programme Genkandidaten auf Homologie mit exprimierten Sequenzen vergleichen (EST oder cDNA Sequenzdaten).

Neue Arbeiten wenden sich nun ebenfalls RNA-kodierenden Genen zu.

Mathé et al. Nucl. Acids. Res. 30, 4103 (2002)

Page 19: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 19

Promotervorhersage in E.coliUm E.coli Promoter zu analysieren kann man eine Menge von Promoter-sequenzen bzgl. der Position alignieren, die den bekannten Transkriptionsstart markiert und in den Sequenzen nach konservierten Regionen suchen.

E.coli Promotoren enthalten 3 konservierte Sequenzmerkmale

- eine etwa 6bp lange Region mit dem Konsensusmotif TATAAT bei Position -10

- eine etwa 6bp lange Region mit dem Konsensusmotif TTGACA bei Position -35

- die Distanz zwischen den beiden Regionen von etwa 17bp ist relativ konstant

a

Page 20: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 20

Machbarkeit der Motivsuche mit dem Computer?Transkriptionsfaktorbindestellen mit einem Computerprogramm zu identifizieren ist schwierig, da diese aus kurzen, entarteten Sequenzen bestehen, die häufig ebenfalls durch Zúfall auftreten.

Das Problem lässt daher sich schwer eingrenzen

Zum einen ist • die Länge des gesuchten Motivs vorher nicht bekannt• das Motiv braucht zwischen verschiedenen Promotern nicht stark konserviert sein.• die Sequenzen, mit denen man nach dem Motiv sucht, brauchen nicht notwendigerweise dem gesamten Promoter entsprechen• die zu untersuchenden Promotoren verschiedener Gene wurden oft durch einen Clusteralgorithmus in eine Gruppe eingeteilt, der ebenfalls Beschränkungen unterliegt.

Page 21: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 21

Strategie 1Wird seit der Verfügbarkeit von Microarray Gen-Expressionsdaten eingesetzt.

Durch Clustern erhält man Gruppen von Genen mit ähnlichen Expressionsprofilen (z.B. solche, die zur selben Zeit im Zellzyklus aktiviert sind) Hypothese, dass dieses Profil, zumindest teilweise, durch eine ähnliche Struktur der für die transkriptionelle Regulation verantwortlichen cis-regulatorischen Regionen verursacht wird.

Suche daher nach gemeinsamen Motiven in < 1000 Basen upstream Region.

Bis heute wurde vor allem nach einzelnen Motiven gesucht (als TF-Bindestellen), die in den Promotoren von möglicherweise koregulierten Genen gemeinsamen auftreten.

Besser: suche nach dem gleichzeitigen Auftreten von 2 oder mehr Stellen in einem vorgegebenen Abstand! Dadurch wird die Suche empfindlicher.

Page 22: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 22

Motif-Identifizierung

Ohler, Niemann Trends Gen 17, 2 (2001)

Page 23: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 23

Strategie 2: Erschöpfende Motivsuche in upstream-Regionen

Benutze Beobachtung, dass sich relevante Motive in der upstream-Region oft

viele Mal wiederholen, unter Umständen mit kleinen Variationen, damit die regulatorische Wirkung effektiv ist.

Suche in der upstream-Region nach überrepräsentierten Motiven

(1) Ordne Gene nach den überrepräsentierten Motiven.(2) Analysiere Gruppen von Genen, die Motive für Ko-Regulation in Microarray-

Experimenten gemeinsam haben.(3) Betrachte überrepräsentierte Motive, die Gruppen von koregulierten Genen

als mögliche Bindungsstellen markieren.

Cora et al. BMC Bioinformatics 5, 57 (2004)

Page 24: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 24

Erschöpfende Motivsuche in upstream-Regionen

Exploit

Cora et al. BMC Bioinformatics 5, 57 (2004)

Page 25: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 25

Positions-spezifische Gewichtsmatrix

Populäres Verfahren wenn es eine Liste von Genen gibt, die ein TF-Bindungs-motiv gemeinsam haben. Bedingung: gute MSAs müssen vorhanden sein.

Alignment-Matrix: wie häufig treten die verschiedenen Buchstaben an jeder Position im Alignment auf?

Hertz, Stormo (1999) Bioinformatics 15, 563

Page 26: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 26

Positions-spezifische Gewichtsmatrix

Beispiele für Matrizen, die von YRSA verwendet werden:

http://forkhead.cgb.ki.se/YRSA/matrixlist.html

Page 27: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 27

Datenbank für eukaryotische Transkriptionsfaktoren: TRANSFAC

BIOBase / TU Braunschweig / GBF

Relationelle Datenbank6 Dateien:FACTOR Wechselwirkung von TFsSITE ihre DNA-BindungsstelleGENE durch welche sie diese

Zielgene regulierenCELL wo kommt Faktor in Zelle vor?MATRIX TF Nukleotid-GewichtungsmatrixCLASS Klassifizierungsschema der TFs

Wingender et al. (1998) J Mol Biol 284,241

Page 28: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 28

BIOBase / TU Braunschweig / GBF

Matys et al. (2003) Nucl Acid Res 31,374

Datenbank für eukaryotische Transkriptionsfaktoren: TRANSFAC

Page 29: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 29

Identifizierung von Repeats: RepeatMasker

http://www.gene-regulation.com

RepeatMasker: durchsucht DNA Sequenzen auf - eingefügte Abschnitte, die bekannten Repeat-Motiven entsprechen (dazu wird eine lange Tabelle mit bekannten Motiven verwendet)und - auf Regionen geringer Komplexität (z.B. lange Abschnitt AAAAAAAA).

Output:- detaillierte Liste, wo die Repeats in der Sequenz auftauchen und - eine modifizierte Version der Input-Sequenz, in der die Repeats „maskiert“ sind, z.B. durch N‘s ersetzt sind.

Für die Sequenzvergleiche wird eine effiziente Implementation des Smith-Waterman-Gotoh Algorithmus verwendet.

Page 30: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 30

Zusammenfassung

http://www.gene-regulation.com

Es gibt große Datenbanken (z.B. TRANSFAC) mit Informationen über Promoterstellen. Diese Informationen sind experimentell überprüft.

Microarray-Daten erlauben es, nach gemeinsamen Motiven von ko-regulierten Genen zu suchen.Auch möglich: gemeinsame Annotation in der Gene Ontology etc.

TF-Bindungsmotive sind oft überrepräsentiert in der 1000 bp-Region upstream.Die klare Funktion dieser Bindungsmotive ist oft unbekannt.

Allgemein gilt: - relativ wenige TFs regulieren eine große Anzahl an Genen- es gibt globale und lokale TFs- Gene werden üblicherweise durch mehr als einen TF reguliert

Page 31: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 31

Whole Genome Alignment (WGA)Wenn die genomische DNA-Sequenz eng verwandter Organismen verfügbar wird, ist die erste Frage, wie das Alignment zweier Genome aussieht.

Globale Genom-Alignments machen nur für eng verwandte Organismen Sinn.

Im anderen Fall muss man zuerst die genomischen Rearrangements betrachten.

Dann kann man die systenischen Regionen (Regionen, in denen Gen-Reihenfolge des nächsten gemeinsamen Vorfahrens in beiden Spezies konserviert blieb) betrachten und lokale Genom-Alignments dieser Regionen produzieren.

Page 32: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 32

The mouse genome. Nature 420, 520 - 562

Konservierung von Syntenie zwischen Mensch und Maus

Ein typisches 510-kb Segment des Maus-Chromosoms 12, das mit einem 600-kb Stück des menschlichen Chromosom 14 verwandt ist.Blaue Linien: reziprok eindeutige Treffer in beiden Genomen.Rote Markierungen kennzeichnen die Länge der passenden Regionen.

Die Abstände zwischen diesen „Landmarks“ sind im Maus-Genom kleiner als im Mensch, was mit der 14% kürzeren Gesamtlänge des Genoms übereinstimmt.

Page 33: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 33

The mouse genome. Nature 420, 520 - 562

Entsprechung syntenischer Regionen

342 Segmente und 217 Blöcke >300 kb mit konservierter Syntenie im Mensch sind im Maus-Genom markiert.

Jede Farbe entspricht einem bestimmten menschlichen Chromosom.

Page 34: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 34

Sensitivität

Couronne, ..., Dubchak, Genome Res. 13, 73 (2003)

Im globalen Mensch:Maus Alignment sind mehr als eine Millionen Regionen stärker als 70% konserviert (auf 100-bp Level) – diese Regionen decken > 200 Million bp ab.

Nur 62% von ihnen werden von (lokalen) BLAT-Treffern abgedeckt.

Dies bedeutet, daß man 38% der konservierten Abschnitte nur durch das globale Alignment finden kann!

Idee: lokales Alignment soll als Anker-Verfahren für anschliessendes globales Alignment dienen. Dadurch hofft man, viele zusätzliche konservierte Regionen ausserhalb der Anker-Regionen zu finden.

Page 35: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 35

hohe Sensitivität von globalen Alignments

Couronne, ..., Dubchak, Genome Res. 13, 73 (2003)

Beispiel: das globale Alignment der mouse finished sequence NT_002570 gegen die Region, die mit BLAT-Ankern gefunden wurde, zeigt konservierte kodierende und nicht-kodierende Elemente, die mit BLAT nicht gefunden wurden.

Page 36: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 36

Ankerbasierte Methoden für WGADiese Methoden versuchen, sich entsprechende Teile der Buchstabenfolgen der betrachteten Sequenzen zu finden, die wahrscheinlich zu einem globalen Alignment gehören werden.(Diese teilweisen Treffer können durch lokale Alignments gefunden werden).Sie bilden „Anker“ in den beiden zu alignierenden Sequenzen.

In diesen Methoden werden zuerst die Ankerpunkte aligniert und dann die Lücken dazwischen geschlossen.

MUMmer ist eine sehr erfolgreiche Implementation dieser Strategie für das Alignment zweier genomischer Sequenzen.

Page 37: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 37

Was ist MUMmer?• A.L. Delcher et al. 1999, 2002 Nucleic Acids Res. • http://www.tigr.org/tigr-scripts/CMR2/webmum/mumplot

• Nimm an, dass zwei Sequenzen eng verwandt sind (sehr ähnlich)• MUMmer kann zwei bakterielle Genome in weniger als 1 Minute alignieren• nutzt Suffix-Bäume um Maximal Unique Matches zu finden• Definition eines Maximal Unique Matches (MUM):

– Eine Subsequenz, die in beiden Sequenzen genau einmal ohne Abweichungen vorkommt und in keine Richtung verlängert werden kann.

• Grundidee: ein MUM ausreichender Länge wird sicher Teil eines globalen Alignments sein.

A maximal unique matching subsequence (MUM) of 39 nt (shown in uppercase) shared by Genome A and Genome B. Any extension of the MUM will result in a mismatch. By definition, an MUM does not occur anywhere else in either genome.

Delcher et al. Nucleic Acids Res 27, 2369 (1999)

Page 38: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 38

MUMmer: wichtige Schritte• Erkenne MUMs (Länge wird vom Benutzer festgelegt)

ACTGATTACGTGAACTGGATCCAACTCTAGGTGAAGTGATCCA

ACTGATTACGTGAACTGGATCCAACTCTAGGTGAAGTGATCCA

ACTGATTACGTGAACTGGATCCA

ACTC--TAGGTGAAGTG-ATCCA

1 10

1 10

20

20

Page 39: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 39

Definition von MUMmers• Für zwei Strings S1 und S2 und einen Parameter l• Der Substring u ist eine MUM Sequenz wenn gilt:

|u| > l u kommt genau einmal in S1 und genau einmal in S2 (Eindeutigkeit) vor Für jeden Buchstaben a kommt weder ua noch au sowohl in

S1 als auch in S2 vor (Maximalität)

Page 40: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 40

Wie findet man MUMs?• Naiver Ansatz

– Vergleiche alle Teilsequenzen von A mit allen Teilsequenzen von B.

Dies dauert O(nn)

• verwende Suffix-Bäume als Datenstruktur

– ein naiver Ansatz, einen Suffix-Baum zu konstruieren hat

eine quadratische Komplexität in der Rechenzeit und dem Speicherplatz

– durch klevere Benutzung von Pointern gibt es lineare Algorithmen in Rechenzeit und Speicherplatz wie den Algorithmus von McCreight

Page 41: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 41

Suffix-Bäume

CACATAG$Suffix-Bäume sind seit über 20 Jahren wohl etabliert.

Einige ihrer Eigenschaften: • ein “Suffix” beginnt an jeder Position I der Sequenz und reicht bis zu ihrem Ende. • Eine Sequenz der Länge N hat N Suffices.• Es gibt N Blätter.• Jeder interne Knoten hat mindest zwei Kinder.• 2 Kanten aus dem selben Knoten können nicht mit dem selben Buchstaben beginnen.• Am Ende wird $ angefügt

Page 42: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 42

Konstruktion eines Suffix-Baums

CACATAG$

CA

T

CA

G$

1

A

Suffixes:

1. CACATAG$

Page 43: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 43

Konstruktion eines Suffix-Baums

CACATAG$Suffixes:

1. CACATAG$2. ACATAG$

CA

T

CA

G$

A

T

CA

G$

A

1 2

A

Page 44: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 44

Konstruktion eines Suffix-Baums

CACATAG$Suffixes:

1. CACATAG$2. ACATAG$3. CATAG$

CA

T

CA

G$

A

T

CA

G$

T

G$

AA

1 23

A

Page 45: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 45

Konstruktion eines Suffix-Baums

CACATAG$Suffixes:

1. CACATAG$2. ACATAG$3. CATAG$4. ATAG$

CA

T

CA

G$

A

T

CA

G$

T

G$

AA

T G $A

1 23

4

A

Page 46: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 46

Konstruktion eines Suffix-Baums

CACATAG$Suffixes:

1. CACATAG$2. ACATAG$3. CATAG$4. ATAG$5. TAG$

CA

T

CA

G$

A

T

CA

G$

TTAG$G

$

AA

T G $A

1 23

4

5

A

Page 47: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 47

Konstruktion eines Suffix-Baums

CA

T

CA

G$

A

T

CA

G$

TTAG$G

$

AA

T G $A

G$

1 23

4

5

6A

CACATAG$Suffixes:

1. CACATAG$2. ACATAG$3. CATAG$4. ATAG$5. TAG$6. AG$

Page 48: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 48

Konstruktion eines Suffix-Baums

CA

T

CA

G$

A

T

CA

G$

TTAG$G

$

AA

T G $A

G$

G $

1 23

4

5

6

7

A

CACATAG$Suffixes:

1. CACATAG$2. ACATAG$3. CATAG$4. ATAG$5. TAG$6. AG$7. G$

Page 49: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 49

Konstruktion eines Suffix-Baums

CA

T

CA

G$

A

T

CA

G$

TTAG$G

$

AA

T G $A

G$

G $$

1 23

4

5

6

78CACATAG$

A

Suffixes:

1. CACATAG$2. ACATAG$3. CATAG$4. ATAG$5. TAG$6. AG$7. G$8. $

Page 50: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 50

Suchen in einem Suffix-Baum

CA

T

CA

G$

A

T

CA

G$

TTAG$G

$

AA

T G $A

G$

G $$

1 23

4

5

6

78

A

Search Pattern:CATA

Page 51: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 51

Suchen in einem Suffix-Baum

CA

T

CA

G$

A

T

CA

G$

TTAG$G

$

AA

T G $A

G$

G $$

1 23

4

5

6

78

A

Search Pattern:ATCG

Page 52: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 52

Sortieren der MUMs• MUMs werden nach ihren Positionen in Genom A sortiert

1 2 3 4 5 6 7

1 3 2 4 6 7 5

Genome A:

Genome B:

1 2 4 6 7

1 2 4 6 7

Genome A:

Genome B:

Jeder MUM ist nur mit seiner Nummer gekennzeichnet, ohne Berücksichtigung seiner Länge.

Das obere Alignment zeigt alle MUMs. Die Verschiebung von MUM 5 in Genom B zeigt eine Transposition an.Die Verschiebung von MUM 3 könnte ein Zufallstreffer oder Teil einer inexakten Repeat-Sequenz sein.

Unteres Alignment: suche in beiden Genomen die längste gemeinsam ansteigende Folge an Subsequenzen

Page 53: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 53

Beispiel: Alignment zweier Mikroorganismen

Delcher et al. Nucleic Acids Res 27, 2369 (1999)

Das Genom von M.genitalium ist nur etwa 2/3 so lang wie das von M.pneumoniae.

Obere Abbildung: FASTA-Alignment von M.genitalium und M.pneumoniae.

Mitte: Alignment mit 25mers

Unten: Alignment mit MUMs. 5 Translokationen.

Ein Punkt bedeutet jeweils einen Treffer zwischen den Genomen. FASTA-Plot: ähnliche Gene25-mer-Plot: 25-Basen-Sequenz, die in beiden Sequenzen genau einmal vorkommt.MUM-Plot: MUM-Treffer.

Page 54: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 54

Beispiel: Alignment Mensch:Maus

Delcher et al. Nucleic Acids Res 27, 2369 (1999)

Alignment von weiter entfernt liegenden Spezies:Mensch gegen Maus.

Hier: Alignment einer 222 930 bp Teilsequenz auf dem mensch-lichen Chromosom 12, accession no. U47924, gegen eine 227 538 bp lange Teilsequenz des Maus-chromosoms 6.

Jeder Punkt des Plots entspricht einem MUM von [ge]15 bp.

Page 55: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 55

Zusammenfassung

• Die Anwendung der Suffix-Bäume war ein Durchbruch für die Alignierung ganzer Genome

• MUMmer 2 besitzt zusätzliche Verbesserung für die Rechenzeit und den Speicherplatz

– die Verwendung von Suffix-Arrays anstatt von Suffix-Bäumen gibt eine verbesserte Datenstruktur ( Stefan Kurtz, Hamburg)

– es wird nun möglich, mehr als zwei Genome zu alignieren (implementiert in MGA)

Page 56: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 56

zusätzliche Folien

Page 57: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 57

Aktuelle Verfahren um Promotoren zu finden

Ohler, Niemann Trends Gen 17, 2 (2001)

Page 58: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 58

Prokaryotische vs. eukaryotische Transkription

a

Page 59: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 59

TRANSFAC Klassifizierung

1 Superklasse basische Domänen 3 Superklasse: Helix-turn-helix 1.1 Leuzin-zipper Faktoren (bZIP)1.2 Helix-Loop-Helix Faktoren (bHLH) 4 Superklasse: beta-Scaffold 1.3 bHLH-bZIP Faktoren mit Kontakt in der 1.4 NF-1 Minor Groove 1.5 RF-X1.6 bHSH 5 Superklasse: andere

2 Superklasse: Zink-koordinierende DNA-bindende Domänen2.1 Cys4 Zinkfinger vom Typ nuklearer Rezeptor2.2 verschiedene Cys4 Zinkfinger2.3 Cys2His2 Zinkfinger Domänen2.4 Cys6 Cystein-Zink Cluster2.5 Zinkfinger mit abwechselnder Zusammensetzung

http://www.gene-regulation.com/pub/databases/transfac/cl.html

Page 60: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 60

Datenbank für eukaryotische Transkriptionsfaktoren: TRANSFAC

BIOBase / TU Braunschweig / GBF

Matys et al. (2003) Nucl Acid Res 31,374

Page 61: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 61

TRANSFAC Datenbank

Eintrag für 1.1 Leuzine-Zippers

http://www.gene-regulation.com

Page 62: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 62

TRANSFAC Datenbank

http://www.gene-regulation.com

Page 63: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 63

TRANSFAC Datenbank

http://www.gene-regulation.com

Page 64: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 64

http://www.rcsb.org

3D Strukturen von Transkriptionsfaktoren

1A02.pdb 1AM9.pdb 1AU7.pdb

1CIT.pdb 1GD2.pdb 1H88.pdb

TFs binden auf sehr unterschiedliche Weise.

Manche sind sehr selektiv für die DNA-Konformation.

2 TFs bound!

Page 65: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 65

Computational Performance

Batzoglou et al. Genome Res 12, 177 (2002)

Page 66: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 66

Whole Genome Shotgun Assemblierung

Es gibt 2 Strategien für dieSequenzierung von Genomen: clone-by-clone Methode

whole-genome shotgun Methode (Celera, Gene Myers).

Die Shotgun Sequenzierung wurde bereits 1977 von F. Sanger et al. eingeführt und ist seither eine Standardmethode für die Sequenzierung von Genen.

Umstritten war jedoch, ob man sie auch für komplette Genome verwenden kann. ED Green, Nat Rev Genet 2, 573 (2001)

Page 67: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 67

Arachne Programm

von Serafin Batzoglou (MIT, Doktorarbeit 2000)(i) konstruiere Graph G für Überlappungen zwischen Paaren von reads aus

Shotgun-Daten(i) prozessiere G um Supercontigs von gemappten reads zu erhalten.

Batzoglou et al. Genome Res 12, 177 (2002)

Wichtige Variation der whole-genome shotgun Sequenzierung:sequenziere reads jeweils von beiden Enden eines Klons.

Da die Inserts nach ihrer Größe ausgewählt werden, ist damit der ungefähreAbstand zwischen dem Paar von reads bekannt.

Man nennt diese earmuff (Ohrenwärmer) Verbindungen.

Page 68: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 68

Arachne: erzeuge Überlappungsgraphen

Liste von reads R = (r1, ..., rN) , N ist die Anzahl der reads.

Jeder read ri besitzt eine Länge li < 1000.Wenn beide reads von den Endpunkten desselben Klons stammen (earmuff link),besitzt ri eine Verknüpfung zu einem anderen read rj in einer festen Distanz dij.

Erstes Ziel: erzeuge Graphen G der Überlappungen (Kanten) zwischen Paaren an reads (Knoten) dies ergibt die Paare an reads in R, die aligniert werden müssen.

Da R sehr lang sein kann, sind N2 alignments nicht praktikabel.

erstelle Tabelle für das Vorkommen von k-Tupel (Strings der Länge k) in den reads, zähle die Anzahl von k-Tupel Treffern für jedes Paar an reads.

Führe dann paarweise Alignments zwischen den Paaren an reads durch,die mehr als cutoff gemeinsame k-mere besitzen.

Batzoglou PhD thesis (2002)

Page 69: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 69

Arachne: Tabelle für Vorkommen von k-meren

Ermittle die Anzahl an k-Tupel Treffern in der Vorwärts- und Rückwärts-Richtungzwischen jedem Paar von reads in R.

(1) Ermittle alle Triplets (r,t,v)r = Nummer des reads in Rt = Index eines k-mers, das in r vorkommtv = Richtung des Auftretens (vorwärts oder rückwärts)

(2) sortiere die Menge der Paare nach den k-mer Indices t

(3) verwende eine sortierte Liste um eine Tabelle T von Quadrubletts (ri, rj, f, v) zu erstellen, wobei ri und ri die reads sind, die mindestens einen gemeinsamen

k-mer enthalten, v die Richtung angiebt, und f die Anzahl an gemeinsamenk-mers zwischen ri und rj in Richtung v.

Batzoglou PhD thesis (2002)

Page 70: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 70

Arachne: Tabelle für Vorkommen von k-mers

Batzoglou PhD thesis (2002)

Hier:k = 3

Page 71: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 71

Arachne: Tabelle für Vorkommen von k-mers

Wenn ein k-Tupel „zu oft“ auftritt gehört er wahrscheinlich zu einer Repeat-Sequenz. Man sollte diese nicht für die Detektion von Überlappungen verwenden.

Implementierung(1) finde k-Tupel (r,t,v) und sortieren sie in 64 Dateien entsprechend den ersten

drei Nukleotiden jedes k-mers.

(2) Für i=1,64lade Datei in den Speicher, sortiere nach t, speichere sortierte Datei ab.end

• lade 64 sortierte Dateien nacheinander in den Speicher, fülle Tabelle T nacheinander auf.

In der Praxis ist k = 8 bis 24.Batzoglou PhD thesis (2002)

Page 72: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 72

Arachne: paarweise read-Alignments

Führe paarweise Alignments zwischen den Reads durch, die mehr als Cutoffgemeinsame k-mers besitzen.

Sobald man zu häufige k-mers ausschließt (mehr als ein zweiter Cutoff), ist sichergestellt, daß nur O(N) viele paarweise Sequenzalignments durchgeführt werden müssen.

Nur eine kleine Anzahl an Basen-Austauschen und Indels ist in einer überlappenden Region zweier alignierter reads erlaubt.

Output des Alignment-Algorithmus:für die reads ri, rj gibt es Quadrubletts (b1, b2, e1, e2) für jede detektierte

Überlappungsregion mit den Anfangspositionen b1, b2 und Endpositionen e1,e2.

Falls eine signifikante Überlappungsregion vorliegt, wird (ri, rj, b1, b2, e1, e2) eine Kante im Überlappungsgraphen G. Batzoglou PhD thesis (2002)

Page 73: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 73

Kombination teilweiser Alignments

3 teilweise Alignments der Länge k = 6 zwischen einem Paar von reads werden zu einem einzigen vollen Alignment der Länge k = 19 kombiniert.

Die vertikalen Linien verbinden übereinstimmenden Basen, wogegen x Mismatche sind.

Dies ist eine oft auftretende Situation, in der ein ausgedehnter k-mer Treffer ein volles Alignment von zwei reads ist.

Batzoglou et al. Genome Res 12, 177 (2002)

Page 74: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 74

Repeats erzeugen Mehrdeutigkeit

Ohne das Auftreten von Sequen-zierungsfehlern und Repeats wäre es einfach, alle entdeckbaren paarweise Abstände von reads zu finden und den Graph G zu konstruieren.

Da Repeats jedoch sehr häufig auftreten, bedeutet eine Verbindung zwischen zwei reads in G nicht ohne weiteres eine wahre Überlappung.

Eine „Repeat-Verbindung“ ist eine Verbindung in G zwischen zwei reads, die aus verschiedenen Regionen des Genoms stammen und in der repetitiven Sequenz überein-stimmen. Batzoglou PhD thesis (2002)

Page 75: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 75

Sequence contigs

Batzoglou PhD thesis (2002)

unerläßlich für die Assemblierung ist die ausreichende Überdeckung (mehrfacheSequenzierung = coverage) derselben Genomregionen

Page 76: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 76

Verbinden von Contigs

Batzoglou PhD thesis (2002)

Sequenz-Contigs werden gebildetindem Paare von reads verbundenwerden, die eindeutig verbundenwerden können.

Tatsächlich ist die Situation vielschwieriger als hier gezeigt, daRepeats häufig nicht zu 100% zwischen Kopien konserviert sind.

Durch die Löschung von k-mers hoher Frequenz wird einiges an Repetition im Genom vor der Erzeugung von G effizient maskiert.

Zur Erkennung von repetitiven Verbindung dienen weitere heuristische Algorithmen, die hier nicht diskutiert werden sollen.

Page 77: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 77

Benutze Überlapp-Paarungen um die reads zu verbindenArachne sucht nach 2 Plasmiden mit gleicher Insert-Länge, deren Sequenzen an beiden Enden überlappen paired pairs.

Batzoglou et al. Genome Res 12, 177 (2002)

(A) A paired pair of overlaps. The top two reads are end sequences from one insert, and the bottom two reads are end sequences from another. The two overlaps must not imply too large a discrepancy between the insert lengths.

(B) Initially, the top two pairs of readsare merged. Then the third pair ofreads is merged in, based on havingan overlap with one of the top two leftreads, an overlap with one of the toptwo right reads, and consistent insertlengths. The bottom pair is similarlymerged.

Unten: eine Menge von paired pairs werden zu contigs zusammengefasst und eine Konsensussequenz erzeugt.

Page 78: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 78

Detection of repeat contigs

Contig R is linked to contigs A andB to the right. The distances estimated between R and A andR and B are such A and B cannotbe positioned without substantialoverlap between them. If there isno corresponding detected overlapbetween A and B then R isprobably a repeat linking to two unique regions to the right.

Batzoglou et al. Genome Res 12, 177 (2002)

Some of the identified contigs are repeat contigs in which nearly identicalsequence from distinct regions are collapsed together. Detection by(a) repeat contigs usually have an unusually high depth of coverage.(b) they will typically have conflicting links to other contigs.

After marking repeat contigs, the remainingcontigs should represent the correctlyassembled sequence.

Page 79: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 79

Contig assembly

If (a,b) and (a,c) overlap, then (b,c) are expected to overlap. Moreover, one can calculate that shift(b,c) = shift(a,c) - shift(a,b).

A repeat boundary is detected toward the right of read a, if there is no overlap (b,c), nor any path of reads x1, ..., xk such that (b,x1), (x1,x2) ..., (xk,c) are all overlaps,

and shift(b,x1) + ... + shift(xk,c) shift(a,c) – shift(a,b).

Batzoglou et al. Genome Res 12, 177 (2002)

Page 80: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 80

Consistency of forward-reverse links

(A) The distance d(A,B) (length of

gap or negated length of overlap) between two linked contigs A and B can be estimated using the forward-reverse linked reads between them.

(B) The distance d(B,C) between two contigs B,C that are linked to the same contig A can be estimated from their respective distances to the linked contig.

Batzoglou et al. Genome Res 12, 177 (2002)

Page 81: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 81

Contig Coverage and Read Usage

Batzoglou et al. Genome Res 12, 177 (2002)

Page 82: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 82

Characterization of Contigs and Supercontigs

Batzoglou et al. Genome Res 12, 177 (2002)

Page 83: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 83

Base Pair Accuracy

Batzoglou et al. Genome Res 12, 177 (2002)

base quality x*10 means that (on average) one sequencing error occursin 10-x bases.

Page 84: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 84

Vergleich verschiedener Assemblierungen

Pevzner, Tang, Waterman PNAS 98, 9748 (2001)

man sollte gucken nach:- welche Methode gibt die kleinste Anzahl an Contigs bzw. die kleinesten Anzahl am festen Contigs bzw. falsch assemblierten Contigs- die größt mögliche Abdeckung durch Contigs- falsch assemblierte Contigs sollten einen möglichst geringen Teil des Genoms ausmachen.

Page 85: V4 – Analyse von Genomsequenzen

4. Vorlesung SS 2011 Softwarewerkzeuge 85

There is no error-free assembler to date

Pevzner, Tang, Waterman PNAS 98, 9748 (2001)

Comparative analysis of EULER, PHRAP, CAP, and TIGR assemblers (NM sequencing project). Every box corresponds to a contig in NM assembly produced by these programs with colored boxes corresponding to assembly errors. Boxes in the IDEAL assembly correspond to islands in the read coverage. Boxes of the same color show misassembled contigs. Repeats with similarity higher than 95% are indicated by numbered boxes at the solid line showing the genome. To check the accuracy of the assembled contigs, we fit each assembled contig into the genomic sequence. Inability to fit a contig into the genomic sequence indicates that the contig is misassembled. For example, PHRAP misassembles 17 contigs in the NM sequencing project, each contig containing from two to four fragments from different parts of the genome.

„Biologists "pay" for these errors at the

time-consuming finishing step“.