1 whole genome alignment mit suffixbäumen fortgeschrittene algorithmische bioinformatik sose 2005...
TRANSCRIPT
![Page 1: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/1.jpg)
1
Whole Genome Alignment mit Suffixbäumen
„Fortgeschrittene Algorithmische Bioinformatik“SoSe 2005
Emre Kutbay
![Page 2: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/2.jpg)
2
Agenda
• Einleitung - Was ist MUMer?
• MUMer Core-Algorithmus
• NUCmer - PROmer
• weitere Tools
Fortgeschrittene Algorithmische Bioinformatik, SS05
![Page 3: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/3.jpg)
3
Einleitung – was ist MUMer
• Chromosome von Säugetieren alignieren
• Inversionen & Duplikationen finden
• alignieren der DNA-Sequenzen auf Proteinebene
Fortgeschrittene Algorithmische Bioinformatik, SS05
![Page 4: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/4.jpg)
4
Einleitung – was ist MUMer
Fortgeschrittene Algorithmische Bioinformatik, SS05
Quelle: Multi-BUS: An algorithm for resolving multi-species gene correspondence and gene family relationships.
![Page 5: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/5.jpg)
5
Einleitung – was ist MUMer
• Output von verschiedenen Assemblern bewerten
• Assemblierung in verschiedenen Stadien eines WGSS-Projektes bewerten
• Modularer Aufbau
• Open Source - http://mummer.sourceforge.net
Fortgeschrittene Algorithmische Bioinformatik, SS05
![Page 6: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/6.jpg)
6
Agenda
• Einleitung
• MUMer Core-Algorithmus
• NUCmer - PROmer
• weitere Tools
Fortgeschrittene Algorithmische Bioinformatik, SS05
![Page 7: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/7.jpg)
7
Algorithmen
1. Suffix-Tree mit 12.5-15.4 bytes/bp• Krutz
2. Streaming der query-Sequenz• Nur eine Sequenz wird gespeichert
3. Cluster bilden und konsistente Pfade innerhalb von Clustern finden
• Rearrangements in Chromosomen finden
Fortgeschrittene Algorithmische Bioinformatik, SS05
![Page 8: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/8.jpg)
8
Algorithmus: streaming
Querysequenz:…atgtcc…
Fortgeschrittene Algorithmische Bioinformatik, SS05
Refernzsequenz:
![Page 9: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/9.jpg)
9
Algorithmus: streaming
Vorteil: • Nur einer der beiden Sequenzen wird
im Suffixtree gespeichert• Viele Sequenzen können gegen diesen
gestreamt werdenNachteil:• Erhöht Aufwand um uniqueness in der
Querysequenz sicherzustellen…• braucht man nicht immer
Fortgeschrittene Algorithmische Bioinformatik, SS05
![Page 10: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/10.jpg)
10
Agenda
• Einleitung
• Algorithmen von MUMer
• NUCmer – PROmer
• weitere Tools
Fortgeschrittene Algorithmische Bioinformatik, SS05
![Page 11: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/11.jpg)
11
NUCmer: clustering
1. mit MUMer: MUMs der Länge mindestens l finden
2. 2 MUMs maximal g Nukleotide voneinander entfernt: cluster bilden
3. Pfad mit den meisten kolinearen Matches in jedem Cluster ermitteln
4. Wenn die Anzahl der Matches > c: SW-Alignment in Zwischenräumen der Matches und Grenzen des Clusters
Fortgeschrittene Algorithmische Bioinformatik, SS05
![Page 12: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/12.jpg)
12
PROmer: entfernte Verwandte
1. Übersetzen aller 6 reading Frames der Referenz- und der Querysequenz in Proteine
2. MUMs finden mittels MUMer3. Cluster bilden und erweitern mittels
BLOSSUM624. Alle Alignments zurück auf DNA-
Koordinaten abbilden
Fortgeschrittene Algorithmische Bioinformatik, SS05
![Page 13: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/13.jpg)
13
NUCmer – PROmer: output
Output: Serie von unabhängigen Alignment Regionen
Fortgeschrittene Algorithmische Bioinformatik, SS05
![Page 14: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/14.jpg)
14
NUCmer – PROmer: Kritik
Clustering:
• Problem: MUMs in einem Cluster überlappen sich
• NUCmer/PROmer sucht kolineares Alignment, mit den meißten MUMs
• am besten alle im Cluster
• entfernen überlappender Teile der MUMs -> inkonsistentes Alignment
Fortgeschrittene Algorithmische Bioinformatik, SS05
![Page 15: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/15.jpg)
15
Optimal
MUMer
NUCmer – PROmer: Kritik
Fortgeschrittene Algorithmische Bioinformatik, SS05
MUMs
![Page 16: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/16.jpg)
16
PROmer: Kritik
Sensitivität: • MUMer sucht nach allen „l-guten“
Teilwörtern – auch bei Proteinen• Blast:
1. erzeuge Keyword-Tree aller Permutationen der Amino-Suchsequenz,
2. bewerte diese mit BLOSUM623. nimmt die Sequenzen mit einem größeren
Score als l mit in die Suchquery auf Bsp.: MASGTLVWG und MTSDTSVRG
Fortgeschrittene Algorithmische Bioinformatik, SS05
![Page 17: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/17.jpg)
17
Agenda
• Einleitung
• Algorithmen von MUMer
• NUCmer - PROmer
• weitere Tools
Fortgeschrittene Algorithmische Bioinformatik, SS05
![Page 18: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/18.jpg)
18
shotgung-sequencing
1. Genom wird in Stücke zerlegt• Viele Millionen: 2 bis 150 kb
2. Ca. 650 bp werden sequenziert• Das sind die „reads“
• Genom ist zu >99% sequenziert, wenn man genug reads hat um es 8x abzudecken
Stück (2 – 150kbp) read (650bp)
Fortgeschrittene Algorithmische Bioinformatik, SS05
![Page 19: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/19.jpg)
19
shotgung-sequencing
• Bei 2Mb bakterielles Genom braucht man ca. 25.000 reads, da:25.000 x 650bp > 2.000.000bp x8
4. Reads werden assembliert• output: viele Tausend contigs
5. „Finishing“: Reihenfolge und Orientierung der Contigs ermitteln und Gaps füllen
Fortgeschrittene Algorithmische Bioinformatik, SS05
![Page 20: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/20.jpg)
20
Weitere Tools – DisplayMUMs
Fortgeschrittene Algorithmische Bioinformatik, SS05
zoomend in nucleotide alignment
alignment summary
Alignment tiles
![Page 21: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/21.jpg)
21
DisplayMUMs
• Vergleich des Outputs zweier Assembler
– Bewertung der „Güte“ von Assemblern
aus: Weizman Institute of Science
• Vergleich von Sequenzen zweier nah verwandter Spezies
Fortgeschrittene Algorithmische Bioinformatik, SS05
![Page 22: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/22.jpg)
22
Weitere Tools – MapView
Fortgeschrittene Algorithmische Bioinformatik, SS05
Referenzsequenz
Match
Vergrößerung
Alternative Splicevarianten
100%
75%
50%
![Page 23: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/23.jpg)
23
ReferenzenReferenzen:
Fast algorithms for large-scale genome alignment and comparison• Delcher, A. L., Phillippy, A., Carlton, J. and Salzberg, S. L.
Versatile and open software for comparing large genomes• Stefan Kurtz, Adam Phillippy, Arthur L Delcher, Michael Smoot, Martin
Shumway, Corina Antonescu and Steven L. Salzberg
An applications-focused review of comparative genomics tools: capabilities, limitations and future challenges.
• Chain, P., Kurtz, S., Ohlebusch, E. and Slezak, T.
Skript Bioinformatik WS 2004/2005• Leser U.
Fortgeschrittene Algorithmische Bioinformatik, SS05
![Page 24: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/24.jpg)
24
ReferenzenBildmaterial:
Multi-BUS: An algorithm for resolving multi-species gene correspondenceand gene family relationships• Matthew Rasmussen, Manolis Kellis
Weizman Institute of Science• http://www.weizmann.ac.il/biological_services/dna_seq/dna_seq.html
Fortgeschrittene Algorithmische Bioinformatik, SS05
![Page 25: 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d6449795902118b9ff3/html5/thumbnails/25.jpg)
25
Ende
Fragen?
Fortgeschrittene Algorithmische Bioinformatik, SS05