seminar: aktuelle themen der bioinformatik thema: genome rearrangement ceyhun tamer [email protected]
TRANSCRIPT
Seminar: Aktuelle Themen der Bioinformatik
Thema:
Genome Rearrangement
Ceyhun Tamer
Ceyhun Tamer, 6.Semester Bioinformatik - 2 -
Übersicht
Einleitung in das Thema Genome Rearrangement
Multiple genome rearrangement: a general
approach via the evolutionary genome graph
(Dmitry Korkin, Lev Goldfarb; 2002)
Multiple genome rearrangement
(David Sankoff, Mathieu Blanchette;1998)
Ceyhun Tamer, 6.Semester Bioinformatik - 3 -
Grundlagen Genome Rearrangement
Möglichkeiten der Evolution auf DNA-Ebene:
Änderungen in der Sequenzabfolge der Basen in Genen:
Änderungen in der Anordnung der Gene:
Ceyhun Tamer, 6.Semester Bioinformatik - 4 -
Grundlagen Genome Rearrangement
Ceyhun Tamer, 6.Semester Bioinformatik - 5 -
Grundlagen Genome Rearrangement
Möglichkeiten der Evolution auf DNA-Ebene:
Änderungen in der Sequenzabfolge der Basen in Genen:
Änderungen in der Anordnung der Gene:
Ceyhun Tamer, 6.Semester Bioinformatik - 6 -
Grundlagen Genome Rearrangement
(Weißkohl)
(Weißrübe)
Ceyhun Tamer, 6.Semester Bioinformatik - 7 -
Grundlagen Genome Rearrangement
Entdeckung des Genome Rearrangement
Ende 1980er Jahren von Jeffrey Palmer und seinen Kollegen
entdeckt
mitochondriale Gene von Weißkohl und der Weißrübe zu 99%
identisch
mitochondriale Genome unterscheiden sich stark in der Gen-
Reihenfolge
Ceyhun Tamer, 6.Semester Bioinformatik - 8 -
Grundlagen Genome Rearrangement
Wozu Genome Rearrangement??
Traditionell Rekonstruktion phylogenetischer Bäume anhand von
Punktmutationen in einzelnen oder wenigen Genen
≠ für den Fall Weißkohl vs. Weißrübe keine gute Wahl
Herpesviren evolvieren sehr schnell
Betrachtung 7 konservierter Blöcke; Veränderungen in deren
Reihenfolge ist wesentlich langsamer
Optimal wäre es die Vorteile von Gen- und Genom-Vergleichen in
einem Algorithmus zu vereinen
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Dmitry Korkin und Lev Goldfarb
Ceyhun Tamer, 6.Semester Bioinformatik - 10 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Motivation:
Es existiert kein vereinheitlichter Rahmen, um
Fragestellungen aus diesem Bereich zu behandeln
Ziel: einen solchen „Rahmen“ bereitstellen
Und z.B. die Ähnlichkeit zweier Genome über den
jüngsten gemeinsamen Vorfahren berechnen
Einführung des EG-Graphen (evolutionary genome
graph)
Ceyhun Tamer, 6.Semester Bioinformatik - 11 -
Grundlegende Definitionen
∑0 = {A,C,G,T} ist unser Alphabet
Ein Gen ist definiert als ein Element aus einer Menge von Strings
Ein Genom G ist definiert als eine Sequenz von Genen
G = (s1, s2,…,sn), sk є S, 1≤ k ≤ n
daraus resultiert die Genomsequenz G = s1° s2 °… ° sn
|G| ist die Länge der Genomsequenz
Multiple genome rearrangement: a general approach via the evolutionary genome graph
0S
Ceyhun Tamer, 6.Semester Bioinformatik - 12 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Grundlegende Definitionen
Subsequenz: ∑ = {a,b,…,z}
a = s1, s2,…, sn , si є ∑, 1 ≤ i ≤ n
b = si1, si2,…, sik , 1 ≤ ij ≤ n, 1 ≤ j ≤ k
Ceyhun Tamer, 6.Semester Bioinformatik - 13 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Grundlegende Definitionen
MLCS (multiple longest subsequence): ∑ = {a,b,…,z}
S = {a1, a2,…,ad} eine Menge von Sequenzen
|a1| = n1 , |a2| = n2 ,…, |ad| = nd
• b ist der MLCS dann wenn:
• b ist eine Subsequenz von ai für 1 ≤ i ≤ d
• b ist die Längste Sequenz auf, die die vorige Bedingung zutrifft
Wenn d=2 so wird der MLCS nur LCS (longest common
subsequence) genannt
Ceyhun Tamer, 6.Semester Bioinformatik - 14 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Grundlegende Definitionen
A = (a1, a2,…, an) , B = (b1, b2,…, bn)
p: {1,2,…,n} {1,2,…,n}, so daß bi = ap(i) oder bi = a‘p(i)
Abbildungsfunktion f: Γ Γ, f(A) = B
wird gene order transformation (gor-transformation) für Genom A
genannt
die Menge aller gor-Transformationen wird mit Φgor bezeichnet
Ceyhun Tamer, 6.Semester Bioinformatik - 15 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Grundlegende Definitionen
genome rearrangement: ein Rearrangement von Genom G nach
Genom Gm ist eine Sequenz (f1, f2,…, fm), m ≥ 1, fi є Φgor
G1 = f1(G) , G2 = f2(G1) , Gi = fi(Gi-1) , 1 ≤ i ≤ m
(Weißkohl)
(Weißrübe)
f1
f2
f3
Ceyhun Tamer, 6.Semester Bioinformatik - 16 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Grundlegende Definitionen
gor-Transformationen: Inversionen Transpositionen
ins-Transformation (Insertions-Transformation)
Ceyhun Tamer, 6.Semester Bioinformatik - 17 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Grundlegende Definitionen
Inversionen:
A = (a1, a2,…, an), B = (b1, b2,…, bn)
f є Φgor ist eine Inversion einer Subsequenz
A1 = (ak, ak+1,…, ak+m), wenn:
bi = ai , 1 ≤ i ≤ k-1 oder k+m+1 ≤ i ≤ n
bk+i = a‘k+(m-i) , 0 ≤ i ≤ m
a1,…,ak-1, ak,ak+1,…,ak+m, ak+m+1,…,an
a1,…,ak-1, a’k+m,a’k+m-1,…,a’k, ak+m+1,…,an
Genom A:
Genom B:
Ceyhun Tamer, 6.Semester Bioinformatik - 18 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Grundlegende Definitionen
Transpositionen:
A = (a1, a2,…, an), B = (b1, b2,…, bn)
f є Φgor ist eine Transposition einer Subsequenz
A1 = (ak, ak+1,…, ak+m), wenn:
bi = ai , 1 ≤ i ≤ min(k,j) oder max(k,j)+m+1 ≤ i ≤ n
bj+i = ak+i , 1 ≤ i ≤ m
a1,…,ak, ak+1,ak+2,…,ak+m, ak+m+1,…,an
a1,…,aj, ak+1,ak+2,…,ak+m, aj+1,…,an
Genom A:
Genom B:
Ceyhun Tamer, 6.Semester Bioinformatik - 19 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Grundlegende Definitionen
bi+m = ai , j+1 ≤ i ≤ k (Achtung nur für j ≤ k )
a1,…,aj, aj+1,…,ak, ak+1,ak+2,…,ak+m, ak+m+1,.. an
a1,…,aj, ak+1,ak+2,…,ak+m, aj+1,…,ak, ak+m+1,…,an
Genom A:
Genom B:
Ceyhun Tamer, 6.Semester Bioinformatik - 20 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Grundlegende Definitionen
Insertions-Transformation:
ändert die Länge eines Genoms
A = (a1,a2,…,an), B = (b1,b2,…,bn+m) für m > 0
Abbildungsfunktion f: Γ Γ , f(A) = B
wird ins-Transformation einer Sequenz A1 = (c1,c2,…,cm)
genannt, wenn ein k existiert mit 1 ≤ k ≤ n: bi = ai , 1 ≤ i ≤ k
bk+i = ci , 1 ≤ i ≤ m
bi+k+m = ai+k , 1 ≤ i ≤ n-k
a1,…, ak, ak+1,…, an
a1,…,ak, c1,c2,,…,cm, ak+1,…,an
A:
B:
Ceyhun Tamer, 6.Semester Bioinformatik - 21 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Grundlegende Definitionen
Menge der ins-Transformationen wird mit Φins bezeichnet
Menge der ins- und gor-Transformationen ist Φ Eine Entwicklung von Genom G zu Genom Gm ist eine
Folge (f1,f2,…,fm), m ≥ 1, fi є Φ
G1 = f1(G), G2 = f2(G1), Gi = fi(Gi-1), mit fi є Φ
Ceyhun Tamer, 6.Semester Bioinformatik - 22 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Grundlegende Definitionen
Genom C ist gemeinsamer Vorfahre für Γ1:
für alle G є Γ1: G = C oder C G existiert
Γ1A ist die Menge aller gemeinsamen Vorfahren von Γ1
Γ1 = {1,2,…,7}
Γ1A = {7,8}
Ceyhun Tamer, 6.Semester Bioinformatik - 23 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Grundlegende Definitionen
Genom C ist jüngster gemeinsamer Vorfahre von Γ1
wenn es zur Menge gehört, so daß
für alle G є Γ1A mit G є Γ1C ein C‘ є Γ1C und G C‘ existiert
AC 11
Γ1 = {1,2,…,7}
Γ1A = {7,8}
Γ1C = {7}
Ceyhun Tamer, 6.Semester Bioinformatik - 24 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
EG-Graph und Problemstellung
EG-Graph für Γ1: gerichtet, zusammenhängend
DG = (V,E) mit lV: V Γ, lE: E Φ
sink node: O source node: O
es existiert genau ein source node V0, V0 є V
lV ist injektiv und
wenn G0 = lV(V0), dann ist G0 = C von Γ1
Problem: Wege sind nicht eindeutig
)(1 VlV
Ceyhun Tamer, 6.Semester Bioinformatik - 25 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph EG-Graph und Problemstellung
Ähnlichkeitsbegriff:
um 2 Genome unter Einbeziehung von Transformationen
vergleichen zu können µDG: lV(V) x lV(V) R
Problemstellung:
gegeben Γ1 = {G1, G2,…, Gn} und ein Ähnlichkeitsmaß µDG konstruiere EG-Graph DG, DG = (V,E), so daß
und pDG( Γ1) = minimal unter
allen EG-Graphen
)(1 VlV
+
1,
/),(ji GG
ji nGGµDG
Ceyhun Tamer, 6.Semester Bioinformatik - 26 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
ein evolutionsbasiertes Modell der Genom-Entwicklung
EG-Graph: S = {g1,g2,…,gn), Γ = {G|G = {gi1,gi2,…,gik)
es ist , f ist eine Inversion oder Insertion
und für VS die Menge der sink nodes ist lV(VS) = Γ1
Beschränkungen für den EG-Graphen: kein Genom in Γ enthält doppelte Gene ein Gen g є S darf nicht zweimal invertiert werden keine Transpositionen alle Genome bestehen aus denselben Genen
)(Elf E
Ceyhun Tamer, 6.Semester Bioinformatik - 27 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
ein evolutionsbasiertes Modell der Genom-Entwicklung
Lemma:
durch die Beschränkungen ist DG = (V,E) ein azyklischer Graph Transpositionen sind nicht erlaubt ein Genom kann niemals zu einer Vorstufe zurückkehren
durch Beschränkung der Anzahl an Insertionen ist die Erstellung
aller möglichen Genome endlich
Transformation f einer Sequenz von Genen X
= fX
Ceyhun Tamer, 6.Semester Bioinformatik - 28 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
ein evolutionsbasiertes Modell der Genom-Entwicklung
Lemma:
A,B є Γ und C der jüngste gemeinsame Vorfahre wenn B = fX(A), für fX eine Transposition, dann
A = fX‘(C) und B = fX‘‘(C)
wenn B = f(A), für f eine Inversion, dann ist
A = C (bzw. umgekehrt im symmetrischen Fall)
Ceyhun Tamer, 6.Semester Bioinformatik - 29 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
ein evolutionsbasiertes Modell der Genom-Entwicklung
weighting scheme:
Gewichtung für Inversionen und Insertionen für eine Transformation fA ist das Gewicht
w(fA) = |A|
Bestimmung der Ähnlichkeit von A und B: EG-Graph mit A,B є Γ und C gegeben
A = fn° fn-1°…f1(C)
B = gm° gm-1°…g1(C)
µDG(A,B) =
n
i
m
iii gwfw
1 1
)()(
Ceyhun Tamer, 6.Semester Bioinformatik - 30 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
ein evolutionsbasiertes Modell der Genom-Entwicklung
Was wurde dadurch erreicht?
ein Maß für Verwandtschaft es ist nun möglich einer Verwandtschaftsbeziehung einen reellen Wert zuzuweisen
je geringer µDG(A,B) , desto verwandter sind die beiden Genome
Ceyhun Tamer, 6.Semester Bioinformatik - 31 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
ein evolutionsbasiertes Modell der Genom-Entwicklung
kontextsensitive Gen-Transformationen:
Sinn: Prozess des Genome Rearrangement von der Struktur des
Genoms abhängig abhängig von bestimmter Region: lokaler Kontext abhängig von weit entfernten Regionen: globaler Kontext
globaler Kontext ist sehr komplex wird hier nicht behandelt
außerdem Beschränkung auf Inversionen und Insertionen
Ceyhun Tamer, 6.Semester Bioinformatik - 32 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph ein evolutionsbasiertes Modell der Genom-Entwicklung
Definition:
gegeben Γ1 und eine Transformation fX (Inversion/Insertion)
lokaler Kontext ist (C1,C2), C1,C2 є ∑* fX eine Inversion von X nach X‘, B = fX(A)
A = A1 ○ C1 ○ X ○ C2 ○ A2
B = B1 ○ C1 ○ X‘ ○ C2 ○ B2
fX eine Insertion, B = fX(A) A = A1○ C1○ C2 ○ A2
B = B1○ C1○ X ○ C2 ○ B2
wobei A1, A2, B1, B2, C1, C2 є ∑* wenn C1 und C2 Null-String fX ist kontextfrei
Ceyhun Tamer, 6.Semester Bioinformatik - 33 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
ein evolutionsbasiertes Modell der Genom-Entwicklung
Wozu kontextsensitive Transformationen?
cs-Transformation ist diskriminierender
cf-Transformation erstellt Genome, die „weiter“ entfernt sind
biologisch plausibler
cs-Transformationen sollten bevorzugt werden
Ceyhun Tamer, 6.Semester Bioinformatik - 34 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
ein evolutionsbasiertes Modell der Genom-Entwicklung
weighting scheme update:
wcs(fX) =
wenn C1 und C2 leer sind ist wcs (fx) = wcf (fx)
wenn C1 und C2 groß geringeres Gewicht spezifischere Transformation
kontextsensitive Transformation ist bevorzugt
21 CCX
Xwcf
Ceyhun Tamer, 6.Semester Bioinformatik - 35 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
ein evolutionsbasiertes Modell der Genom-Entwicklung
Was haben wir gewonnen?
Transformationen können reelle Werte zugewiesen werden Möglichkeit Verwandtschaftsbeziehungen zu berechnen Verwandtschaftsbeziehungen vergleichen Miteinbeziehung eines möglichen lokalen Kontexts
Was fehlt? Transpositionen globaler Kontext Unterscheidung zwischen Insertion und Inversion
Ceyhun Tamer, 6.Semester Bioinformatik - 36 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Implementierung: nur mit Transpositionen
Was wird gemacht:
Erstellen eines EG-Graphen aus Γ es werden nur Insertionen betrachtet die Idee des MLCS wird verwendet (dominant-points) Beschränkung auf , so daß jedes Genom in ein
anderes durch endlich viele Operationen überführt werden kann Beschränkung, daß jedes Genom aus Δ, aus denselben
Genen in S besteht es wird ein möglicher EG-Graph ausgegeben
Ceyhun Tamer, 6.Semester Bioinformatik - 37 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Algorithmus Input: Γ1, | Γ1| = N
Output: DG = (V,E), mit V = {v1,v2,…,vK} ist die Menge der Knoten und
E = {e1,e2,…,eM} ist die Menge der Kanten
Ceyhun Tamer, 6.Semester Bioinformatik - 38 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Ceyhun Tamer, 6.Semester Bioinformatik - 39 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Zeitkomplexität
Ο(s * d (T + L))
|Γ1| = d, |S| = s, O(T) Komplexität für MLCS, L = max{|G1|,…,|Gd|}
O(T) = O(n * s * d + |D| * s * d * (logd-3 * n + logd-2 * s))
|D| ist die Größe der Menge aller dominanten Positionen
Ceyhun Tamer, 6.Semester Bioinformatik - 40 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Ergebnisse
G1 = D A B E C F G H;
G2 = A D G B C F H E;
G3 = A G B D C F E H;
G4 = G A B D C F E H;
G5 = E G C A F D B H;
G6 = C E A F B G H D.
Ceyhun Tamer, 6.Semester Bioinformatik - 41 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Ergebnisse
Ceyhun Tamer, 6.Semester Bioinformatik - 42 -
Multiple genome rearrangement: a general approach via the evolutionary genome graph
Fazit
Einführung des EG-Graphen, der die Entwicklung mehrerer
Genome repräsentiert
Es ist möglich gleich mehrere Genome untereinander zu
vergleichen
Aber es gibt noch viel zu tun, da bisher viele Einschränkungen
vorhanden sind
Multiple genome rearrangement
David Sankoff und Mathieu Blanchette
Ceyhun Tamer, 6.Semester Bioinformatik - 44 -
Multiple genome rearrangement
Motivation:
Multiples Alignment von Sequenzen betrachtet nur lokale Insertion,
Deletion und Substitution
Ziel: Multiples Alignment für Gensequenzen mit Inversionen und
Transpositionen
Ceyhun Tamer, 6.Semester Bioinformatik - 45 -
Multiple genome rearrangement
Worum wird es gehen:
gesucht: Belegung der inneren Knoten (Vorfahren)
bisher selten genutzt
Ceyhun Tamer, 6.Semester Bioinformatik - 46 -
Multiple genome rearrangement
Breakpoint Analyse:
A = (a1 ,a2 ,…,an) und B = (b1 ,b2 ,…,bn) mit ai ,bi є S
ai und ai+1 sind adjazent in A
aber nicht in B, so bilden sie einen Breakpoint
Φ(A,B) ist die Anzahl Breakpoints in A
A: g1, g2, g3, g4, g5, g6 BP: (g1,g2), (g2, g3), (g3, g4)
B: g2, g1, g4, g5, g6, g3 BP: (g2,g1), (g1, g4), (g6, g3)
Ceyhun Tamer, 6.Semester Bioinformatik - 47 -
Multiple genome rearrangement
Orientierte Genome:
Miteinbeziehung einer Polarität der Gene
Orientierung gibt die Richtung der Transkription an
Modifizierung des Begriffs: Breakpoint
keine Breakpoints:
g h -h -g
Breakpoints:
h g -g -h g -h
-g h h -g -h g
Ceyhun Tamer, 6.Semester Bioinformatik - 48 -
Multiple genome rearrangement
Multiple Genome Rearrangement auf Graphen:
Definition: S = {g1,g2,…,gn} eine Menge von Genen
T = (V,E) ein ungewurzelter Baum mit N ≥ 3 Blättern
, die Blätter des Baumes
, N+1 ≤ L ≤ 2N-2 , die inneren Knoten
minimiere:
)(},...,{ 1 TVVV n
},...,{ 1 LN VV
)(
),(TEVV
ji
ji
GG
Ceyhun Tamer, 6.Semester Bioinformatik - 49 -
Multiple genome rearrangement
Multiple Genome Rearrangement auf Graphen:
Aufgabe:
minimiere:
finde eine Belegung der inneren Knoten, so daß die Anzahl der Breakpoints minimal ist
)(
),(TEVV
ji
ji
GG
Ceyhun Tamer, 6.Semester Bioinformatik - 50 -
Multiple genome rearrangement
Multiple Genome Rearrangement auf Graphen:
Consensus-Graph (Stars): Bestimmung eines „Medians“ für N Genome mit jeweils
n Genen ohne Orientierung
S = {g1, g2 , g3} , N = 3 , n = 3
G1 = g2 g1 g3
G2 = g3 g2 g1
G3 = g1 g3 g2
Ceyhun Tamer, 6.Semester Bioinformatik - 51 -
Multiple genome rearrangement
Multiple Genome Rearrangement auf Bäumen:
Consensus-Graph (Stars): Γ ist der vollständige Graph
die Knoten sind Element aus S
für jede Kante gh in E(Γ) sei u(gh) die Anzahl in der g und h adjazent sind
g1
g3
g2
Ceyhun Tamer, 6.Semester Bioinformatik - 52 -
Multiple genome rearrangement
Multiple Genome Rearrangement auf Bäumen:
Consensus-Graph (Stars):
G1 = g2 g1 g3 (g2g1), (g1g3)
G2 = g3 g2 g1 (g3g2), (g2g1)
G3 = g1 g3 g2 (g1g3), (g3g2)
u(g2g1) = 2, u(g1g3) = 2
u(g3g2) = 2, u(g1g2) = 0
u(g2g3) = 0, u(g3g1) = 0
Ceyhun Tamer, 6.Semester Bioinformatik - 53 -
Multiple genome rearrangement
Multiple Genome Rearrangement auf Bäumen:
Consensus-Graph (Stars): w(gh) ist das Gewicht der Kante gh mit
w(gh) = N - u(gh)
w(g2g1) = 1, w(g1g3) = 1, w(g3g2) = 1, w(g1g2) = 3
w(g2g3) = 3, w(g3g1) = 3
das TSP wird auf (Γ,w) angewendet
Ceyhun Tamer, 6.Semester Bioinformatik - 54 -
Multiple genome rearrangement
Multiple Genome Rearrangement auf Bäumen:
Consensus-Graph (Stars):
mögliche Lösungen (Mediane): g1 g3 g2 Kosten: 3 g2 g1 g3 g3 g2 g1
G1 = g2 g1 g3
G2 = g3 g2 g1
G3 = g1 g3 g2
g1
g3
g2
1
1
1
3
3
3
Ceyhun Tamer, 6.Semester Bioinformatik - 55 -
Multiple genome rearrangement
Multiple Genome Rearrangement auf Graphen:
Consensus-Graph (Stars): Bestimmung eines „Medians“ für N Genome mit jeweils
n Genen mit Orientierung
S = {-g1, g1, -g2 , g2 , -g3, g3} , N = 3 , n = 3
G1 = -g2 g1 g3
G2 = g3 -g1 -g2
G3 = g1 g2 g3
Ceyhun Tamer, 6.Semester Bioinformatik - 56 -
Multiple genome rearrangement
Multiple Genome Rearrangement auf Graphen:
Consensus-Graph (Stars): Γ ist der vollständige Graph
die Knoten sind Element aus S
für jede Kante gh in E(Γ) sei u(gh) die Anzahl in der -g und h adjazent sind w(gh) = N - u(gh)
wenn g = -h w(gh) = -Z
g1 g3g2
-g1 -g2 -g3
G1 = g1 g2 g3 G1 = g1 -g1 | g2 -g2 | g3 -g3
G2 = g1 g2 -g3 G2 = g1 -g1 | g2 -g2 | -g3 g3
Ceyhun Tamer, 6.Semester Bioinformatik - 57 -
Multiple genome rearrangement
Multiple Genome Rearrangement auf Graphen:
Consensus-Graph (Stars):
G1 = -g2 g1 g3, G2 = g3 -g1 -g2, G3 = g1 g2 g3
u(g2g1) = 1, u(-g1g3) = 1, u(-g3-g1) = 1, u(g1-g2) = 1,
u(-g1g2) = 1, u(-g2g3) = 1
w(g2g1) = 2, w(-g1g3) = 2, w(-g3-g1) = 2, w(g1-g2) = 2,
w(-g1g2) = 2, w(-g2g3) = 2
Ceyhun Tamer, 6.Semester Bioinformatik - 58 -
Multiple genome rearrangement
Ceyhun Tamer, 6.Semester Bioinformatik - 59 -
Multiple genome rearrangement
Multiple Genome Rearrangement auf Graphen:
Consensus-Graph (Stars): Lösungen:
g1 -g1 g2 -g2 g3-g3 Kosten: -3 * Z + 4 g2 -g2 g3 -g3 -g1 g1
-g2 g2 g1 -g1 g3 -g3
g3 -g3 -g1 g1 -g2 g2
Mediane: g1 g2 g3 : 4 Inversionen Abstand g2 g3 -g1 : 7 Inversionen Abstand -g2 g1 g3 : 5 Inversionen Abstand g3 -g1 -g2 : 5 Inversionen Abstand
Ceyhun Tamer, 6.Semester Bioinformatik - 60 -
Multiple genome rearrangement
Wie gut sind die Lösungen?
Ceyhun Tamer, 6.Semester Bioinformatik - 61 -
Multiple genome rearrangement
Multiple Genome Rearrangement auf Graphen:
binäre Bäume (completely resolved): |V(T)| = 2N - 2
alle nicht-terminalen Knoten haben Grad 3
Beginn mit einem „Start-Baum“
inneren Knoten werden Genome zugeordnet
Zerlegung des Gesamtproblems in Teile von 3-Stars
Ceyhun Tamer, 6.Semester Bioinformatik - 62 -
Multiple genome rearrangement
Multiple Genome Rearrangement auf Graphen:
binäre Bäume (completely resolved): initiale Belegung der inneren Knoten:
eine feste Permutation zufällige Permutationen eine Permutation aus nächster „Verwandtschaft“ Consensus von drei Permutationen aus nächster
„Verwandtschaft“ Initiales TSP für jeden inneren Knoten, Kantengewichte
über dynamische Programmierung Initiales TSP für jeden inneren Knoten, Kantengewichte
sind gemittelt über drei benachbarte Knoten
Ceyhun Tamer, 6.Semester Bioinformatik - 63 -
Multiple genome rearrangement
Multiple Genome Rearrangement auf Graphen:
Der Algorithmus:
algorithm optimizetree
input G1,…,GN
initialize each of GN+1,…,G2N-2 to some Genome
cost := ∞
routine iteratemedian
output GN+1,…,G2N-2
Ceyhun Tamer, 6.Semester Bioinformatik - 64 -
Multiple genome rearrangement
Multiple Genome Rearrangement auf Graphen:
routine iteratemedian
while C = < cost,
cost := C
do for i = N+1,…,2N-2,
G* := median(Gh, Gj, Gk)
if
Gi := G*
end if
enddo
endwhile
},,{ },,{
* ),(),(kjhI kjhI
IiI GGGG
)(
),(TEVV
ji
ji
GG
Ceyhun Tamer, 6.Semester Bioinformatik - 65 -
Multiple genome rearrangement
Wie gut sind die Ergebnisse:
Ceyhun Tamer, 6.Semester Bioinformatik - 66 -
Multiple genome rearrangement
Fazit
Multiples Alignment von Genomen mit Hilfe von Stars und binären
Bäumen
Aussagen über die Genauigkeit der Lösung
Beschränkung der Genome auf dieselbe Genmenge ist
unrealistisch
Ceyhun Tamer, 6.Semester Bioinformatik - 67 -
Multiple genome rearrangement