seminar: aktuelle themen der bioinformatik thema: genome rearrangement ceyhun tamer [email protected]

Seminar: Aktuelle Themen der Bioinformatik

Thema:

Genome Rearrangement

Ceyhun Tamer

[email protected]

Ceyhun Tamer, 6.Semester Bioinformatik - 2 -

Übersicht

Einleitung in das Thema Genome Rearrangement

Multiple genome rearrangement: a general

approach via the evolutionary genome graph

(Dmitry Korkin, Lev Goldfarb; 2002)

Multiple genome rearrangement

(David Sankoff, Mathieu Blanchette;1998)


Grundlagen Genome Rearrangement

Möglichkeiten der Evolution auf DNA-Ebene:

Änderungen in der Sequenzabfolge der Basen in Genen:

Änderungen in der Anordnung der Gene:



Möglichkeiten der Evolution auf DNA-Ebene:

Änderungen in der Sequenzabfolge der Basen in Genen:

Änderungen in der Anordnung der Gene:



(Weißkohl)

(Weißrübe)



Entdeckung des Genome Rearrangement

Ende 1980er Jahren von Jeffrey Palmer und seinen Kollegen

entdeckt

mitochondriale Gene von Weißkohl und der Weißrübe zu 99%

identisch

mitochondriale Genome unterscheiden sich stark in der Gen-

Reihenfolge



Wozu Genome Rearrangement??

Traditionell Rekonstruktion phylogenetischer Bäume anhand von

Punktmutationen in einzelnen oder wenigen Genen

≠ für den Fall Weißkohl vs. Weißrübe keine gute Wahl

Herpesviren evolvieren sehr schnell

Betrachtung 7 konservierter Blöcke; Veränderungen in deren

Reihenfolge ist wesentlich langsamer

Optimal wäre es die Vorteile von Gen- und Genom-Vergleichen in

einem Algorithmus zu vereinen

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Dmitry Korkin und Lev Goldfarb



Motivation:

Es existiert kein vereinheitlichter Rahmen, um

Fragestellungen aus diesem Bereich zu behandeln

Ziel: einen solchen „Rahmen“ bereitstellen

Und z.B. die Ähnlichkeit zweier Genome über den

jüngsten gemeinsamen Vorfahren berechnen

Einführung des EG-Graphen (evolutionary genome

graph)


Grundlegende Definitionen

∑0 = {A,C,G,T} ist unser Alphabet

Ein Gen ist definiert als ein Element aus einer Menge von Strings

Ein Genom G ist definiert als eine Sequenz von Genen

G = (s1, s2,…,sn), sk є S, 1≤ k ≤ n

daraus resultiert die Genomsequenz G = s1° s2 °… ° sn

|G| ist die Länge der Genomsequenz


0S




Subsequenz: ∑ = {a,b,…,z}

a = s1, s2,…, sn , si є ∑, 1 ≤ i ≤ n

b = si1, si2,…, sik , 1 ≤ ij ≤ n, 1 ≤ j ≤ k




MLCS (multiple longest subsequence): ∑ = {a,b,…,z}

S = {a1, a2,…,ad} eine Menge von Sequenzen

|a1| = n1 , |a2| = n2 ,…, |ad| = nd

• b ist der MLCS dann wenn:

• b ist eine Subsequenz von ai für 1 ≤ i ≤ d

• b ist die Längste Sequenz auf, die die vorige Bedingung zutrifft

Wenn d=2 so wird der MLCS nur LCS (longest common

subsequence) genannt




A = (a1, a2,…, an) , B = (b1, b2,…, bn)

p: {1,2,…,n} {1,2,…,n}, so daß bi = ap(i) oder bi = a‘p(i)

Abbildungsfunktion f: Γ Γ, f(A) = B

wird gene order transformation (gor-transformation) für Genom A

genannt

die Menge aller gor-Transformationen wird mit Φgor bezeichnet




genome rearrangement: ein Rearrangement von Genom G nach

Genom Gm ist eine Sequenz (f1, f2,…, fm), m ≥ 1, fi є Φgor

G1 = f1(G) , G2 = f2(G1) , Gi = fi(Gi-1) , 1 ≤ i ≤ m

(Weißkohl)

(Weißrübe)

f1

f2

f3




gor-Transformationen: Inversionen Transpositionen

ins-Transformation (Insertions-Transformation)




Inversionen:

A = (a1, a2,…, an), B = (b1, b2,…, bn)

f є Φgor ist eine Inversion einer Subsequenz

A1 = (ak, ak+1,…, ak+m), wenn:

bi = ai , 1 ≤ i ≤ k-1 oder k+m+1 ≤ i ≤ n

bk+i = a‘k+(m-i) , 0 ≤ i ≤ m

a1,…,ak-1, ak,ak+1,…,ak+m, ak+m+1,…,an

a1,…,ak-1, a’k+m,a’k+m-1,…,a’k, ak+m+1,…,an

Genom A:

Genom B:




Transpositionen:

A = (a1, a2,…, an), B = (b1, b2,…, bn)

f є Φgor ist eine Transposition einer Subsequenz

A1 = (ak, ak+1,…, ak+m), wenn:

bi = ai , 1 ≤ i ≤ min(k,j) oder max(k,j)+m+1 ≤ i ≤ n

bj+i = ak+i , 1 ≤ i ≤ m

a1,…,ak, ak+1,ak+2,…,ak+m, ak+m+1,…,an

a1,…,aj, ak+1,ak+2,…,ak+m, aj+1,…,an

Genom A:

Genom B:




bi+m = ai , j+1 ≤ i ≤ k (Achtung nur für j ≤ k )

a1,…,aj, aj+1,…,ak, ak+1,ak+2,…,ak+m, ak+m+1,.. an

a1,…,aj, ak+1,ak+2,…,ak+m, aj+1,…,ak, ak+m+1,…,an

Genom A:

Genom B:




Insertions-Transformation:

ändert die Länge eines Genoms

A = (a1,a2,…,an), B = (b1,b2,…,bn+m) für m > 0

Abbildungsfunktion f: Γ Γ , f(A) = B

wird ins-Transformation einer Sequenz A1 = (c1,c2,…,cm)

genannt, wenn ein k existiert mit 1 ≤ k ≤ n: bi = ai , 1 ≤ i ≤ k

bk+i = ci , 1 ≤ i ≤ m

bi+k+m = ai+k , 1 ≤ i ≤ n-k

a1,…, ak, ak+1,…, an

a1,…,ak, c1,c2,,…,cm, ak+1,…,an

A:

B:




Menge der ins-Transformationen wird mit Φins bezeichnet

Menge der ins- und gor-Transformationen ist Φ Eine Entwicklung von Genom G zu Genom Gm ist eine

Folge (f1,f2,…,fm), m ≥ 1, fi є Φ

G1 = f1(G), G2 = f2(G1), Gi = fi(Gi-1), mit fi є Φ




Genom C ist gemeinsamer Vorfahre für Γ1:

für alle G є Γ1: G = C oder C G existiert

Γ1A ist die Menge aller gemeinsamen Vorfahren von Γ1

Γ1 = {1,2,…,7}

Γ1A = {7,8}




Genom C ist jüngster gemeinsamer Vorfahre von Γ1

wenn es zur Menge gehört, so daß

für alle G є Γ1A mit G є Γ1C ein C‘ є Γ1C und G C‘ existiert

AC 11

Γ1 = {1,2,…,7}

Γ1A = {7,8}

Γ1C = {7}



EG-Graph und Problemstellung

EG-Graph für Γ1: gerichtet, zusammenhängend

DG = (V,E) mit lV: V Γ, lE: E Φ

sink node: O source node: O

es existiert genau ein source node V0, V0 є V

lV ist injektiv und

wenn G0 = lV(V0), dann ist G0 = C von Γ1

Problem: Wege sind nicht eindeutig

)(1 VlV


Multiple genome rearrangement: a general approach via the evolutionary genome graph EG-Graph und Problemstellung

Ähnlichkeitsbegriff:

um 2 Genome unter Einbeziehung von Transformationen

vergleichen zu können µDG: lV(V) x lV(V) R

Problemstellung:

gegeben Γ1 = {G1, G2,…, Gn} und ein Ähnlichkeitsmaß µDG konstruiere EG-Graph DG, DG = (V,E), so daß

und pDG( Γ1) = minimal unter

allen EG-Graphen

)(1 VlV

+

1,

/),(ji GG

ji nGGµDG



ein evolutionsbasiertes Modell der Genom-Entwicklung

EG-Graph: S = {g1,g2,…,gn), Γ = {G|G = {gi1,gi2,…,gik)

es ist , f ist eine Inversion oder Insertion

und für VS die Menge der sink nodes ist lV(VS) = Γ1

Beschränkungen für den EG-Graphen: kein Genom in Γ enthält doppelte Gene ein Gen g є S darf nicht zweimal invertiert werden keine Transpositionen alle Genome bestehen aus denselben Genen

)(Elf E




Lemma:

durch die Beschränkungen ist DG = (V,E) ein azyklischer Graph Transpositionen sind nicht erlaubt ein Genom kann niemals zu einer Vorstufe zurückkehren

durch Beschränkung der Anzahl an Insertionen ist die Erstellung

aller möglichen Genome endlich

Transformation f einer Sequenz von Genen X

= fX




Lemma:

A,B є Γ und C der jüngste gemeinsame Vorfahre wenn B = fX(A), für fX eine Transposition, dann

A = fX‘(C) und B = fX‘‘(C)

wenn B = f(A), für f eine Inversion, dann ist

A = C (bzw. umgekehrt im symmetrischen Fall)




weighting scheme:

Gewichtung für Inversionen und Insertionen für eine Transformation fA ist das Gewicht

w(fA) = |A|

Bestimmung der Ähnlichkeit von A und B: EG-Graph mit A,B є Γ und C gegeben

A = fn° fn-1°…f1(C)

B = gm° gm-1°…g1(C)

µDG(A,B) =

n

i

m

iii gwfw

1 1

)()(




Was wurde dadurch erreicht?

ein Maß für Verwandtschaft es ist nun möglich einer Verwandtschaftsbeziehung einen reellen Wert zuzuweisen

je geringer µDG(A,B) , desto verwandter sind die beiden Genome




kontextsensitive Gen-Transformationen:

Sinn: Prozess des Genome Rearrangement von der Struktur des

Genoms abhängig abhängig von bestimmter Region: lokaler Kontext abhängig von weit entfernten Regionen: globaler Kontext

globaler Kontext ist sehr komplex wird hier nicht behandelt

außerdem Beschränkung auf Inversionen und Insertionen


Multiple genome rearrangement: a general approach via the evolutionary genome graph ein evolutionsbasiertes Modell der Genom-Entwicklung

Definition:

gegeben Γ1 und eine Transformation fX (Inversion/Insertion)

lokaler Kontext ist (C1,C2), C1,C2 є ∑* fX eine Inversion von X nach X‘, B = fX(A)

A = A1 ○ C1 ○ X ○ C2 ○ A2

B = B1 ○ C1 ○ X‘ ○ C2 ○ B2

fX eine Insertion, B = fX(A) A = A1○ C1○ C2 ○ A2

B = B1○ C1○ X ○ C2 ○ B2

wobei A1, A2, B1, B2, C1, C2 є ∑* wenn C1 und C2 Null-String fX ist kontextfrei




Wozu kontextsensitive Transformationen?

cs-Transformation ist diskriminierender

cf-Transformation erstellt Genome, die „weiter“ entfernt sind

biologisch plausibler

cs-Transformationen sollten bevorzugt werden




weighting scheme update:

wcs(fX) =

wenn C1 und C2 leer sind ist wcs (fx) = wcf (fx)

wenn C1 und C2 groß geringeres Gewicht spezifischere Transformation

kontextsensitive Transformation ist bevorzugt

21 CCX

Xwcf




Was haben wir gewonnen?

Transformationen können reelle Werte zugewiesen werden Möglichkeit Verwandtschaftsbeziehungen zu berechnen Verwandtschaftsbeziehungen vergleichen Miteinbeziehung eines möglichen lokalen Kontexts

Was fehlt? Transpositionen globaler Kontext Unterscheidung zwischen Insertion und Inversion



Implementierung: nur mit Transpositionen

Was wird gemacht:

Erstellen eines EG-Graphen aus Γ es werden nur Insertionen betrachtet die Idee des MLCS wird verwendet (dominant-points) Beschränkung auf , so daß jedes Genom in ein

anderes durch endlich viele Operationen überführt werden kann Beschränkung, daß jedes Genom aus Δ, aus denselben

Genen in S besteht es wird ein möglicher EG-Graph ausgegeben



Algorithmus Input: Γ1, | Γ1| = N

Output: DG = (V,E), mit V = {v1,v2,…,vK} ist die Menge der Knoten und

E = {e1,e2,…,eM} ist die Menge der Kanten



Zeitkomplexität

Ο(s * d (T + L))

|Γ1| = d, |S| = s, O(T) Komplexität für MLCS, L = max{|G1|,…,|Gd|}

O(T) = O(n * s * d + |D| * s * d * (logd-3 * n + logd-2 * s))

|D| ist die Größe der Menge aller dominanten Positionen



Ergebnisse

G1 = D A B E C F G H;

G2 = A D G B C F H E;

G3 = A G B D C F E H;

G4 = G A B D C F E H;

G5 = E G C A F D B H;

G6 = C E A F B G H D.



Ergebnisse



Fazit

Einführung des EG-Graphen, der die Entwicklung mehrerer

Genome repräsentiert

Es ist möglich gleich mehrere Genome untereinander zu

vergleichen

Aber es gibt noch viel zu tun, da bisher viele Einschränkungen

vorhanden sind


David Sankoff und Mathieu Blanchette



Motivation:

Multiples Alignment von Sequenzen betrachtet nur lokale Insertion,

Deletion und Substitution

Ziel: Multiples Alignment für Gensequenzen mit Inversionen und

Transpositionen



Worum wird es gehen:

gesucht: Belegung der inneren Knoten (Vorfahren)

bisher selten genutzt



Breakpoint Analyse:

A = (a1 ,a2 ,…,an) und B = (b1 ,b2 ,…,bn) mit ai ,bi є S

ai und ai+1 sind adjazent in A

aber nicht in B, so bilden sie einen Breakpoint

Φ(A,B) ist die Anzahl Breakpoints in A

A: g1, g2, g3, g4, g5, g6 BP: (g1,g2), (g2, g3), (g3, g4)

B: g2, g1, g4, g5, g6, g3 BP: (g2,g1), (g1, g4), (g6, g3)



Orientierte Genome:

Miteinbeziehung einer Polarität der Gene

Orientierung gibt die Richtung der Transkription an

Modifizierung des Begriffs: Breakpoint

keine Breakpoints:

g h -h -g

Breakpoints:

h g -g -h g -h

-g h h -g -h g



Multiple Genome Rearrangement auf Graphen:

Definition: S = {g1,g2,…,gn} eine Menge von Genen

T = (V,E) ein ungewurzelter Baum mit N ≥ 3 Blättern

, die Blätter des Baumes

, N+1 ≤ L ≤ 2N-2 , die inneren Knoten

minimiere:

)(},...,{ 1 TVVV n

},...,{ 1 LN VV

)(

),(TEVV

ji

ji

GG




Aufgabe:

minimiere:

finde eine Belegung der inneren Knoten, so daß die Anzahl der Breakpoints minimal ist

)(

),(TEVV

ji

ji

GG




Consensus-Graph (Stars): Bestimmung eines „Medians“ für N Genome mit jeweils

n Genen ohne Orientierung

S = {g1, g2 , g3} , N = 3 , n = 3

G1 = g2 g1 g3

G2 = g3 g2 g1

G3 = g1 g3 g2



Multiple Genome Rearrangement auf Bäumen:

Consensus-Graph (Stars): Γ ist der vollständige Graph

die Knoten sind Element aus S

für jede Kante gh in E(Γ) sei u(gh) die Anzahl in der g und h adjazent sind

g1

g3

g2




Consensus-Graph (Stars):

G1 = g2 g1 g3 (g2g1), (g1g3)

G2 = g3 g2 g1 (g3g2), (g2g1)

G3 = g1 g3 g2 (g1g3), (g3g2)

u(g2g1) = 2, u(g1g3) = 2

u(g3g2) = 2, u(g1g2) = 0

u(g2g3) = 0, u(g3g1) = 0




Consensus-Graph (Stars): w(gh) ist das Gewicht der Kante gh mit

w(gh) = N - u(gh)

w(g2g1) = 1, w(g1g3) = 1, w(g3g2) = 1, w(g1g2) = 3

w(g2g3) = 3, w(g3g1) = 3

das TSP wird auf (Γ,w) angewendet





mögliche Lösungen (Mediane): g1 g3 g2 Kosten: 3 g2 g1 g3 g3 g2 g1

G1 = g2 g1 g3

G2 = g3 g2 g1

G3 = g1 g3 g2

g1

g3

g2

1

1

1

3

3

3




Consensus-Graph (Stars): Bestimmung eines „Medians“ für N Genome mit jeweils

n Genen mit Orientierung

S = {-g1, g1, -g2 , g2 , -g3, g3} , N = 3 , n = 3

G1 = -g2 g1 g3

G2 = g3 -g1 -g2

G3 = g1 g2 g3




Consensus-Graph (Stars): Γ ist der vollständige Graph

die Knoten sind Element aus S

für jede Kante gh in E(Γ) sei u(gh) die Anzahl in der -g und h adjazent sind w(gh) = N - u(gh)

wenn g = -h w(gh) = -Z

g1 g3g2

-g1 -g2 -g3

G1 = g1 g2 g3 G1 = g1 -g1 | g2 -g2 | g3 -g3

G2 = g1 g2 -g3 G2 = g1 -g1 | g2 -g2 | -g3 g3





G1 = -g2 g1 g3, G2 = g3 -g1 -g2, G3 = g1 g2 g3

u(g2g1) = 1, u(-g1g3) = 1, u(-g3-g1) = 1, u(g1-g2) = 1,

u(-g1g2) = 1, u(-g2g3) = 1

w(g2g1) = 2, w(-g1g3) = 2, w(-g3-g1) = 2, w(g1-g2) = 2,

w(-g1g2) = 2, w(-g2g3) = 2




Consensus-Graph (Stars): Lösungen:

g1 -g1 g2 -g2 g3-g3 Kosten: -3 * Z + 4 g2 -g2 g3 -g3 -g1 g1

-g2 g2 g1 -g1 g3 -g3

g3 -g3 -g1 g1 -g2 g2

Mediane: g1 g2 g3 : 4 Inversionen Abstand g2 g3 -g1 : 7 Inversionen Abstand -g2 g1 g3 : 5 Inversionen Abstand g3 -g1 -g2 : 5 Inversionen Abstand



Wie gut sind die Lösungen?




binäre Bäume (completely resolved): |V(T)| = 2N - 2

alle nicht-terminalen Knoten haben Grad 3

Beginn mit einem „Start-Baum“

inneren Knoten werden Genome zugeordnet

Zerlegung des Gesamtproblems in Teile von 3-Stars




binäre Bäume (completely resolved): initiale Belegung der inneren Knoten:

eine feste Permutation zufällige Permutationen eine Permutation aus nächster „Verwandtschaft“ Consensus von drei Permutationen aus nächster

„Verwandtschaft“ Initiales TSP für jeden inneren Knoten, Kantengewichte

über dynamische Programmierung Initiales TSP für jeden inneren Knoten, Kantengewichte

sind gemittelt über drei benachbarte Knoten




Der Algorithmus:

algorithm optimizetree

input G1,…,GN

initialize each of GN+1,…,G2N-2 to some Genome

cost := ∞

routine iteratemedian

output GN+1,…,G2N-2




routine iteratemedian

while C = < cost,

cost := C

do for i = N+1,…,2N-2,

G* := median(Gh, Gj, Gk)

if

Gi := G*

end if

enddo

endwhile

},,{ },,{

* ),(),(kjhI kjhI

IiI GGGG

)(

),(TEVV

ji

ji

GG



Wie gut sind die Ergebnisse:



Fazit

Multiples Alignment von Genomen mit Hilfe von Stars und binären

Bäumen

Aussagen über die Genauigkeit der Lösung

Beschränkung der Genome auf dieselbe Genmenge ist

unrealistisch

seminar: aktuelle themen der bioinformatik thema: genome rearrangement ceyhun tamer [email protected]

Documents