13. vorlesung ws 2005/06 software-werkzeuge der bioinformatik1 v13 zusammenfassung (v1 – v12)...

271
13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik 1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für I Sequenzanalyse II Analyse von Proteinstruktur und Ligandenbindung III Zell- bzw. Netzwerksimulationen auf den folgenden Folien ist der klausurrelevante Teil der Vorlesung zusammengefaßt.

Upload: bathilde-hengel

Post on 05-Apr-2015

105 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

1

V13 Zusammenfassung (V1 – V12)

Inhalt dieser Veranstaltung: Softwarewerkzeuge für

I Sequenzanalyse

II Analyse von Proteinstruktur und Ligandenbindung

III Zell- bzw. Netzwerksimulationen

auf den folgenden Folien ist der klausurrelevante Teil der Vorlesungzusammengefaßt.

Page 2: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

2

Organisatorisches: Scheinvergabe- Bewertung: Vorlesung zählt 2V + 2P = 9 Leistungspunkte- Curriculum: Pflichtvorlesung für die Vertiefung „Bioinformatics“ (neue PO)- kann für CMB-Bachelor eingebracht werden- Wahlfach Pharmazie/Diplom, M.Sc. Biotechnologie

- Benotung der Scheine:

50% der Benotung ergibt sich aus der mittleren Benotung von drei praktischen Aufgaben, die während des

Semesters von jedem Studenten einzeln zu bearbeiten sind.

Die Aufgaben werden etwa alle 4 Wochen ausgegeben und sind innerhalb von 2 Wochen zu bearbeiten

und durch ein mindestens 5-seitiges Protokoll zu dokumentieren. Jeder Student muss mindestens zwei

der drei praktischen Aufgaben mit einer Note von 4 und besser bestehen.

Am Ende des Semesters wird eine 2-stündige Klausur über die Inhalte der Vorlesung und der Übungen

geschrieben. Die Klausurnote geht ebenfalls mit 50% in die Scheinnote mit ein. Die Klausur muss mit

einer Note von 4 und besser bestanden werden.

Page 3: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

3

Sequenzanalyse

Page 4: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

4

Ziele

(0) Identifiziere alle menschlichen Proteine (ORFs) und ihre Funktion

Sind dies alle Proteine?

Nein: post-translationelle Modifikationen möglich wie Methylierung,

Phosphorylierung, Glykosilierung …

(1) Identifiziere Gen-Netzwerke. Welche Proteine wechselwirken miteinander?

(2) Identifiziere Module: abgeschlossene Einheiten

(3) Identifiziere Sequenz-Abschnitte, in denen Mutationen für Krankheiten codieren

Page 5: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

5

Was hat nun Sequenz-Konservierung mit Proteinstrukturen zu tun?

sehr viel!

Die Twilight zone kennzeichnet das Mass an Sequenzidentität, bis zu der zwei

Proteinstrukturen mit hoher Wkt. die gleiche Struktur besitzen.

Richtlinien von Doolittle:

• Sequenzen mit > 150 Residuen und 25% Sequenzidentität sind wahrscheinlich verwandt

• mit 15-20% Sequenzidentität können sie verwandt sein

• bei <15% Sequenzidentität ist es schwierig zu sagen ob sie verwandt sind oder nicht ohne weitere strukturelle oder funktionelle Hinweise

Proteinstruktur Sequenz

TWILIGHT ZONE

Page 6: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

6

- Konservierung von Residuen sind Indizien für den Verwandtschaftsgrad von

Proteinen, für die Evolution und für die Verwandtschaft von Organismen

Q: aus welchen Gründen können bestimmte Bereiche der Proteinsequenz

konserviert sein?

- Konservierung von Residuen im aktiven Zentrum

- Konservierung von Residuen, die die Architektur der Proteinstruktur stabilisieren

- Konservierung von Residuen, die während Faltung des Proteins wichtig sind

- Konservierung von Residuen an Bindungsschnittstellen für Liganden und

andere Proteine

Proteinstruktur Sequenz

Page 7: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

7

Eigenschaften der Aminosäuren

Aminosäuren unterscheiden sich in ihren physikochemischen Eigenschaften.

Q: müssen Bioinformatiker die Eigenschaften von Aminosäuren kennen?

Page 8: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

8

Transmembrandomänen: Hydrophobizitätsskalen

http://blanco.biomol.uci.edu/mpex/Stephen White group, UC Irvine

TM Helices sind 20 Residuen lange

Abschnitte aus vorwiegend hydrophoben

Resiuden.

Page 9: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

9

V2 Paarweises Sequenzalignment

• Methoden des Sequenzalignments

• Áustauschmatrizen

• Bedeutsamkeit von Alignments

• BLAST, Algorithmus – Parameter – Ausgabe http://www.ncbi.nih.gov

• Diese Vorlesung lehnt sich eng an das BLAST Tutorial-

• Buch (links) an, Kapitel 3-9

• siehe auch Vorlesung Bioinformatik I von Prof. Lenhof,

• Wochen 3 und 5

Page 10: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

10

Sequenz-Alignment

•Wenn man 2 oder mehr Sequenzen vorliegen hat, möchte man zunächst

einmal

- ihre Ähnlichkeiten quantitativ erfassen

- Entsprechungen zwischen einzelnen Bausteinen beider Sequenzen erfassen

- Gesetzmässigkeiten der Konservierung und Variabilität beobachten

- Rückschlüsse auf entwicklungsgeschichtliche Verwandschaftsverhältnisse

ziehen

-Wichtiges Ziel: Annotation, z.B. Zuordnung von Struktur und Funktion

Page 11: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

11

Suche in Datenbanken

•Identifiziere Ähnlichkeiten zwischen

• einer neuen Testsequenz, deren

• Struktur und Funktion unbekannt und nicht charakterisiert ist

•und

Sequenzen in (öffentlichen) Datenbanken

deren Strukturen und Funktionen bekannt sind.

•N.B. Die ähnlichen Regionen können die ganze Sequenz, oder Teile von

ihr umfassen!

• Lokales Alignment globales Alignment

Page 12: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

12

Ähnlichkeit von Aminosäuren•Margaret Dayhoff stellte die Ähnlichkeit (beobachtete Austauschhäufigkeiten zwischen

verwandten Sequenzen) zwischen Aminosäuren als log2 odds Verhältnis, oder lod score dar.

•Lod score einer Aminosäure: nehme den Logarithmus zur Basis 2 (log2) von dem Verhältnis

der beobachteten Häufigkeit für ein Paar durch die zufällig für das Paar erwartete Häufigkeit.

•Lod score = 0 → beobachtete und erwartete Häufigkeiten sind gleich

• > 0 → ein Austauschpaar tritt häufiger auf als zufällig erwartet

• < 0 → unwahrscheinlicher Austausch

•Allgemeine Formel für den Score sij von zwei Aminosäuren i und j.

ji

ijij pp

qs log mit den individuellen Häufigkeiten pi und pj,

und der Paarungsfrequenz qjj,

Page 13: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

13

Ähnlichkeit der Aminosäuren•Beispiel: die relative Häufigkeiten von Methionin und Leucin seien 0.01 und 0.1.

•Durch zufällige Paarung erwartet man 1/1000 Austauschpaare Met – Leu.

•Wenn die beobachtete Paarungshäufigkeit 1/500 ist, ist das Verhältnis der

•Häufigkeiten 2/1.

•Im Logarithmus zur Basis 2 ergibt sich ein lod score von +1 or 1 bit.

•Wenn die Häufigkeit von Arginin 0.1 und die Paarung mit Leu mit Häufigkeit 1/500 ist, dann ergibt

sich ein lod score für ein Arg – Leu Paar von -2.322 bits.

•Gewöhnlich berechnet man nats, multipliziert die Werte mit einem Skalierungsfaktur und rundet

sie dann auf Integer Werte

•→ Austauschmatrizen PAM und BLOSUM.

•Diese Integer-werte nennt man raw scores.

Page 14: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

14

Bewertungs- oder Austausch-Matrizen

– dienen um die Qualität eines Alignments zu bewerten

–Für Protein/Protein Vergleiche:

eine 20 x 20 Matrix für die Wahrscheinlichkeit mit der eine bestimmte

Aminosäure gegen eine andere durch zufällige Mutationen ausgetauscht

werden kann.

–Der Austausch von Aminosäuren ähnlichen Charakters (Ile, Leu) ist

wahrscheinlicher (hat einen höheren Score) als der von Aminosäuren

unterschiedlichen Charkters (e.g. Ile, Asp).

–Matrizen werden als symmetrisch angenommen, besitzen also Form

einer Dreiecksmatrix.

Page 15: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

15

Substitutions-Matrizen

•Nicht alle Aminosäuren sind gleich

– Einige werden leichter ausgetauscht als andere

– Bestimmte Mutationen geschehen leichter als andere

– Einige Austausche bleiben länger erhalten als andere

•Mutationen bevorzugen bestimmte Austausche

– Einige Aminosäuren besitzen ähnliche Codons

– Diese werden eher durch Mutation der DNA mutiert

•Selektion bevorzugt bestimmte Austausche

– Einige Aminosäuren besitzen ähnliche Eigenschaften und Struktur

Page 16: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

16

PAM250 Matrix

Page 17: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

17

Beispiel für eine Bewertung

•log (A B) = log A + log B

Die Bewertung (Score) eines Alignments ist die Summe aller

•Bewertungen für die Paare an Aminosäuren (Nukleinsäuren) des

Alignments:

•Sequenz 1: TCCPSIVARSN•Sequenz 2: SCCPSISARNT• 1 12 12 6 2 5 -1 2 6 1 0 => Alignment Score = 46

Page 18: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

18

Dayhoff Matrix (1)

– wurde von M.O. Dayhoff aufgestellt, die statistische Daten über die

Austauschhäufigkeit von Aminosäuren sammelte

– Datensatz von eng verwandten Proteinsequenzen (> 85% Identität).

–Diese können zweifelsfrei aligniert werden.

– Aus der Frequenz, mit der Austausche auftreten, wurde die 20 x 20 Matrix

für die Wahrscheinlichkeiten aufgestellt, mit der Mutationen eintreten.

– Diese Matrize heisst PAM 1. Ein evolutionärer Abstand von 1 PAM (point

accepted mutation) bedeutet, dass es 1 Punktmutation pro 100 Residuen

gibt, bzw. Dass die beiden Sequenzen zu 99% identisch sind.

Page 19: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

19

•Log odds Matrix: enthält den Logarithmus der Elemente der PAM Matrizen.

•Score der Mutation i j

•beobachtete Mutationsrate i j

= log( )

• aufgrund der Aminosäurefrequenz erwartete Mutationsrate

•Die Wkt zweier unabhängiger Mutationsereignisse ist das Produkt der

Einzelwahrscheinlichkeiten.

•Bei Verwendung einer log odds Matrix (d.h. bei Verwendung der

logarithmisierten Werte) erhält man den gesamten Score des Alignments

als Summe der Scores für jedes Residuenpaar.

Dayhoff Matrix (2)

Page 20: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

20

•Aus PAM 1 kann man Matrizen für grössere evolutionäre Entfernungen

herstellen indem man die Matrix mehrfach mit sich selbst multipliziert.

•PAM250:

– 2,5 Mutationen pro Residue

– entspricht 20% Treffern zwischen zwei Sequenzen,

– d.h. man beobachtet Änderungen in 80% der

Aminosäurepositionen.

– Dies ist die Default-Matrize in vielen Sequenzanalysepaketen.

Dayhoff Matrix (3)

Page 21: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

21

BLOSUM Matrix

•Einschränkung der Dayhoff-Matrix:

•Die Matrizen, die auf dem Dayhoff-Modell der evolutionären Raten basieren,

sind von eingeschränktem Wert, da ihre Substitionsraten von

Sequenzalignments abgeleitet wurden, die zu über 85% identisch sind.

•Ein anderer Weg wurde von S. Henikoff und J.G. Henikoff eingeschlagen,

welche lokale multiple Alignments von entfernter verwandten Sequenzen

verwendeten.

•Ihre Vorteile:

- grössere Datenmengen

- multiple Alignments sind robuster

Page 22: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

22

BLOSUM Matrix (2)

•Die BLOSUM Matrizen (BLOcks SUbstitution Matrix) basieren auf der BLOCKS

Datenbank.

•Die BLOCKS Datenbank verwendet das Konzept von Blöcken (lückenlose

Aminosäure-Signaturen), die charakteristisch für eine Proteinfamilie sind.

•Aus den beobacheten Mutationen innerhalb dieser Blöcke wurden

Austauschwahrscheinlichkeiten für alle Aminosäurepaare berechnet und für eine

log odds BLOSUM matrix benutzt.

•Man erhält unterschiedliche Matrizen indem man die untere Schranke des

verlangten Grads an Identität variiert.

•z.B. wurde die BLOSUM80 Matrix aus Blöcken mit > 80% Identität abgeleitet.

Page 23: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

23

Welche Matrix soll man benutzen?

•Enge Verwandtschaft (Niedrige PAM, hohe Blosum)

Entfernte Verwandtschaft (Hohe PAM, niedrige Blosum)

•Vernünftige Default-Werte: PAM250, BLOSUM62

Page 24: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

24

Gewichtung von Lücken (Gaps)

•Neben der Substitutionsmatrix braucht man auch eine Methode zur Bewertung

von Lücken.

•Welche Bedeutung haben Insertionen und Deletionen im Verhältnis zu

Substitutionen?

• Unterscheide Einführung von Lücken:

• aaagaaa

• aaa-aaa

• von der Erweiterung von Lücken:

• aaaggggaaa

• aaa----aaa

•Verschiedene Programme (CLUSTAL-W, BLAST, FASTA) empfehlen

unterschiedliche Default-Werte, die man wohl erst einmal verwenden sollte.

Page 25: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

25

Needleman-Wunsch Algorithmus

-- allgemeiner Algorithmus für Sequenzvergleiche

-- maximiert einen Ähnlichkeitsscore

-- bester Match = grösste Anzahl an Residuen einer Sequenz, die zu denen

einer anderen Sequenz passen, wobei Deletionen erlaubt sind.

-- Der Algorithmus findet durch dynamische Programmierung das bestmögliche

GLOBALE Alignment zweier beliebiger Sequenzen

-- NW beinhaltet eine iterative Matrizendarstellung

- alle möglichen Residuenpaare (Basen oder Aminosäuren) – je eine

von jeder Sequenz – werden in einem zwei-dimensionalen Gitter dargestellt.

- alle möglichen Alignments werden durch Pfade durch dieses Gitter

dargestellt.

-- Der Algorithmus hat 3 Schritte: 1 Initialisierung 2 Auffüllen 3 Trace-back

Page 26: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

26

Needleman-Wunsch Algorithm: Initialisierung

•Aufgabe: aligniere die Wörter “COELACANTH” und “PELICAN” der Länge m =10 und n

=7. Konstruiere (m+1) (n+1) Matrix.

•Ordne den Elementen der ersten Zeile und Reihe die Werte – m gap und – n gap zu.

•Die Pointer dieser Felder zeigen zurück zum Ursprung.

C O E L A C A N T H

0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10

P -1

E -2

L -3

I -4

C -5

A -6

N -7

Page 27: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

27

Needleman-Wunsch Algorithm: Auffüllen

•Fülle alle Matrizenfelder mit Werten und Zeigern gemäss von simplen Operationen,

die die Werte der diagonalen, vertikal, und horizontalen Nachbarzellen einschliessen.

Berechne

- match score: Wert der Diagonalzelle links oben + Wert des Alignments (+1 oder -1)

- horizontal gap score: Wert der linken Zelle + gap score (-1)

- vertical gap score: Wert der oberen Zelle + gap score (-1)

-ordne der Zelle das Maximum dieser 3 Werte zu. Der Pointer zeigt in Richtung des

maximalen Scores.

-max(-1, -2, -2) = -1

-max(-2, -2, -3) = -2

-(Pointer soll bei gleichen Werte immer in eine bestimmte Richtung zeigen, z.B.

-entlang der Diagonalen.

C O E L A C A N T H

0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10

P -1 -1 -2

Page 28: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

28

Needleman-Wunsch Algorithmus: Trace-back

•Trace-back ergibt das Alignment aus der Matrix.

•Starte in Ecke rechts unten und folge den Pfeilen bis in die Ecke links oben.

•COELACANTH

•-PELICAN--

C O E L A C A N T H

0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10

P -1 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10

E -2 -2 -2 -1 -2 -3 -4 -5 -6 -7 -8

L -3 -3 -3 -2 0 -1 -2 -3 -4 -5 -6

I -4 -4 -4 -3 -1 -1 -2 -3 -4 -5 -6

C -5 -3 -4 -4 -2 -2 0 -1 -2 -3 -4

A -6 -4 -4 -5 -3 -1 -1 1 0 -1 -2

N -7 -5 -5 -5 -4 -2 -2 0 2 1 0

Page 29: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

29

Smith-Waterman-Algorithmus•Smith-Waterman ist ein lokaler Alignment-Algorithmus. SW ist eine sehr

einfache Modifikation von Needleman-Wunsch. Lediglich 3 Änderungen:

- die Matrixränder werden auf 0 statt auf ansteigende Gap-Penalties gesetzt.

- der maximale Wert sinkt nie unter 0. Pointer werden nur für Werte grösser als

0 eingezeichnet.

- Trace-back beginnt am grösseten Wert der Matrix und endet bei dem Wert 0.

•ELACAN

•ELICANC O E L A C A N T H

0 0 0 0 0 0 0 0 0 0 0

P 0 0 0 0 0 0 0 0 0 0 0

E 0 0 0 1 0 0 0 0 0 0 0

L 0 0 0 0 2 1 0 0 0 0 0

I 0 0 0 0 1 1 0 0 0 0 0

C 0 1 0 0 0 0 2 0 0 0 0

A 0 0 0 0 0 1 0 3 2 1 0

N 0 0 0 0 0 0 0 1 4 3 2

Page 30: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

30

BLAST – Basic Local Alignment Search Tool

• Findet das am besten bewertete lokale optimale Alignment einer

Testsequenz mit allen Sequenzen einer Datenbank.

• Sehr schneller Algorithmus, 50 mal schneller als dynamische

Programmierung.

• Kann verwendet werden um sehr grosse Datenbanken zu durchsuchen, da

BLAST eine vor-indizierte Datenbank benutzt

• Ist ausreichend sensititv und selektiv für die meisten Zwecke

• Ist robust – man kann üblicherweise die Default-Parameter verwenden

Page 31: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

31

BLAST Algorithmus, Schritt 1

• Für ein gegebenes Wort der Länge w (gewöhnlich 3 für Proteine) und

eine gegebene Score-Matrix

Erzeuge eine Liste aller Worte (w-mers), die einen Score > T erhalten,

wenn man sie mit dem w-mer der Eingabe vergleicht

P D G 13

P Q A 12

P Q N 12etc.

unterhalb Schranke (T=13)

Test Sequenz L N K C K T P Q G Q R L V N Q

P Q G 18

P E G 15 P R G 14

P K G 14 P N G 13

benachbarte Wörter

Wort

P M G 13

Page 32: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

32

BLAST Algorithmus, Schritt 2

• jedes benachbarte Wort ergibt alle Positionen in der

Datenbank, in denen es gefunden wird (hit list).

P D G 13

P Q G 18P E G 15 P R G 14P K G 14 P N G 13

P M G 13 PMG Database

Page 33: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

33

Traditional BLAST programs

Sequence 1

Sequ

ence

2

AlignmentsGapped alignments

Search Space

Page 34: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

34

Seeding

Sequence 1

Sequ

ence

2

Word hits

Page 35: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

35

Neighboorhood for 3-letter words

• BLOSUM62 PAM200• Word Score Word Score• RGD 17 RGD 18• KGD 14 RGE 17• QGD 13 RGN 16• RGE 13 KGD 15• EGD 12 RGQ 15• HGD 12 KGE 14• NGD 12 HGD 13• RGN 12 KGN 13• AGD 11 RAD 13• MGD 11 RGA 13• RAD 11 RGG 13• RGQ 11 RGH 13• RGS 11 RGK 13• RND 11 RGS 13• RSD 11 RGT 13• SGD 11 RSD 13• TGD 11 WGD 13

Choice of cut-off Twill affect seeding

Page 36: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

36

Seeding

Sequence 1

Sequ

ence

2

Word clustersIsolated words

Page 37: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

37

BLAST Algorithm: Extension

• Program tries to extend seeds in both directions by adding residue

pairs until the added score is smaller than a cut-off.

• After terminating the extension, the alignment is trimmed back to that

with the maximal score.

Page 38: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

38

PSI-BLAST

• “Position-Specific Iterated BLAST”

– Entfernte Verwandtschaften lassen sich besser durch Motiv- oder Profil-

Suchen entdecken als durch paarweise Vergleiche

– PSI-BLAST führt zunächst eine BLAST-Suche mit Gaps durch.

– Das PSI-BLAST Programm verwendet die Information jedes signifikanten

Alignments um eine positionsspezifische Substitionsmatrix zu konstruieren,

die an Stelle der Eingabesequenz in der nächsten Runde der Datenbank-

Suche verwendet wird.

– PSI-BLAST kann iterativ verwendet werden bis keine neuen signifikanten

Alignments mehr gefunden werden.

Page 39: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

39

• Kleine Wahrscheinlichkeit deutet an, dass der Treffer wohl nicht zufällig zustande kam.

BLAST Output (2)

Page 40: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

40

Bedeutung des Alignments in BLAST

•P-Wert (Wahrscheinlichkeit)

– Gibt die Wahrscheinlichkeit an, mit der der Score eines Alignments zufällig

zustande kommen kann.

– Je näher P bei Null liegt, desto grösser die Sicherheit, dass ein

gefundener Treffer ein richtiger Treffer (homologe Sequenz) ist.

•E-Wert (Erwartungswert)

– E = P * Anzahl der Sequenzen in Datenbank

– E entspricht der Anzahl an Alignments eines bestimmten Scores, die man

zufällig in einer Sequenz-Datenbank dieser Grösse erwartet

– (wird z.B. für ein Sequenzalignment E=10 angegeben, erwartet man

10 zufällige Treffer mit dem gleichen Score). Dieses Alignment ist also nicht

signifikant.

– Treffer werden in BLAST nur ausgegeben, wenn der E-Wert unterhalb einer

Schranke liegt.

Page 41: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

41

Grobe Anhaltspunkte

•P-Wert (Wahrscheinlichkeit) – A. M. Lesk

–P 10-100 genaue Übereinstimmung

–P zwischen 10-100 und 10-50 nahezu identische Sequenzen, zum

Beispiel Allele oder SNPs

–P zwischen 10-50 und 10-10 eng verwandte Sequenzen,

– Homologie gesichert

–P zwischen 10-10 und 10-1 in der Regel entfernte Verwandte

–P > 10-1 Ähnlichkeit vermutlich nicht signifikant

•E-Wert (Erwartungswert)

• E 0,02 Sequenzen vermutlich homolog

• E zwischen 0,02 und 1 Homologie ist nicht auszuschliessen

• E 1 man muss damit rechnen, dass diese gute

• Übereinstimmung Zufall ist.

Page 42: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

42

Tips für den Einsatz von BLAST

•Verwende nicht stur die Standardparameter “You get what you look for”.

•Führe Kontrollen durch, besonders in der twilight zone.

• z.B. Schüttle die Sequenz durcheinander und wiederhole die Suche.

• Falls die variierte Sequenz ähnliche Ergebnisse liefert, beruht das

Alignment auf einer systematischen Verfälschung, oder die Parameter sind

nicht empfindlich genug gewählt

•Setze Komplexitätsfilter ein wenn erforderlich.

•Maskiere Repeats in genomischer DNA.

•Teile große Genomsequenzen in Stücke auf um die Suche zu beschleunigen.

Page 43: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

43

Zusammenfassung

Paarweises Sequenzalignment ist heute Routine, aber nicht trivial.

Mit dynamischer Programmierung (z.B. Smith-Waterman) findet man

garantiert das Alignment mit optimaler Bewertung.

Vorsicht: die Bewertungsfunktion ist nur ein Modell der biologischen Evolution.

FASTA ist erheblich schneller als dynamische Programmierung.

Am schnellsten ist BLAST und seine Derivate.

Beide geben sehr robuste und brauchbare Ergebnisse für Proteinsequenzen.

FASTA ist für Nukleotidsequenzen zuverlässiger.

Multiple Sequenzalignments sind in der Lage, entferntere Ähnlichkeiten

aufzuspüren und bieten ein besseres funktionelles Verständnis von Sequenzen

und ihren Beziehungen

Kommt nächste Woche dran.

Page 44: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

44

V3 Multiples Sequenz Alignment

Literatur: Kapitel 4 in Buch von David Mount

Thioredoxin-Beispiel heute aus Buch von Arthur Lesk

Page 45: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

45

Homo sapiens DjlA protein

Escherichia coli DjlA protein

Protein-Alignment kann durch tertiäre Strukturinformationen geführt werden

nur so kann man letztlich auch bewerten, ob ein Sequenzalignmentkorrekt ist.

Page 46: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

46

• Homologie: Ähnlichkeit, die durch

Abstammung von einem gemeinsamen

Ursprungsgen herrührt –

die Identifizierung und Analyse von

Homologien ist eine zentrale Aufgabe

der Phylogenie.

• Ein Alignment ist eine Hypothese

für die positionelle Homologie

zwischen Basenpaaren bzw.

Aminosäuren.

Definition von “Homologie”

http://www.cellsignal.com

Page 47: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

47

MSA für Thioredoxin-FamilieFarbe Aminosäuretyp Aminosäurengelb klein, wenig polar Gly, Ala, Ser, Thrgrün hydrophob Cys, Val, Ile, Leu

Pro, Phe, Tyr, Met, Trpviolett polar Asn, Gln, Hisrot negativ geladen Asp, Glublau positiv geladen Lys, Arg

Page 48: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

48

Infos aus MSA von Thioredoxin-Familie

Thioredoxin: aus 5 beta-Strängen bestehendes beta-Faltblatt, das auf beiden Seiten von alpha-Helices flankiert ist.

gemeinsamer Mechanismus: Reduktion von Disulfidbrücken in Proteinen

Page 49: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

49

Infos aus MSA von Thioredoxin-Familie

1) Die am stärksten konservierten Abschnitte entsprechen wahrscheinlich dem

aktiven Zentrum.

Disulfidbrücke zwischen Cys32 und Cys35 gehört zu dem konservierten

WCGPC[K oder R] Motiv.

Andere konservierte Sequenzabschnitte, z.B. Pro76Thr77 und Gly92Gly93 sind

an der Substratbindung beteiligt.

Page 50: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

50

Infos aus MSA von Thioredoxin-Familie

2) Abschnitte mit vielen Insertionen und Deletionen entsprechen vermutlich

Schleifen an der Oberfläche. Eine Position mit einem konservierten Gly oder

Pro läßt auf eine Wendung der Kette (‚turn‘) schließen.

Page 51: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

51

Infos aus MSA von Thioredoxin-Familie

3) Ein konserviertes Muster hydrophober Bausteine mit dem Abstand 2 (d.h.,

an jeder zweiten Position), bei dem die dazwischenliegenden Bausteine

vielfältiger sind und auch hydrophil sein können, läßt auf ein -Faltblatt an der

Moleküloberfläche schließen.

Page 52: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

52

Infos aus MSA von Thioredoxin-Familie

4) Ein konserviertes Muster hydrophober Aminosäurereste mit dem Abstand

von ungefähr 4 läßt auf eine -Helix schließen.

Page 53: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

53

Infos aus MSA von Thioredoxin-Familie

Die Thioredoxine sind Teil einer Superfamilie, zu der auch viele weiter entfernte

homologe Protein gehören,

z.B. Glutaredoxin (Wasserstoffdonor für die Reduktion von Ribonukleotiden bei

der DNA-Synthese)

Protein-Disulfidisomerase (katalysiert bei der Proteinfaltung den Austausch

falsch gefalteter Disulfidbrücken)

Phosducin (Regulator in G-Protein-abhängigen Signalübertragungswegen)

Glutathion-S-Transferasen (Proteine der chemischen Abwehr).

Die Tabelle des MSAs für Thioredoxinsequenzen enthält implizit auch Muster,

die man zur Identifizierung dieser entfernteren Verwandten nutzen kann.

Page 54: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

54

Es gibt im wesentlichen 3 unterschiedliche Vorgehensweisen:

(1) Manuell

(2) Automatisch

(3) Kombiniert

Multiples Sequenz-Alignment - Methoden

manuelles Alignment bietet sich an falls

– Alignment einfach ist.

– es zusätzliche (strukturelle) Information gibt.

– automatische Alignment –Methoden in lokalen Minima feststecken.

– ein automatisch erzeugtes Alignment manuell “verbessert” werden kann.

Page 55: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

55

2 Methoden:

• Dynamische Programmierung

– betrache 2 Proteinsequenzen von 100 Aminosäuren Länge.

- wenn es 1002 Sekunden dauert, diese beiden Sequenzen erschöpfend

zu alignieren, dann wird es

1003 Sekunden dauern um 3 Sequenzen zu alignieren,

1004 Sekunden für 4 sequences und

1.90258x1034 Jahre für 20 Sequenzen.

• Progressives Alignment

multiples Sequenzalignment

Page 56: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

56

berechne zunächst paarweise Alignments

für 3 Sequenzen wird Würfel aufgespannt:

D.h. dynamische Programmierung hat nun Komplexität n1 * n2 * n3mit den Sequenzlängen n1, n2, n3.

Sehr aufwändig! Versuche, Suchraum einzuschränken.

dynamische Programmierung mit MSA Programm

Page 57: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

57

dynamische Programmierung mit MSA Programm

Links: Baum für 5 Sequenzen ohne Paarung von Sequenzen.

Neighbour-joining Methode: berechne Summe aller Kantenlängen

S = a + b + c + d + e (Kantenlängen sind bekannt)

In diesem Fall seien sich A und B am nächsten. Konstruiere daher den Baum

rechts.

Generell: Verbinde die Sequenzpaare mit den kürzesten Abständen …

Man erhält den Baum mit der kleinsten Summe der Kantenlängen.

Konstruiere anhand phylogenetischem Baum ein versuchsweises Multiples

Sequenz Alignment.

Page 58: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

58

Dieses Alignment dient dazu, den möglichen Raum inmitten des Würfels

einzugrenzen, in dem das beste MSA zu finden sein sollte.

Grosse Rechenersparnis!

dynamische Programmierung mit MSA Programm

Page 59: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

59

• wurde von Feng & Doolittle 1987 vorgestellt

• ist eigentlich eine heuristische Methode. Daher ist nicht garantiert, das

“optimale” Alignment zu finden.

• benötigt (n-1) + (n-2) + (n-3) ... (n-n+1) paarweise Sequenzalignments

als Ausgangspunkt.

• weitverbreitete Implementation in Clustal

(Des Higgins)

ClustalW ist eine neuere Version, in der den Parameter für Sequenzen

und Programm Gewichte (weights) zugeteilt werden.

Progressives Alignment

Page 60: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

60

Schnelle paarweise Alignments:

berechne Matrix der Abstände

1 PEEKSAVTALWGKVN--VDEVGG2 GEEKAAVLALWDKVN--EEEVGG3 PADKTNVKAAWGKVGAHAGEYGA4 AADKTNVKAAWSKVGGHAGEYGA5 EHEWQLVLHVWAKVEADVAGHGQ

Hbb_Human 1 -Hbb_Horse 2 .17 -Hba_Human 3 .59 .60 -Hba_Horse 4 .59 .59 .13 -Myg_Whale 5 .77 .77 .75 .75 -

Hbb_Human

Hbb_Horse

Hba_Horse

Hba_Human

Myg_Whale

2

1

3 4

2

1

3 4

alpha-helices

Nachbar-Verbindungs-

Baumdiagramm

progressive Alignments

entsprechend dem

Baumdiagramm

CLUSTAL W

Überblick der ClustalW Prozedur

Page 61: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

61

• Berechne alle möglichen paarweisen Alignments von Sequenzpaaren.

Es gibt (n-1)+(n-2)...(n-n+1) Möglichkeiten.

• Berechne aus diesen isolierten paarweisen Alignments den “Abstand”

zwischen jedem Sequenzpaar.

• Erstelle eine Abstandsmatrix.

ClustalW- Paarweise Alignments

• aus den paarweisen Distanzen wird ein Nachbarschafts-Baum erstellt

• Dieser Baum gibt die Reihenfolge an, in der das progressive Alignment

ausgeführt werden wird.

Page 62: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

62

• aligniere die beiden ähnlichsten Sequenzen zuerst.

• dieses Alignment ist dann “fest” und wird nicht mehr angetastet. Falls

später ein GAP eingeführt werden muss, wird er in beiden Sequenzen

an der gleichen Stelle eingeführt.

• Deren relatives Alignment bleibt unverändert.

Multiples Alignment - Erstes Paar

Vorteil:

– Geschwindigkeit.

Nachteile:

– keine objektive Funktion.

– Keine Möglichkeit zu quantifizieren ob Alignment gut oder schlecht ist.

– Keine Möglichkeit festzustellen, ob das Alignment “korrekt” ist.

Page 63: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

63

Mögliche Probleme:

– in ein lokales Minimum zu geraten.

Falls zu einem frühen Zeitpunkt ein Fehler im Alignment eingebaut

wird, kann dieser später nicht mehr korrigiert werden.

– Zufälliges Alignment.

ClustalW - Lokales Minimum

Page 64: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

64

• Sollen all Sequenzen gleich behandelt werden?

Obwohl manche Sequenzen eng verwandt und andere entfernt

verwandt sind?

• Sollen alle Positionen der Sequenzen gleich behandelt werden?

Obwohl sie unterschiedliche Funktionen und Positionen in der

dreidimensionalen Strukturen haben können?

Genauigkeit des Alignments verbessern

Page 65: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

65

• Sequenzgewichtung

• Variable Substitutionsmatrizen

• Residuen-spezifische Gap-Penalties und verringerte Penalties in hydrophilen

Regionen (externe Regionen von Proteinsequenzen), bevorzugt Gaps in

Loops anstatt im Proteinkern.

• Positionen in frühen Alignments, an denen Gaps geöffnet wurden, erhalten

lokal reduzierte Gap Penalties um in späteren Alignments Gaps an den

gleichen Stellen zu bevorzugen

ClustalW- Besonderheiten

Page 66: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

66

• Zwei Parameter sind festzulegen (es gibt Default-Werte, aber man sollte

sich bewusst sein, dass diese abgeändert werden können):

• Die GOP- Gap Opening Penalty ist aufzubringen um eine Lücke in einem

Alignment zu erzeugen

• Die GEP- Gap Extension Penalty ist aufzubringen um diese Lücke um

eine Position zu verlängern.

ClustalW- vom Benutzer festzulegende Parameter

Page 67: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

67

• Bevor irgendein Sequenzpaar aligniert wird, wird eine Tabelle von GOPs

erstellt für jede Position der beiden Sequenzen.

• Die GOP werden positions-spezifisch behandelt und können über die

Sequenzlänge variieren.

• Falls ein GAP an einer Position existiert, werden die GOP und GEP

penalties herabgesetzt – und alle anderen Regeln treffen nicht zu.

• Daher wird die Bildung von Gaps an Positionen wahrscheinlicher, an

denen bereits Gaps existieren.

Positions-spezifische Gap penalties

Page 68: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

68

• Solange kein GAP offen ist, wird GOP hochgesetzt falls die Position innerhalb von 8

Residuen von einem bestehenden Gap liegt.

• Dadurch werden Gaps vermieden, die zu eng beieinander liegen.

• An jeder Position innerhalb einer Reihe von hydrophilen Residuen wird GOP

herabgesetzt, da diese gewöhnlich in Loop-Regionen von Proteinstrukturen liegen.

• Eine Reihe von 5 hydrophilen Residuen gilt als

hydrophiler stretch.

• Die üblichen hydrophilen Residuen sind:

D Asp K Lys P Pro

E Glu N Asn R Arg

G Gly Q Gln S Ser

Dies kann durch den Benutzer geändert werden.

Vermeide zu viele Gaps

Page 69: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

69

• Progressives Alignment ist ein mathematischer Vorgang, der völlig unabhängig von

der biologischen Realität abläuft.

• Es kann eine sehr gute Abschätzung sein.

• Es kann eine unglaublich schlechte Abschätzung sein.

• Erfordert Input und Erfahrung des Benutzers.

• Sollte mit Vorsicht verwendet werden.

• Kann (gewöhnlich) manuell verbessert werden.

• Es hilft oft, farbliche Darstellungen zu wählen.

• Je nach Einsatzgebiet sollte der Benutzer in der Lage sein, die zuverlässigen

Regionen des Alignments zu beurteilen.

• Für phylogenetische Rekonstruktionen sollte man nur die Positionen verwenden, für

die eine zweifelsfreie Hypothese über positionelle Homologie vorliegt.

Tips für progressives Alignment

Page 70: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

70

• Es macht wenig Sinn, proteinkodierende DNS-Abschnitte zu alignieren!

ATGCTGTTAGGGATGCTCGTAGGG

ATGCT-GTTAGGGATGCTCGT-AGGG

Das Ergebnis kann sehr unplausibel sein und entspricht eventuell nicht dem

biologischen Prozess.

Es ist viel sinnvoller, die Sequenzen in die entsprechenden Proteinsequenzen

zu übersetzen, diese zu alignieren und dann in den DNS-Sequenzen an den

Stellen Gaps einzufügen, an denen sie im Aminosäure-Alignment zu finden

sind.

Alignment von Protein-kodierenden DNS-Sequenzen

Page 71: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

71

Progressive Alignments sind die am weitesten verbreitete Methode für multiple

Sequenzalignments.

Sehr sensitive Methode ebenfalls: Hidden Markov Modelle (HMMer)

Multiples Sequenzalignment ist nicht trivial. Manuelle Nacharbeit kann in

Einzelfällen das Alignment verbessern.

Multiples Sequenzalignment erlaubt Denken in Proteinfamilien und –funktionen.

Zusammenfasusng

Page 72: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

72

V4 Prediction of Phylogenies based on single genes

Material of this lecture taken from

- chapter 6, DW Mount „Bioinformatics“

and from Julian Felsenstein‘s book.

A phylogenetic analysis of a family of related

nucleic acid or protein sequences is a determination

of how the family might have been derived during

evolution.

Placing the sequences as outer branches on a tree,

the evolutionary relationships among the sequences

are depicted.

Phylogenies, or evolutionary trees, are the basic structures to describe

differences between species, and to analyze them statistically.

They have been around for over 140 years.

Statistical, computational, and algorithmic work on them is ca. 40 years old.

Page 73: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

73

3 main approaches in single-gene phylogeny

- maximum parsimony

- distance matrix

- maximum likelihood (not covered here)

Popular programs:

PHYLIP (phylogenetic inference package – J Felsenstein)

PAUP (phylogenetic analysis using parsimony – Sinauer Assoc

Page 74: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

74

Methods for Single-Gene Phylogeny

Choose set of

related sequences

Obtain multiple

sequence

alignment

Is there

strong

sequence

similarity?

Maximum

parsimony

methods

Yes

No

Is there clearly recogniza-

ble sequence similarity?

YesDistance

methods

No

Maximum likelihood

methods

Analyze how well

data support

prediction

Page 75: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

75

Parsimony methods

Edwards & Cavalli-Sforza (1963): that evolutionary tree is to be preferred that

involves „the minimum net amount of evolution“.

seek that phylogeny on which, when we reconstruct the evolutionary events

leading to our data, there are as few events as possible.

(1) We must be able to make a reconstruction of events, involving as few events

as possible, for any proposed phylogeny.

(2) We must be able to search among all possible phylogenies for the one or

ones that minimize the number of events.

Page 76: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

76

A simple example

Suppose that we have 5 species,

each of which has been scored for 6 characters (0,1)

We will allow changes 0 1 and 1 0.

The initial state at the root of a tree may be either state 0 or state 1.

Page 77: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

77

Evaluating a particular tree

Figure right shows another tree also requiring 8 changes. These two most

parsimonious trees are the same tree when the roots of the tree are removed.

Page 78: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

78

Methods of rooting the tree

There are many rooted trees, one for each branch of this unrooted tree,

and all have the same number of changes of state.

The number of changes of state only depends on the unrooted tree, and not at all on

where the tree is then rooted.

Biologists want to think of trees as rooted

need method to place the root in an otherwise unrooted tree.

(1) Outgroup criterion

(2) Use a molecular clock.

Page 79: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

79

Outgroup criterion

Assumes that we know the answer in advance.

Suppose that we have a number of great apes,

plus a single old-world monkey.

Suppose that we know that the great apes are a monophyletic group.

If we infer a tree of these species, we know that the root must be placed on the

lineage that connects the old-world monkey (outgroup) to the great apes (ingroup).

Page 80: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

80

Molecular clock

If an equal amount of changes were observed on all lineages, there should be a

point on the tree that has equal amounts of change (branch lengths) from there to

all tips.

With a molecular clock, it is only the expected amounts of change that are equal.

The observed amounts may not be.

using various methods find a root that makes the amounts of change

approximately equal on all lineages.

Page 81: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

81

Branch lengths

Having found an unrooted tree, locate the changes on it and find out how many

occur in each of the branches.

The location of the changes can be ambiguous.

average over all possible reconstructions of each character for which there is

ambiguity in the unrooted tree.

Fractional numbers in some branches of left tree

add up to (integer) number of changes (right)

Page 82: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

82

Open questions

* Particularly for larger data sets, need to know how to count number of changes

of state by use of an algorithm.

* need to know algorithm for reconstructing states at interior nodes of the tree.

* need to know how to search among all possible trees for the most parsimonious

ones, and how to infer branch lengths.

* sofar only considered simple model of 0/1 characters.

DNA sequences have 4 states, protein sequences 20 states.

* Justification: is it reasonable to use the parsimony criterion?

If so, what does it implicitly assume about the biology?

* What is the statistical status of finding the most parsimonious tree?

Can we make statements how well-supported it is compared to other trees?

Page 83: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

83

Counting evolutionary changes

2 related dynamic programming algorithms: Fitch (1971) and Sankoff (1975)

- evaluate a phylogeny character by character

- for each character, consider it as rooted tree, placing the root wherever seems

appropriate.

- update some information down a tree; when we reach the bottom, the number of

changes of state is available.

Do not actually locate changes or reconstruct interior states at the nodes of the tree.

Page 84: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

84

Fitch algorithm

intended to count the number of changes in a bifurcating tree with nucleotide

sequence data, in which any one of the 4 bases (A, C, G, T) can change to any

other.

At the particular site, we have observed the bases C, A, C, A and G in the 5 species.

Give them in the order in which they appear in the tree, left to right.

Page 85: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

85

Fitch algorithm

For the left two, at the node that is their immediate common ancestor,

attempt to construct the intersection of the two sets.

But as {C} {A} = instead construct

the union {C} {A} = {AC} and count 1

change of state.

For the rightmost pair of species, assign

common ancestor as {AG},

since {A} {G} = and count another

change of state.

.... proceed to bottom

Total number of changes = 3. Algorithm works on arbitrarily large trees.

Page 86: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

86

Complexity of Fitch algorithm

Fitch algorithm can be carried out in a number of operations that is proportional to

the number of species (tips) on the tree.

Don‘t we need to multiply this by the number of sites n ?

Any site that is invariant (which has the same base in all species, e.g. AAAAA) can

be dropped.

Other sites with a single variant base (e.g. ATAAA) will only require a single change

of state on all trees. These too can be dropped.

For sites with the same pattern (e.g. CACAG) that we have already seen, simply use

number of changes previously computed.

Pattern following same symmetry (e.g. TCTCA = CACAG) need same number of

changes numerical effort rises slower than linearly with the number of sites.

Page 87: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

87

Sankoff algorithm

Fitch algorithm is very effective – but we can‘t understand why it works.

Sankoff algorithm: more complex, but its structure is more apparent.

Assume that we have a table of the cost of changes cij between each character state

i and each other state j.

Compute the total cost of the most parsimonious combinations of events by

computing it for each character.

For a given character, compute for each node k in the tree a quantity Sk(i).

This is interpreted as the minimal cost, given that node k is assigned state i,

of all the events upwards from node k in the tree.

Page 88: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

88

Sankoff algorithm

If we can compute these values for all nodes,

we can also compute them for the bottom node in the tree.

Simply choose the minimum of these values

which is the desired total cost we seek, the minimum cost of evolution for this

character.

At the tips of the tree, the S(i) are easy to compute. The cost is 0 if the observed

state is state i, and infinite otherwise.

If we have observed an ambigous state, the cost is 0 for all states that it could be,

and infinite for the rest.

Now we just need an algorithm to calculate the S(i) for the immediate common

ancestor of two nodes.

iSSi

0min

Page 89: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

89

Sankoff algorithm

Suppose that the two descendant nodes are called l and r (for „left“ and „right“).

For their immediate common ancestor, node a, we compute

kScjSciS rikk

lijj

a minmin

The smallest possible cost given that node a is in state i is the cost cij of going from

state i to state j in the left descendant lineage, plus the cost Sl(j) of events further up

in the subtree gien that node l is in state j. Select value of j that minimizes that sum.

Same calculation for right descendant lineage sum of these two minima is the

smallest possible cost for the subtree above node a, given that node a is in state i.

Apply equation successively to each node in the tree, working downwards.

Finally compute all S0(i) and use previous eq. to find minimum cost for whole tree.

Page 90: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

90

Sankoff algorithm

The array (6,6,7,8) at the bottom of the tree has a minimum value of 6

= minimum total cost of the tree for this site.

Page 91: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

91

Finding the best tree by heuristic search

The obvious method for searching for the most parsimonious tree is to consider ALL

trees and evaluate each one.

Unfortunately, generally the number of possible trees is too large.

use heuristic search methods that attempt to find the best trees without looking at

all possible trees.

(1) Make an initial estimate of the tree and make small rearrangements of it

= find „neighboring“ trees.

(2) If any of these neighbors are better, consider them and continue search.

Page 92: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

92

Distance matrix methods

introduced by Cavalli-Sforza & Edwards (1967)

and by Fitch & Margoliash (1967)

general idea „seems as if it would not work very well“ (Felsenstein):

- calculate a measure of the distance between each pair of species

- find a tree that predicts the observed set of distances as closely as possible.

All information from higher-order combinations of character states is left out.

But computer simulation studies show that the amount of lost information is

remarkably small.

Best way to think about distance matrix methods:

consider distances as estimates of the branch length separating that pair of

species.

Page 93: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

93

Least square method

- observed table (matrix) of distances Dij

- any particular tree leads to a predicted set of distances dij.

Page 94: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

94

Least square method

Measure of the discrepancy between the observed and expected distances:

n

i

n

jijijij dDwQ

1 1

2

where the weights wij can be differently defined:

- wij = 1 (Cavalli&Sforza, 1967)

- wij = 1/Dij2 (Fitch&Margoliash, 1967)

- wij = 1/Dij (Beyer et al., 1974)

Aim: Find tree topology and branch lengths that minimize Q.

Equation above is quadratic in branch lengths.

Take derivative with respect to branch lengths, set = 0,

and solve system of linear equations. Solution will minimize Q.

Doug Brutlag‘s course

Page 95: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

95

Least square method

Number species in alphabetical order.

The expected distance between species A and D d14 = v1 + v7 + v4

The expected distance between speices B and E d25 = v5 + v6 + v7 + v2.

v1v2

v3

v4

v5 v6 v7

Page 96: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

96

Finding the least squares tree topology

Now that we are able to assign branch lengths to each tree topology.

we need to search among tree topologies.

This can be done by the same methods of heuristic search that were presented for

the Maximum Parsimony method.

Note: no-one has sofar presented a branch-and-bound method for finding the least

squares tree exactly. Day (1986) has shown that this problem is NP-complete.

The search is not only among tree topologies, but also among branch lengths.

Page 97: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

97

neighbor-joining method

introduced by Saitou and Nei (1987) – algorithm works by clustering - does not

assume a molecular clock but approximates the „minimum evolution“ model.

„Minimum evolution“ model:

among possible tree topologies, choose the one with minimal total branch length.

Neighbor-joining, as the least-squares method, is guaranteed to recover the true

tree if the distance matrix is an exact reflection of the tree.

Page 98: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

98

neighbor-joining method

(1) For each tip, compute

(2) Choose the i and j for which Dij – ui – uj is smallest.

(3) Join items i and j. Compute the branch length

from i to the new node (vi) and from j to the new

node (vj) as

(4) Compute distance between the new node (ij) and each of the remaining tips as

(5) Delete tips i and j from the tables and replace them by the new node, (ij), which

is now treated as a tip.

(6) If more than 2 nodes remain, go back to step (1). Otherwise, connect the two

remaining nodes (e.g. l and m) by a branch of length Dlm.

n

ij

iji n

Du

2

ijijj

jiiji

uuDv

uuDv

2

1

2

12

1

2

1

2,ijjkik

kij

DDDD

Page 99: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

99

limitation of distance methods

Distance matrix methods are the easiest phylogeny method to program,

and they are very fast.

Distance methods have problems when the evolutionary rates vary largely.

One can correct for this in distance methods as well as in likelihood methods.

When variation of rates is large, these corrections become important.

In likelihood methods, the correction can use information from changes in one part

of the tree to inform the correction in others.

Once a particular part of the molecule is seen to change rapidly in the primates, this

will affect the interpretation of that part of the molecule among the rodents as well.

But a distance matrix method is inherently incapable of propagating the information

in this way. Once one is looking at changes within rodents, it will forget where

changes were seen among primates.

Page 100: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

100

V5 – Analyse von Genomsequenzen

- Genom-Assemblierung

finde identische k-Tupel

- Genom-Alignment

Suche nach MUMs (maximal unique matches)

andere wichtige Bereiche, für die wir heute keine Zeit haben

- Gene identifizieren

Hidden Markov Modelle

- Transkriptionsfaktorbindestellen

Position Specific Scoring Matrices (PSSM)

- finde Repeat-Sequenzen

Suche nach bekannten Repeat-Motiven

Suche auf Suffix-Baum

Page 101: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

101

Whole Genome Shotgun Assemblierung

Es gibt 2 Strategien für die

Sequenzierung von Genomen:

clone-by-clone Methode

whole-genome shotgun Methode

(Celera, Gene Myers).

Die Shotgun Sequenzierung wurde

bereits 1977 von F. Sanger et al.

eingeführt und ist seither eine

Standardmethode für die

Sequenzierung von Genen.

Umstritten war jedoch, ob man sie

auch für komplette Genome

verwenden kann. ED Green, Nat Rev Genet 2, 573 (2001)

Page 102: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

102

Arachne Programm

von Serafin Batzoglou (MIT, Doktorarbeit 2000)

(i) konstruiere Graph G für Überlappungen zwischen Paaren von reads aus

Shotgun-Daten

(i) prozessiere G um Supercontigs von gemappten reads zu erhalten.

Batzoglou et al. Genome Res 12, 177 (2002)

Wichtige Variation der whole-genome shotgun Sequenzierung:

sequenziere reads jeweils von beiden Enden eines Klons.

Da die Inserts nach ihrer Größe ausgewählt werden, ist damit der ungefähre

Abstand zwischen dem Paar von reads bekannt.

Man nennt diese earmuff (Ohrenwärmer) Verbindungen.

Page 103: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

103

Arachne: erzeuge Überlappungsgraphen

Liste von reads R = (r1, ..., rN) , N ist die Anzahl der reads.

Jeder read ri besitzt eine Länge li < 1000.

Wenn beide reads von den Endpunkten desselben Klons stammen (earmuff link),

besitzt ri eine Verknüpfung zu einem anderen read rj in einer festen Distanz dij.

Erstes Ziel: erzeuge Graphen G der Überlappungen (Kanten) zwischen Paaren an

reads (Knoten) dies ergibt die Paare an reads in R, die aligniert werden müssen.

Da R sehr lang sein kann, sind N2 alignments nicht praktikabel.

erstelle Tabelle für das Vorkommen von k-Tupel (Strings der Länge k) in den reads,

zähle die Anzahl von k-Tupel Treffern für jedes Paar an reads.

Führe dann paarweise Alignments zwischen den Paaren an reads durch,

die mehr als cutoff gemeinsame k-mere besitzen.

Batzoglou PhD thesis (2002)

Page 104: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

104

Arachne: Tabelle für Vorkommen von k-meren

Ermittle die Anzahl an k-Tupel Treffern in der Vorwärts- und Rückwärts-Richtung

zwischen jedem Paar von reads in R.

(1) Ermittle alle Triplets (r,t,v)

r = Nummer des reads in R

t = Index eines k-mers, das in r vorkommt

v = Richtung des Auftretens (vorwärts oder rückwärts)

(2) sortiere die Menge der Paare nach den k-mer Indices t

(3) verwende eine sortierte Liste um eine Tabelle T von Quadrubletts (ri, rj, f, v)

zu erstellen, wobei ri und ri die reads sind, die mindestens einen gemeinsamen

k-mer enthalten, v die Richtung angiebt, und f die Anzahl an gemeinsamen

k-mers zwischen ri und rj in Richtung v.

Batzoglou PhD thesis (2002)

Page 105: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

105

Arachne: Tabelle für Vorkommen von k-mers

Batzoglou PhD thesis (2002)

Hier:k = 3

Page 106: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

106

Arachne: Tabelle für Vorkommen von k-mers

Wenn ein k-Tupel „zu oft“ auftritt gehört er wahrscheinlich zu einer

Repeat-Sequenz.

Man sollte diese nicht für die Detektion von Überlappungen verwenden.

Implementierung

(1) finde k-Tupel (r,t,v) und sortieren sie in 64 Dateien entsprechen den ersten

drei Nukleotiden jedes k-mers.

(2) Für i=1,64

lade Datei in den Speicher, sortiere nach t, speichere sortierte Datei ab.

end

(3) lade 64 sortierte Dateien nacheinander in den Speicher,

fülle Tabelle T nacheinander auf.

In der Praxis ist k = 8 bis 24.Batzoglou PhD thesis (2002)

Page 107: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

107

Arachne: paarweise read-Alignments

Führe paarweise Alignments zwischen den Reads durch, die mehr als Cutoff

gemeinsame k-mers besitzen.

Sobald man zu häufige k-mers ausschließt (mehr als ein zweiter Cutoff), ist

sichergestellt, daß nur O(N) viele paarweise Sequenzalignments durchgeführt

werden müssen.

Nur eine kleine Anzahl an Basen-Austauschen und Indels ist in einer

überlappenden Region zweier alignierter reads erlaubt.

Output des Alignment-Algorithmus:

für die reads ri, rj gibt es Quadrubletts (b1, b2, e1, e2) für jede detektierte

Überlappungsregion mit den Anfangspositionen b1, b2 und Endpositionen e1,e2.

Falls eine signifikante Überlappungsregion vorliegt, wird (ri, rj, b1, b2, e1, e2) eine

Kante im Überlappungsgraphen G. Batzoglou PhD thesis (2002)

Page 108: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

108

Kombination teilweiser Alignments

3 teilweise Alignments der Länge

k=6 zwischen einem Paar von

reads werden zu einem einzigen

vollen Alignment der Länge k=19

kombiniert.

Die vertikalen Linien verbinden

übereinstimmenden Basen,

wogegen x Mismatche sind.

Dies ist eine oft auftretende

Situation, in der ein ausgedehnter

k-mer Treffer ein volles Alignment

von zwei reads ist.

Batzoglou et al. Genome Res 12, 177 (2002)

Page 109: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

109

Repeats erzeugen Mehrdeutigkeit

Ohne das Auftreten von Sequen-

zierungsfehlern und Repeats wäre es

einfach, alle entdeckbaren paarweise

Abstände von reads zu finden und

den Graph G zu konstruieren.

Da es Repeats jedoch sehr häufig

auftreten, bedeutet eine Verbindung

zwischen zwei reads in G nicht ohne

weiteres eine wahre Überlappung.

Eine „Repeat-Verbindung“ ist eine

Verbindung in G zwischen zwei

reads, die aus verschiedenen

Regionen des Genoms stammen und

in der repetitiven Sequenz überein-

stimmen. Batzoglou PhD thesis (2002)

Page 110: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

110

Sequence contigs

Batzoglou PhD thesis (2002)

unerläßlich für die Assemblierung ist die ausreichende Überdeckung (mehrfache

Sequenzierung = coverage) derselben Genomregionen

Page 111: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

111

Verbinden von Contigs

Batzoglou PhD thesis (2002)

Sequenz-Contigs werden gebildet

indem Paare von reads verbunden

werden, die eindeutig verbunden

werden können.

Tatsächlich ist die Situation viel

schwieriger als hier gezeigt, da

Repeats häufig nicht zu 100%

zwischen Kopien konserviert sind.

Durch die Löschung von k-mers hoher Frequenz wird einiges an Repetition im

Genom vor der Erzeugung von G effizient maskiert.

Zur Erkennung von repetitiven Verbindung dienen weitere heuristische Algorithmen,

die hier nicht diskutiert werden sollen.

Page 112: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

112

Benutze Überlapp-Paarungen um die reads zu verbinden

Arachne sucht nach 2 Plasmiden mit

gleicher Insert-Länge, deren

Sequenzen an beiden Enden

überlappen paired pairs.

Batzoglou et al. Genome Res 12, 177 (2002)

(A) A paired pair of overlaps.

The top two reads are end sequences from

one insert, and the bottom two reads are

end sequences from another.

The two overlaps must not imply too

large a discrepancy between the insert

lengths.

(B) Initially, the top two pairs of reads

are merged. Then the third pair of

reads is merged in, based on having

an overlap with one of the top two left

reads, an overlap with one of the top

two right reads, and consistent insert

lengths. The bottom pair is similarly

merged.

Unten: eine Menge von paired pairs

werden zu contigs zusammengefasst

und eine Konsensussequenz erzeugt.

Page 113: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

113

Detection of repeat contigs

Contig R is linked to contigs A and

B to the right. The distances

estimated between R and A and

R and B are such A and B cannot

be positioned without substantial

overlap between them. If there is

no corresponding detected overlap

between A and B then R is

probably a repeat linking to two

unique regions to the right.

Batzoglou et al. Genome Res 12, 177 (2002)

Some of the identified contigs are repeat contigs in which nearly identical

sequence from distinct regions are collapsed together. Detection by

(a) repeat contigs usually have an unusually high depth of coverage.

(b) they will typically have conflicting links to other contigs.

After marking repeat contigs, the remaining

contigs should represent the correctly

assembled sequence.

Page 114: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

114

Contig assembly

If (a,b) and (a,c) overlap, then

(b,c) are expected to overlap.

Moreover, one can calculate that

shift(b,c)=shift(a,c)-shift(a,b).

A repeat boundary is detected

toward the right of read a, if there

is no overlap (b,c), nor any path

of reads x1, ..., xk such that (b,x1),

(x1,x2) ..., (xk,c) are all overlaps,

and shift(b,x1) + ... + shift(xk,c)

shift(a,c) – shift(a,b).

Batzoglou et al. Genome Res 12, 177 (2002)

Page 115: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

115

Consistency of forward-reverse links

(A) The distance d(A,B) (length of

gap or negated length of

overlap) between two linked

contigs A and B can be

estimated using the forward-

reverse linked reads between

them.

(B) The distance d(B,C) between

two contigs B,C that are

linked to the same contig A

can be estimated from their

respective distances to the

linked contig.

Batzoglou et al. Genome Res 12, 177 (2002)

Page 116: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

116

Filling gaps in supercontigs

(A) Contigs A and B are connected by

a path p of contigs X1,..., Xk. The

distance dp(A,B) between A and B

(along the path p) is the length of

the sequence in the path that does

not overlap A and B.

(B) Contigs Y1 and Y2 share forward-

reverse links with the supercontig

S. These links position them in the

vicinity of the gap between A and

B. Therefore, Y1 and Y2 will be

used as possible stepping points in

the path closing the gap from A to

B. Batzoglou et al. Genome Res 12, 177 (2002)

Page 117: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

117

Comparison of different assemblers

Pevzner, Tang, Waterman PNAS 98, 9748 (2001)

you should look out for:

- smallest number of contigs + misassembled contigs- highest possible coverage by contigs- lowest possible coverage by misassembled contigs

Page 118: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

118

Whole Genome Alignment (WGA)

Nachdem die genomische DNA-Sequenz eng verwandter Organismen verfügbar

wird, ist die erste Frage, wie das Alignment beider Genome aussieht.

Globale Genom-Alignments machen nur für eng verwandte Organismen Sinn.

Im anderen Fall muß man erst die genomischen Rearrangements betrachten.

Dann kann man die systenischen Regionen (Regionen, in denen Gen-

Reihenfolge des nächsten gemeinsamen Vorfahrens in beiden Spezies konserviert

blieb) betrachten und lokale Genom-Alignments dieser Regionen produzieren.

Page 119: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

119

Vergleich von Maus und Mensch auf Genomebene

Wichtigste Ergebnisse:

* das Mausgenom ist etwa 14% kürzer als das menschliche Genom.

Die unterschiedliche Länge liegt wohl an der höheren Deletionsrate in Maus.

* über 90% des Maus- und Menschen-Genoms kann in entsprechende

Regionen mit konservierter Syntenie eingeteilt werden

* auf dem Nukleotid-Level kann etwa 40% des menschlichen Genoms mit dem

Maus-Genom aligniert werden (diese am stärksten orthologen Sequenzen

blieben wohl in beiden Linien vom gemeinsamen Vorfahren erhalten).

Der Rest wurde wohl in einem oder beiden Genomen gelöscht.

* die neutrale Substitutionsrate beträgt etwa 0.5 Nucleotid-Substitutionen pro

Position seit der Divergenz der beiden Spezien. Etwa doppelt so viele

Austausche haben in Maus gegenüber Mensch stattgefunden.

aus dem Paper des Mouse Genome Sequencing Consortiums „Initial sequencing and comparative analysis of the mouse genome“,Nature 420, 520-562 (5.12.2002). Excellent paper! Well readable!

Page 120: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

120

Vergleich von Maus und Mensch auf Genomebene

Key findings:

* der Anteil kurzer (50-100 bp) Segmente in den Säugetier-Genomen, der

reinigender Selektion unterliegt, ist etwa 5%, d.h. wesentlich höher als der Anteil

der Protein-kodierenden Regionen

Genome enthalten viele zusätzliche Eigenschaften wie UTRs (untranslated

regions), regulatorische Elemente, nicht-Protein-kodierende Gene, chromosomale

Strukturelemente, die unter Selektion für die biologische Funktion stehen.

* die Evolution von Säugetier-Genomen verläuft ungleichmäßig. Es gibt deutliche

Unterschiede an Divergenz je nach Genomposition.

* Sowohl Maus wie Mensch-Genom enthalten etwa 30.000 Gene, die für Proteine

kodieren. Der Anteil an Mausgenen mit einem eindeutigen Orthologen im

menschlichen Genom ist etwa 80%. Der Anteil der Mausgene ohne ein homologes

Gen im menschlichen Genom ist < 1%.

Page 121: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

121

The mouse genome. Nature 420, 520 - 562

Konservierung von Syntenie zwischen Mensch und Maus

Ein typisches 510-kb Segment des Maus-Chromosoms 12, das mit einem

600-kb Stück des menschlichen Chromosom 14 verwandt ist.

Blaue Linien: reziprok eindeutige Treffer in beiden Genomen.

Rote Markierungen kennzeichnen die Länge der passenden Regionen.

Die Abstände zwischen diesen „Landmarks“ sind im Maus-Genom kleiner als

im Mensch, was mit der 14% kürzeren Gesamtlänge des Genoms

übereinstimmt.

Page 122: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

122

The mouse genome. Nature 420, 520 - 562

Entsprechung syntenischer Regionen

342 Segmente und 217 Blöcke >300 kb mit konservierter Syntenie im Mensch

sind im Maus-Genom markiert.

Jede Farbe entspricht einem bestimmten menschlichen Chromosom.

Page 123: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

123

Sensitivität

Couronne, ..., Dubchak, Genome Res. 13, 73 (2003)

Im globalen Mensch:Maus Alignment sind mehr als eine Millionen Regionen

stärker als 70% konserviert (auf 100-bp Level)

– diese Regionen decken > 200 Million bp ab.

Nur 62% von ihnen werden von (lokalen) BLAT-Treffern abgedeckt.

Dies bedeutet, daß man 38% der konservierten Abschnitte nur durch das globale

Alignment finden kann!

Idee: lokales Alignment soll als Anker-Verfahren für anschliessendes globales

Alignment dienen. Dadurch hofft man, viele zusätzliche konservierte Regionen

ausserhalb der Anker-Regionen zu finden.

Page 124: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

124

hohe Sensitivität von globalen Alignments

Couronne, ..., Dubchak, Genome Res. 13, 73 (2003)

Beispiel: das globale Alignment der mouse finished sequence

NT_002570 gegen die Region, die mit BLAT-Ankern gefunden

wurde, zeigt konservierte kodierende und nicht-kodierende

Elemente, die mit BLAT nicht gefunden wurden.

Page 125: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

125

Zusätzliche Informationen aus globalem WGA

• Unterschiede in Repeat-Merkmalen

– Duplikationen (große Fragmente, chromosomal)

– Tandem-Repeats

• Große Insertionen und Deletionen

• Translokationen von einem Teil des Genoms zu einem anderen

• Single Nucleotide Polymorphism

Page 126: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

126

Methods for WGA: iterative pairwise global alignment

These Methods follow a general strategy of iteratively merging two multiple

alignments of two disjoint subsets of sequences into a single multiple

alignment of the union of those subsets.

Construct a hash table on either the query string, or the database string (or

both) for all possible substrings of a pre-specified size (say l)

Find exactly matching substrings of length l using this hash table (seeds).

In the second phase, these seeds are extended in both directions, and

combined if possible, in order to find better alignments.

If the global pairwise alignment of two genomic DNA sequences S1 and S2

is computed by standard dynamic programming algorithms

(which requires O( | S1 |∙| S2 | time, where |S| is the length of sequence S)

such iterative methods cannot be used in practice to align DNA sequences

of entire genomes due to time and memory limitations.

examples are: FASTA, BLAST, MegaBLAST, BL2SEQ,

Wu-blast, flash,PipMaker (BLASTZ), and PatternHunter

Page 127: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

127

Methods for WGA: anchor-based global multiple alignment

These methods try to identify substrings of the sequences under

consideration that they are likely parts of a global alignment.

(As mentioned, these substrings can be obtained from local alignments).

These substrings form „anchors“ in the sequences to be aligned.

These methods first align the anchors and subsequently close the gaps

(align the substrings between the anchors).

Anchor-based alignment methods are well suited for aligning very

long sequences.

MUMmer is a very successful implementation of this strategy for aligning

two genome sequences.

Page 128: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

128

Was ist MUMmer?

• A.L. Delcher et al. 1999, 2002 Nucleic Acids Res.

• http://www.tigr.org/tigr-scripts/CMR2/webmum/mumplot

• Nimm an, dass zwei Sequenzen eng verwandt sind (sehr ähnlich)

• MUMmer kann zwei bakterielle Genome in weniger als 1 Minute alignieren

• nutzt Suffix-Bäume um Maximal Unique Matches zu finden

• Definition eines Maximal Unique Matches (MUM):

– Eine Subsequenz, die in beiden Sequenzen genau einmal ohne Abweichungen vorkommt und in keine Richtung verlängert werden kann.

• Grundidee: ein MUM ausreichender Länge wird sicher Teil eines globalen Alignments sein.

A maximal unique matching subsequence (MUM) of 39 nt (shown in uppercase) shared by

Genome A and Genome B. Any extension of the MUM will result in a mismatch.

By definition, an MUM does not occur anywhere else in either genome. Delcher et al. Nucleic Acids Res 27, 2369 (1999)

Page 129: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

129

MUMmer: wichtige Schritte

• Erkenne MUMs (Länge wird vom Benutzer festgelegt)

ACTGATTACGTGAACTGGATCCAACTCTAGGTGAAGTGATCCA

ACTGATTACGTGAACTGGATCCAACTCTAGGTGAAGTGATCCA

ACTGATTACGTGAACTGGATCCA

ACTC--TAGGTGAAGTG-ATCCA

1 10

1 10

20

20

Page 130: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

130

Definition von MUMmers

• Für zwei Strings S1 und S2 und einen Parameter l

• Der Substring u ist eine MUM Sequenz wenn gilt: |u| > l u kommt genau einmal in S1 und genau einmal in S2 (Eindeutigkeit) Für jeden Buchstaben a kommt weder ua noch au sowohl in

S1 als auch in S2 vor (Maximalität)

Page 131: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

131

Wie findet man MUMs?

• Naiver Ansatz

– Vergleiche alle Teilsequenzen von A mit allen Teilsequenzen von B.

Dies dauert O(nn)

• verwende Suffix-Bäume als Datenstruktur

– ein naiver Ansatz, einen Suffix-Baum zu konstruieren hat

eine quadratische Komplexität in der Rechenzeit und dem Speicherplatz

– durch klevere Benutzung von Pointern gibt es lineare Algorithmen in

Rechenzeit und Speicherplatz wie den Algorithmus von McCreight

Page 132: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

132

Suffix-Bäume

CACATAG$

Suffix-Bäume sind seit über 20

Jahren wohl etabliert.

Einige ihrer Eigenschaften: • ein “Suffix” beginnt an jeder

Position I der Sequenz und reicht

bis zu ihrem Ende. • Eine Sequenz der Länge N hat N

Suffices.• Es gibt N Blätter.• Jeder interne Knoten hat mindest

zwei Kinder.• 2 Kanten aus dem selben Knoten

können nicht mit dem selben

Buchstaben beginnen.• Am Ende wird $ angefügt

Page 133: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

133

Suchen in einem Suffix-Baum

CA

T

CA

G$

A

T

CA

G$

TT

A

G

$G

$

AA

T G $A

G

$

G $$

123

4

5

6

78

A

Search Pattern:CATA

Page 134: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

134

Suchen in einem Suffix-Baum

CA

T

CA

G$

A

T

CA

G$

TT

A

G

$G

$

AA

T G $A

G

$

G $$

123

4

5

6

78

A

Search Pattern:ATCG

Page 135: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

135

MUMmer 1.0: Wie findet man MUMs?

• Konstruiere einen Suffix-Baum aus allen Suffices von Genom A• Füge jedes Suffix von Genom B in diesen Suffix-Baum ein• Kennzeichne jedes Blatt mit dem Genom, das es enthält

Page 136: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

136

Sortieren der MUMs

• MUMs werden nach ihren Positionen in Genom A sortiert

1 2 3 4 5 6 7

1 3 2 4 6 7 5

Genome A:

Genome B:

1 2 4 6 7

1 2 46 7

Genome A:

Genome B:

Jeder MUM ist nur mit seiner Nummer gekennzeichnet, ohne Berücksichtigung seiner Länge.

Das obere Alignment zeigt alle MUMs.

Die Verschiebung von MUM 5 in Genom B zeigt eine Transposition an.

Die Verschiebung von MUM 3 könnte ein Zufallstreffer oder Teil einer inexakten Repeat-Sequenz sein.

Unteres Alignment: suche in beiden Genomen die längste gemeinsam ansteigende Folge an

Subsequenzen

Page 137: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

137

Es gibt 4 Arten an Gaps in MUM-Alignments

Delcher et al. Nucleic Acids Res 27, 2369 (1999)

Diese Beispiele

stammen aus dem

Alignment der beiden

M.tuberculosis

Genome.

Page 138: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

138

Beispiel: Alignment zweier Mikroorganismen

Delcher et al. Nucleic Acids Res 27, 2369 (1999)

Das Genom von M.genitalium ist nur etwa 2/3 so

lang wie das von M.pneumoniae.

Obere Abbildung: FASTA-Alignment von

M.genitalium und M.pneumoniae.

Mitte: Alignment mit 25mers

Unten: Alignment mit MUMs. 5 Translokationen.

Ein Punkt bedeutet jeweils einen Treffer zwischen

den Genomen.

FASTA-Plot: ähnliche Gene

25-mer-Plot: 25-Basen-Sequenz, die in beiden

Sequenzen genau einmal vorkommt.

MUM-Plot: MUM-Treffer.

Page 139: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

139

Example: alignment human:mouse

Delcher et al. Nucleic Acids Res 27, 2369 (1999)

Alignment of even more distant

species: human and mouse.

Here: alignment of a 222 930 bp

subsequence of human

chromosome 12p13, accession

no. U47924, to a 227 538 bp

subsequence of mouse

chromosome 6, accession no.

AC002397. Each point in the plot

corresponds to an MUM of

[ge]15 bp.

Page 140: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

140

Zusammenfassung

• Die Anwendung der Suffix-Bäume war ein Durchbruch für die

Alignierung ganzer Genome

• MUMmer 2 besitzt zusätzliche Verbesserung für die Rechenzeit und

den Speicherplatz

– die Verwendung von Suffix-Arrays anstatt von Suffix-Bäumen gibt

eine verbesserte Datenstruktur ( Stefan Kurtz, Hamburg)

– es wird nun möglich, mehr als zwei Genome zu alignieren

(implementiert in MGA)

Page 141: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

141

V6: Bioinformatische Analyse von Proteinstrukturen

Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk

- Hierarchischer Aufbau der Proteinstruktur

- Klassifikation von Proteinstrukturen

Page 142: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

142

Funktion von Proteinen

Strukturproteine (Hüllenproteine von Viren, Cytoskelett)

Enzyme, die chemische Reaktionen katalysieren

Transport- und Speicheproteine (Hämoglobin)

Regulatoren wie Hormone und Rezeptoren/Signalübertragungsproteine

Proteine, die die Transkription kontrollieren

oder an Erkennungsvorgängen beteiligt sind:

Zelladhäsionsproteine, Antikörper

Page 143: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

143

Warum sind Proteine so groß?

Proteine sind große Moleküle.

Ihre Funktion ist oft in einem kleinen Teil der Struktur, dem aktiven Zentrum,

lokalisiert.

Der Rest?

- Korrekte Orientierung der Aminosäuren des aktiven Zentrums

- Bindungsstellen für Interaktionspartner

- Konformationelle Dynamik

Evolution der Proteine: Veränderungen der Struktur, die durch Mutationen in ihrer

Aminosäuresequenz hervorgerufen werden.

Page 144: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

144

Hierarchischer Aufbau

Primärstruktur – Sekundärstruktur – Tertiärstruktur – Quartärnere Struktur –

Komplexe

Welche „Kräfte“ sind für die Ausbildung der verschiedenen „Strukturen“

wichtig?

Page 145: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

145

Einleitung: Aminosäuren

Aminosäuren sind die Bausteine von Proteinen:

R

NH

H

O

OH

H

Carboxylsäure

Aminogruppe

Aminosäuren unterscheiden sich hinsichtlich ihrer- Größe- elektrischen Ladung- Polarität- Form und Steifigkeit

Page 146: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

146

Proteine sind aus 20 verschiedenen natürlichenAminosäuren aufgebaut

5 sind hydrophob.Sie sind vor allemIm Proteininneren. H

NH

H

O

OH

H

CH

NH

H

O

OH

H

CH

NH

H

O

OH

CH

H

CH

NH

H

O

OH

CHCH

H

CH

NH

H

O

OH

CH

CH

H

CH

H C

Glycine

3

3

2 3

Alanine3

Valine

33

Leucine3

2

Isoleucine

Einleitung: hydrophobe Aminosäuren

Page 147: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

147

Es gibt drei voluminöse aromatische Aminosäuren. Tyrosin und Tryptophan

liegen bei Membranproteinen vor allem in der Interface-region.

H

CH

NH

H

O

OH

H

CH

NH

H

O

OH

OH

H

CHN

CH

NH

H

O

OH

H

Phenylalanin

2

Tyrosin

2

Tryptophan

2

Einleitung: aromatische Aminosäuren

Page 148: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

148

Es gibt 2 Schwefel enthaltende Aminosäuren und das ungewöhnliche Prolin.

Cysteine können Disulfidbrücken bilden.

Prolin ist ein “Helixbrecher”.

H

S

CH

NH

H

O

OH

H

H

CH

CH

NH

H

O

OH

S

CH

HNH

H

O

OH

CH

CHCH

Cystein

2 2

2

3

Methionin

2

Prolin

2

2

Einleitung: Aminosäuren

Page 149: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

149

Es gibt zwei Aminosäuren mit terminalen polaren Hydroxlgruppen:

H

CH2

CH

NH

H

O

OH

OH

H

CH

CH

NH

H

O

OH

CH O H

Serin

2 2

3

Threonin

Einleitung: Aminosäuren

Page 150: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

150

Es gibt 3 positiv geladene Aminosäuren. Sie liegen vor allem auf der

Proteinoberflächen und in aktiven Zentren.

Thermophile Organismen besitzen besonders viele Ionenpaare auf den Protein-

oberflächen.H

CH

NH

H

O

OH

CH

CH

CH

NH

H

CH

NH

H

O

OH

CH

CH

N H

NH NH

H

CH

NH

H

O

OH

N N

H

H

H

H

Lysin

2

2

2

2

3

+

2

2

2

2 2

+

Arginin

2

+

Histidin

Einleitung: Aminosäuren

Page 151: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

151

Es gibt 2 negativ geladene Aminosäuren und ihre zwei neutralen Analoga.

Asp und Glu haben pKa Werte von 2.8. Das heisst, erst unterhalb von pH=2.8

werden ihre Carboxylgruppe protoniert.

H

CH

NH

H

O

OH

O O

H

O O

CH

NH

H

O

OH

CH

H

CH

NH

H

O

OH

O NH

H

O NH

CH

NH

H

O

OH

CH

Asparaginsäure

2 2

Glutaminsäure

2

Asparagin

2 2

Glutamin

2

2

2-

-

Einleitung: Aminosäuren

Page 152: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

152

• Ein- und Drei-Buchstaben-Codes der Aminosäuren

G Glycin Gly P Prolin ProA Alanin Ala V Valin ValL Leucin Leu I Isoleucin IleM Methionin Met C Cystein CysF Phenylalanin Phe Y Tyrosin TyrW Tryptophan Trp H Histidin HisK Lysin Lys R Arginin ArgQ Glutamin Gln N Asparagin AsnE Glutaminsäure Glu D Asparaginsäure AspS Serin Ser T Threonin Thr

Zusätzliche CodesB Asn/Asp Z Gln/Glu X Irgendeine Aminosäure

Kenntnis dieser Abkürzungen ist essentiell für Sequenzalignments und für Proteinstrukturanalyse!

Buchstaben-Code der Aminosäuren

Page 153: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

153

In Peptiden und Proteinen sind die Aminosäuren miteinander als lange

Ketten verknüpft.

Ein Paar ist jeweils über eine „Peptidbindung“ verknüpft.

Die Aminosäuresequenz eines

Proteins bestimmt seinen

„genetischen code“.

Die Kenntnis der Sequenz eines

Proteins allein verrät noch nicht

viel über seine Funktion.

Entscheidend ist seine

drei-dimensionale Struktur.

O

OR

H

H N

O

OR

H

H N

O

O

O

R

H

H N N

H

H

R

O

O

O

R

H

H N N

H

H

R

+

-3

+

-3+

+3

-+ H O2

2

2

1

1

+3

21

peptide bond

G>0

Einleitung: Peptidbindung

Page 154: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

154

E.J. Corey und Linus Pauling studierten die Petidbindung in den

1940‘ern und 1950‘ern.

Sie fanden: die C-N Länge ist 1.33 Å.

Sie liegt damit zwischen 1.52 Å und 1.25 Å,

was die Werte für eine Einfach- bzw.

Doppelbindung sind.

Die benachbarte C=O Bindung hat eine Länge

Von 1.24 Å, was etwas länger als eine typische

Carbonyl- C=O Doppelbindung ist (1.215 Å).

die Peptidbindung hat einen teilweise

konjugierten Charakter und ist nicht frei drehbar.

Es bleiben damit pro Residue 2 frei drehbare

Diederwinkel des Proteinrückgrats übrig.

O

OR

H

H N

O

OR

H

H N

O

O

O

R

H

H N N

H

H

R

O

O

O

R

H

H N N

H

H

R

+

-3

+

-3+

+3

-+ H O2

2

2

1

1

+3

21

peptide bond

G>0

Eigenschaften der Peptidbindung

Linus PaulingNobelpreise fürChemie 1954 undFrieden 1963

Page 155: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

155

Wie seit den 1950‘er Jahren bekannt,

können Aminosäure-Stränge

Sekundärstrukturelemente

bilden:(aus Stryer, Biochemistry)

-Helices

und -Stränge.

In diesen Konformationen

bilden sich jeweils

Wasserstoffbrückenbindungen

zwischen den C=O und N-H

Atomen des Rückgrats. Daher

sind diese Einheiten strukturell

stabil.

Einleitung: Sekundärstrukturelemente

Page 156: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

156

Diederwinkel des Proteinrückgrats

Lesk-Buch

Die dreidimensionale

Faltung des Proteins wird

vor allem durch die

Diederwinkel des

Proteinrückgrats bestimmt.

Pro Residue gibt es 2 frei

drehbare Diederwinkel, die

als und bezeichnet

werden.

Page 157: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

157

Stabilität und Faltung von Proteinen

Die gefaltete Struktur eines Proteins ist

die Konformation, die die günstigste freie

Enthalpie G für diese

Aminosäuresequenz besitzt.

Der Ramachandran-Plot charakterisiert

die energetisch günstigen Bereiche des

Aminosäurerückgrats.

r-Helix-Region

-Faltblatt-Region

(rechtsgängige Helix)

Page 158: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

158

Kompakter Bereich im

Faltungsmuster einer

Molekülkette,

der den Anschein hat, “er

könnte auch unabhängig von

den anderen stabil sein”.

Domänen

cAMP-abhängige Proteinkinase

SERCA Calcium-Pumpe

Lesk-Buch

Page 159: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

159

Modular aufgebaute Proteine bestehen aus mehreren Domänen.

Anwendung von SMART (www.smart.embl-heidelberg.de) für die Src-Kinase HcK

ergibt

Sequenz: MGGRSSCEDP GCPRDEERAP RMGCMKSKFL QVGGNTFSKT ETSASPHCPVYVPDPTSTIK PGPNSHNSNT PGIREAGSED IIVVALYDYE AIHHEDLSFQKGDQMVVLEE SGEWWKARSL ATRKEGYIPS NYVARVDSLE TEEWFFKGISRKDAERQLLA PGNMLGSFMI RDSETTKGSY SLSVRDYDPR QGDTVKHYKIRTLDNGGFYI SPRSTFSTLQ ELVDHYKKGN DGLCQKLSVP CMSSKPQKPWEKDAWEIPRE SLKLEKKLGA GQFGEVWMAT YNKHTKVAVK TMKPGSMSVEAFLAEANVMK TLQHDKLVKL HAVVTKEPIY IITEFMAKGS LLDFLKSDEGSKQPLPKLID FSAQIAEGMA FIEQRNYIHR DLRAANILVS ASLVCKIADFGLARVIEDNE YTAREGAKFP IKWTAPEAIN FGSFTIKSDV WSFGILLMEIVTYGRIPYPG MSNPEVIRAL ERGYRMPRPE NCPEELYNIM MRCWKNRPEERPTFEYIQSV LDDFYTATES QYQQQP

Modular aufgebaute Proteine

Page 160: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

160

Die Klassifikation von Proteinstrukturen

nimmt in der Bioinformatik eine

Schlüsselposition ein, weil sie das

Bindeglied zwischen Sequenz und

Funktion darstellt.

Lesk-Buch

Klassifikation von Proteinen

Page 161: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

161

Lesk-Buch

Anwendungen der Hydrophobizität

Page 162: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

162

Betrachte die Residuen einer

Transmembranhelix …

-Helices in globulären Proteinen

haben oft eine ins Innere des

Proteins weisende „hydrophobe“

Seite und eine „hydrophile“ Seite,

die zum Lösungsmittel gerichtet

ist.

In einer -Helix ist jede Aminosäure

um etwa 100 Grad gegenüber ihrem

Vorgänger verdreht.

Damit müssen sich hydrophile und

hydrophobe Residuen etwa alle

4 Positionen abwechseln.

Anwendungen der Hydrophobizität: Das helikale Rad

Dasselbe Verhalten zeigen

amphipatische Helices, die

auf der Oberfläche einer

Lipid-Doppelschicht binden.

Page 163: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

163

Im Inneren der Lipidschicht kann das Proteinrückgrat keine Wasserstoffbrücken-

Bindungen mit den Lipiden ausbilden

die Atome des Rückgrats müssen miteinander Wasserstoffbrückenbindungen

ausbilden,

sie müssen entweder helikale oder -Faltblattkonformation annehmen.

Topologie von Membranproteinen

Page 164: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

164

Topologie von Membranproteinen

http://www.biologie.uni-konstanz.de/folding/Structure%20gallery%201.html

Die hydrophobe Umgebung erzwingt, dass (zumindest die bisher bekannten)

Strukturen von Transmembranproteinen entweder reine -Barrels (links)

oder reine -helikale Bündel (rechts) sind.

Page 165: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

165

Vergleich von zwei Proteinstrukturen:

Angabe des RMS-Werts, die Wurzel

der mittleren quadratischen

Abweichung,

oder root-mean-square deviation

Interessanterweise ist bei zwei

verschiedenen Proteinen oft nicht klar,

welche Atome überlagert werden

sollen!

Superposition von Strukturen und Struktur-Alignment

n

dRMS i

2

di : Abstand zwischen den Koordinaten

des i-ten Atompaares

n : Anzahl an Atompaaren

Page 166: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

166

Die Sekundärstrukturelemente -Helix und -Faltblatt werden durch energetisch

günstige Wasserstoffbrücken zwischen Atomen des Peptidrückgrats gebildet.

Sie sind sequenzunabhängig.

Protein ”folds” ergeben sich durch die Assemblierung von

Sekundärstrukturelementen.

Der Ramachandran-Plot ist ein wichtiges Werkzeug um die Güte von Protein-

strukturen (bzw. –modellen) zu beurteilen.

Proteine sind oft modular aus mehreren Domänen aufgebaut.

Der Vergleich mehrerer Proteinstrukturen ist nicht-trivial.

Zusammenfassung

Page 167: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

167

V7: Aufklärung von Proteinstrukturen in der nahen Zukunft

Structural genomics soll die Strukturen von 1000-10.000 Proteinen vor allem

mit neuen Faltungsmustern („folds“) aufklären.

Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung.

Definition von Folds: siehe V6

Homologiemodellierung der Strukturen aller verwandten Proteine unter

Verwendung der bekannten 3D-Strukturen als Vorlagen.

Page 168: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

168

Analyse einer unbekannten Sequenz

Suche in Sequenzdatenbankennach identischer Sequenz bzw. ähnlichen Sequenzen

Gibt es ähnliche Sequenz mit bekannter 3D-Struktur?

Vorhersage der Sekundärstruktur

Kann man Funktionzuordnen?

Modellierung der Proteinstruktur durch Homologiemodellierung

Ab inito Vorhersage der Tertiärstruktur

Zuordnung eines Protein-Folds

Multiples Sequenzalignment

Input: neue Proteinsequenz

Alignment der Sekundärstrukturen.

Erkenne Domänen

Analyse dieses Folds, Nachbarn?

ExperimentelleDaten vorhanden?

3D-Proteinstruktur

Alignment der Sequenzmit einer Target-Struktur

Fold erkannt?

Nein

Ja

Nein

Ja

Nach Rob Russell,http://speedy.embl-heidelberg.de/gtsp/flowchart2.html

Page 169: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

169

Homologie/Komperative Modellierung

Protein structure modeling for structural genomics. R. Sánchez et al. Nat. Struct. Biol. 7, 986 - 990 (2000)

Qualität der Modellierung

hängt von Sequenzidentität

mit Vorlage ab.

Page 170: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

170

Genomweite Strukturmodellierung

R. Sánchez et al. Nat. Struct. Biol. 7, 986 - 990 (2000)

Effekt des Wachstums der PDB-

Datenbank auf die Zahl der Protein des

Bakteriums M. Genitalium, deren Fold

und Struktur im jeweiligen Jahr

vorhergesagt werden konnte.

Homologie-Modellierung ist nicht

aufwendig, dauert pro Struktur nur

wenige Minuten.

Akkurate Modellierung von Loops und

Seitenketten kann jedoch erheblich

aufwendiger sein.

Grün: Proteine mit Modell oder fold

assignment aus PSI-BLAST für mindestens

30 ihrer Residuen.

Blau: nur Modell

Rot: Anteil der Residuen des Genoms, die

in Modell oder fold assignment vorkommen.

Page 171: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

171

Schliesse von Struktur auf Funktion?

From structure to function: Approaches and

limitations J. M. Thornton et al. Nat. Struct.

Biol. 7, 991  (2000)

Page 172: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

172

Methode zur Fold-Erkennung: Threading

• Gegeben:

– Sequenz:

IVACIVSTEYDVMKAAR…

– Ein Datenbank von möglichen

Proteinstrukturen (“folds”)

• Bilde die Sequenz auf jeden fold ab

• Bestimme anhand einer

Bewertungsfunktion, welcher Fold am

besten zu dieser Sequenz passt.

Page 173: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

173

Bryngelson, Wolynes, PNAS

(1987)

Gradient Rauhigkeit

beschleunigt bremst

Faltung Faltung

“Frustration”

„New view of protein folding“:Faltung entlang trichterähnlichen Energielandschaften

Brooks, Gruebele, Onuchic, Wolynes,

PNAS 95, 11037 (1998)

Page 174: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

174

Fold Optimierung

• Einfache Gittermodelle (HP-Modelle)

– Zwei Sorten von Seitenketten:

hydrophob und polar

– 2-D oder 3-D Gitter

– Treibende Kräfte:

hydrophober Kollaps – es ist günstig,

Kontakte zwischen hydropoben Seitenketten

zu bilden

– Bewertung = Anzahl an HH Kontakten

Page 175: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

175

Homologie-basierte Proteinmodellierung (SwissModel)

• Methode: Wissensbasierter Ansatz.

• Erfordernis: Mindestens 1 bekannte 3D-Struktur eines verwandten Proteins,

• Prozedur:

• Superposition der verwandten 3D-Strukturen

• Erzeugung eines multiplen Sequenzalignments mit der Zielsequenz.

• Generierung eines Frameworks für die neue Sequenz.

• Konstruiere fehlende Loops.

• Vervollständige und korrigieren das Proteinrückgrat.

• Korrigiere die Seitenketten.

• Überprüfe die Qualität der modellierten Struktur und deren Packung.

• Strukturverfeinerung durch Energieminimierung und Moleküldynamik.www.expasy.org/swissmodel/SWISS-MODEL.html

Page 176: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

176

Überlagerung der 3D-Strukturen

Regionen mit Sequenzähnlichkeit werden automatisch ausgewählt und ihre

Residuen in 3D überlagert.

Diese erste Auswahl wird weiter verfeinert.

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 177: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

177

(a) Für alle Atome, die eine ähnliche Position besitzen und vermutlich eine

strukturelle Entsprechung in der neuen Struktur besitzen, werden gemittelte

Positionen als Framework-Koordinaten bestimmt.

(b) Seitenketten mit völlig inkorrekter Geometrie werden entfernt.

(c) Matrix mit Gewichten für lokale Ähnlichkeit.

3D Framework für die neue Sequenz

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 178: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

178

Basierend auf den Verankerungen der Loops werden

(a) wird eine Datenbank bekannter Loopfragmente in der PDB-Datenbank

durchsucht.

Für den neuen Loop verwendet man entweder das am besten passende

Fragment oder ein Framework aus den 5 besten Fragmenten.

(b) Der Torsionsraum der Loopresiduen wird durchsucht

- 7 erlaubte Kombinationen der - Winkel

- benötigter Raum für den gesamten Loop

Konstruktion fehlender Loops

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 179: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

179

Rekonstruktion von fehlendem Proteinrückgrat

Das Rückgrat wird auf der Grundlage von

C -Positionen konstruiert.

- 7 Kombinationen der - Winkel sind

erlaubt.

- Durchsuche Datenbank für Backbone-

Fragmente mit Fenster aus 5 Residuen,

Verwende die Koordinaten der 3 zentralen

Residuen des am besten passenden

Fragments.

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 180: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

180

Verwende Bibliothek erlaubter Seitenketten-Rotamere geordnet nach der

Häufigkeit des Auftretens in der PDB-Datenbank.

- Erst werden verdrehte (aber komplette) Seitenketten korrigiert.

- fehlende Seitenketten werden aus der Rotamer-Bibliothek ergänzt.

Teste dabei, ob van-der-Waals Überlapps auftreten und ob die

Torsisonswinkel in erlaubten Bereichen liegen.

Konstruktion unvollständiger/fehlender Seitenketten

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 181: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

181

Überprüfe die Qualität der 3D-Modelle

Analysiere 3D-Umgebung jeder Seitenkette. Erlaubt die Identifizierung

missgefalteter Regionen.

Auch: WHATCHECK

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 182: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

182

Berechne, welche Bereiche des Proteins für eine kleine Probe zugänglich sind

(Connolly-Oberfläche bzw. Kubisches Gitter). Algorithmus entdeckt Oberflächen

innerhalb und ausserhalb des Proteins. Der Vergleich von Grösse und Verteilung

von internen Cavities zwischen Modell und Kristallstruktur-Vorlage erlaubt es,

Fehler im Modell aufzuspüren.

Analyse der Packungsdichte eines atomaren Modells

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 183: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

183

Bewertung der Qualität eines Homologiemodells1. Allgemeine Gesichtspunkte

• Ein Modell wird als falsch angesehen, wenn mindestens eines seiner strukturellen Elemente gegenüber dem Rest des Modells falsch angeordnet ist. Dies kann durch ein falsches

Sequenzalignment entstehen.

Das Modell kann dennoch korrekte Stereochemie besitzen.

• Man kann ein Modell als ungenau ansehen wenn seine atomare Koordinaten mehr als 0.5 Å von einer experimentellen Kontrollstruktur abweichen.

• Ungenauigkeiten können auch in der Stereochemie (Bindungslängen und –winkel auftreten). Dies kann leicht mit WhatCheck überprüft werden.

• Statistische Paarpotentiale für die Verteilung von Aminosäuren in bekannten Proteinen erlauben manchmal die Aufspürung von fehlerhaften Modellen.

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 184: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

184

2. Fehlerquellen

Die Qualität eines Modells hängt von 2 Kriterien ab

1 Seine Korrektheit hängt von der Qualität des Sequenzalignments ab.

2 Seine Genauigkeit wird durch seine Abweichung von einer (zukünftig zu bestimmenden) experimentellen Struktur bestimmt.

Strukturelle Abweichungen haben 2 Ursachen

- der inherente Fehler der Modellierungsprozedur

- durch Umgebung und Methoden der Datenerfassung bewirkte Variationen der experimentellen Strukturen, die als Vorlage verwendet werden.

• Ein durch komparative Methoden abgeleitetes Protein-Modell kann nicht genauer sein als der Unterschied zwischen einer NMR-Struktur und einer Kristallstruktur desselben Proteins.

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 185: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

185

3 Proteinkern und Loops

Fast jedes Proteinmodell enthält nicht-konservierte Loops, die als die am wenigsten zuverlässigen Teile des Proteinmodells angesehen werden

können.

Andererseits sind diese Bereiche der Struktur oft auch am flexibelsten –

hohe Temperaturfaktoren in Kristallstrukturen oder hohe Unterschiede zwischen verschiedenen (gleichsam gültigen) NMR-Strukturen.

Die Residuen im Proteinkern werden gewöhnlich fast in der identischen Orientierung wie in experimentellen Kontrollstrukturen modelliert.

Residuen an der Proteinoberfläche zeigen grössere Abweichungen.

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 186: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

186

Einordnung von Proteinmodellen in 3 Kategorien

1 Modelle, die auf falschen Alignments zwischen Vorlage und Zielprotein

basieren.

Strategie: konstruiere mehrere Modelle für unterschiedliche Alignments.

Wähle das am besten erscheinende Modell.

2 Modelle, die auf korrekten Alignments beruhen, können für zielgerichtete

Mutagenese-Experimente hilfreich sein.

Sind oft nicht zuverlässig genug für detaillierte Untersuchung von

Ligandenbindung.

3 Modelle, die auf einer hohen Sequenzidentität (> 70%) mit der Vorlage

beruhen. Solche Modelle können in Drug Design Projekten verwendet werden.

Fehler sind jedoch immer, also auch bei sehr hoher Identität möglich.

Page 187: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

187

Test für die Zuverlässigkeit von SwissModell

3DCrunch-Projekt von Expasy zusammen mit SGI. Generiere „Homologie-

Modelle“ für Proteine mit bekannter 3D-Struktur.

Die Vorlagen besaßen 25 – 95 % Sequenzidentität mit dem Zielprotein.

1200 Kontrolle-Modelle.

Grad der Identität [%] Modell innerhalb von x Å RMSD zur Vorlage

< 1 < 2 < 3 < 4 < 5 > 5

25-29 0 10 30 46 67 33

30-39 0 18 45 66 77 23

40-49 9 44 63 78 91 9

50-59 18 55 79 86 91 9

60-69 38 72 85 91 92 8

70-79 42 71 82 85 88 12

80-89 45 79 86 94 95 5

90-95 59 78 83 86 91 9

www.expasy.org/swissmodel/SWISS-MODEL.html

Page 188: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

188

Zusammenfassung

• Gemeinsamer Kern von Proteinen mit 50% Sequenzidentität

besitzt ca. 1 Å RMSD

• Dies gilt sogar für absolute identische Sequenzen.

• Der zuverlässigste Teil eines Proteinmodells ist der Sequenzabschnitt,

den es mit der Vorlage gemeinsam hat. Die größten Abweichungen liegen in

den konstruierten Schleifen.

• Die Wahl der Modellvorlage ist entscheidend!

Die An- oder Abwesenheit von Ko-faktoren, anderen Untereinheiten oder

Substraten kann Proteinkonformation sehr beeinflussen und somit alle Modelle,

die von ihnen abgeleitet werden.

• Jeder Fehler im Alignment produziert falsche Modelle!

Solche Alignment-Fehler treten bei Sequenzidentität unter 40% auf.

Page 189: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

189

V8 Protein-Liganden-Wechselwirkung –anschaulich betrachtet

Beispiele für Protein-Liganden Komplexe

Wo ist das aktive Zentrum?

(Docking wird hier nicht behandelt – siehe Spezialvorlesungen von A. Kämper und

A. Hildebrandt/D. Neumann im SS05)

Wie stark binden Liganden an Proteine?

Wie kann man die Affinität des Liganden verbessern?

Page 190: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

190

beta-Trypsin:Benzamidin (3ptb)

www.scripps.edu/pub/olson-web/doc/autodock

Enge, sehr polare Bindungstasche auf Proteinoberfläche.

Amidin-Gruppen des Liganden bilden 4 H-Bindungen mit Carboxylgruppen des Proteins (Trypsin) aus.

Benzolring passt optimal in hydro-phobe Tasche.

Page 191: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

191

Cytochrome P450cam : Kampher (2cpp)

www.scripps.edu/pub/olson-web/doc/autodock

Weites, recht unpolares aktives Zentrum im Proteininneren.

Hämgruppe katalysiert Reaktion. Partielle Desolvatation.

Wie gelangt Substrat hinein?

Page 192: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

192

Maus-Antikörper McPC-603:Phosphocholine (2mcp)

www.scripps.edu/pub/olson-web/doc/autodock

Bindungstasche auf Proteinoberfläche wird durch drei

hypervariable Loops geformt.

Page 193: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

193

Streptavidin:Biotin (1stp)

www.scripps.edu/pub/olson-web/doc/autodock

Sehr polare, tiefe Bindungstasche.

Außerordentlich starke Affinität.

Page 194: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

194

HIV-1 Protease:XK-263 Inhibitor (1hvr)

www.scripps.edu/pub/olson-web/doc/autodock

Inhibitor XK-263 stammt von Merck-Dupont. Er enthält eine 7-Ring

zyklische Urea-Einheit mit Phenyl- und Naphtyl-Ringen.

Die CO-Gruppe ahmt das ansonsten konservierte Wassermolekül 301 nach

und verdrängt es. Der tiefere Teil des zyklischen Urea-Rings enthält zwei

benachbarte Hydroxylgruppen, die H-Bindungen mit den katalytischen

Aspartat-Residuen bilden.

Page 195: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

195

Identifikation von funktionellen Residuen

1 Funktionelle bzw. katalytische Residuen werden traditionell in (hoch)

konservierten Regionen von Multiple Sequence Alignments erwartet

evtl. Kopplung mit Information über 3D-Struktur

2: finde Residuen, die Proteinstruktur destabilisieren.

Grund: Funktionelle Residuen im Proteininneren sind oft energetisch ungünstig.

Funktionalität auf Kosten von Stabilität.

3: finde Löcher oder Einbuchtungen in Proteinstruktur.

Hier vorgestellt: integrierte Methode, die 1 -3 implementiert. Möglichkeit für

funktionelle Annotation von Proteinen mit unbekannter Funktion.

Page 196: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

196

Wo ist das aktive Zentrum I?Auswahl von 49 Enzymen. Kriterien:

- Auflösung 2.0 Å

- funktionelle Residuen sind bekannt (in Swissprot-Eintrag in ACT_SITE)

- enthalten nur eine Domäne (SCOP Datenbank)

- die SCOP-Einträge sind unterschiedlich

- es gibt 10 homologe Sequenzen mit Blast E-Wert < 10-10.

98 katalytische Residuen:

22 His

17 Asp, Glu

10 Cys

8 Ser

7 Arg, Lys Ota, Kinoshita, Nishikawa, J Mol Biol 327, 1053 (2003)

5 Tyr

3 Asn

2 Thr

Page 197: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

197

Repräsentative EnzymePDB Protein Länge Auflösung EC Zahl Zahl und Namen der

SCOP Seq. katalytischen Residuen

Page 198: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

198

Fitness-Funktion

- Bewertung der Seitenketten-Konformation entsprechend Rotamer-Bibliothek

- Seitenketten-Packung (wissensbasiert)

- Hydratation (wissensbasiert)

- Analyse der Proteinoberfläche (MSP-Programm): Zuordnung zu den einzelnen

Residuen

- elektrostatische Energie: AMBER-Partialladungen elektrostatisches

Potential (aus Poisson-Boltzmann-Rechnung)

Jeder Score(S), Rang (R) und Position (L) werden gegen den Mittelwert und die

Standardabweichung für jeden Aminosäuretyp normalisiert.

Ota, Kinoshita, Nishikawa, J Mol Biol 327, 1053 (2003)

Page 199: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

199

Vorhersage katalytischer Residuen in Enzymen

Beispiel: 3D-Profil für Lysozym aus Hühnereiweiss. D52 ist katal. Residue.

native Hydratations- lokale D52 hat sehr schlechten Rang. D.h.

Residue klasse Struktur es wäre günstig D52 zu ersetzen.

Katalytische Residuen sind stets un-

stabiler als nicht-katalytische.

Ota, Kinoshita, Nishikawa, J Mol Biol 327, 1053 (2003)

Score Rang Score

native native beste

Residue Residue Residue

Page 200: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

200

Vorhersage katalytischer Residuen in Enzymen

Flussdiagramm der Vorhersagemethode.

- Links oben Analyse der Konservierung.

- Rechts oben Analyse der Position in

3D-Struktur bzw. Stabilität der

Mutantenproteine

- untere Hälfte trifft für verschiedene

Aminosäuretypen (1-Letter-code)

die Entscheidung, ob katalytische

Residuen vorliegen.

Ota, Kinoshita, Nishikawa, J Mol Biol 327, 1053 (2003)

Page 201: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

201

Wo ist das aktive Zentrum II

Analyse mit elektrostatischen

Kontinuumsrechnungen

Die Titrationszustände der meisten

Aminosäuren folgen der

Henderson-Hasselbalch-Gleichung.

Berechne Titrationskurven für 3

Enzyme mit UHBD.

TIM und AR haben eine sehr ähnliche

Strukturen, katalysieren aber ganz

unterschiedliche Reaktionen.

AR und PMI haben sehr verschiedene

Strukturen, katalysieren aber ähnliche

Reaktionen.

HA

ApKpH a log

Ondrechen, Clifton, Ringe,

PNAS 98, 12473 (2001)

Page 202: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

202

Theoretische Titrationskurven

Titrationskurven aller His-Residuen

in TIM

Triosephosphat Isomerase (TIM) katalysiert die Isomerierung von D-Glyceraldehyd-

3-Phosphat zu Dihydroxyaceton-Phosphat.

Man findet 4 Residuen mit verschobenen, flachen Titrationskurven:

His95, Glu165, Lys112, Tyr164.

Davon liegen H95, E165 und Y164 eng beieinander.Ondrechen, Clifton, Ringe,

PNAS 98, 12473 (2001)

Page 203: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

203

Titrationskurven aller Tyr-Residuen

in AR

Theoretische Titrationskurven

Aldose-Reduktase (AR) katalysiert die Reduktion einer Aldehydgruppe von

Aldose zu einem Alkohol.

Man findet 7 Residuen mit verschobenen, flachen Titrationskurven:

Tyr48, Cys298, Glu185, Lys21, Lys77, Tyr107, Tyr209.

Tyr48, His110 und Cys298 bilden das aktive Zentrum. Die anderen Residuen

liegen in der Nähe.

Ondrechen, Clifton, Ringe,

PNAS 98, 12473 (2001)

Page 204: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

204

Titrationskurven aller Lys-Residuen

in PMI

Theoretische Titrationskurven

PMI katalysiert die Interkonversion von Mannose-6-Phosphat und Fructose-6-Phosphat. Man findet 4 Residuen mit verschobenen, flachen Titrationskurven:His135, Lys100, Lys136, Tyr287.Alle liegen eng beieinander, die ersten 3 wohl im aktiven Zentrum und His135nahe bei Lys136.

Ondrechen, Clifton, Ringe,

PNAS 98, 12473 (2001)

Page 205: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

205

Weitere BeispielePDB ID Name Chemie Residuen mit auffälligen Titrationskurven

1AMQ Aspartat [H189, Y225, K258, R266, C191, C192], aminotransferase Transamination [Y256], [Y295], [H301]

1CSE Subtilisin Peptidhydrolyse [D32, H64] Carlsberg (Serin-Protease)

1EA5 Acetylcholinesterase Ester Hydrolyse [Y130, E199, E327, H440, D392], [Y148], [H398], [H425]

1HKA 6-Hydroxymethyl- Kinase [D97, H115] 7,8-dihydropterin pyrophosphate kinase

1OPY 3-Keto-5-Steroid Isomerase [Y16, Y32, Y57], [C81] isomerase

1PIP Papain Peptidhydrolyse [C25, H159], (Cys Protease) [K17, K174, Y186], [R59], [R96]

1PSO Pepsin Peptidhydrolyse [D32, D215, D303], [D11] (Säure-Protease)

1WBA Winged bean Speicherung - keine keine albumin Enzymfunktion

Residue imzweiter Schale.Residue im

aktiven ZentrumOndrechen, Clifton, Ringe,

PNAS 98, 12473 (2001)

Page 206: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

206

Fazit

Mittels elektrostatischer Kontinuumsrechnungen für bekannte Kristallstrukturen

von Proteinen wurde für verschiedene externe pH-Werte die energetisch

optimale Gesamtladung der Proteine berechnet.

Aktive Zentren von Enzymen enthalten oft mehrere polare bzw. geladene

Seitenketten um die chemische Umwandlung zu katalysieren.

Deren Titrationszustände sind eng aneinander gekoppelt und zeigen im

Vergleich zu isolierten Seitenketten sehr ungewöhnliche Titrationskurven.

Diese Methode erlaubt also die Position von aktiven Zentren allein aufgrund

der Proteinstruktur zu erkennen.

Ondrechen, Clifton, Ringe,

PNAS 98, 12473 (2001)

Page 207: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

207

Wie stark binden Liganden an Proteine?

Kuntz, Chen, Sharp, Kollman, PNAS 96, 9997 (1999)

Page 208: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

208

Bindungsaffinität

Metallionen oder Metalloenzyme

kleine Anionen

natürliche LigandenEnzyminhibitoren

linearer Anstieg der freien

Bindungsenthalpie zu Beginn

bis ca. 15 Nicht-H-Atome

Gbinding = - 60 kJ mol-1 maximal.

Dann wird Sättigung beobachtet.

Kuntz, Chen, Sharp, Kollman, PNAS 96, 9997 (1999)

Page 209: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

209

Interpretation

Metallionen und Anionen binden

am stärksten.

Nanomolekulare Liganden können

bereits mit 7-10 Atomen erreicht werden.

Grössere Liganden

- besitzen üblicherweise nur eine

kleine Zahl polarer Atome pro Molekül

- die elektrostatischen Gruppen der

Bindungsstelle werden zunehmend

im Inneren begraben

- sind oft elektrisch neutral

- besitzen mehr entropische

Freiheitsgrade

Kuntz, Chen, Sharp, Kollman, PNAS 96, 9997 (1999)

-G pro Atom

Page 210: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

210

Eine konkrete Studie an einem biologischen System –oft kommt es anders als man denkt.

Gu, W., Kofler, W., Antes, I., Freund, C., Helms, V. (2005)

Biochemistry, 44, 6404-6415.

Alternative Binding Modes of Proline-rich Peptides Binding

to the GYF-Domain.

entfällt

Page 211: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

211

Zusammenfassung

Die Protein:Liganden Wechselwirkung ist heutzutage relativ gut verstanden.

Wir haben Tools kennengelernt, mit denen man

- die Position des aktiven Zentrums lokalisieren kann

- Bindungsaffinitäten abschätzen bzw. verbessern kann

- die Assoziation bzw. Dissoziation des Liganden simulieren kann.

Für die Zukunft bleibt:

(1) korrelierte Analysen aus der umgekehrten Richtung: finde einen Liganden,

der selektiv an ein bestimmtes Protein bindet, jedoch nicht an andere

(2) Automatisierung + Verknüpfung der obigen Schritte

(3) Einbeziehung zusätzlicher Gesichtspunkte (ADMET)

Page 212: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

212

V9 From Protein Complexes to Networks and backProtein interaction could be defined in a number of ways

(1) Proteins that form permanent supracomplexes = „protein machines“

(2) Proteins that bind each other transiently

(signal transduction, bioenergetics ... )

(3) Co-regulated expression of genes/proteins

(4) Proteins participating in the same metabolic pathways

(5) Proteins sharing substrates

(6) Proteins that are co-localized

Techniques: Experimental methods + computational methods.

Page 213: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

213

How transferable are interactions?

interaction similariy (iRMSD) vs. %

sequence identity for all the available

pairs of interacting domains with

known 3D structure.

Curve shows 80% percentile (i.e. 80%

of the data lies below the curve), and

points below the line (iRMSD = 10 Å)

are similar in interaction. Aloy et al. Science, 303, 2026 (2004)

Page 214: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

214

6. In silico studies to predict protein protein contactsField of studying protein interactions is split into two areas:

(1) on the macro level: map networks of protein interactions

(2) on the micro level: understand mechanisms of interaction

to predict interaction sites

Growth of genome data stimulated a lot of research in area (1).

Fewer studies have addressed area (2).

Constructing detailed models of the protein-protein interfaces is important

for comprehensive understanding of molecular processes, for drug design and

for prediction the arrangement into macromolecular complexes.

Also: understanding (2) should facilitate (1).

Therefore, this lecture focusses on linking area (2) to area (1).

Page 215: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

215

Bioinformatic identification of interface patches

Statistical analysis of protein-protein interfaces in crystal structures of

protein-protein complexes: residues at interfaces have significantly different

amino acid composition that the rest of the protein.

predict protein-protein interaction sites from local sequence information ?

Conservation at protein-protein interfaces: interface regions are more conserved

than other regions on the protein surface

identify conserved regions on protein surface e.g. from solvent accessibility

Patterns in multiple sequence alignments: Interacting residues on two binding partners

often show correlated mutations (among different organisms) if being mutated

identify correlated mutations

Structural patterns: surface patterns of protein-protein interfaces: interface often

formed by hydrophobic patch surrounded by ring of polar or charged residues.

identify suitable patches on surface if 3D structure is known

Page 216: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

216

7 Analysis of interfaces

1812 non-redundant protein

complexes from PDB

(less than 25% identity).

Results don‘t change

significantly if NMR structures,

theoretical models, or

structures at lower resolution

(altogether 50%) are excluded.

Most interesting are the results

for transiently formed

complexes.

Ofran, Rost, J. Mol. Biol. 325, 377 (2003)

permanent

transient

Page 217: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

217

Amino acid composition of interface types

The frequencies of all residues found in SWISS-PROT were used as background

when the frequency of an amino acid is similar to its frequency in SWISS-PROT, the

height of the bar is close to zero. Over-representation results in a positive bar, and

under-representation results in a negative bar. Ofran, Rost, J. Mol. Biol. 325, 377 (2003)

Page 218: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

218

Pairing frequencies at interfaces

red square: interaction occurs more

frequently than expected;

blue square: it occurs less frequently than

expected.

(A) Intra-domain: hydrophobic core is clear

(B) domain–domain,

(C) obligatory homo-oligomers,

(D) transient homo-oligomers,

(E) obligatory hetero-oligomers, and

(F) transient hetero-oligomers.

The amino acid residues are ordered

according to hydrophobicity, with isoleucine

as the most hydrophobic and arginine as the

least hydrophobic.

propensities have been successfully used

to score protein-protein docking runs. Ofran, Rost, J. Mol. Biol. 325, 377 (2003)

Page 219: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

219

8 Correlated mutations at interface

Pazos, Helmer-Citterich, Ausiello, Valencia J Mol Biol 271, 511 (1997):

correlation information is sufficient for selecting the correct structural arrangement of

known heterodimers and protein domains because the correlated pairs between the

monomers tend to accumulate at the contact interface.

Use same idea to identify interacting protein pairs.

Page 220: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

220

Correlated mutations at interface

Correlated mutations evaluate the similarity in variation patterns between positions in

a multiple sequence alignment.

Similarity of those variation patterns is thought to be related to compensatory

mutations.

Calculate for each positions i and j in the sequence a rank correlation coefficient (rij):

Pazos, Valencia, Proteins 47, 219 (2002)

lkjjkl

lkiikl

lkjjkliikl

ij

SSSS

SSSS

r

,

2

,

2

,

where the summations run over every possible pair of proteins k and l in the multiple

sequence alignment.

Sikl is the ranked similarity between residue i in protein k and residue i in protein l.

Sjkl is the same for residue j.

Si and Sj are the means of Sikl and Sjkl.

Page 221: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

221

i2h method

Schematic representation of the i2h method.

A: Family alignments are collected for two

different proteins, 1 and 2, including

corresponding sequences from different

species (a, b, c, ).

B: A virtual alignment is constructed,

concatenating the sequences of the probable

orthologous sequences of the two proteins.

Correlated mutations are calculated.

C: The distributions of the correlation values

are recorded. We used 10 correlation levels.

The corresponding distributions are

represented for the pairs of residues internal

to the two proteins (P11 and P22) and for the

pairs composed of one residue from each of

the two proteins (P12). Pazos, Valencia, Proteins 47, 219 (2002)

Page 222: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

222

Predictions from correlated mutations

Results obtained by i2h in a set of 14 two domain

proteins of known structure = proteins with two

interacting domains. Treat the 2 domains as different

proteins.

A: Interaction index for the 133 pairs with 11 or more

sequences in common. The true positive hits are

highlighted with filled squares.

B: Representation of i2h results, reminiscent of those

obtained in the experimental yeast two-hybrid system.

The diameter of the black circles is proportional to the

interaction index; true pairs are highlighted with gray

squares. Empty spaces correspond to those cases in

which the i2h system could not be applied, because they

contained <11 sequences from different species in

common for the two domains.

In most cases, i2h scored the correct pair of protein

domains above all other possible interactions.Pazos, Valencia, Proteins 47, 219 (2002)

Page 223: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

223

Predicted interactions for E. coli

Number of predicted interactions for E. coli.

The bars represent the number of

predicted interactions obtained from the

67,238 calculated pairs (having at least 11

homologous sequences of common

species for the two proteins in each pair),

depending on the interaction index cutoff

established as a limit to consider

interaction.

Pazos, Valencia, Proteins 47, 219 (2002)

Among the high scoring pairs are many cases of known interacting proteins.

Page 224: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

224

9 Coevolutionary Analysis

Idea: if co-evolution is relevant, a ligand-receptor pair should occupy related

positions in phylogenetic trees.

Goh & Cohen, 2002 showed that within correlated phylogenetic trees,

the protein pairs that bind have a higher correlation between their phylogenetic

distance matrices than other homologs drawn drom the ligand and receptor

families that do not bind.

Other Idea: analyze occurrence of proteins that can functionally substitute for

another in various organisms.

Detect analogous enzymes in thiamin biosynthesis

Page 225: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

225

Detect analogous enzymes in thiamin biosynthesis Gene names are applied according to the first gene

described from a group of orthologs.

Solid black arrows represent known or proposed

reaction steps and dashed black arrows indicate

unknown reactions. In addition, significant

anticorrelations in the occurrence of genes across

species (red arrows), and relevant in silico predicted

protein-protein interactions (blue dashed arrows) are

illustrated.

Distinct precursors have been proposed for different

species (indicated in gray). Genes with orthologous

sequences in eukaryotes and prokaryotes are in

green; genes assumed to be prokaryote-specific are

black. Interestingly, significant 'one-to-one'

anticorrelations usually involve a prokaryote-specific

and a 'ubiquitous' gene.

Abbreviations: AIR, 5-aminoimidazole ribonucleotide;

Cys, cysteine; Gly, glycine; His, histidine; HMP, 2-

methyl-4-amino-5-hydroxymethylpyrimidine; THZ, 4-

methyl-5- -hydroxyethylthiazole; Tyr, tyrosine; Vit. B6,

Vitamin B6.

Morett et al. Nature Biotech 21, 790 (2003)

Page 226: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

226

THI-PP biosynthesis pathway: analogous genesNegatively correlating gene

occurrences are highlighted using the

same colors. Species having at least

two genes with a role unique to THI-

PP biosynthesis are predicted to

possess the functional pathway. The

column 'STRING score' shows the

most significant interaction for each

gene, predicted using the STRING

server. Predicted interaction partners

are listed in the column 'Interact. with'.

COG id: „id in groups of orthologous

proteins server“

(a) Essential THI-PP biosynthesis

enzymes, which are unique to the

pathway.

(b) Essential THI-PP biosynthesis

enzymes, which have been implicated

in more than one biological process.

The thiO gene, suggested to play a

role in the pathway, was also added to

that list.

(c) Proteins predicted in silico to be

involved in the pathway.

Morett et al. Nature Biotech 21, 790 (2003)

4 analogies detected:thiE can be replaced by MTH861thiL by THI80thiG by THI4thiC by tenA

Page 227: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

227

Interpretation

Proteins that functionally substitute eachother

have anti-correlated distribution pattern across organisms.

allows discovery of non-obvious components of pathways

and function prediction of uncharacterized proteins

and prediction of novel interactions.

Morett et al. Nature Biotech 21, 790 (2003)

Page 228: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

228

Bereich 3: V10 - Integrative Biologie

1 Protein-Netzwerke: topologische Graphen-Netzwerke

2 Analyse von Stoffwechselwegen (metabolic pathways):

Konzentration auf Metabolite, enzym. Reaktionen

3 Zell-Simulationen: dynamische Simulation auf

Sekunden-Zeitskala, t = 0.01 s (V10 und V11)

Systems Biology: Integration von genomischen und

proteomischen Analysen (V12)

www.systemsbiology.org

Kom

plex

ität,

Lev

el a

n V

erst

ändn

is

Page 229: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

229

Analyse von Stoffwechselwegen: Beispiel E. coli

verwende Daten aus Datenbank EcoCyc

(siehe auch MetaCyc: Stoffwechsel von > 150 Organismen)

EcoCyc enthält 905 Reaktionen für E.coli

davon gehören 161 nicht zum Stoffwechsel kleiner Moleküle, z.B. DNA Replikation,

von den verbleibenden 744 wurden 569 mindestens einem Pfad zugeordnet

Dagegen gibt es 607 Enzyme.

Es gibt also keine 1:1 Zuordnung zwischen Enzymen und Reaktionen, denn

(1) Manche Enzyme katalyiseren mehrere Reaktionen,

und manche Reaktionen werden von mehreren Enzymen katalysiert

(2) nicht zu allen Reaktionen sind die Enzyme bekannt, die sie katalysieren.

Ouzonis, Karp, Genome Research 10, 568 (2000)

Page 230: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

230

Beispiel: Stoffwechsel von E. coli

Die 744 Reaktionen enthalten

791 verschiedene Substrate.

Ouzonis, Karp, Genome Research 10, 568 (2000)

Im Mittel enthält jede Reaktion

4 Substrate.

Page 231: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

231

Beispiel: Stoffwechsel von E. coli

EcoCyc enthält 131 Stoffwechsel-

Pfade.

Die Länge der Pfade variiert von

1 bis 16. Im Mittel 5.4.

Von den 607 Enzymen sind

100 multifunktional.

Purin-Nukleosid-Phosphorylase

und Nukleosid-Diphosphatkinase

katalysieren 7 bzw. 9 Reaktionen.

483 Reaktionen gehören zu einem

Pfad, 99 Reaktionen gehören zu

mehreren Pfaden.

Ouzonis, Karp, Genome Research 10, 568 (2000)

Page 232: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

232

Fazit

Stoffwechsel-Netzwerke von einfachen Organismen sind mittlerweile

fast vollständig bekannt.

Ist die Beschreibung mit einzelnen Stoffwechsel-Wegen adäquat?

- Reaktionen, Enzyme und Substrate gehören oft zu mehreren Pfaden.

- Die Einteilung in einzelne Stoffwechsel-Pfade ist nicht immer eindeutig.

Page 233: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

233

Metabolische Pfade in der post-genomischen Ära

(a) klassische Biochemie

bestimmt Stöchiometrien

einzelner Reaktionen

(b) Katalogisierung vieler

Reaktionen, Gruppierung nach

gemeinsamen Metaboliten führt

zu traditionellen Pfaden wie

Glykolyse, Pentose-Phosphat-

Pfad

(c) Durch komplette Information

können nun die kompletten

metabolischen Pfade zugeordnet

werden.

Page 234: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

234

Metabolische Pfade in der post-genomischen Ära

Traditionelle metabolische Pfade dienen als konzeptioneller Rahmen

für Forschung und Lehre.

Man kann dadurch Metabolismen verschiedener Organismen vergleichen.

Jedoch sind sie nicht für quantitative, systemische Bewertungen biologischer

Reaktionsnetzwerke geeignet, da sie nur Teile der Netzwerke darstellen.

Sie wurden oft in Zelltypen entdeckt, in denen sie wichtige metabolische

Funktionen übernehmen (z.G. Glykolyse in Hefe).

Man kann diese Pfade jedoch nicht einfach auf andere Zelltypen mit anderen

Enzymleveln und metabolischen Profilen übertragen.

Page 235: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

235

3 Vorgehensweisen

1 konstruiere alle Transformationswege, die von einem gegebenen

Substrat zu einem gegebenen Produkt führen

2 verwende Satz von linear (systemisch) unabhängigen Basisvektoren

im Raum der Reaktionsflüsse, durch Linearkombination sollen sich

alle möglichen Flußverteilungen darstellen lassen.

Allerdings ist die Wahl dieser Basisvektoren nicht eindeutig.

3 Konzept der elementaren (Fluss-) Moden

Eine Elementarmode ist ein minimaler Satz von Enzymen, die im

Gleichgewicht operieren können. Minimal heisst: falls nur die

Enzyme dieser Mode operieren, führt Inhibition jedes einzelnen seiner

Enzyms zum Stop aller Gleichgewichtsflüsse im System

Page 236: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

236

Beschreibung vernetzter metabolischer Pfade

(a) aus genomischen, biochemischen, physiologischen Daten wird ein

Reaktionsnetzwerk aufgestellt. Es gibt interne Flüsse innerhalb der

Systemgrenzen und externe Flüsse mit der Umgebung.

(b) Dieses Netzwerk wird durch eine stöchiometrische Matrix dargestellt,

in der Metaboliten durch Reaktionen miteinander verbunden werden.

(c) Mögliche Zustände der Zelle aufgrund dieser Matrix werden mit

Techniken wie „elementary modes“ oder „extreme pathways“ identifiziert.

Die möglichen Zustände liegen innerhalb eines Konus im durch die

verschiedenen Flüsse aufgespannten Koordinatensystem.

Papin et al. TIBS 28, 250 (2003)

Page 237: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

237

Analyse der stöchiometrischen Matrix

Analyse der Matrix S Pathway-Darstellung P.Deren Zeilen enthalten den Reaktionen entsprechende Flüsseund die Spalten die sichergebenden Pfade.

Darstellung des Reaktions-netzwerks mit stöchiometrischerMatrix S.

Metabolite

stöchiometrischeKoeffizienten der einzelnenReaktionen.

Darstellung derPfade ist möglichfür einfache Netzwerke.

Papin et al. TIBS 28, 250 (2003)

Page 238: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

238

Netzwerk-Analyse

(a) welche Substrate (A-E) sind zur

Produktion der Biomasse erforderlich

(B,E), welche nicht?

(b) Aufspüren von nicht genutzten

Reaktionen (F E), Refinement

der Annotation von Genomen.

(c) quantitative Beschreibung von

Pathway-Redundanz bzw. Robustheit

des Netzwerks: P1 und P2 führen beide

von A nach D.

(d) Reaktionen RA, RB und RC werden

stets gemeinsam benutzt. Ihre Gene

werden daher vermutlich koordiniert

reguliert.

Papin et al. TIBS 28, 250 (2003)

Page 239: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

239

E-cell: Software Umgebung zur Simulation ganzer Zellen

Institute for Advanced Biosciences der Keio University (existiert seit 1996)

Dr. Masaru Tomita, Team enthält > 50 Mitglieder!

weitere Programme für integrative Zellsimulationen:

GEPASI (1993, 1997) – Simulation von Stoffwechselpfaden

KINSIM (1983, 1997)

METAMODEL (1991)

SCAMP (1993)

DBSolve (1997)

V-Cell (1999)

es gibt auch separate Programme, mit denen man Genregulation und –expression,

sowie Signaltransduktion und Zellteilung untersuchen kann.

Das allgemeine Problem sind fehlende experimentelle Daten.

Page 240: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

240

Implementation des E-cell Systems

E-CELL wurde in C++ geschrieben, existiert nun in der Version 3.

Das Modell besteht aus 3 Listen, die bei Programmstart geladen werden:

substance list definiert alle Objekte, die die Zelle und das Kulturmedium enthalten

rule list definiert alle Reaktionen, die in der Zelle stattfinden

system list definiert die räumliche und/oder funktionelle Struktur der Zelle und

ihrer Umgebung

Der Zustand der Zelle zu jedem Zeitpunkt wird als Liste von Konzentrationen und

globalen Parametern wie Zellvolumen, pH und Temperatur angegeben.

Das Programm (simulation engine) erzeugt neue Zustände der Zelle nach

Iterationsschritten von jeweils z.B. t = 1 ms.

Page 241: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

241

Erstes Modellsystem: Mycoplasma genitalium

1996 Veröffentlichung des Genoms von Mycoplasma genitalium

Dies ist eines der kleinsten bisher bekannten Genome (580 kb).

Es enthält die kleinste bisher bekannte Anzahl von Genen (ca. 480) von allen

bisher bekannten lebenden Organismen.

Genom ist 10 kleiner als E.coli

ca. 80% der Gene sind homolog zu Proteinen mit bekannter Funktion.

Intensive Gene-Knockout Untersuchungen zeigten, dass viele der 480 Gene für

das Überleben von M. genitalium nicht notwendig sind.

Es wurde ein minimaler Satz von 127 Genen als notwendig und hinreichend für das

Überleben und einen stabilen Zustand der Zelle ausgewählt.

Page 242: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

242

Large-scale Organisation von metabolischen Netzwerken

Modell einer Zelle, die aus eigener Kraft lebt. Diese minimale Zelle besitzt 127

Gene, gerade ausreichend um Proteingehalt und Membranstruktur aufrecht zu

erhalten.

Glukose wird aus der Umgebung als Energiequelle aufgenommen; ATP wird durch

den Glykolyse-Pfad produziert und wird hauptsächlich zur Proteinsynthese

verbraucht.

Proteine und Phospholipide werden mit der Zeit spontan abgebaut.

Page 243: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

243

Ausblick

Zusätzlich zu der „virtuellen, überlebensfähigen Zelle“ und zum Modell des

menschlichen Erythrozyten werden in Keio andere Modelle konstruiert:

- ein Modell eines Mitochondriums

- ein Signaltransduktionsmodell für Chemotaxis in E.coli

Ein allgemeines Problem von umfangreichen Zellmodellen ist derzeit der

Mangel an quantitativen experimentellen Daten:

- Konzentrationen von Metaboliten und Enzymen

- Flussraten

- kinetische Parameter und Dissoziationskonstanten

Das Institute of Advanced Biosciences in Keio besteht aus 3 Zentren:

Metabolom-Forschung, Bioinformatik, Genom-Engineering.

Ziel: Entwicklung von custom-made Bakterien.

Page 244: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

244

V11 Zellsimulationen

Nerven-Verbindung (synaptischer Spalt).

Nach seiner Auschüttung bindet der

Neurotransmitter Acetylcholin (hellblaue

Kugeln) an die Acetylcholinrezeptoren

(tassenförmige Objekte) und an

Acetylcholinesterase. Doppelt besetzte

Rezeptoren (gelb) leiten Strom, der eine

Kaskade von Vorgängen einleitet, die zur

Kontraktion des Muskelstrangs führen.

Diese und nächste Stunde werden 3 Simulationspakete behandelt, E-cell, Virtual

Cell, Mcell, die 3 verschiedene Paradigmen für Zellsimulationen verkörpern

- ODE = gewöhnliche Differentialgleichungen, enthalten ∂/∂t

grösseres - PDE = partielle Differentialgleichungen, enthalten ∂/∂t und ∂/∂r

Detail - explizite Simulation der Brownschen Bewegungen einzelner

Moleküle

- Projekte unserer Arbeitsgruppe

Page 245: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

245

Virtual Cell: Software-Umgebung für computerunterstützte Zellbiologie

Prof. Leslie Loew, University of Conneticut Health Center

National Resource for Cell Analysis and Modeling

Virtual Cell

- wurde für die Zellbiologie-Community entwickelt

- ermöglicht die Konstruktion räumlicher Modelle

- Verbindung zur quantiativen Lichtmikroskopie an lebenden Zellen

- Kann man auf der Basis des komplexen räumlichen und zeitlichen Zusammen-

spiels der Zellkomponenten ein quantitatives Verständnis des gesamten zellulären

Verhaltens entwickeln?

- Sind die identifizierten Komponenten notwendig und hinreichend?

- Wie sensitiv reagiert der Gesamtprozess auf Veränderungen einer Komponente?

(Zellen sind „robust“).

- Die Simulationen werden über das Internet auf einem 16-Prozessor cluster mit

Alpha-Prozessoren durchgeführt.

Page 246: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

246

Design einer Virtuellen Zelle

Die `Physiologie' beinhaltet die

topologische Anordnung von

Kompartments und Membranen, die mit

ihnen assoziierten Moleküle, und die

Reaktionen zwischen den Molekülen.

Die getrennt definierte `Geometrie‘ ist

eine räumliche Beschreibung der

Kompartments in 0-3 Dimensionen.

Sie kann aus analytischen Ausdrücken

bestehen oder aus einem

experimentellen Bild abgeleitet werden,

das z.B. von einem Mikroskop stammt.

Das eigentliche Modell besteht aus

der Verbindung der Topologie der

physiologischen Beschreibung mit

einer geeigneten räumlichen

Geometrie.

Page 247: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

247

Virtual cell: graphische Benutzerschnittstelle (GUI)

Das GUI von Virtual Cell ist als JAVA

applet innerhalb eines Webbrowsers

entwickelt.

Hier sieht man, wie eine Zelltopologie

einer bestimmten experimentellen

Geometrie zugeordnet wird.

Page 248: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

248

Einzelschritte bei Erstellung von BioModellen

Structure Mapping – definiert die Beziehung zwischen der Physiologie (zelluläre

Strukturen) und der Geometrie des Modells. Bestimme das Verhältnis von

Oberfläche zu Volumen für die Modelle der Kompartments oder für nicht

aufgelöste räumliche Strukturen. Bilde die zellulären Strukturen auf geometrische

Objekte ab.

Wähle zwischen unterschiedlichen Randbedingungen (Wert bzw. Ableitung am

Rand = Dirichlet bzw. Neumann) für die Strukturen.

Anfangsbedingungen – Konzentrationen und Diffusionsraten können räumlich

variable definiert werden. Wähle Anfangsbedingungen für Diffusion ≠ 0.

Reaction Mapping – erlaube oder verbiete Reaktionen bzw. Flüsse.

Math Viewer – prüfe die mathematische Beschreibung, die vom Programm

automatisch für die Abbildung des physiologischen Modells auf ein

Kompartment-Modell oder auf ein räumliches Modell erstellt wird.

Page 249: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

249

Virtual cell: Ausblick

aktuelle Version:

- ermöglicht Simulation von Reaktions-Diffusionsprozessen in beliebigen

Geometrien. Anpassung notwendig für Probleme, die Änderungen der Geometrie

erfordern (Zellwanderung, Zellteilung).

-behandelt nur bestimmte Sorten von stochastischen Prozessen:

Brownsche Bewegung, gerichtete Teilchenbewegung entlang von Mikrotubuli,

Reaktion einzelner Teilchen mit kontinuierlich verteilten Molekülen.

- wenn die Anzahl an wechselwirkenden Molekülen zu klein wird, braucht man

statt der stochastischen Beschreibung Reaktionen zwischen diskreten Molekülen.

- Behandlung diskreter Zustände ist auch erforderlich zur Modellierung der Ströme

von einzelnen Ionenkanälen und deren räumlicher Verteilung.

Page 250: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

250

M-cell: Allgemeine Monte–Carlo Simulation vonzellulären Mikrophysiologien

Thomas M. Bartol Jr. Joel R. Stiles

Computational Neurobiology Laboratory Biomedical Applications

(T. Sejnowski), Salk Institute, San Diego Pittsburgh Supercomputing Center

Ziel: quantitatives, molekulares Verständnis der Nervenfortleitung,

Funktion von Nervengasen, Modulatoren, oder Autoimmunerkrankungen.

Page 251: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

251

MCell: Idee + Motivation

MCell ermöglicht 3-D Monte–Carlo Simulationen für Ligandendiffusion und

chemische Signalprozesse.

Biologische Strukturen wie Neuronen zeigen auf der subzellulären Ebene eine

enorme Komplexität und Diversität. Die inter- und intrazelluläre Kommunikation

geschieht mittels verschiedener chemischer Signalpfade.

Am Prozess der synaptischen Transmission sind z.B. Neurotransmitter und

Neuromodulatoren beteiligt. Ebenfalls beteiligt sind Proteine, die die Auffüllung

und Entleerung der synaptischen Vesikel mit Neurotransmitter-Molekülen

beeinflussen, Rezeptorproteine, Transportproteine, sowie oxidierende und

hydrolytische Enzyme.

Mit Mcell kann man alle diese Parameter in beliebig komplexen räumlichen

Darstellungen der beteiligten zellulären Strukturen darstellen und variieren.

Anfangsbedingung: Eine Monte–Carlo Simulation beginnt damit, dass die

Zellumgebung mit einzelnen Liganden und Liganden-bindenden Molekülen

angefüllt wird.

Page 252: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

252

Warum soll man Monte Carlo Algorithmen benutzen? 1. löse PDEs zwischen Voxels

Die Diffusion von Ligandenmolekülen in Lösung basiert auf Brownscher

Bewegung.

Der mittlere Netto-Fluss aus einer Region des Raums in eine andere hängt von

der Mobilität der Moleküle und dem räumlichen Konzentrationsunterschied der

beiden Regionen ab.

Eine Methode, den räumlichen Gradienten zu berechnen, ist, den Raum in kleine,

üblicherweise kubische Volumenelemente (Voxels) aufzuteilen, innerhalb derer

man gute Mischung annimmt, und dann mittels eindimensionaler partieller

Differentialgleichungen den mittleren Fluss durch die Verbindungsfläche zwischen

angrenzenden Voxeln zu berechnen.

Sofern die Granularität der räumlichen und zeitlichen Unterteilung fein genug ist,

wird eine numerische Simulation das korrekte mittlere Verhalten des Systems

erzeugen.

Page 253: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

253

löse PDEs innerhalb von Voxels

Man kann weitere PDEs hinzufügen um die mittlere Raten chemischer Raten

Reaktionen innerhalb jedes Voxels zu beschreiben. Man erhält damit eine

Simulation des räumlichen und zeitlichen Diffusionsverhaltens und der

chemischen Reaktionen.

Für einfache räumliche Anordnungen kann diese Methode sehr effizient sein.

Für komplexe (d.h. realistische) Structuren werden die räumlichen Unterteilungen

immer komplexer und eine grosse Anzahl an Voxeln ist erforderlich.

Auf jeden Fall liefert die Simulation keine direkten Informationen über die

stochastischen Schwankungen, die auf der endlichen Anzahl an beteiligten

Molekülen beruhen. Diese sind in biologischen Systemen jedoch oft von grossem

Interesse.

Page 254: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

254

2. völlig andere Methode: Random walk

Direkte Beschreibung der Brownschen Bewegung der einzelnen

Ligandenmoleküle. Durch Verwendung von Zufallszahlen werden bei jedem

Zeitschritt beliebige erlaubte Richtungen und Verschiebungen ausgewählt. Indem

die Zeitschritte und Verschiebungen deutlich kleiner als die Teilchengröße gehalten

werden, erreicht man eine hohe numerische Genauigkeit.

Kollisionen mit beliebigen Oberflächen werden entdeckt und gemäss von Regeln

behandelt (Bindung, Transport, Reflexion etc.). Voxel sind unnötig.

Gleichsam werden Kollisionen mit möglichen Bindungsstellen entdeckt und

behandelt. Für die Ausbildung von Bindungen werden Bindungswahrscheinlich-

keiten festgelegt. Die momentane Entscheidung wird durch eine Zufallszahl

bestimmt.

Alle möglichen Vorgänge werden auf einer Molekül-für-Molekül Basis betrachtet.

Dadurch enthält die Simulation realistische stochastische Schwankungen in

Abhängigkeit von der räumlichen Verteilung und der Anzahl an Molekülen.

Page 255: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

255

Typische Vorgänge während einer MCell-Simulation

- Freisetzung von Ligandenmolekülen aus einer

Struktur (z.B. einem Vesikel)

- Erzeugung oder Vernichtung von Ligandenmolekülen

(z.B. Synthese, Hydrolyse, oder Redox-Reaktionen)

- Diffusion der Liganden innerhalb des Raums

zwischen beliebigen Oberflächen

(z.B. prä- und postsynaptische Membranen)

- chemische Reaktionen von Ligandenmolekülen

mit “Effektor”molekülen

(z.B. Rezeptoren oder Enzyme)

Page 256: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

256

MCell: biologische Skala

Der Level an Detail von MCell Simulationen liegt

zwischen denen von atomistischen

Moleküldynamik-Simulationen und der

Simulationen gesamter Zellen (Virtual Cell, E-cell).

Die Diffusion einzelner Ligandenmoleküle wird als

Brownsche Bewegung mit einem Random–Walk–

Algorithmus simuliert.

Mittlere Ratenkonstanten werden in Monte– Carlo–

Wahrscheinlichkeiten für Reaktionen einzelner

Moleküle pro Zeitschritt umgeformt.

Damit können die Ligandenmoleküle stochastisch

reagieren sobald sie an Rezeptoren, Enzyme oder

Transporter gebunden sind.

Page 257: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

257

ZusammenfassungZellsimulationen sind im Kommen!

Detaillierte, dreidimensionale Modelle sind notwendig,

sobald Lokalisation z.B. an Membran stattfindet, und

sobald wichtige Moleküle in kleinen Zahlen vorliegen.

Schlagwort: Systems Biology.

Messung von kinetischen Konstanten im Allgemeinen mühsam.

Daher zunächst Konzentration auf Modellsysteme.

Molekulare Simulationen können sehr aufwendig sein.Ein Volumen von 100 nm3 enthält ca. 1000 Proteine.

1 μm3 enthält dagegen bereits ca. 106 Proteine.

Bei Beschränkung auf Molekül-Konzentrationen kann

dagegen fast in real time simuliert werden.

Page 258: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

258

V12 Bioinformatik-Tools für HT Proteinanalyse

traditionelle Ansätze: reduktionistisch; finde einzelne Gene und die kodierten

Proteinprodukte, die einen beobachteten Phänotyp definieren.

Oft werden hierdurch komplexe Systeme zu stark vereinfacht.

Hoch-Durchsatzmethoden: parallele Untersuchung vieler gleichzeitiger Vorgänge

omics-Welt: Genomics, Proteomics, Metabolomics, Transcriptomics ...

Page 259: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

259

Wie soll man das Proteom untersuchen?

Proteomics zerfällt

derzeit in 2 Bereiche

Expression Proteomics- katalogisiere alle Proteine in

einer Probe- differentielle Expression:

Unterschied zwischen mehreren Proben

Cell-map Proteomics- Protein-Protein Wechselwirkung- Protein-Liganden Wechselwirkung- zelluläre Lokalisation

Page 260: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

260

Expressions-Proteomik

Das zelluläre Proteom enthält 10.000ende von Proteinen,

deren Konzentrationen mehr als 106 fach verschieden sind.

Prof. Walter (UdS)

Page 261: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

261

Technologien in Proteomics

Separation von Proteinen- 2-D gel Elektrophorese- Flüssig-Chromatographie- Affinitäts-Chromatographie

Annotation einzelner Proteine- Massenspektroskopie- kombinierte HPLC und MS- Protein-Quantifizierung mit MS

Protein-Chips

Page 262: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

262

Analytische versus funktionelle Protein-Microarrays

(a) analytische Microarrays:

beobachte Proteinexpression und

klinische Diagnostik. Vergleiche

Proteinproben zweier biologischer

Zustände, wobei die Protein

entweder mit einem grünen oder

mit einem roten Farbstoff gelabelt

werden. Wenn eine Farbe

überwiegt, liegt das Protein

vornehmlich in dem

entsprechenden Zustand vor.

Phizicky et al. Nature 422, 208 (2003)

(b) funktionelle Microarrays: visualisieren Proteinaktivität, -bindung oder

posttranslationelle Modifikationen. Auch geeignet um Substrat- oder Inhibitor-

bindung an Enzyme zu messen und zur Konstruktion biologischer Netzwerke.

Page 263: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

263

Phizicky et al. Nature 422, 208 (2003)

Yeast Two-Hybrid Methoden

(a) die DNA-bindende und die

Aktivierungsdomänen (Kreise)

sind an die Protein X und Y

fusioniert. Genexpression des

Reporters beginnt.

(b) Standard-2YH-Suche von X

gegen eine komplexe Bibliothek von

zufälligen, mit Y fusionierten Peptid-

Schnipseln.

(c) 2YH-Array. Screene X gegen

komplette Satz von ORFs.

Page 264: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

264

Zweidimensionale Gelelektrophorese (2D PAGE)

2D Polyacrylamid-Gel für ein Biopsie-

Probe mit menschlicher Leber.

In x-Richtung – nichtlinearer pH-

Gradient - geschieht eine Auftrennung

nach dem isoelektrischen Punkt

(bei welchem pH ist die Ladung des

Proteins neutral?).

In y-Richtung geschieht durch Variation

des Anteils an Polyacrylamid eine

Trennung nach der molekularen Masse.

Problem: man kann nur Proteine

visualisieren, die relativ häufig

vorkommen. Banks et al. Lancet 356, 1749 (2000)

Page 265: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

265

Annotation von 2D-Gelen: mühsam

Banks et al. Lancet 356, 1749 (2000)

Page 266: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

266

Fallstudie: Expressions-Proteomik

Die Balken 1-6 stammen von Kardiomyopathie-diagnostizierten Rindern, 7-12

von gesunden Rindern. 13-16 sind Rinder, die selbst klinisch normal sind, aber

von kranken Rindern abstammen (nur SPP 943 ist deutlich abgesenkt).

Banks et al. Lancet 356, 1749 (2000)

Proteine des

Rinderherzen:

welche Proteine sind

im Herzen von

Rindern mit einer

vererbten

Kardiomyopathie

reduziert?

Page 267: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

267

(Bio)informatische Aufgaben bei Analyse von 2D-Gelen

Zwei Gele stimmen oft in Grösse,

Kontrast, Auftrennung in x- und

y-Richtung nicht überein.

Darüberhinaus treten Unterschied

als Folge der experimentellen

Bedingungen auf.

Der Vergleich zweier Gele erfordert

daher oft Methoden der Bildbearbeitung,

z.B. mit dem Programm Flicker

http://www-lecb.ncifcrf.gov/flicker/

Eine Laplace-Transformation

verbessert die Übereinstimmung

zwischen dem linken und rechten

Gel erheblich in (b) gegenüber (a). Lemkin PF, Electrophoresis, 18, 461-470 (1997)

Page 268: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

268

Fraktionierung der Probe vor 2D PAGE-Analyse

Hanash, Nature 422, 226 (2003)

Oft gibt es das Problem, dass die Proteineigen-

schaften über einen sehr grossen Bereich

variieren.

Lösung: konzentriere auf Teil der Proteine.

z.B. (a) versehe die ansonsten schwer detek-

tierbaren Proteine an der Membranoberfläche

mit einem Biotin ‚Anker‘ (tag).

Auftrennung in 2D-Gel. Erkenne die markierten

Proteine mit Avidin. Identifikation mit MS.

(b) Getrennte Visualisierung der markierten

Proteine (oben) gegenüber der Darstellung

des gesamten Zell-Lysats (unten).

Dies erlaubte die Identifikation neuer Proteine

auf der Oberfläche von Krebszellen.

Page 269: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

269

Direkte Visualisierung der Protein-Verteilung mit MS

Ein gefrorener Schnitt durch

ein Rattengehirn wird mit

einem MALDI MS-Gerät

abgetastet.

Hier: je 15 Spektren für 74

75 Punkte, gleichzeitige

Aufnahme aller Massen.

Visualisiere den Schnitt

getrennt für verschiedene

Verhältnisse von Masse und

Ladung (jeweils oben rechts

gezeigt).

z.B. ist die Proteindichte für

m/z=6844 recht gering.

Hanash, Nature 422, 226 (2003)

Ziel: vergleiche gesundes und krankes Gewebe.

Aufgabe: Bildverarbeitung

Page 270: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

270

Proteomics mit Massenspektroskopie (MS)

(1) Aufreinigung (SDS-PAGE).

Banden ausschneiden.

(2) Problem: Gesamtmasse eines

Proteins ist nicht aussagekräftig.

Daher Trypsin (Protease)-Verdau

Peptidschnipsel unterschiedlicher Länge,

diese sind charakteristisch für Protein.

(3) MS-Analyse in Vakuum

(4) Detektion der Massenintensität bei

vorgegebenem Verhältnis von Masse m

und Ladung z.

(5) Weitere Auftrennung der einzelnen

Peptidschnipsel in zweitem MS-Schritt.

Teilweise Sequenzierung möglich.

Aufgabe: Annotation des Proteins aus

Sequenz-Datenbank. Tyers, Mann, Nature 422, 193 (2003)

Page 271: 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse

13. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

271

Sequenzdiversität in der Zelle: Analyse mit MS

Organismus kodiert über das

Genom viele Isoformen.

Identifikation der Proteine durch

Datenbanksuche um die Lücken

der exp. Daten zu füllen.

Sequenz-Datenbanken enthalten

jedoch keine komplette

Information über die natürlich

auftretende Sequenzdiversität.

Rappsilber, Mann, TIBS, 27, 74 (2002)