3 proteinstrukturen - uni-leipzig.de

3 ProteinstrukturenModul 10-202-2208

Bioinformatik von RNA- und Proteinstrukturen

Stephan Bernhart

Professur Bioinformatik

29. Mai 2017

Stephan Bernhart (Professur Bioinformatik) 3 Proteinstrukturen 29. Mai 2017 1 / 42

Proteinogene Aminosäuren

Alanin Ala A Valin Val V

Leucin Leu L Isoleucin Ile IMethionin Met M

Prolin Pro P Phenylalanin Phe FTryptophan Trp W

Asparaginsäure Asp D

Glutaminsäure GLu E

Lysin Lys K

Arginin Arg R

Histidin His H

unpolar/hydrophob basisch

sauer

Serin Ser S Cystein Cys C Asparagin Asn NGlycin Gly G

polar/neutral

Threonin Thr TTyrosin Tyr Y Glutamin Gln Q


Sekundärstruktur

α-Helix

rechts gedrehte, 3,6 As/Windung (3.613 Helix)

stabilisert durch H2-Brückenbindungen zw. 1. und4. As (in Windung)

Seitenketten zeigen nach auÿen

sehr stabil

Andere helikale Strukturen: π (416)− helix , 310helix

β-Faltblatt

2 Pp-ketten zieharmonikaartig verknüpft

antiparallel, parallel

Peptidgruppen - �Fächern�, C-Atome - �Kanten�

Stabilisierung durch H2Bb zw. Peptidbindungen

Seitenketten sehr nah beieinander


Protein Sekundärstrukutr 2

Weitere Strukturtypen:

(β)Turn verbindet Helices undFaltblätter

Turns enthalten oft polare undgeladene Aminosäuren

Sind an der Ober�äche vonProteinen und oft an aktivenZentren.

Dadurch weniger stark in ihrerStruktur eingeschränkt

Coil (Knäuel): Alles, was nichtHelix, Faltblatt oder Turn ist.


Ramachandran Plot

Trägt die �erlaubten� φ-ψKombinationen für den Backbone auf

Generell haben AS mit kleinerenSeitenketten mehr Möglichkeiten

Prolin ist ein Sonderfall

Originale Version Gemessene Version (heutige Daten)


Sekundärstrukturvorlieben der Aminosäuren

Jede Aminosäure (jedes Aminosäurepaar hat einen eigenenRamachandran Plot

Deshalb haben die Aminosäuren auch unterschiedliche Häu�gkeiten inden einzelnen Strukturklassen

Glycin Prolin


Unterschiede zur RNA-Sekundärstrukturvorhersage

Protein Sekundärstrukutren haben keine so starke energetischeStabilisierung

Grund: Wassersto�brücken können auch mit umgebenden Wassergebildet werden.

Die Stabilisierung ist grösstenteils entropischer Natur (Bei Bindung anWasser gehen Bewegungsfreiheitsgrade verloren)

Non-crossing nicht sinnvoll gegeben

Strukturvorhersagen durch Energieminimierung sind also nicht möglich

Man geht auch nicht von einer hierarchischen Faltung aus

Wegen fehlender Energiefunktionen keine Zustandssummen

Sekundärstrukturen werden knwoledge - based vorhergesagt


Chou Fasman Algorithmus

Algorithmus zur Vorhersage von Proteinsekundärstrukturen aus den1970ern

Beruht auf empirischen Frequenzen der Aminosäuren in den einzelnenStrukturmerkmalen

Zunächst werden allen Aminosäuren ihre Werte aus der folgendenTabelle zugeordnet:


Chou Fasman Tabelle

Name P(α) P(β) P(Turn) f(i) f(i+1) f(i+2) f(i+3)

Alanin 142 83 66 0.06 0.076 0.035 0.058Arginin 98 93 95 0.07 0.106 0.099 0.085Aspartat 101 54 146 0.147 0.110 0.179 0.081Asparagin 67 89 156 0.161 0.083 0.191 0.091Cystein 70 119 119 0.149 0.050 0.117 0.128Glutamat 151 37 74 0.056 0.060 0.077 0.064Glutamin 111 110 98 0.074 0.098 0.037 0.098Glycin 57 75 156 0.102 0.085 0.190 0.152Histidin 100 87 95 0.140 0.047 0.093 0.054Isoleucin 108 160 47 0.043 0.034 0.013 0.056Leucin 121 130 59 0.061 0.025 0.036 0.070Lysin 114 74 101 0.055 0.115 0.072 0.095Methionin 145 105 60 0.068 0.082 0.014 0.055Phenylalanin 113 138 60 0.059 0.041 0.065 0.065Prolin 57 55 152 0.120 0.301 0.034 0.068Serin 77 75 143 0.120 0.139 0.125 0.106Threonin 83 119 96 0.086 0.108 0.065 0.079Tryptophan 108 137 96 0.077 0.013 0.064 0.167Tyrosin 69 147 114 0.082 0.065 0.114 0.125Valin 106 170 50 0.062 0.048 0.028 0.053


Chou Fasman IIDann werden Helices identi�ziert:

I Nukleationspunkte werden identi�ziert: 4 AS eines intervals der Länge6 müssen P(α) > 100 erfüllen

I Von diesen aus werden die helicale Bereiche verlängert, bis für einInterval von 4 AS gilt:P(α) < 100

I Die identi�zierten Bereiche werden als Helix bezeichnet, wenn sie:F Länger als 5 AS sindF Das mittlere P(α) grösser ist als das mittlere P(β)

I Solange, bis keine neuen Helices mehr gefunden werdenÄhnlich wird für Faltblätter vorgegangen:

I Nukleationspunkte werden identi�ziert: 3 AS eines intervals der Länge5 müssen P(β) > 100 erfüllen

I Von diesen aus werden die Faltblattbereiche verlängert, bis für einInterval von 4 AS gilt:P(β) < 100

I Die identi�zierten Bereiche werden als Faltblatt bezeichnet, wenn sie:F Ein mittleres P(β) > 105 habenF Das mittlere P(β) grösser ist als das mittlere P(α)

Überschneidungen werden dem Strukturtyp mit der höheren mittleren�Wahrscheinlichkeit� zugeordnet.


Chou Fasmann III

Turnvorhersagen werden für Tetramere berechnet

p(t, j) = f (j)f (j + 1)f (j + 2)f (j + 3)

Ein Turn an Stelle j existiert dann, wenn giltI p(t, j) > 0.000075I Das Tetramer ein mittleres P(turn) > 100 hatI Die mittleren P(α) < P(turn) und P(β) < P(turn) für das Tetramer

Nachteil: (Originale) parameter schlecht (weil Datenbasis zu klein)

Nachteil: Wahrscheinlichkeiten sind unabhaängig von den Nachbarn

Nachteil: Zu viele helicale Bereiche und Faltblätter und zu wenigeTurns werden vorhergesagt

Nachteil: Performance ist schwach (ca. 50-60%) im Vergleich zumoderneren Methoden


GOR algorithmus

Algrithmus nach Garnier, Osguthorpe and Robson

Auch auf Häu�gkeiten von AS in Sekundärstrukturelementen basierend

Allerdings werden die Nachbarn auch in Betracht gezogen

Fenster der Länge 17 werden gescored

Es gibt eine 17x20 Matritze für jeden Strukturtyp

Darin stehen bedingte Wahrscheinlichkeiten

Jede dieser Matritzen wird evaluiert, der beste Score gewinnt


GOR algorithmus

Helices brauchen mind. 4 aufeinanderfolgende helix basen

Faltblätter brauchen mind. 2

Durch Hinzunahme evolutionärer Information kann die Leistung desAlgorithmus noch gesteigert werden.

Trotzdem bleibt die Genauigkeit etwas hinter der der Methodenzurück, die auf machinellem lernen beruhen.


Machinelles Lernen

Moderne Sekundärstrukturvorhersageprogramme arbeiten vorwiegend mitder Methode des maschinellen Lernens.Dabei werden meist für Sequenzmotive verschiedener Grösse Vorhersagengemacht. Die grosse Zahl von bekannten Proteinstrukturen macht dasTrainieren auch für grosse Motive möglich.Folgende Methoden wurden schon benutzt:

Neuronale Netze (z.B. PSIPRED, JPRED)

Conditional Random Fields

Support Vektor Maschinen (gut für turns)

Mit diesen können Genauigkeiten bis zu 80% erreicht werden.Häu�g auch majority vote.


Coiled coil Strukturen

α-helices, die umeinander gewickelt sind

2,3 (häu�g), bis zu 7 helices

Einzelne helices bestehen aus einemheptad-repeat: hxxhcxc

Die hydrophoben AA bilden Streifen entlangder Helix

�Knobs into holes� Crick

Diese hydrophoben Streifen von 2 Helicesverbinden sich in Wasser

normalerweise linkshändiger supercoil

Bsp: Leucin zipper (Leucin als h)

parallel and anti-parallel


Vorhersage von coiled coils

Vorhersage von CCD (nicht die struktur selbst)

Paircoil2

Aus Datenbank: heptad-repeats, und paarweise AS-Häu�gkeiten

paare von i,i+1; i,i+2 und i,i+4 werden angesehen.

Für jede position im heptad-repeat wird eine propensity ausgerechnet

Die maximale propensity wird dann als Ergebnis für eine AS genommen

propensityk =13ln

P(k , k + 1)P(k , k + 2)P(k , k + 4)P(k + 1)P(k + 2)P(k + 4)

LOGICOIL: Bayesian variable selection and multinomial probitregression


Domänen

Protein Domänen sind unabhängige Module in Proteinen

Sowohl Funktion als auch Faltung meist unabhängig

Meist Globulär, konserviert, 25aa-500aa

Durch neue Kominationen von Domänen sind Rekombinante Proteine

zB. Bindungs-domänen (DNA, RNA, Protein),

Katalytische domänen

Oft durch Linker ohne feste Struktur verbunden


3D Strukturvorhersage

Levinthal Paradoxon: Versuchte ein Protein alle möglichen Strukturen,dauerte das länger, als das Universum existiert.

Trotzdem �nden Proteine ihre Struktur

Erklärungen beinhalten modulares Falten, unterstütztes Falten, diverseFaltungstrichter

Wir versuchen, die 3D Struktur von Biomolekülen vorherzusagen


Protein folds

All α

All β

a/b alternating helices and strands (parallel)

a+b helices and strands occur separately along the backbone

Multi domain (α and β)

Membrane and cell surface proteins

small proteins


Homologiemodellierung

Es gibt weit weniger Proteinfaltungen (1221 SCOPe) alsProteinsequenzen

Es werden järlich nurmehr wenige �neue� Faltungen gefunden

Fast alle neu identi�zierten Proteine haben also eine Faltung (grobeStruktur) die schon in Datenbanken vorkommt

Evolutionär konservierte Proteine haben auch eine konservierte Faltung

Mittels Alignment Algorithmen kann man aus Sequenzen mitbekannter Struktur diejenige auswählen, die evolutionär am nächstenist

Die Struktur der gefundenen Sequenz wird dann als Gerüstgenommen, die neue Sequenz (dh ihre AS) hineingelegt.

Dann wird die Energie minimiert (siehe hinten)Genauigkeit ist Abhängig von der Sequenzidentität:

I bei 70% Sequenzidentität 0.1-0.2 nm für C (α)I bei 25% noch 0.2-0.4 nm (C (α))


Homologiemodellierung II

Homologiemodellierung ist ein 4-Stu�ger Prozess:Auswahl der Vorlage (z.B. mit BLAST, Protein threading)

I Nur Vorlagen mit gutem E-Value verwendenI Zur Auswahl auch andere Informationen (2D Struktur, coverage)

berücksichtigen

Sequenzalignment (manchmal auch Pro�le alignment)Bauen des Modells

I Aus Fragmenten der bekannten Struktur(en): Kern von einer Struktur,Aussen möglicherweise von einer Anderen

I Aus Segmenten der Sequenz: Kleine Stücke (von möglicherweiseunterschiedlichen Vorlagen) werden zusammengesetzt

I Verwenden räumlicher EinschrÃ¤änkungen: Z.B torsionswinkel desBackbones und cα Distanzen werden eingeschränkt. (Analog zur NMRStrukturidenti�zierung)

I Auch für Loops gut geeignet


Homologiemodellierung III

Bewertung der StrukturI Eine Energiefunktion wird auf die Struktur angewandt, um die

Vorhersagequalität einzuschätzenI Mit Stastistischen (Kontakt)PotentialenI Mit physikalischen Kraftfeldern


Threading (Fädeln)/Fold recognition

Wenn man durch Alignment keinen guten Kandidaten fürs homologymodelling �ndet, kann man threading verwenden.

Datenbank bekannter Strukturen (PDB, SCOPe, etc) und verwirft zuähnliche SequenzenMan benutzt eine Scoringfunktion

I Möglichst schnell (Sehr viele Strukturen müssen gescored werden)I Am einfachsten: Pro�le (1D) Scoring (Buried/Ober�äche, SecStruc)

=> pro�le Alignment.I Sonst meist stochastische Ansätze

Sequenz mit Scoringfunktion an jede Struktur aus Datenbank aligniert

Die statistisch wahrscheinlichste Strukturvorlage wird Ausgangspunktfür homology modelling


Gitterproteine

Starke Vereinfachung des Faltungsproblems

AS werden auf Punkte auf einem Gitter reduziert.

Meist werden kubische oder Dreiecksgitter verwendet.

Meist werden AS in nur zwei Gruppen eingeteilt (Hydrophob udnPolar)

Einfachste Energiefunktion: maximiere Anzahl der H-H Kontakte

Gesucht wird ein sich selbst vermeidender Pfad durch das Gitter


Gitterproteine

Taken from K. J. Chem. Phys. (2000)


Ab initio

Generate the structuresI Coarse graining:

F Only Cα atoms.F All backbone atomsF Backbone and centre of mass of Side chainsF All atoms

I Simulated annealing (Monte carlo, cooling means lower acceptance ofhigher energy

I Steepest descent (�nd minimums)I Newton xn+1 = xn − f (xn)

f ′(xn)I Conjugate gradientI move sets also swapping fragments

Energy function to score structuresI Physical Potentials (Molecular force �elds)I Knowledge Based potentials


CASP

Critical assessment of structure prediction

für Proteine (RNA)

Wettbewerb von Strukturvorhersageprogrammen

Vorhersagen von Strukturen, die bald geklärt werden

Letztes: 2016 (CASP12), alle 2 Jahre

�Gewinner�: RaptorX, Ifold, Deepfold, MetaPSICOV


RaptorX (Server)

Threading ansatz mit regression tree als scoringEinfache oder schwierigere Regeln zur ermittelung eines scores

I if mutationscore< −50→ log likelihood = ln 0.9I if −50 <mutationscore< −10∧ sec. struc score> 0.9∧solvent

accessibility score> 0.9→ log likelihood = ln 0.7Analog positions spezi�scher scoring matritzen kann man scoringpositionsabhängig machenVerwendet NEFF (die erwartete Anzahl an AS substitutionen) (1-20)NEFF kleiner heisst schlechtere alignments und StrukturvorhersagenAlingment bei hohen NEFFs mehr vom Sequenzpro�l abhängigBei niedrigem NEFF eher von StrukturGap penalties auch NEFF abhängigQualität eines alignments wird mittels Neuronaler Netze gescoret(SecStruc, SAA, Contacts,Sequence, Gaps ,...)Struktur wird dann mit MODELLER generiert aus templatesVerwendet gleichzeitiges Strukturalignment einer Sequenz an mehrereTemplates (konsistenz der Paarweisen Alignments)


Deepfold

Contact map vorhersage

Deep learning based

Verwendet MSAlignments von ähnlichen Sequenzen

Versucht Domänenstruktur anhand von Gap-patterns zu �nden

Sekundärstruktur und Solvent accessibility für Domänen vorhergesagt

Co-evolutionmuster zwischen AS (2D)

Mittels neuronaler Netze Kontakte zwischen AS Vorhersagen


Ifold_1 Human

Ifold Eigentlich nicht zur Strukturvorhersage gedacht

Vereinfachte Molekulardynamik (Discrete molecular Dynamics)

Zwei punkte pro AS

Normalerweise: Kontakte (abstandsab�angig) stabilisierend oderdestabilisierend

Stabilisierend, wenn in Ausgangsstruktur vorhanden

Ifold server basierend auf DMD (1998)


Molekularmechanik

Mit Hilfe physikalischer Kraftfelder wird Molekülstrukturen eineEnergie zugewiesen

Proteine und Nukleinsäuren sind (viel) zu gross für die Anwendung vonquantenmechanischen (auch semi-quantenmechanischen) Ansätzen.

Daher wird ein rein mechanischer Ansatz verwendet

Mittels geeigneter Minimierungsverfahren (z.B. gradient descent) kannman eine Struktur lokaler minimaler Energie �nden

Ausserdem kann das globale optimum mit Methoden wie simulatedannealing oder anderen Monte Carlo Verfahren gesucht werden.

Die Energie einer Struktur setzt sich aus kovalenten und nichtkovalenten Teilen zusammen.

E (S) = E kovalent(S) + E nicht-kovalent(S)


Kovalente Terme

Die Kovalenten Terme setzen sich aus

Bindunslängen

Bindungswinkeln

Torsionswinkeln

zusammen.

E kovalent(S) = Ebindung(S) + EWinkel(S) + ETorsion(S)


Nicht kovalente Terme

Die nicht kovalenten Terme setzen sich aus

Elektrostatischen Wechselwirkungen

Van der Waals Wechselwirkungen

zusammen.

E nicht kovalent(S) = E elektrostatisch(S) + E Van der Waalsl(S)


Bindungslänge

Chemische Bindungen haben einen Gleichgewichstabstand

Abhängig von Atom und Bindungstypen

Wird als harmonisches Potential oder Morse potential modelliert

Sehr stark, aber auch sehr lokal, nur O(n) für n Atome

harmonisch:EBindung(S) =

∑Alle Bindungen

ke(r − r0)2

Morse:EBindung(S) =

∑Alle Bindungen

De(1− ea(r−r0))2

r0 = Gleichgewichtsabstand, De =Dissoziationsenergie, ke =Kraftkonstante und a=

√ke/2De


Morse Potential


Bindungswinkel

Die Torsionswinkel zwischen 3 Atomen, die durch 2 Bindungenverknüpft sind

O(n)Abhängig von Bindungstyp und -atomen

EWinkel(S) =∑

Alle Bindungswinkel

ke(α− α0)2


Torsionswinkel

Die Torsionswinkel zwischen 4 Atomen, die durch 3 Bindungenverknüpft sind (vgl. φ und ψ im Ramachandran plot)

Schwächer als die anderen 2 kovalenten Terme

O(n) (Maximal 1 mal pro Bindung)

Abhängig von Bindungstyp und -atomen

ETorsion(S) =∑

Alle Bindungen

ke(1+ cos(nα− α0))

UC Davis ChemWik


Elektrostatische Wechselwirkungen

Werden über das Coulomb potential berechnet

Werden nur langsam mit Abstand kleiner

Dadurch sind sehr viele Terme zu berechnen

Versuch, durch Abschneiden (am besten mit dampening function) dieAnzahl an berücksichtigten Interaktionen zu verringern

Meist noch ein eigener Wassersto�brückenterm

E elektrostatisch(S) =∑i ,j

qiqj

ex rij

mit qi der Ladung von Atom i , rij der Distanz von i und j sowie ex einerz.B. Lösungsmittelabhängigen Konstante


Van der Waals Wechselwirkungen

Beinhlatet alle Kräfte, die zu keiner der anderen Kategorien gehören

Das sind Kräfte zwischen (induzierten und permanenten) Dipolen

Sinken sehr stark mit dem Abstand

Werden meist mit einem Lennard Jones Potential beschrieben

E Van der Waals(S) =∑i ,j

η[(rm

r)12 − 2(

rm

r)6]

mit η der Tiefe des Potentialtopfs und Rm dem Abstand beim Minimum


Lösungsmittel

Das Lösungsmittel spielt bei der Berechnung eine wichtige Rolle

Berechnungen im Vakuum geben falsche Ergebnisse bei Biomolekülen

Es müssen allerdings sehr viele Wassermoleküle berechnet werden(langsam)

Ein Lösungsansatz ist �Implicit Solvent�, wo die E�ekte desLösungsmittels simuliert werden

Das führt natürlich zum fehlen von strukturell wichtigenWassermolekülen


Knowledge based potentialsDescriptors, usually with some log observed

expected

Einfache kontaktpotentiale (wie de�niert sich kontakt?)

Kompliziertere Potentiale zB QUARK: linearkombination von 11termen

Backbone atomic pair-wise potential

Side-chain center pair-wise potentials

Excluded volume

Hydrogen-bonding

Solvent accessibility

Backbone torsion potential

Fragment-based distance pro�le (Cα)

Radius of gyration

Strand-helix-strand packing (no left handed βαβ)

Helix packing

Strand packingStephan Bernhart (Professur Bioinformatik) 3 Proteinstrukturen 29. Mai 2017 41 / 42

Bilder aus wikipedia, wenn nicht anders angegeben


3 proteinstrukturen - uni-leipzig.de

Documents