protein-protein docking-based virtual screening

58
スライド作成:大上 雅史 (Masahito Ohue) 2014/06/04 Changsheng Zhang 1† , Bo Tang 2† , Qian Wang 1 , Luhua Lai 1,2* Proteins, May 2014, early access タンパク質ドッキングに基づくバーチャルスクリーニングによるタンパク質結合相手の探索

Upload: masahito-ohue

Post on 15-Jan-2015

1.003 views

Category:

Engineering


0 download

DESCRIPTION

Changsheng Zhang, Bo Tang, Qian Wang and Luhua Lai. Discovery of binding proteins for a protein target using protein-protein docking-based virtual screening. Proteins, 2014 (early access on May 26)

TRANSCRIPT

Page 1: Protein-protein docking-based virtual screening

スライド作成:大上 雅史 (Masahito Ohue)

2014/06/04

Changsheng Zhang1†, Bo Tang2†, Qian Wang1, Luhua Lai1,2*

Proteins, May 2014, early access

タンパク質ドッキングに基づくバーチャルスクリーニングによるタンパク質結合相手の探索

Page 2: Protein-protein docking-based virtual screening

Abstract

Introduction

Materials and Methods - Data set preparation for all-to-all docking

- Sequence alignment

- Protein-protein docking using SDOCK

- Distance between two docking solutions

- Testing method and performance assessment method

- Screening for potential TNFα-binding proteins

- Hydrophobic packing score for protein-protein interfaces

- Protein expression and purification

- Surface Plasmon Resonance (SPR) binding assays

Results - Performance using the lowest docking score for estimation of binding probability

- Average Z-score of the docking scores

- Convergency of the low-score conformations

- The hybrid scoring function

- Docking and screening results

- Binding ability of the 16 potential TNFα-binding proteins

Discussion

Conclusions

2

論文の目次

Page 3: Protein-protein docking-based virtual screening

低分子界隈でのバーチャルスクリーニング(VS)の発展

- タンパク質-低分子ドッキングを用いて有望な低分子を探す

- 低分子創薬でよく使われるようになってきた

この研究ではタンパク質同士の複合体を対象

- タンパク質ドッキング(protein-protein docking)

- 剛体ドッキングプログラムSDOCKを用いて総当たり(all-to-all)計算

• all-to-all protein-protein docking-based virtual screening

- 正例ペアと負例ペアの識別に,親和性とエネルギー地形の特徴を取り入れたスコア関数を使った

• 最良ドッキングスコア,平均Zスコア,候補構造間距離を考慮した

• 総当たりドッキングテストでスコア関数の最適化

3

Abstract

Page 4: Protein-protein docking-based virtual screening

TNFα (tumor necrosis factor-α) タンパク質に適用

- 関節リウマチ(rheumatoid arthritis)などの

自己免疫疾患(autoimmune disease)の創薬ターゲット

- 677タンパク質をスクリーニング

- 上位20%のスコアを得た6769タンパク質を選択

#Abstractの数字が間違ってる

- そのうち16タンパク質を実験(SPR)にかけた

- 2個のタンパク質がin vitro (SPR)でTNFαの結合能を示した

タンパク質と特異的に結合するターゲットを探索できる強力なアプリケーションであることを示した

4

Abstract

Page 5: Protein-protein docking-based virtual screening

5

Introduction

Page 6: Protein-protein docking-based virtual screening

タンパク質治療 (protein therapeutics)

- 標的タンパク質に特異的に作用するタンパク質医薬品

- 代表例:モノクローナル抗体

• 免疫グロブリンフォールド(scaffold)を利用

• 広範囲の標的に対して素早く作れる

• 感染症や自己免疫疾患,がん等の治療薬として成功例がある

- ここ10年でfibronectin, lipocalinといった別の足場タンパク

(scaffold protein) も応用されてきた

- 多くの成功例はin vitroスクリーニングに基づく

- だが,選ばれたタンパク質は特定のターゲットに必ずしも

適しているとは言えない

6

Introduction

Page 7: Protein-protein docking-based virtual screening

バイオインフォマティクスによるアプローチ

- ホットスポットに基づく手法で良い足場タンパク質を選択

- タンパク質ドッキング (protein-protein docking) の

形状相補性情報はスクリーニングの良い条件となる

• エリスロポエチン受容体の阻害剤デザイン

• インフルエンザウイルスのヘマグルチニンの阻害剤デザイン

7

Introduction

[10] Zhang CS, Lai LH. Automatch: Target-binding protein design and enzyme

design by automatic pinpointing potential active sites in available protein

scaffolds. Proteins, 80: 1078-1094, 2012.

[11] Liu S, et al. Nonnatural protein-protein interaction-pair design by key

residues grafting. Proc Natl Acad Sci USA, 104: 5330-5335m 2007.

[12] Fleishman SJ, Whitehead TA, Ekiert DC, Dreyfus C, Corn JE, Strauch EM, Wilson

IA, Baker D. Computational design of proteins targeting the conserved stem

region of influenza hemagglutinin. Science, 332: 816-821, 2011.

Page 8: Protein-protein docking-based virtual screening

低分子のバーチャルスクリーニング(Virtual Screening, VS)

- 比較論文

- 低分子ドッキングプログラムが創薬に使われるようになった

• Glide, DOCK, AutoDock, Gold, etc.

- プログラムの精度も向上しつつある

- 構造ベースの低分子ligandスクリーニングの概念を応用して,

タンパク質ライブラリから足場タンパクをスクリーニングすることが

タンパク質ドッキングで可能かもしれない

8

Introduction

[13] Cross JB, et al. Comparison of several molecular docking programs: pose

prediction and virtual screening accuracy. J Chem Inf Model, 49: 1455-1474, 2009.

Page 9: Protein-protein docking-based virtual screening

タンパク質ドッキング (protein-protein docking)

- 2つのタンパク質の複合体を,それぞれの単体構造から予測

• 単体構造=unbound structure, 複合体構造=bound structure

- ここ10年でたくさんプログラムが作られて精度も向上している

- 通常のドッキングのステップ

1. 剛体ドッキング (rigid docking assessment)

– 3次元並進探索と3次元回転を許した剛体サンプリング

2. 主鎖/側鎖のフレキシビリティの考慮,精密なスコア計算の適用

– スクリーニングでは計算量の問題であまりこの辺りはやらない

- 剛体ドッキングプログラム(FFTで探索を計算するもの) • FTDOCK[18]:形状相補性と静電相互作用を考慮

• ZDOCK[19]:形状+静電+統計的ペアポテンシャル

• SDOCK[20]:著者らが作ったツール.本研究で使用(あとで少し説明)

9

Introduction

[20] Zhang CS, Lai LH. SDOCK: A global protein-protein docking program using

stepwise force-field potentials. J Comp Chem, 32: 2598-2612, 2011.

#我々はMEGADOCKを作っている

Page 10: Protein-protein docking-based virtual screening

タンパク質ドッキングによるスクリーニングの可能性

- 相互作用ペアと相互作用しないペアを識別できるかは

まだ分かっていない

• タンパク質の結合原理がそもそもちゃんと分かってない

• スコア関数の精度は親和性を正しく予測できるほどではない

- 一方で2件の関連研究の報告もある

10

Introduction

[15] Moreira IS, Fernandes PA, Ramos MJ. Protein-protein docking dealing

with the unknown. J Comput Chem, 31: 317-342, 2010.

[22] Kastritis PL, Bonvin AM. Are scoring functions in protein-protein docking

ready to predict interactomes? Clues from a novel binding affinity benchmark.

J Proteome Res, 9: 2216-2225, 2010.

[23] Russell RB, et al. A structural perspective on protein-protein interactions.

Curr Opin Struc Biol, 14: 313-324, 2004.

[24] Matsuzaki Y, Matsuzaki Y, Sato T, Akiyama Y. In silico screening of protein-

protein interactions with all-to-all rigid docking and clustering: an application

to pathway analysis. J Bioinform Comput Biol, 7: 991-1012, 2009.

[25] Wass MN, Fuentes G, Pons C, Pazos F, Valencia A. Towards the prediction of

protein interaction partners using physical docking. Mol Syst Biol, 7:469, 2011.

Page 11: Protein-protein docking-based virtual screening

関連研究(1)

- 概要

• all-to-all dockingをZLAB benchmark 3.0[26]のサブセットに適用

• ZDOCK[19]を用いた

• F-measureで0.43の識別精度

- disる点

• データセットが小さい

– 44個の正例ペアしかない

• bound構造を利用しているため,正例ペアは事実上のbound docking

– unboundでやらないと意味ない

11

Introduction

[24] Matsuzaki Y, et al. J Bioinform Comput Biol, 7: 991-1012, 2009.

Page 12: Protein-protein docking-based virtual screening

関連研究(2)

- 概要

• ZLAB benchmark 2.0[27]と,negative background (922個の

非冗長なタンパク質)とのドッキング

• HEX[28]を用いた

• 識別精度としてROC曲線のAUC値を用いた.良好な精度を得た.

- disる点

• データセットが(正例の数が)小さい

– 56個の正例ペアしかない

• 50%以上が酵素-阻害ペア

– 形状相補性が支配的なものしか見れてない

12

Introduction

[25] Wass MN, et al. Mol Syst Biol, 7:469, 2011.

Page 13: Protein-protein docking-based virtual screening

その他の関連研究

- タンパク質ドッキングで酵母のインタラクトームに

構造情報を付加する拡張を行った

タンパク質ドッキングは相互作用ペアの予測や

ネットワークの構築から,タンパク質医薬のための

足場タンパクの探索にも使える可能性を持つ

- しかしながら2件の関連研究に見るように問題点も健在

13

Introduction

[29] Mosca R, Pons C, Fernandez-Recio J, Aloy P. Pushing structural information into the

yeast interactome by high-throughput protein docking experiments.

PLOS Comput Biol, 5: e1000490, 2009.

Page 14: Protein-protein docking-based virtual screening

この論文の研究

- もっと大きいデータセットでall-to-all docking

- 新しい識別スコア関数を開発

- 自分たちで作ったSDOCK[20]を使った

• 以下の要素を考慮した親和性スコア関数を使うプログラム

– van der Waals引力ポテンシャル

– 幾何的衝突

– screened electrostatic potential

– Lazaridis-Karplus脱溶媒和エネルギー

- TNFα系のスクリーニングに応用してTNFα阻害タンパクを探した

• 結合しそうと予測されたタンパク質は実験的にテストした

14

Introduction

Page 15: Protein-protein docking-based virtual screening

TNFα (tumor necrosis factor-α)

- 免疫反応とアポトーシスに関わるサイトカインの一種

- 腫瘍壊死因子:固形がんに対して出血性の壊死を生じさせる

- TNFαの過剰発現が免疫系に関わる多くの疾病に関与

• 関節リウマチ (rheumatoid arthritis)

• クローン病 (Crohn’s disease)

• 乾癬 (psoriasis)

• 糖尿病 (diabetes mellitus)

• 敗血症 (sepsis)

• 骨粗鬆症 (osteoporosis)

- 5つのTNFα遮断薬が存在

• TNFR2 fusion protein×1

• 抗体医薬×4

15

Introduction

TNFαの構造

(pdb id: 1TNF)

[33] Tracey D, et al. Tumor necrosis factor antagonist mechanisms of action:

A comprehensive review. Pharmacol Ther, 117: 244-279, 2008.

Page 16: Protein-protein docking-based virtual screening

16

Materials and Methods

Page 17: Protein-protein docking-based virtual screening

データセット (all-to-all docking)

- NLC protein-protein docking data[20]

• NLC = no large conformational change

• 著者らがSDOCKの論文で使ったデータセット

• 有名なデータセット(ZLAB benchmark 4.0)をベースに,最近の構造も

• non-redundantな142の相互作用ペアが入っている→284構造

• 重複(複数の相手がいる奴)があるので,独立な構造は270個

• 270C2=270×269/2=36,135ペアのドッキングを実施

– 相手となる269個のうち最低1つは結合する

- 「タンパク質Xとの配列類似性が90%を超えるタンパク質X’は

タンパク質Xの結合相手と結合する」と仮定した

#bound-unbound間の配列の違いを許容した

- Needle (EMBOSS) でグローバルアラインメントをとった

• 284のunbound protein seq.と284のbound protein seq.をそれぞれ

アラインメントをとった 17

Data set preparation

Page 18: Protein-protein docking-based virtual screening

SDOCK

- rigid dockingツール

• バイナリ配布のみ

• SDOCKのdocking scoreは「低いほうが良い」スコア

- ZDOCKやFTDOCK, MEGADOCKと同じグリッドベース

- クラスタリングもやってくれる(今回は使用せず)

- http://goo.gl/b5JG3d

SDOCKのdocking手順

- preprocessツールでpdbの前処理

- sdockで10,000候補構造(decoy)を生成(クラスタリングしない)

18

Protein-protein docking using SDOCK

sdock protA.pdb protB.pdb –o outfile –d 0.0 –n 10000

Page 19: Protein-protein docking-based virtual screening

SDOCKのパフォーマンス(論文[20]より)

19

参考 : SDOCKについて[20]

[20] Zhang CS, Lai LH. SDOCK: A global protein-protein docking program using

stepwise force-field potentials. J Comp Chem, 32: 2598-2612, 2011.

NLCデータセットでのsuccess rate (%) (IRMSD≦3Å).

ZDOCKもSDOCKもクラスタリング有り.

ZDOCKは(書いてないけど多分)15deg.サンプリング?

SDOCKの方がちょっと良い気がする.

SDOCKの計算時間.100残基で11分くらい.

(Intel Xeon 5650の1コア利用)

スレッド並列やMPI並列には対応していない.

ちなみにMEGADOCKだと同じ計算を

1コアで1分くらい,GPU使えば数秒.

Figure S4 Figure 5

Page 20: Protein-protein docking-based virtual screening

20

参考 : SDOCKについて Figure 8

左:ドッキングスコアとIRMSDのプロット 右:decoy結合部位の分布

(点の色は正解の結合位置(青いリボン)

との距離)

A (2HQS): E. coliのTolB-Palペア

B (2VDB): serum albumin-GA moduleペア

なんとなくファネル型になっている

デコイの分布もまぁまぁ良い?

albuminの方はいくつかlocal min

な点が見られる

[20] Zhang CS, Lai LH. SDOCK: A global protein-protein docking program using

stepwise force-field potentials. J Comp Chem, 32: 2598-2612, 2011.

Page 21: Protein-protein docking-based virtual screening

予測した複合体構造間の距離

- interface残基のCαで求めたRMSD (IRMSD)

• interface残基:残基中の原子が1つでも相手のタンパク質の原子の

10Å以内にあるもの

• 接触残基(上の定義で10Å→4Åとしたもの)とは少し異なる

- 予測構造Aのinterface残基で求めたIRMSD→IRMSDA

- 予測構造Bのinterface残基で求めたIRMSD→IRMSDB

- 予測構造AとBの距離 RMSDABを以下のように定める

21

Distance between two docking solutions

Page 22: Protein-protein docking-based virtual screening

バーチャルスクリーニングのテスト方法

- RIE (Robust Initial Enhancement) method[36]を用いた

• 低分子VSのearly recognition problem[37]と似たような感じで評価

Early recognition problem

- active ligand (hit) をどのくらい上の順位で認識できるか

22

Test and performance assessment

[36] Sheridan RP, et al. Protocols for bridging the peptide to nonpeptide gap

in topological similarity searches. J Chem Inf Comput Sci, 41: 1395-1406, 2001.

[37] Truchon J-F, Bayly CI. Evaluating virtual screening methods: good and bad

metrics for the "early recognition" problem. J Chem Inf Model, 47: 488-508, 2007.

1位

2位

3位

VS method A VS method B

hit

protein ligands

Page 23: Protein-protein docking-based virtual screening

RIE method[36]

- rankに指数形の重みを付ける

- hitがランダムにランキングにいたときの値で割る

- : リガンドの数(この論文では )

- : hitの数

- : 番目のhitの順位 (i=1,…,n)

- : パラメータ (Enrichment Factorの の逆数とほぼ似た意味).

この論文では8.0 (top 20%に入ったら良い?) とした

- 「大きいほうが良い」値(ランダムだと1) 23

RIE method

Page 24: Protein-protein docking-based virtual screening

RIE methodの改良版(この論文ではこちらを使用)

- [37]の論文で分母の値が推定された

• もともとはモンテカルロ・シミュレーションを1000回とか繰り返して

分母の値を求めろと言っていたが,実際は回数が不十分[37]

24

RIE method

- : リガンドの数(269)

- : hitの数

- : 番目のhitの順位

- : パラメータ (8.0)

Page 25: Protein-protein docking-based virtual screening

「RIEは難しいのでARPも用いた」

ARP (average rank of positives)

- hitの順位の平均

- 「小さい方が良い」値

- 簡単だが,テストしたリガンドの数やhitの数によって

値の良し悪しが変わってくる

25

Average rank of positives (ARP)

- : hitの数

- : 番目のhitの順位

Page 26: Protein-protein docking-based virtual screening

図のような順位分布だった場合

- RIE (α=8.0)

• N=4, n=2

• A: RIE=1.7616

• B: RIE=0.2658

- ARP

• A: ARP=2.0

• B: ARP=2.5

26

RIEとARPの例

1位

2位

3位

4位

VS method A VS method B

hit

hit

hit

hit

Page 27: Protein-protein docking-based virtual screening

ROC曲線の曲線下面積 (AUC, AUROC, AU-ROC, etc.)

- 有名だしよく使われているけどあまり良くない

Accumulation曲線の曲線下面積 (AUAC)

- 有名じゃないしほとんど使われてないしあまり良くない

27

参考 Virtual Screeningの良さの指標

- : リガンドの数

- : hitの数

- : 番目のhitの順位

n≪Nだと

AU-ROC ≒ AUAC

Page 28: Protein-protein docking-based virtual screening

AU-ROCとAUACの違い

「リガンドの数10,ヒットの数5,ヒットの順位は1,3,4,6,9だった」

28

参考 Virtual Screeningの良さの指標

AUAC AU-ROC

ヒットじゃなかったリガンドの数

ヒットのリガンドの数

ヒットのリガンドの数

試したリガンドの数

Truchon and Bayly. J Chem Inf Model, 47(2): 2007. Figure 3

Page 29: Protein-protein docking-based virtual screening

BEDROC (Bolzmann-Enhanced Discrimination ROC)

- RIEを0-1に正規化した感じ.0から1の値をとる.

29

参考 Virtual Screeningの良さの指標

Page 30: Protein-protein docking-based virtual screening

Enrichment Factor (EF)

- よく使われるし,結構良い指標

例:200個のhitが10000個のligandの中にある.

15%(30個)のhitが上位χ=5%(500位以内)に存在した.

• ここから分かるように,EFの式は存在割合の比(EF=15%/5%)

• EFの最大値は(1/χ)

- ランダムのときはほぼEF=1

• 正確にはフロア(床関数,小数点以下切り捨て)を使って,

30

参考 Virtual Screeningの良さの指標

- : リガンドの数

- : hitの数

- : 番目のhitの順位

- : 上位 %を見る

Page 31: Protein-protein docking-based virtual screening

TNFα結合タンパク質の予測

- pdb id: 3IT8のTNFα複合体構造を用いた

• X-ray, 解像度2.8Å

• Poxvirus MHC-related TNF-binding proteinとの複合体

– Kd = 43 pM (very high affinity)

# 4TSVがTNFαだけの構造

(X-ray, 1.8Å, 変異あり)

TNFαはhomo-trimerで活性体

- タンパク質ライブラリ:

SimpleScaffold library ver. 2[10]

• 677のnon-redundant構造

• Table S1にリスト有り

31

Screening for potential TNFα-binding proteins

pdb id: 3IT8 (biounit 1)

TNFα

(trimer)

Ligand

protein

Page 32: Protein-protein docking-based virtual screening

ドッキング後処理にinterfaceのpackingスコアを使った

- 疎水性残基(A, T, C, V, P, I, L, M, F, Y, W)の側鎖の原子,および

全残基の主鎖原子に対し,buried area(埋もれた面積)を計算

• S1.4: 1.4Åのプローブで計算したburied area

• S2.8: 2.8Åのプローブで計算したburied area

- hydrophobic packing scoreを以下で定義

• S2.8はS1.4より(ほとんどの場合で)大きい

• 疎水性残基がinterfaceの真ん中にウマくpackingしていると

S2.8とS1.4の差は小さくなるはず

• 疎水性残基がinterfaceでちゃんとpackingしているかの粗い指標として

- 142個の天然複合体構造で計算した参考値では

92%の構造が0.55以下のスコア,平均で0.35だった (Fig. S1)

32

Hydrophobic packing score for interfaces

Page 33: Protein-protein docking-based virtual screening

SPR実験のためのタンパク質の準備

- ヒトTNFαの発現をやっていた論文[40]を参考

- 手順

• 16個の候補scaffoldをコードする遺伝子をコドン最適化で合成,

Genewizの発現ベクターへクローニング

• プラスミドをBL21(DE3)株に導入

• OD600値が0.6~0.8になったら0.5 mMのIPTGを添加し,

25℃で6~8時間,または18℃で一晩誘導

• 6000 rpmで10分間遠心分離

• ペレットを0.8%NaCl溶液で再懸濁

• Ni-NTAアフィニティーカラムとHiPrep16/60 Sephacryl S-200ゲルろ過

カラムでHisタグ付加タンパクを精製

• GSTアフィニティーカラム(タグ切断プロテアーゼはthrombin)と,HiPrep

16/60 Sephacryl S-200ゲルろ過カラムでGSTタグ付加タンパク精製

- 詳細なプロトコルはTable S2に記載 33

Protein expression and purification

Page 34: Protein-protein docking-based virtual screening

表面プラズモン共鳴法によるアッセイ

(surface plasmon resonance, SPR)

- BIAcore 3000を使用

- 試薬はGE Healthcare(Sigma-Aldrich)より購入

- プロトコル(よく分からないのでとりあえずそのまま転載):

- データ解析はBIAEvaluation ver. 4.0を利用

- Binding kineticsは1:1結合としてフィッティングした

34

SPR binding assays

TNFα was immobilized on the CM5 chip by a standard amino coupling method

according to the manufacturer’s instructions in PBS-EP running buffer

containing 10 mM PBS pH 7.4, 150 mM NaCl, 3.7 mM EDTA, 0.005% Tween20.

The binding assays were performed at 25℃, and 3,000 RU and 1,084 RU of

immobilized TNFα were used for the first round of screening and the

subsequent measure of binding affinity, respectively.

The analyte was injected over the immobilized TNFα for 1 min at a flow rate of

50 Zl/min and then subjected to 1 min of dissociation.

© GE Helthcare

Page 35: Protein-protein docking-based virtual screening

35

Results

Page 36: Protein-protein docking-based virtual screening

最小ドッキングスコアを用いた場合の性能

- SDOCKで10,000decoyをスコア順にソート

- 結合可能性の指標として最小スコアを使用

- 270のセットで平均値をとった

結果

- 平均ARP = 112.5

• スクリーニング対象は269個あるので,平均すると上位41.8%でhitした

- 平均RIE = 1.737

• ランダムだとRIEは1なので,ランダムよりマシ

- 「lowest docking score method is useful for screening」

36

Performance using the lowest docking score

Page 37: Protein-protein docking-based virtual screening

average Z-scoreを用いた場合の性能

- ドッキングスコアをそのまま使うのは親和性の評価ではよくない

• 大きさとか凹凸のはまり具合とかで値が上下するため

- Z-scoreに変換して使う

• μ:10,000のドッキングスコアの平均

• σ:10,000のドッキングスコアの標準偏差

- Z-scoreでenergy backgroundをネグれる

→Z-scoreの大小で親和性の大小を推定できるはず

- 「Top MまでのZ-scoreの平均」を使ったらうまく識別できた

- Mの値は平均RIEを最大化するように最適化した

37

Avg. Z-score of the docking scores

Page 38: Protein-protein docking-based virtual screening

Z-score法のMの最適化

- 100から2,000まで100ずつ

- M=1,100が最適値,

平均RIE=1.732

- 平均ARPは118.7だった

(上位44.1%)

- 「lowest docking score

を用いたときと大差ない」

38

Avg. Z-score of the docking scores

Figure 1

Figure 2A

Page 39: Protein-protein docking-based virtual screening

複合体のエネルギー地形 (energy landscape)

- 天然のタンパク質結合

• エネルギー地形の形が,天然構造が深く広い谷で,

その他の局所的な構造の谷はそんなに大きくない

- つまり,ドッキング結果を集めると,正しい相手であれば

特定の結合部位に集合するはず

• 逆に,負例ペアは結合構造が分散するはず

- ドッキング結果を集めたらエネルギー地形が反映できる?

39

Convergency of the low-score conformations

En

erg

y

Page 40: Protein-protein docking-based virtual screening

Figure 1

Top Lの予測構造間の(全ての)IRMSDの平均をとった

- 特定の結合部位に集中していればこの値は小さくなる

• 逆に分散してたら大きくなる

タンパク質の大きさで値が変わるので正規化した

- Top 5,000構造の平均IRMSDで割った→convergency

• L≪5,000を満たすとする

convergencyを用いた場合の性能

- Lの値は平均RIEでバリデーションした

• 100から2,000まで100ずつ

- L=900のとき最適値

• 平均RIE=1.414

• lowest docking scoreや

average Z-scoreより悪い

- ARPの平均は117.1 (上位43.5%) 40

Convergency of the low-score conformations

Page 41: Protein-protein docking-based virtual screening

結合エネルギーも大事だし,エネルギー地形も大事

なことがprotein-ligandバーチャルスクリーニングで

示されている[35]

- 結合エネルギー→lowest docking scoreやaverage Z-score

- エネルギー地形→convergency

先の3つのスコアを組み合わせた指標を考案

- D : lowest docking score (-1をかけて正の値にする)

- Z : average Z-score(-1をかけて正の値にする)

- C : convergency

- p, q : 正のパラメータ 41

The hybrid score function

[35] Wei D, et al. Binding energy landscape analysis helps to discriminate true hits

from high-scoring decoys in virtual screening. J Chem Inf Model, 50: 1855-1864, 2010.

Page 42: Protein-protein docking-based virtual screening

hybridスコア

- average Z-scoreのMやconvergencyのLは,さっきの最適値

M=1,100とL=900を用いた

- hybridスコアは「大きい方が良い」値

- 次元は kcal/mol の結合エネルギーの次元

• SDOCKのドッキングスコア(D)は kcal/mol の次元

• Zは標準偏差で,Cはtop 5000の平均値で割ってるので無次元量

#エネルギースコアならわざわざプラスにしなくても良いと思うが...

- pとqはさっきと同じデータセットで最適化した

• pは0.0から10.0まで0.5ずつ,qは0.0から1.0まで0.1ずつ

• 平均RIEが良くなるように選んだ

42

The hybrid score function

Page 43: Protein-protein docking-based virtual screening

hybridスコアのパラメータ探索

- (p, q)=(5.5, 0.7)が最適

- 平均RIE=1.879

- ARP=109.0 (上位40.5%)

ここまでのまとめ

43

The hybrid score function

Figure 3

指標 平均RIE ARP (% of the list length)

lowest docking score 1.737 112.5 (41.8%)

average Z-score 1.732 118.7 (44.1%)

convergency 1.414 117.1 (43.5%)

hybrid score 1.879 109.0 (40.5%)

Page 44: Protein-protein docking-based virtual screening

44

4つの指標の比較

Figure 2A Figure 2B

hybridが低い順位でhitを出せている

ARPのヒストグラム ARPの累積カウント (ROCみたいに左上にあれば良い)

hybridが一番左上に位置してる(微妙)

Page 45: Protein-protein docking-based virtual screening

ここからTNFα結合タンパクスクリーニングの結果

- TNFα(pdb id: 3IT8)とSimpleScaffold2(677構造)を

SDOCKでdocking

• 10,000 decoyを生成(クラスタリングなし)

- lowest docking score D, average Z-score Z, convergency C

をそれぞれ計算

• パラメータはNLC datasetの最適値を使用 (M, L)=(1,100, 900)

- 3つのスコアからhybrid scoreを計算

• パラメータはNLC datasetの最適値を使用 (p, q)=(5.5, 0.7)

- hybrid scoreで677構造をソート,top 20% (135構造)を抽出

45

Docking and screening results

Page 46: Protein-protein docking-based virtual screening

TNFα結合タンパク質のスクリーニング(続き)

135構造からさらにスクリーニング

- D>-26.0 or C>1.00だったタンパク質を排除

• 40構造フィルタアウト,残り95構造

- TNFR1とTNFαの結合を阻害したいので,TNFR1結合部位の

残基がドッキング1位構造のinterfaceに含まれているか調べた

• TNFαとの相互作用interfaceは6Åで決定した

• (TNFα-TNFR1複合体の構造は解かれてないので?) LTα(TNFβ)-TNFR1複合体(pdb id: 1TNR)をテンプレートとしてモデリング

# ちなみにTNFα-TNFR2複合体は解かれている (pdb id: 3ALQ)

• TNFαとTNFR1のモデルからinteracting site (8Å) を特定 (64残基)

• 予測複合体構造がinteracting siteを16残基以上含んでなかったら除外

– 10構造がフィルタアウト,残り85構造

46

Docking and screening results

Page 47: Protein-protein docking-based virtual screening

TNFα結合タンパク質のスクリーニング(さらに続き)

85構造からさらにスクリーニング

- hydrophobic packing score計算を適用.>0.55 を除外

• 16構造がフィルタアウト,残り69構造

- できた69構造のリスト→でかいので論文のTable 1を参照

69構造からランダムに選択した16構造をSPRにかけた

- 135構造のときにつけたhybridスコアのランキングでは,

5, 11, 12, 13, 17, 33, 40, 48, 56, 80, 83, 85, 91, 99, 127, 132.

47

Docking and screening results

Page 48: Protein-protein docking-based virtual screening

SPR binding assayで16タンパク質を実験

- TNFαをセンサーチップに固定(SPR界隈ではリガンドと呼ばれる)

- 16タンパク質はアナライト(流す方)

Initial SPR screeningで2つのタンパク質が

有意(50μM ぐらいのaffinity)な結合

- 1FQI (regulators of G-protein signaling protein 9 RGS domain)

• GPCRシグナル伝達パスウェイを負制御

- 2RER (putative aromatase/cyclase domain of TcmN)

• Streptomyces glaucescens

- Kd値を決定

• 1FQI : Kd = 5.4 μM

• 2RER : Kd = 53.6 μM

48

Binding ability of the 16 proteins

Page 49: Protein-protein docking-based virtual screening

49

SPR results (1FQI, 2RER)

Figure 4

1FQ1 regulators of G-protein signaling

protein 9 RGS domain

2RER putative aromatase/cyclase domain of

TcmN from Streptomyces glaucescens

Kd = 5.4 μM Kd = 53.6 μM

Page 50: Protein-protein docking-based virtual screening

50

予測された複合体 (docking score 1位)

Figure 5

矢印のヘリックスが,TNFαの3つのループ

(res 30-35, 84-91,145-150) と結合している.

←poxvirus protein (このTNFαの構造の元々の

相手) と同じような結合のしかた

TNFαの2つのチェインの間にあるTNFR1

結合領域の全域にわたって結合している.

Page 51: Protein-protein docking-based virtual screening

51

Discussion

Page 52: Protein-protein docking-based virtual screening

バーチャルスクリーニングの精度

- 実験にかけた16個のうち2個hit

- 率はまだ十分でないので改善が必要だが,特定の結合相手の探索には本手法は役に立つ

- 低分子リガンドドッキングのバーチャルスクリーニングとタンパク質ドッキングによるバーチャルスクリーニングは同じくらいの精度[44]

#ほんと?

52

Discussion

[44] Kuntz ID. Structure-based strategies for drug design and discovery. Science,

257: 1078-1082, 1992.

Page 53: Protein-protein docking-based virtual screening

本研究の手法について

- unbound protein-protein dockingによるもの

- 3つのcontributions

• SDOCKのdocking scoreでall-to-allのbinding/unbinding識別が可能

– Interaction energy

• average Z-scoreとconvergencyも識別に使える

– この2つの値はbinding energy landscapeを特徴付けるもの.landscapeはbinding/unbinding識別に重要だろう

• TNFαで追加でやったスクリーニングも悪い候補を排除するのに使える

– lowest docking score, convergency, hydrophobic packing score

53

Discussion

Page 54: Protein-protein docking-based virtual screening

スコアについて

- rigid dockingのスコアはaffinityを予測できるほどの精度はない

- が,我々は10,000 decoyでlandscapeをラフに推定できた

#??

- 正例ペアはlandscapeに以下のような特徴を持つ

• 天然状態で深く広い谷を持つ

• 結合構造の種類が少ない(天然状態以外の構造がほとんどない)

- landscapeがall-to-all dockingでの識別に役立つことを示した

• 平均Z-scoreは天然状態とランダム結合構造とのエネルギー差を測定

• convergencyは結合の種類の多さを反映

#2つ合わせてlandscapeの形の推定になっている…?

54

Discussion

Page 55: Protein-protein docking-based virtual screening

TNFα結合タンパク質のスクリーニングについて

- 結合が見られた2つの構造の特徴(1FQ1-TNFα,2RER-TNFα) • O-ring構造(hydrophobic packingに重要)を含む

• 例:1FQ1-TNFα

– Met291, Thr289がhydrophobic packingにcontribute

(Val17, Val91とinteract)

– E419-R31, E249-R32, R295-E146がelectrostatic interactionにcontribute

- だめだった構造

• あんまりpackingしてない or interfaceがhydrophobicすぎる

– あまりにhydrophobic packingしすぎてると,desolvation energyは得られるが,specific bindingにならないのでは

- SPRで良かったやつは,scaffoldに使えそうなレベルのaffinity

だった(勿論最適化が要るが) • hotspotによる手法,interfaceのredesign,in vivoの進化的手法などで

binding affinityはもっと強くできる

55

Discussion

Page 56: Protein-protein docking-based virtual screening

TNFαに結合すると予測されたRGS protein

- RGS domain of RGS9 (RGS protein family)

- 多くの本質的な生理現象に重要な役割を持つ

- いくつかのRGS proteinとTNFαの相互作用は既知[48, 49]

- このdomainは実験的なスクリーニングで最適化するときの

スタート構造となりえるかも?

56

Discussion

Page 57: Protein-protein docking-based virtual screening

57

Conclusions

Page 58: Protein-protein docking-based virtual screening

protein binding partnerを識別するcomputational

screening手法を提案

- rigid-body protein-protein docking (SDOCK) を使用

- hybrid score functionを提案

- 142のnon-redundantな複合体でall-to-allのテスト

TNFα binding proteinのscreeningに応用

- TNFαは重要なサイトカインで免疫系疾患の創薬標的

- 16個の選出したタンパク質をSPR assayにかけた.

うち2個はbindingが見られた

- 2個のうち片方はRGS protein familyのタンパク質で,RGS

proteinはすでにいくつかTNFαとinteractすることが分かっている

本研究はタンパク質創薬に計算機による戦略を提供

するだけでなく,新しいPPIペアの発見方法も示した 58

Conclusions