集中講義(東京大学)「化学システム工学特論第3」...

43
集集集集 集集集集 集集集集集集集集集集集集 集 () 集集集集集集集集集集集集集集集集集集集集集集集集集集(4) 集集集集集集 集集集集 集集集集集集集集集集集集集集集集 京京京京 京京京京京 京京京京京京京京京京京京京京京京 京京京 京京

Upload: kera

Post on 19-Mar-2016

44 views

Category:

Documents


3 download

DESCRIPTION

集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測 ースレッディング法を中心としてー. 阿久津 達也. 京都大学 化学研究所 バイオインフォマティクスセンター. 内容. 構造予測に関連する基本事項 立体構造予測の分類 スレッディング法 3 D-1D プロファイル ポテンシャル型スコア関数を用いたスレッディング CASP まとめ. タンパク質立体構造予測. アミノ酸配列から、タンパク質の立体構造(3次元構造)をコンピュータにより推定 実験よりは、精度は低い - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

集中講義(東京大学)「化学システム工学特論第3」

バイオインフォマティクス的手法による化合物の性質予測(4)

タンパク質立体構造予測ースレッディング法を中心としてー

京都大学 化学研究所バイオインフォマティクスセンター

阿久津 達也

Page 2: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

内容 構造予測に関連する基本事項 立体構造予測の分類 スレッディング法 3D-1D プロファイル ポテンシャル型スコア関数を用いたス

レッディング CASP まとめ

Page 3: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

タンパク質立体構造予測

アミノ酸配列から、タンパク質の立体構造(3次元構造)をコンピュータにより推定

実験よりは、精度は低い だいたいの形がわかれば良

いのであれば、5割近くの予測率

T V A C L G F S L V V G G R D

アミノ酸配列

コンピュータ

タンパク質立体構造

Page 4: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

アミノ酸とタンパク質 アミノ酸:20

種類 タンパク質:ア

ミノ酸の鎖(短いものはペプチドと呼ばれる)

R

C H

N H

R

N

O C C

C H

H O

ペプチド結合

アミノ酸

タンパク質

C H

H N H

R OH

O C

アミノ基 カルボシキル基

側鎖

Page 5: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

側鎖の例

3 CH Ala アラニン

3 CH 3 H C

CH

Val バリン

CH CH

HC C

HC CH

2 CH

Phe フェニル アラニン

2 CH

C O - O

Asp アスパラギン酸

HN NH

2 CH

+

His ヒスチジン

2 CH

SH

Cys システイン

Gly グリシン

H

Page 6: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

タンパク質の種類と高次構造 タンパク質の分類

球状タンパク質 繊維状タンパク質 膜タンパク質

一次構造(アミノ酸配列) 二次構造( α 、 β 、それ以外(ループ、コイ

ル)) 三次構造(三次元構造、立体構造) 四次構造(複数の鎖)

Page 7: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

タンパク質立体構造の決定 主に X 線結晶解析か NMR 解析による

一般に X 線解析の方が精度が高い しかし、結晶中の構造しかわからない

アミノ酸配列決定より困難 半年から1年くらいかかることも珍しく無い

既知アミノ酸配列 > 10 万 既知立体構造(重複を除く) < 1 万数千

Page 8: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

タンパク質立体構造の特徴 基本的には鎖(ひも)

状 二種類の特徴的な構造

が頻繁に現れ、立体構造の骨格(コア)を作る α へリックス(らせん状

の部分) β シート(ひも状の部分

が並んだ部分)

α

β

ループ

Page 9: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

立体構造データベース PDB(Protein Data Bank )

タンパク質立体構造データベース 現在約 20000 データ(ただし重複あり)

SCOP 立体構造分類データベース

FSSP / DALI 立体構造アライメントデータベース/アラ

イメントサーバー

Page 10: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

タンパク質立体構造の分類 構造分類の必要性

立体構造と機能の間には密接な関係 配列が似ていなくても構造類似のタンパク質が多

数存在 SCOP による階層的クラス分け

Class: 二次構造の組成( α 、 β 、 α+β など)に基づく分類

Fold: 構造の類似性 ← スレッディング法の対象

Superfamily: 進化的類縁性 Family: 明らかな進化的類縁性

Page 11: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

立体構造予測法の分類 物理学的原理に基づく方法 格子モデル 2次構造予測 スレッディング

Page 12: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

物理的原理に基づく方法 エネルギー最小化、もしくは、微分方程式を(数値的に)解く、などの物理的原理に基づく方法

主として分子動力学法 (Molecular Dynamics) 数十残基程度であれば、実際の蛋白質やペプチド

と似た構造を推定可能(なことがある) 構造の最適化や安定性の解析には実用的 側鎖のパッキングの計算にも有効 超並列計算機の利用、専用計算機の開発

Page 13: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

分子動力学法 エネルギーの極小化( Eを極小化) フォールディングのシミュレーション

mi d2ri/dt2 = -∇i E  を差分化 E = Eb + Eθ + Eφ + Evdw + Eel

Eb = ΣKb(r-r0)2 結合長 Eθ = ΣKθ(θ-θ0)2 結合角 Eφ = ΣKφ[1+cos(nφ-δ)]  二面角  Evdw = Σ[Aij/(rij

2)-Bij/(rij6)] ファンデルワールス力

Eel = Σqiqj/(εrij) 静電相互作用(クーロン力)

Page 14: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

格子モデル 各残基が格子点

にあると仮定 予測よりも、

フォールディングの定性的な理解のために利用される

Page 15: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

格子モデルに基づく研究 折れ畳み経路の

シミュレーションによる定性的理解 →フォールディングファンネル

エネルギー最小の構造の計算法→ NP 困難

親水性アミノ酸

疎水性アミノ酸

スコア=-9

スコア=-5

配列

Page 16: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

格子モデル( String Folding問題)に関する結果

2次元で 1/4近似、3次元で 3/8近似              [Hart,Istrail,

STOC’95] 3次元で NP-Hard [Berger,Leighton,RECOMB’98] 2次元で NP-Hard [Crescenzi et al.,STOC’98] 2次元で 1/3近似 [Newman, SODA’02]

実際には数十残基まで最適解が計算可能

Page 17: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

二次構造予測 アミノ酸配列中の各残基

が、 α 、 β 、それ以外のどれに属するかを予測

でたらめに推定しても、33.3%の的中率

最も高精度なソフトを使えば、 70%~80%の的中率

ニューラルネット、 HMM 、サポートベクタマシンなどの利用

α β それ以外

L K I A P

Page 18: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

ニューラルネットによる二次構造予測

出力層

中間層 (隠れ層)

入力層

Leu Asn Lys Ala Val Thr Gly

Page 19: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

フォールド予測( Fold Recognition)

精密な3次元構造ではなく、だいたいの形( fold) を予測

立体構造は 1000種類程度の形に分類される、との予測 (Chotia, 1992) に基づく

T V A C L G F S L V V G G R D

1000個のテンプレート構造

アミノ酸配列

Page 20: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

タンパク質スレッディング

T V A C L G F S L V V G R D

アミノ酸配列 K

立体構造

立体構造(テンプレート)とアミノ酸配列の間のアライメント

Page 21: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

スレッディングとアライメント

T V A C L G F S L V V G R D

入力アミノ酸配列 K

立体構造 A G L F S G L G Y

A G L G S V L G

A G L F G S L G Y

A G L G S V L G

Page 22: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

スレディング法の分類 プロファイルによるスレッディング

PSI-BLAST 3D-1D 法 構造アライメント結果に基づくスレッディン

グ 残基間ポテンシャルによるスレッディング

コンタクトポテンシャル 距離依存ポテンシャル その他のポテンシャル

Page 23: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

プロファイル アライメント

におけるスコア行列と類似

スレッディングの場合、残基位置ごとにスコア ( 位置依存スコア )

A C D E

残基1 残基2 残基3 残基4 3.8 1.5 -1.5 0.2

-3.5 1.3 -2.9 2.1

-0.3

3.7

2.3 -4.6 3.1 -1.3

1.2

4.2

立体構造

残基1

残基2

残基3

残基4

Page 24: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

プロファイルによるアライメント

動的計画法(DP) により最適解を計算

スコア行列のかわりにプロファイルを使う

AED ...... アミノ酸配列:

A C D E

残基1 残基2 残基4 3.8 1.5 -1.5 0.2

-3.5 1.3 -2.9 -4.1

-0.3

3.7

2.3 -4.6 3.1 -1.3

1.2

4.2

残基3

プロファイル:

123 .....AED .....

アライメント 1234 .....A-ED .....

1- 23 .....AEDC ...

スコア 3.8-4.1+4.2 =3.9

3.8-2.0+3.7+ 3.1=8.7

3.8-2.0-2.9+ -0.3=-1.4

Page 25: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

3D-1D プロファイル 最初の version

は Eisenberg らが 1991 年に提案

構造中の残基(位置)を18種類の環境に分類 二次構造(3種

類) 内外性+極性(6

種類)

E P 2

P 1 B 2

B 1

B 3

内外性

極性

α

β

主鎖 側鎖

Page 26: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

3D-1D プロファイル

3D- 1Dスコア 3D- プロファイル

E

P

2 P

1

B

3

内外性

極性

B

2 B

1

残基1

残基3

残基2

残基4

蛋白質立体構造

A R

Y W

-0.66

0.18

-1.67

1.00

-0.79 -1.16

0.07 1.17

-0.91 -2.16

0.17 1.05

・ ・ ・ ・ ・ ・ ・ ・

・ ・ ・ ・ ・ ・ ・ ・

・ ・ ・ ・ B 1 B 1 α B 1 β

・ ・ ・ ・・・

環境クラス

アミノ酸

A R

Y W

-0.79 -1.16

0.07 1.17

-0.91 -2.16

0.17 1.05

・ ・ ・ ・ ・ ・ ・ ・

・ ・ ・ ・ ・ ・ ・ ・

・ ・ ・ ・・・

残基1 残基2 残基3

-0.79 -1.16

0.07 1.17

Page 27: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

その他のプロファイル 配列のマルチプルアライメントに基づく

プロファイル PSI-BLAST 、 HMM

立体構造のマルチプルアライメントに基づくプロファイル作成

角度情報なども考慮したプロファイル プロファイル vs プロファイルによる

アライメント

Page 28: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

アライメントプロファイルに基づくスレッディング

A H W A K G Y L D A D R Y P K W - D A - H F A - Y V D A - K F T H Y L D

A D R Y P K - W - D A - H F A - Y V D A - K F T H - Y L D -

A H W A K G Y L D -

構造未知配列

アライメント結果

スレッディング

Page 29: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

ポテンシャル型スコア関数を用いたスレッディング 全体のポテン

シャルエネルギーを最小化( Σfd(X,Y) が最小となるようなスレッディングを計算)

T V A C L G F S L V V G R D

アミノ酸配列 K

立体構造

d f (T, F) d

Page 30: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

プロファイル型スコア関数とポテンシャル型スコア関数

プロファイル型スコア関数    (Eisenberg et al. 1991)

ポテンシャル型スコア関数      (Miyazawa, Sippl, . . .)

A C D E

Pos1 Pos2 Pos3 Pos4 3.8 1.5 -1.5 0.2

-3.5 1.3 -2.9 2.1

-0.3

3.7

2.3 -4.6 3.1 -1.3

1.2

4.2

d

d

score A

L

Page 31: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

コンタクトポテンシャルと距離依存ポテンシャル

コンタクトポテンシャル (Miyazawa... 1985)

比較的少ないデータからスコア関数を導出可能

距離依存ポテンシャル (Sippl, . . .) 精度の高いスコア関数

を得るには多くのデータが必要

d

d

score A

L

d

d

score A

L

Page 32: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

ポテンシャル型関数を用いた場合の最適解の計算(1)

厳密な最適解の計算は困難 (NP完全 ) 最適解の計算法  (コア領域内ではギャップ無し )

分岐限定法 (Lathrop & Smith 96) コアの位置の範囲を徐々に縮小 大きなタンパクに対しては最適解が計算不可

分割統治を用いる方法 (Y. Xu et al., 1998) 線形計画法を用いる方法 (J. Xu et al. 2003)

整数計画問題として定式化し、更に線形計画問題に緩和 線形計画問題の解をもとに整数計画の解を探索 多くの場合には線形計画問題の解が整数解(最適解) CAFASP3 でも良好な成績

Page 33: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

ポテンシャル型関数を用いた場合の最適解の計算( 2 )

アミノ酸配列

立体構造

コア領域のスレッディング

Page 34: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

ポテンシャル型関数を用いた場合の最適解の計算( 3)

近似解法 Frozen Approximation (Godzik &

Skolnick 92) ポテンシャルエネルギー計算の際に、もとの構造の残

基を用いる 通常の DP と同様のアルゴリズムが利用可能

Double DP (Jones, Taylor & Thornton 92) DP を二重に用いる 立体構造アライメントなどにも応用可能

Page 35: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

最適解が DP で計算できない理由と Frozen Approximation

T V A C L G F S L V V G R D

アミノ酸配列 K

立体構造

D

○に F をアラインする際のスコアの正確な計算には、○に何がアラインされているかを知ることが必要

Frozen Approximation もとの構造中で○に割り当てられている残基の情報を利用      (図の例では F と Dのコンタクトポテンシャル)

Page 36: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

スコア関数の導出 残基の出現頻度の対数をとる

統計力学のボルツマン分布などが根拠 3D-1D スコア

環境 e のもとでの残基 a の出現頻度: fe(a) (条件付確率) score(e,a)=log (fe(a)/fe)

ポテンシャル型スコア          ( Quasichemical Approximation (Miyazawa 85) )

距離 d における残基ペア a,b の出現頻度: fd(a,b) scored(a,b) =-log fd(a,b)

Page 37: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

他のスコア関数導出法 学習データ(既知構造データ)より以下

を満たすスコア(エネルギー)を導出 正しい構造のエネルギー < 誤った構造のエネルギ or Max( 誤った構造のエネルギー - 正しい構造のエネル

ギー )

ニューラルネット (Goldstein et al. 92) モンテカルロ法 (Mirny,Shakhnovich 96) 線形計画法 (Maiorov,Crippen 92)

Page 38: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

スレッディングに関するまとめ プロファイル型

DP によりスレッディングが計算可能 ポテンシャル型

DP は(直接は)適用不可 Frozen Approximation, Double DP, 線形計画法の利用

コンタクトポテンシャル 距離依存ポテンシャル

スコア関数の導出 対数頻度

Page 39: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

立体構造予測におけるブレークスルー

スレッディング法の発明 (Eisenberg et al., 1991) 構造既知の配列と類似性が無い配列の構造予測

PSI-BLAST の開発 (Altschul et al, 1997) プロファイルに基づくマルチプルアライメントの繰り返し実行によるスレッディング

David Baker による ab initio 予測 (1997) 統計情報+シミュレーション

Page 40: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

立体構造予測コンテスト:CASP

CASP (Critical Assessment of Techniques for Protein Structure Prediction)

ブラインドテストにより予測法を評価① 半年以内に立体構造が実験により決定する見込みの配列(数十種類)をインターネット上で公開

② 参加者は予測結果を送付③ 構造決定後、正解とのずれなどを評価、順位づ

Page 41: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

CASP の経過と結果の公表 CASP1 (1994), CASP2(1996), CASP3(1998),

CASP4(2000), CASP5(2002), CASP6(2004) CAFASP(1998,2000,2002,2004)

完全自動予測法の評価 結果の公表

会議 ホームページ

http://prediction center.llnl.gov/ 学術専門誌 (Proteins)

Page 42: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

まとめ 立体構造予測

正確な座標は予測できない だいたいの形の予測であれば 4~5割近く 二次構造予測であれば、 70%-80%程度

国際プロジェクトの進展と構造予測 立体構造の網羅的決定(タンパク質3000プロ

ジェクトなど) → 残りの構造はアライメントでほぼ確実に推

定 ? → スレッディングは不要?

Page 43: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測

参考文献 CASP5 特集: Proteins, 53, Supplement 6 (2003)