bioinformatics, 2019, hustxue.biocuckoo.org/course/bioinfo/chap14.pdf · bioinformatics, 2019, hust...
TRANSCRIPT
Bioinformatics, 2019, HUST
生物信息学
第十四章 结构生物信息学
Bioinformatics, 2019, HUST
GLUT1
2014,12次跨膜,N45T & E329Q突变体
Bioinformatics, 2019, HUST
GLUT3
2015年
Bioinformatics, 2019, HUST
GLUTs作用机制
Bioinformatics, 2019, HUST
蛋白质的结构与功能
蛋白质的结构 – 主要由一级序列所决定
蛋白质的功能 – 主要由三级结构所决定
球蛋白 (Globular proteins): 疏水的内核 & 亲水的表面
膜蛋白 (Membrane proteins): 特定的疏水表面
亚稳态 (marginally stable): 折叠之后的蛋白质
无序性 (Intrinsically disordered): 许多蛋白质必须与其他蛋白质结合后才能够获得稳定的结构
预测蛋白质的结构和功能非常的困难
Bioinformatics, 2019, HUST
蛋白质结构的四个基本层面
Bioinformatics, 2019, HUST
一级和二级结构
一级结构
氨基酸的线性序列
氨基酸残基之间连接的共价键
二级结构
氨基酸残基局部空间内的排列
短程的、非共价的相互作用
周期性的结构模式:α-helix, β-sheet, loops, coils
Bioinformatics, 2019, HUST
α-helix
蛋白质中 多的二级结构
平均长度:10个氨基酸残基 (10 A0)长度范围:5-40aa
每一圈:3.6个aa
通过氢键 (~per 4aa) 稳定结构
通常在内核的表面,疏水残基向内,亲水残
基向外
Bioinformatics, 2019, HUST
α-helix通过氢键稳定结构
C = blackO = redN = blue
Bioinformatics, 2019, HUST
R-侧基分布在α-helix的外侧
Bioinformatics, 2019, HUST
α-helices:氨基酸偏好
Ala, Glu, Leu, Met:出现频率高
Pro, Gly Tyr, Ser:出现频率低
Bioinformatics, 2019, HUST
β-Strands & Sheets
一般不单独出现,成对或多个出现
链通过氢键连接,稳定结构
相互作用的部分通过短的/长的loop连接
平行或反平行的β-sheet
Bioinformatics, 2019, HUST
反平行的β-sheets
Bioinformatics, 2019, HUST
平行的β-sheets
Bioinformatics, 2019, HUST
混合的β-sheets
Bioinformatics, 2019, HUST
Loops
连接α-helix和β-sheet长度和三级结构不定
在蛋白质结构的表面
受点突变的影响小
柔性好,构象变化余地大
带电荷、极性的氨基酸比例高
倾向成为活性位点
Bioinformatics, 2019, HUST
Coils
无序性 (Intrinsically disordered ): 介导蛋白质-蛋白质之间的相互作用
Bioinformatics, 2019, HUST
三级和四级结构
三级结构
肽链折叠成三维的空间结构
二级结构在空间上的排布
长程的、共价与非共价的相互作用
四级结构
多个肽链在空间上的排布
Bioinformatics, 2019, HUST
超二级结构
Structural Motifs:超二级结构或二级结构的组合
Domains: Motifs的组合
Bioinformatics, 2019, HUST
一些常见的结构性模体
Helix-turn-helix: e.g., DNA结合模体
Helix-loop-helix: e.g., 钙离子结合模体
β-hairpin: 2 adjacent antiparallel strands connected by short loop
Greek key: 4 adjacent antiparallel strands
βαβ: 2 parallel strands connected by helix
Bioinformatics, 2019, HUST
H-T-H H-L-H
Bioinformatics, 2019, HUST
β-hairpin
Bioinformatics, 2019, HUST
Greek key
Bioinformatics, 2019, HUST
Beta-alpha-beta
Bioinformatics, 2019, HUST
Domains:Motifs的组合
Bioinformatics, 2019, HUST
一个或多个domains
Bioinformatics, 2019, HUST
六种蛋白质的结构类型
α Domains: α螺旋束通过loops连接
β Domains: 主要是反平行β片,两对β片形成
sandwich结构
αβDomains: α螺旋连接的平行的β片 αβDomains: α螺旋和β片各自形成单独的结构
Multidomain (α β:包含多种domains Membrane & cell-surface proteins
Bioinformatics, 2019, HUST
α-domain structures: 4-helix bundles
Bioinformatics, 2019, HUST
Up-and-down sheets and barrel
Bioinformatics, 2019, HUST
Greek key motifs
Bioinformatics, 2019, HUST
α βDomainsTIM barrel Rossman fold
Bioinformatics, 2019, HUST
蛋白质结构数据库、结构分类以及可视化
蛋白质结构的数据库:PDB, MMDB, MSD
蛋白质结构的分类:SCOP, CATH, DALI/FSSP
蛋白质结构的可视化:Cn3D,
Rasmol/Raswin
Bioinformatics, 2019, HUST
蛋白质结构的数据库
PDB (Protein Data Bank): 蛋白质结构数据库 http://www.rcsb.org/pdb/home/home.do
MMDB (Molecular Modeling Database): 分子模拟数据库http://www.ncbi.nlm.nih.gov/sites/entrez?d
b=structureMSD (Molecular Structure Database): 大
分子的相互作用和结合位点http://www.ebi.ac.uk/msd
Bioinformatics, 2019, HUST
PDB (RCSB)
Bioinformatics, 2019, HUST
蛋白质结构的数据格式
X Y Z
Bioinformatics, 2019, HUST
MMDB
Bioinformatics, 2019, HUST
MSD
Bioinformatics, 2019, HUST
蛋白质结构的分类
SCOP (Structural Classification of Proteins):folds, superfamilies, and families http://scop.mrc-lmb.cam.ac.uk/scop/
CATH (Classification by Class, Architecture, Topology & Homology) http://www.cathdb.info/
DALI/FSSP: 蛋白质三级结构的比较
DALI server http://ekhidna.biocenter.helsinki.fi/dali_server/index.html
DALI Database (fold classification) http://ekhidna.biocenter.helsinki.fi/dali/start
Bioinformatics, 2019, HUST
蛋白质结构的可视化
RasWin Cn3D
Bioinformatics, 2019, HUST
蛋白质二级结构预测
Chou-Fasman predictions: EmpiricalGarnier, Osguthorpe and Robson
(GOR): HMMDavid T. Jones: PSSM Frishman, Argos: Nearest neighbor
methods Sujun Hua: 支持向量机
Bioinformatics, 2019, HUST
Chou-Fasman
预测三种主要的二级结构:α-helix, β-sheet,Coils
训练数据:15个已知构象的蛋白质结构,共2473个氨基酸残基
定义:蛋白质构象参数 (protein conformational parameters): 氨基酸残基在二级结构中的重要性
Pα, Pβ, Pc
Bioinformatics, 2019, HUST
氨基酸在各种二级结构中的频率
Inner Helix: Included in Helix
Bioinformatics, 2019, HUST
Pα, Pβ, Pc的计算
20
j
i
ffP
Bioinformatics, 2019, HUST
Pα & Pβ
-helix -sheet
Bioinformatics, 2019, HUST
经验规则与预测性能
规则一:对于给定一个>6aa的片段, Pα均值> 1.03,并且Pα的均值 > Pβ的均值,则判定为α-Helix
规则二:对于给定一个>6aa的片段, Pβ的均值> 1.05,并且Pβ的均值 > Pα的均值,则判定为β-sheet
预测性能:准确性~50-60%;对于β-sheet性能较差
Bioinformatics, 2019, HUST
准确性~65%
Garnier, Osguthorpe and Robson (GOR):HMM
Bioinformatics, 2019, HUST
David T. Jones: PSSM
PSIPRED: PSSM + Neural Network
准确性76.5%~78.3%
Bioinformatics, 2019, HUST
Frishman, Argos: Nearest neighbor methods
准确性~72%
Bioinformatics, 2019, HUST
Sujun Hua: Support vector machine
准确性~76.2%
Bioinformatics, 2019, HUST
蛋白质三级结构预测
结构基因组学
蛋白质折叠的动力学
蛋白质三级结构的预测:具有 小自由能的
构象
同源建模 (Homology modeling)
穿针引线 (Threading)
从头预测 (Ab initio Prediction)
Bioinformatics, 2019, HUST
结构基因组学
人的基因组中包含>22,00个基因
细胞内:通常>3,000种蛋白质
序列与结构
> 74,000,000条蛋白质序列 - UniProt
> 120,000个蛋白质结构 - PDB
目标:通过实验或者计算的手段解析所有蛋白质
在自然条件下的三级结构
Bioinformatics, 2019, HUST
X射线晶体学方法
Bioinformatics, 2019, HUST
核磁共振
Bioinformatics, 2019, HUST
Cryo-EM:蛋白质复合物
冷冻电镜
Bioinformatics, 2019, HUST
蛋白质折叠的动力学
蛋白质的折叠:
细胞内:自发的;酶的介导;伴侣蛋白的介导
体外:许多蛋白质不能自发折叠
动态:蛋白质的结构在自然条件下并不是固定的
蛋白质的功能常常依赖其构象的改变
自然条件下与变性之后的能量差非常小 (5-15 kcal/mol) 大约等于1-2个氢键的能量
折叠过程中,熵与焓都发生改变
Bioinformatics, 2019, HUST
Protein Folding Code
蛋白质结构预测/“蛋白质折叠”
给定一个蛋白质的氨基酸序列,预测其三级结构
“反向折叠" 给定一个蛋白质的结构,
找出所有符合这个结构的氨基酸序列
Bioinformatics, 2019, HUST
同源建模
搜索已知三级结构的同源蛋白质序列 (模板)PSI-BLAST multiple sequence alignment (MSA)
选取与给定序列相似性 高的结构作为模板
将氨基酸残基替换到结构模板中对应的位置上,降低自由能
准确性好
序列相似性高 模型可靠性高
>30% sequence identity 常用工具:MODELLER,Swiss-model
Bioinformatics, 2019, HUST
同源建模
Bioinformatics, 2019, HUST
Threading - Fold Recognition “大积木” 实验发现: 蛋白质折叠的类型有限 (~1,000) 问题: 能否根据不同的模版,预测给定蛋白质的
折叠类型,并进一步拼装成三级结构? 计算要求:
能量函数模版库(template library)
计算方法将给定序列与每一个模板的序列匹配,打分将模板连接起来,氨基酸残基替代优化模型:能量函数
计算性能:不定序列相似性高 模型可靠性高
Bioinformatics, 2019, HUST
Threading
1. 将给定序列与模板库做序列比较 (fold library)2. 评分准则:给定序列是否与模板的结构吻合 (1D-
3D profile)3. 根据打分结果对模板适用性给予排序
Target Sequence
Structure Templates
ALKKGF…HFDTSE
Bioinformatics, 2019, HUST
Ab Initio Prediction
能量函数键能 (bond energy)键的转角能 (bond angle energy)二面角能 (dihedral angle energy)范德华力 (van der Waals energy)静电力 (electrostatic energy)
根据能量函数计算结构的 小自由能:Molecular Dynamics or Monte Carlo methods)
计算量大
Bioinformatics, 2019, HUST
ROSETTA
David Baker, U. Washington, Seattle
“小积木”:短的肽段 (3-9 residues) 库能够充
分反映各种肽段在局部范围内的三级结构
肽段库的构建:PDB
针对给定蛋白质,寻找各种肽段组合,并以能量
函数予以优化
Bioinformatics, 2019, HUST
Foldit
Bioinformatics, 2019, HUST
结构基因组学
Bioinformatics, 2019, HUST
结构基因组学
左:预测;右:实验