read.pudn.comread.pudn.com/.../bioinformatics%20by%20baxevanis%…  · web...

302
生物信息学(中译本) 目 录 译者序 编者序 1. 因特网与生物学家 1.1 因特网基础 1.2 与因特网连接 1.3 电子邮件 1.4 文件传输协议 1.5 GOPHER 1.6 万维网 参考文献 2. GenBank 序列数据库 2.1 简介 2.2 一级和二级数据库

Upload: lamphuc

Post on 20-Sep-2018

233 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

生物信息学(中译本)目 录译者序编者序1. 因特网与生物学家

1.1 因特网基础

1.2 与因特网连接

1.3 电子邮件

1.4 文件传输协议

1.5 GOPHER

1.6 万维网

参考文献2. GenBank 序列数据库

2.1 简介

Page 2: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

2.2 一级和二级数据库

2.3 格式与内容:计算机与人

2.4 数据库

2.5 剖析 GenBank Flatfile

2.6 小结

参考文献附录:数据库文件格式附录 2.1 GenBank ( DDBS) 记录例子 附录 2.2 一个 ASN.1 记录例子 附录 2.3 一个 EMBL 记录例子 附录 2.4 一个 GenBank 浏览文件

3. 结构数据库

3.1 简介

3.2 PDB : Brookhaven 国家实验室蛋白质数据库

3.3 MMDB : NCBI 的分子建模数据库

Page 3: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

3.4 结构文件格式

3.5 结构信息显示

3.6 数据库结构浏览器

参考文献专题论文4. 应用 GCG 进行序列分析

4.1 简介

4.2 Wisconsin 软件包

4.3 Wisconsin 使用的数据库

4.4 SeqLab 环境

4.5 用操作和 Wisconsin 程序分析序列

4.6 观察输出

4.7 监视程序执行过程并解决问题

4.8 给序列加注释并在 SeqLab Editor 中图形化显示注释

4.9 在 SeqLab Editor 中保存序列

Page 4: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

4.10 在 SeqLab 中可以实现的分析实例

4.11 引入非 Wisconsin 组件的程序扩展 SeqLab

参考文献附录

5. 生物数据库的信息检索

5.1 检索数据库条目:检索服务器 (Retrieve 服务器 )

5.2 集成信息检索: ENTREZ 系统

5.3 集成的信息访问:查询服务器

5.4 NCBI 之外的序列数据库

5.5 医学数据库

参考文献6. NCBI 数据模型

6.1 简介

6.2 出版物

6.3 SEQIDS :名称中包含了什么?

Page 5: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

6.4 BIOSEQ :生物序列

6.5 BIOSEQSETS :序列集合

6.6 Seq-annot: 序列的注释属性

6.7 SEQ- DESCR: 序列的描述

6.8 模型的使用

6.9 结论

参考文献7. 序列比对和数据库搜索

7.1 引言

7.2 序列比对的进化基础

7.3 蛋白质的模块性质

7.4 最佳比对方法

7.5 取代分和空位处罚

7.6 比对的统计学显著性

7.7 数据库中的相似性搜索

Page 6: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

7.8 FASTA

7.9 BLAST

7.10 低复杂度区域

7.11 重复元件

7.12 小结

参考文献8. 多序列比对的实际应用

8.1 渐进比对方法

8.2 模体和样式

8.3 演示方法

参考文献9. 系统发育分析

9.1 系统发育模型的组成

9.2 系统发育数据分析:比对,建立取代模型,建立进化

树以及进化树评估

Page 7: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

9.3 建立数据模型(比对)

9.4 决定取代模型

9.5 建树方法

9.6 进化树搜索

9.7 确定树根

9.8 评估进化树和数据

9.9 系统发育软件

9.10 一些简单的实际的考虑

9.11 第九章所涉及到的因特网资源:

致谢参考文献

10. 利用核酸序列的预测方法

10.1 框架

10.2 遮蔽重复序列

10.3 数据库搜索

Page 8: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

10.4 密码子偏好的检测

10.5 探查 DNA 中的功能性位点

10.6 复合的基因语法分析

10.7 搜寻 tRNA 基因

10.8 未来的展望

参考文献11. 利用蛋白质序列的预测方法

11.1 基于组成的蛋白质辨识

11.2 基于序列的物理性质

11.3 二级结构和折叠类

11.4 特殊结构或结构特征

11.5 三级结构

参考文献 12. 鼠类和人类公用物理 图谱数据库的使用

12.1 物理图谱的类型

Page 9: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

12.2 大型公用数据库中的基因组范围图谱

12.3 个体来源的基因组范围图谱

12.4 特定人类染色体图谱

12.5 鼠类图谱来源

参考文献13. ACEDB 一个基因组信息的数据库

13.1 ACEDB 的一般特点

13.2 ACEDB 中的序列分析

13.3 多种分析功能

14. 提交 DNA 序列到数据库

14.1 提交到哪儿?

14.2 提交什么内容?

14.3 如何提交到互联网

14.4 如何用 Sequin 提交

14.5 EST/STS/GSS

Page 10: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

14.6 基因组中心

14.7 更新

14.8 结论性的评价

参考文献附录 1 词汇表  

译者序随着人类基因组计划的实施,通过基因组测序,蛋白质序列测定结构解析等实验,分子生物学家提供了大量的有关生物分子的原始数据,需要利用现代计算技术对这些原始数据进行收集、整理、管理以便于检索使用。而为了解释和理解这些数据,还需要对数据进行比对、分析,建立计算模型,进行仿真、预测与验证,因而出现生物信息学,它的出现,极大的促进了分子生物学的发展。现在人类基因组计划接近完成,人们的注意力已从基因组测序转向对基因组表达的分析,转向对蛋白质组结构与功能的预测。这也是生物信息学面临的主要课题。人们注意到无论是基因的表达还是蛋白质的功能在很多情况下,都是多个基因、多种蛋白质相互作用的结果,要对它进

Page 11: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

行分析与预测,必然涉及数学、物理、计算科学、系统科学、控制科学、信息科学与生物学的综合应用,因而生物信息学是一门多学科交叉的学科,它需要多个领域的专家通力合作,不仅如此,由于它涉及面是如此广泛,而难度又是如此之大,它更需要全国、全世界的科学家的通力合作。近年来,由于国际互联网的迅速发展,为这种世界性的合作提供了网络基础,从而大大地促进了世界上生物信息学家之间的交流,他们共享已有的数据、资源,相互交流各自提出的分析方法,相互交流、共同协作形成了生物信息学界的一股新风气。人们已经意识到,生物信息学的发展将对我们了解生命,了解人类自身,对于医药,保健,农业等都将起极大作用,因而生物信息学已引起世界各国的高度重视,纷纷加大投入,发展十分迅速。同样的,生物信息学在我国也正在兴起。生物信息学是门崭新的学科,目前国内已有大学招收本科生班,硕士研究生和博士研究生都在日益增多的培养中,但国内尚无一本完好的生物信息学的读本。99年美国国家人类基因组研究所和国家生物技术信息中心的两位教授出版的这本生物信息学专著,是一本难得的讲述生物信息学的好书,我们将其介绍给中国读者。我们期望通过本书的翻译出版,对我国生物信息学的发展有所裨益。

Page 12: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

本书有下列同志参加翻译工作,具体分工如下,第 1,2 章卢欣,第 3

章蔡军,第 4 章闻芳,第 5 章胡驰峰,第 6 章李萍,第 7、8、9 章季新来,第 10、11 章过涛,第 12 章廖心清,第 13 章罗霄,第14 章李泽。  李衍达 孙之荣1999年 11月上一页 下一页 返回目录 返回茶庄

 

 

 

 

编辑Andreas

D. Baxevanis

Genome Technology Branch

National Human Genome Research Institute

National Institutes of HealthBethesda, Maryland

生物信息学基因和蛋白质分析

的实用指南

Page 13: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

B. F. Francis Ouellette

National Center for Biotechnology InformationNational Institute of Health

Bethesda, Maryland

       

ADB将本书奉献给他的母亲 Anastasia,并纪念他的父亲Demetrios,他们的智慧和爱是守护他一生的力量。

BFFO 以本书纪念 Angelos Kalogeropoulos,一位朋友和生物信息学科学家,他的风采令人深深怀念。

序言 过去十年中,全世界的分子生物学家们所收集的原始信息不断激增。在不太久之前,这些信息的分析整理工作只有不情愿的研究生去做,因为他们对摆弄试管比敲击键盘更有兴趣,而现在有很多人已全身心地投入了这个领域。生物信息学正处于新兴萌芽中,它可以不严格地定义为分子生物学和计算生物学的交叉,这个领域中已经产生了大量重要的发现,并有希望揭示更多大自然的奥秘。对大

Page 14: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

多数人而言,生物信息学的吸引力在于它是生物学中崭新和有待开垦的领域;而对其他人,其吸引力蕴藏在简化论者对化学层次上的细节的热爱和系统遗传学家对了解各物种体系之间内在关系的兴趣之中。

生物信息学的好处早已作为谈资得以广泛宣扬,它被宣称是能解决一切痼疾的仙丹,或是肢解序列数据的强大工具,或简称之为搞科学一条迷人途径。而实际上,生物信息学是在艰难而有意义工作中的一种新的方法。这一领域中,研究方法大多在不断变化并有待发展和完善,与当年生物化学的黄金年代并无不同,那时人们选择各种能溶解和分析目标分子的手段,不象如今生化实验室中所用技术要成熟和精巧得多。然而,在生物信息学被推向前进的竞赛中,一些人曾企图将其从科学分支降级为购买了合适工具包就完成的功能。而维护了生物信息学在科学领域中地位的正是学术用户群体本身,无论他们是在私立大学里还是在政府赞助的研究中心里。生物信息学中已取得的卓越进展就蕴藏在从收集整理原始数据,到开发更新更强的数据处理方法的工作之中,而且一切均处于信息和技术自由共享的环境里。生物信息学群体的独特之处在于,在商业部门之外,其“团体精神”比生物学中许多竞争性领域要开放得多。由此想法,本书试图能让那些想了解更多序列分析方法的科学家跳进书中,来体验令人着迷的科学旅途。通过这本书,我们希望读者能认识到这些方法的严格性,并且明白,与实验并无不同,控制器的运转和弄清哪种方法能解决或不能解决何种问题,是至关重要的。总之,我们鼓励读者不妨一试。

这里,我们要共同感谢许多同仁,若非他们的帮助本书就难以实现。首先要感谢的是分别完成此书各章节的诸位作者。他们专业的见解与专家的观点,以及他们

Page 15: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

在巨大时间压力下仍友善地配合,使我们感到与这些女士和先生们一同合作十分愉快。

本书中极大部分内容均得益于在 NIH 的国家生物技术信息中心(NCBI)所开发的工具和数据库,我们要感谢 NCBI 的全体成员,为他们辛勤的工作,也为了他们耐心负责地维护着这些公共数据库,更重要的是为他们使这些数据库具有最高的质量和更方便地被科学工作者们访问。那些从事计算生物学的科学家们一贯对他们的成果十分慷慨,制作了自由访问的工具和专门数据库。否则,连最基本的序列分析研究也是无法做到的。我们要感谢参与这些项目的所有成员,包括这里未曾特别提及的,因为是他们造就了这个以序列为基础的新生物学时代的许多辉煌成就。

我们还要感谢本书编辑Ann Boyle 的耐心帮助、鼓励和支持。这本书也包含了我们的很多第一次,因而在学习出书的里里外外过程中,我们与她建立起了深厚的友谊。我们期待着未来能与她的再次合作。

以下来自BFFO:我要向一贯支持、热爱和信任我的妻子 Nancy Ryder 致谢。她对这项工作的尊重,以及她给予了我这项工作所需的空间已超越了任何誓言,我只有以更多的爱作为回报。我还要感谢 Mark Boguski 在四年前将我介绍至NCBI。Mark还不断引导我留意各种新鲜有趣的项目,这种持续的热情和兴趣将不断赋予我更多灵感。

以下来自ADB:我诚意地感激David Landsman 的极大支持和鼓励。我与David 的交情已有多年,那时他作为一个物理化学家接受作博士后,而当时他

Page 16: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

对一门称为生物信息学的领域几乎一无所知。我认为 1992年的我们都无法猜到我们在教学和研究中的合作会最后会导致一本专著的产生。如果不是他在如何认识计算生物学的问题上,更加强调了生物学对我产生了强烈影响,就不会有这本书。

Andreas D. Baxevanis

B. F. Francis Ouellette

上一页 下一页 返回目录 返回茶庄 

第一章 因特网与生物学家随着研究者可用的序列与结构信息的爆炸式增长,生物信息学领域,或更精确地说是计算生物学领域,在基础生物医疗问题的研究中起着越来越大的作用。计算生物学家面临的挑战,尤其是由人类基因组计划以及其它测序工作生成的大量数据带来的挑战,将对发现基因和设计分子模型、定点突变,以及其它有可能发现基因与蛋白质的结构与功能的未知关系的实验有所帮助。

在开始实际讨论解决生物问题的计算方法之前,必须先明确一个共同的背景,从而使用户可以访问和使用本书中讨论的算法和工具。我们首先回顾了因特网及其有关术语,并讨论了四种主要的因特网协议族,但不深入涉及协议的技术细节。关于这些协议的内部处理过程的详细描述可以参考(Falk,1994;Krol,1994),这是给外行人看的好书。

因特网基础

Page 17: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

尽管“因特网”听起来象一个单独的实体,但它实际上是一个网络的网络,由超过 20,000 个分布在 100 多个国家中的相互连接的本地网或地区网构成。虽然有关远程通讯的工作在六十年代初就已经开始,但因特网的真正起源还是1969年美国国防部远景研究规划局(Advanced Research Projects

Agency,ARPA)的网络研究计划ARPANET。ARPANET 最初连接了美国西海岸的四个节点,其直接目的是在实验室之间传输有关国防的研究信息。随后又开展了一系列的网络研究项目,并在 10年后达到了另一个里程碑式的阶段 。1981年引入的 BITNET(Because It's Time)在大学之间提供点对点的电子邮件和文件传输,1982年ARPA 引入了传输控制协议(TCP)以及因特网协议(IP),TCP/IP 使得不同的网络可以连接起来并进行通讯,从而形成了现在的系统。很多文献详细介绍了因特网的发展历程和通讯协议,但大多数用户关心的只是因特网在工作,而非具体的工作原理。

当网络中的计算机连接在一起的时候,需要有一种方法来明确表示每一台计算机,从而使消息和文件真正找到它们的接收者。为此,所有与因特网直接相连的计算机都必须有一个 IP地址,IP地址是唯一的,标识且只能标识一台计算机 。IP地址由四个以点号分隔的数字构成,如美国国立健康研究院(NIH)生物技术信息中心(NCBI)的主文件服务器的 IP地址是 130.14.25.1。从左到右这些数字表示的是:主域(130.14表示 NIH)、子网(.25表示 NIH 的国家药物实验室),以及这台计算机(.1 )。虽然采用数字式的 IP地址可以帮助计算机定位数据,但用户记忆起来却非常困难,所以 IP地址通常都有相对应的正式域名(FQDN),由域名服务器在后台将其动态翻译成 IP地址。回到前面NCBI 的例

Page 18: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

子,用户更愿意用 ncbi.nlm.nih.gov而不是 130.14.25.1 来访问 NCBI 的那台计算机。必须注意的是,从左向右 IP地址的定位范围由大到小,而 FQDN 的定位范围则由小到大。因此,任意指定的计算机的名称都可以看成是具有如下的格式:计算机.域,其中顶级域名(FQDN 中最后一个点号后面的部分)分为六个大类(见表 1.1)。在美国之外的国家,顶级域名则是用两个字符表示的计算机所在国家(例如,.ca表示加拿大,.uk表示联合王国)。

表 1.1 顶级域名

对因特网规模(即因特网的成功程度)的最具体度量,就是计算物理上接入因特网的计算机的数量。网络Wizards通过运行一个探测器去尽可能地寻找主机,并把探测结果返回到运行探测器的计算机上,从而定期地计算这些计算机(或主机)的数量。主机数量的增长速度非常显著,大约每 12 个月增加一倍,目前主机总数已经超过了 12,000,000台。这一增长的绝大部分来自商业部门,例如万维网等投资于日益大众化的新多媒体广告与通讯平台(图 1.1)。由于可能有许多探测器找不到的主机,这一统计数字的绝对数目不会很精确,它只适用于考察因特网的发展趋势,以及和其它数据进行比较研究。例如:有许多计算机被设置在防火墙后面,出于安全的考虑而阻止了公司内部与外部的通讯;其它一些计算机,尤其是家用计算机,只通过调制解调器与因特网短暂相连。所以最好把网络Wizard 的搜索结果只看成是代表某一时刻因特网的最小规模。

与因特网连接

Page 19: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

那些不能将他们的计算机通过以太网,10BaseT 或类似方式连接到因特网的用户可以有两种主要的方式访问网络:在线服务(Online Service)或因特网提供商(Internet Service Provider, ISP)。在线服务,例如美国在线(AOL)、Compuserve 以及 Prodigy,提供了大量的交互式数字服务,包括信息提取、电子邮件(E-mail)、公告牌,以及“聊天室”。在聊天室里同时上线的用户可以就任何话题进行交流。虽然现在在线服务也可以访问万维网,但大多数在这一系统中提供的信息服务依然是通过独占的、封闭的网络进行的。一旦在用户计算机和在线服务器之间建立了连接,用户就可以不离开在线系统的主机而访问系统中特定的信息资源。特定的内容可以包括从访问在线旅游预定系统到经常更新的大百科全书,这些项目对于那些没有订购在线服务的用户是无法得到的。服务的内容随价格而异,大多数这些服务都是按小时记费,即使正常的使用也可能会积累很高的费用。

因特网提供商采用相反的方式。ISP 注重的不是提供内容,而是提供给用户必要的工具以发送和接收邮件,上载和下载文件,以及浏览万维网,发现远程的信息。尽管象AT&T 和 MCI这样的大公司占据了 ISP 的主要角色,但不要求提供内容导致了家庭手工业式企业的快速发展,许多小的本地公司也提供与因特网的可靠连接,位于马里兰州巴尔的摩郊外的 ClarkNet就是其中之一。从一个500英亩农场的谷仓中的一组调制解调器开始,ClarkNet 现在无论从规模还是服务质量上都已发展成为了这个国家最好的地区服务提供商之一。ISP 的最大优势在于连接速度,通常小的提供商可以提供比在线服务还快的连接速度。一般ISP按月收费,可以无限使用。

Page 20: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

现在在线服务与 ISP 之间的界限已经逐渐模糊,并向在线服务倾斜。AOL 最近更改了其收费策略,变为按月而不是按小时收费。使得用户花费和大多数 ISP 相等的开销,就可以得到全部AOL 的专有内容,以及通过 ISP 所能得到的全部因特网工具。在美国的大多数州,AOL 网络的密集程度已经使得访问 AOL变得象打本机电话一样方便,用户无论在哪里都可以方便地访问电子邮件,这是本地小 ISP不能比拟的。象这样的发展趋势,加上本地电话和电缆公司也开始通过新的高速光纤网提供访问因特网的服务,使得将来终端用户访问因特网将越来越便宜,而且性能将越来越好。

电子邮件许多用户是通过使用电子邮件(E-mail)认识因特网的。电子邮件是一个方便快捷的发送、接收及回复消息的媒介,在许多地方实际上已成为不可或缺的工具它的优势主要有:

比邮政服务快得多。 传送消息比传统电话或面对面交谈要更为清晰明确。 接收者可以有很大的自由度来决定是马上回复、过一会回复还是根本不回复,从而更好地控制自己的工作流程。

提供了一种方便的整理、保存消息的途径。 发送电子邮件的成本很低,或根本不需花费。

虽然这些优势已经使得电子邮件成为了工业界和科学界一种十分重要的个人通讯手段,但用户也必须清楚它的两个主要缺点。第一是安全性问题。邮件在传递到接收者的过程中,可能经过一系列远程节点,在其中任何一处邮件都可能被有较高权限的人(例如系统管理员)所截取和阅读。第二是保密问题。在工业界

Page 21: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

中,电子邮件通常被认为是只用于办公室通讯的公司财产,因此就必须在管理者的监控之下。而在学院、准学院及研究领域则相反。例如,NIH鼓励个人在公布的准则范围内使用电子邮件,这里的关键是“公布的准则”。无论在什么情况下,电子邮件系统的用户都应该了解本机构的电子邮件使用规则,从而正确有效地使用这一工具。我们强烈推荐一本关于如何有效使用电子邮件的杰出指南。(Lamb and Peek, 1995)

发送电子邮件电子邮件地址的格式一般为:用户@计算机.域。其中“用户”是个人用户名,“计算机.域”指向电子邮件帐号所在的计算机。和普通邮件一样,电子邮件消息包括“信封”(或称为“信头”)和“正文”。信头的内容包括:收发信人的地址、电子邮件主题行、以及邮件如何从发信人到收信人的信息。信头下面是真正的消息(或“正文”),如同普通信件信封里的内容一样。图 1.2 显示了一个电子邮件消息的全部组成部分。

电子邮件程序千变万化,随使用平台以及用户的需求而不同。通常局域网的属性决定了可以使用哪些邮件程序,而且这一决定往往是由系统管理员而非个人用户做出的。最广泛使用的带有图形用户界面的电子邮件软件包有:用于Macintash 的 Eudora 和用于 Mac、Windows 和 UNIX平台的 Microsoft

Exchange。基于文本的电子邮件程序有 Elm 和 Pine,这通常需要注册到UNIX帐号来使用。

新闻组

Page 22: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

在图 1.2 的例子中,电子邮件被发给一个单独的收信人。电子邮件系统的一大优点就是可以把一封电子邮件发给很多人。可以通过使用“别名”来实现这一目的用户可以在邮件程序中定义一组人,并给这个组一个名字(“别名”)。用户把电子邮件发给这个别名后,邮件程序就会自动地把消息广播给组中的每个人,而不是逐一发送。即使在小规模组中设立别名也可以节省大量时间。这样也可以保证组中的每个人都能真正接收到发到组里的每一封信。

“新闻组”则是广播电子邮件消息的另一种方法。和“别名”方法不同的是,订阅新闻组时电子邮件地址列表由远端计算机编排维护,就象杂志维护一份订阅者名单一样。例如,BIOSCI新闻组是流通量最大的新闻组之一,提供了一个在相当大的生物学主题范围内讨论和交换思想的论坛。要开始接收发表在 BIOSCI

的自动测序讨论组的邮件,用户需要发送一个消息给 biosci-

[email protected],并在正文中写上 subscribe autoseq。新闻组中的全部文章就会发送到新的订户手中,该用户就可以参与讨论了。用户想要退出新闻组时,只需要给相同地址发送消息 unsubscribe autoseq就可以了。要得到包括的讨论组完整列表在内的 BIOSCI 的更多信息,给 biosci-

[email protected] 发一封邮件,清空邮件主题行,并在消息正文中写上info faq。BIOSCI 服务器会发送一份常见问题表作为回复,其内容包含了BIOSCI管理下的每个新闻组的详细信息。

就象邮政信件一样,电子邮件中最近也有一股“垃圾邮件”的浪潮,这些邮件来自某些公司出于商业宣传的目的而编排的大量邮件地址列表。大多数这样的列表都是从联机注册或相似渠道得来的,所以避开这种邮件列表的最好办法就是

Page 23: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

有选择地给出你的电子邮件地址。大多数新闻组的电子邮件地址是保密的,如果你有疑问的话,不妨先询问一下。

电子邮件服务器无论接收者是一个还是很多,到此为止的讨论仅限于发送消息。电子邮件还可以用于从生物数据库中进行预测或读取记录。用户可以用电子邮件给远端的服务器发送消息,以预先定义的格式说明希望进行的操作,服务器就会执行这些操作,并将结果用电子邮件返回给用户。图 1.2 显示的是电子邮件查询结果的示例,其中服务器是NCBI 的查询电子邮件服务器。虽然这种方式不是交互式的,但它将硬件维护和软件升级的工作交给了维护服务器的管理员,使用户更专心于结果而非程序本身。后面章节中将有一些电子邮件服务器的详细论述。日内瓦大学的Amos Bairoch 维护着一个优秀的最新电子邮件服务器列表,此列表可以通过匿名文件传输协议(下文介绍)的方式得到。具体做法是:访问expasy.hcuge.ch站点,进入/database/info 目录,下载文件serv_ema.txt。对于大多数这样的服务器,给服务器的电子邮件地址发送一个help消息就可以得到服务器的详细指令集,其中包括查询的正确格式。

文件传输协议虽然电子邮件传送消息存在很多优点,有经验的用户在传输附加文件时都曾遇到麻烦。问题在于仅仅将文件附加在邮件上并发送出去,并不意味着接收者能真正得到、解码并使用这个文件。虽然已经开发了许多跨平台电子邮件软件(例如Microsoft Exchange),但不同地点的人使用不同的电子邮件软件使得通过

Page 24: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

邮件发送文件并非有效、安全的方法,至少在近期内如此。对此问题的解决方法之一是使用文件传输协议(FTP)。FTP 的使用十分简单,在用户计算机(客户)和远端服务器之间建立起连接,并在整个 FTP任务过程中保持连接。文件的传输速度很快,大约每秒 5~10千字节。这一速度随一天中的不同时间、客户与服务器之间的距离,以及网络流通量不同而有所变化。

为了建立 FTP 连接并传输文件,用户必须在远端服务器上有帐号。科研界免费提供了许多文件和程序,访问这些文件并不要求拥有这些程序所在的机器上的帐号,而是用一种称为匿名 FTP 的系统建立连接。在这个系统下,用户与远端服务器连接时并不输入用户名/口令,而是在用户名中输入“anonymous”,在口令中输入个人电子邮件地址。服务器系统管理员用这些电子邮件地址进行访问统计,这可能会对那些提供文件和程序的人有所帮助。一个 UNIX匿名 FTP

对话的例子如图 1.3 所示。

虽然 FTP 实际上是在 UNIX 环境中产生的,但Macintosh 和 PC 用户也可以用基于图形用户界面(GUI)的程序浏览 FTP 服务器上的 UNIX 目录。用户不需要了解 UNIX指令就可以下载文件,他们可以从弹出式菜单上选取,或在 UNIX

文件结构中用鼠标移动和点击选取要下载的文件。Fetch是Macintosh上最流行的 FTP 程序,图 1.4 给出了 Fetch窗口的一个例子,图中显示了基于图形用户界面的程序和图 1.3 所示的 UNIX下 FTP 的区别。Amos Bairoch同样也维护了一份详细的分子生物学 FTP 服务器的列表,此列表可以从expacy.houge.ch获得,具体方法为:进入/database/info 目录,下载serv_ftp.txt 文件。

Page 25: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

GOPHER

FTP 用户进入一个特定的目录后,只能看到当前目录下的子目录和文件的名称。要想真正看到文件的内容,用户必须把文件下载到本地计算机。为了节省时间,明尼苏达大学的研究者开发了一个系统,使得不必下载就能阅读文本文件。这一程序按照学校的吉祥物被命名为Gopher,这也是分布式文档发送系统这一类特殊的交互式客户-服务器程序的最早的实例之一。

Gopher很容易使用,它不要求用户知道所寻找信息的物理位置或地址。所有不同Gopher站点存贮的信息都以一个固定的层次结构组织起来,用户用鼠标点击就可以浏览这一切。同样用鼠标点击的方法用户还可以在互连的 Gopher站点(称作 Gopher holes)中从一个站点转到另一个站点。Macintosh上的主要Gopher 浏览程序叫做 Turbo Gopher,如图 1.5 所示。

万维网尽管Gopher 解决了很多信息传输的问题,但只能用于发布文本。Gopher还从概念上启发了一个重要的思想,从而导致了下一代可以传送图象、声音以及影象的文档传送系统的开发。欧洲原子能研究委员会 1989年开始的研究提供了万维网的基础,从此一种新的可以处理多种非文本材料的媒体诞生了。

漫游和 Gopher 相比,在网页中漫游不需要用户知道有关所查找信息的详细地址。只要单击特定的文本、按钮或图片就可以进行漫游,这些可点击的元素总称为超

Page 26: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

文本链接。一旦点击了一个超文本链接,用户就会被带到其它的网点。与Gopher不同的是,这个新的地点不一定是一个层次结构的上一个或下一个地点,超文本链接可以将用户带到同一个网站的其它地方或世界另一边的网点 。WEB上的每一个文档称作一个网页,一个专门的服务器上的所有网页总称为一个网站。严格地用超文本链接进行漫游也被称为WEB冲浪。

用户可以通过键入地址来更为直接的找到信息。WEB 的一大特点就是:用户用来浏览网页的程序(浏览器)也可以同样的用于访问 Gopher 和 FTP站点,从而在一定程度上避免了对专门的 Gopher 和 FTP 应用程序的需求。为此引入了一个统一的命名规则,它不仅可以告诉浏览器远距离站点的位置,更为重要的是可以告诉浏览器远距离站点信息的类型,使得浏览器可以正确显示。这种标准格式的地址就称为统一资源定位器(简称 URL),其一般格式为:协议://计算机.域。其中协议表示站点的类型,计算机.域表示站点的位置(见表 1.2)。网站URL 中的 http 代表超文本传输协议,是主机向客户传送网络文件的方法之一。

浏览器之战浏览网页的浏览器是连接远距离站点的客户服务器应用程序,它从所连接的站点中下载用户请求的信息,并显示在用户监视器上,然后断开连接。从远距离主机上所获得的信息以一种与平台无关的格式存在,这种格式称为超文本标识语言(简称 HTML)。HTML 代码是纯文本代码,文档中所有的图形和声音都以单独的、通用的文件格式存在(例如:图形以 GIF 格式保存和传送,GIF是

Page 27: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

CompuServe开发的用于快速有效地传送图形的格式)。正因为如此,浏览器才可以显示任何类型(Macintosh、PC 或 UNIX)计算机上的所有网页。浏览器总是先显示网页的文本内容,然后再显示正在下载的页面的其它内容。只要这些平台使用的是同一个公司的浏览器,同样的网页就会以大体相同的模样显示,很少有例外。

“浏览器之战”的主角是网景公司的航海家(Navigator),目前占据了大约80%的浏览器市场。网景是Marc Andreesen 和其同事开发出来的,它是NCSA Telnet(第一个被广泛使用的网络浏览器)的派生产品。网景开发队伍中的大多数人来自NCSA,他们在意识到开发 WEB技术的重要商业意义之后离开了 NCSA。通过多年来让客户免费使用浏览器,只是依靠WEB 服务器和其它产品赢利的战略,网景获得了现有的市场占有率。现在网景还可以从其站点免费下载,但新版本只能免费使用 90天,而且用于教育机构时可以免费。网景有一些公认的缺点,例如笨拙的书签系统、难以显示和定位采用框架结构的网页、经常性的停止或崩溃,但是它已经可以满足大多数用户浏览页面的要求。

网景最主要的竞争对手来自微软公司,微软的浏览器产品 IE(Internet

Explorer)正在挑战网景市场份额第一的地位。微软的战略是把 IE 作为免费的软件让用户直接从其网站下载。IE 在取代目前的 AOL 专利浏览器后也会获得一些份额。AOL 专利浏览器已经被公认为毫无是处、缺陷多多,AOL宁愿把 IE 给自己的用户,也不愿意重新设计新的浏览器,这使得 IE 立即获得了一千万用户。另外,IE已经和 Windows95 操作系统捆绑起来,微软进一步计划将 IE 集成到操作系统中去,从而使得Windows95 用户实际上将 IE 作为他们的桌面。相

Page 28: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

比网景,IE有一些主要的优点:页面装入较快、浏览器更加稳定、处理多框架页面效果更好。随着这两种浏览器版本的提高,用户将会发现两个程序中有很多相同的功能,最终的胜负将取决于成本和个人的嗜好。

值得一提的是,尽管WEB被定义为视觉媒体,它同样可以在不传送相关图形的情况下传送并显示文档。局限于行终端的用户可以使用 Lynx 浏览器(见表1.6)。Lynx是堪萨斯大学开发的,它允许用户通过键盘上的箭头键高亮显示并选中超级链接,用回车键来取代网景和 IE 中必须使用的鼠标。Lynx 可以用于DOS 和 UNIX两种平台。

因特网(Internet)和企业内部网(Intranet)

WEB通常被认为是一种与远方联系的渠道,其实同样的机制也可以用于同一机构内部的相互联系,如:企业内部网。企业内部网利用 WEB 的简单界面,提供了一个容易使用的相关信息库,还提供了另一个广播或机构内部秘密联系的途径。当机构的成员离开到不同的建筑或城市时,企业内部网就非常有用了。企业内部网是受保护的,非机构网络的用户禁止访问内部网页,另外使用口令保护也很常见。

查询信息很多用户用老式方式在 WEB上查询信息:按照单词的读音,使用如本书各章中的参考文献似的列表,或使用网页中作者放置的超文本链接。即使是要寻找有明确目标的信息,通过单击在页面之间跳转来寻找的方式也往往事倍功半。查询

Page 29: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

虚拟图书馆可以解决这一问题,虚拟图书馆将网络资源按照不同的科目有组织地列出。有关生物学的虚拟图书馆有:哈福大学 Keith Robison 维护的 WWW

虚拟图书馆;衣阿华洲 Pedro Couninho 编辑的 Pedro's 分子生物学研究工具;欧洲生物信息学研究所的 EBI 生物目录,在本章结尾的列表中可以找到这些网站的 URL。

用搜索引擎也可以直接查询 WEB。搜索引擎是一种在网页内容目录数据库中执行全文或关键字查询的专门程序,其查询结果是满足条件的超级链接网站列表,用户可以访问列表中的任何一个站点。不同的搜索引擎在编辑数据库的方法上有些细微区别,这些区别既表现在访问网站上,也表现在阅读网站的数据上。有些搜索引擎只是将网页标题编成目录,而非网页全文;有些引擎将短语看作一个单词来查找,而其它则只是将相邻的单词挑选出来。由于搜索引擎算法中的这些差异,相同的查询请求用不同的搜索引擎返回的结果可能会有很大差别。从表1.3 中可以看出,同样是查询“genetic”,雅虎(Yahoo)的返回结果为 1,而其它引擎返回的结果都超过几千甚至达几万。另外表 1.3 中的数值很多都非常大,这也反映了万维网的巨大规模。因此只有引擎将搜索结果按重要性分级(例如,单词出现在标题中比在网页正文中更为重要),获得的查询结果才会真正有用。

为了实现这个功能,研究者开发出了新一类的搜索引擎��变换引擎(meta-search engine)。变换引擎采用更为智能化的途径搜索网站, 轮流用五到十种传统的搜索引擎执行用户的请求,然后聚集查询结果,删除重复项,最后返回给用户一个无重复的有注释列表。变换引擎的一大优点在于注重相关统

Page 30: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

计,使得结果列表更简短(见表 1.3)。虽然列表变短了,但所包含的站点却更为直接地反映了原查询要求。由于变换引擎必须轮流使用多个不同的搜索引擎,所需要的执行时间就会更长,但是查询结果的较高可用性比多用的几分钟(有时候只是几秒钟)查询时间更重要。可靠且容易使用的变换引擎有SavvySearch 和 MetaCrawler。

减少返回结果的另一途径是减少查询集的大小,一些搜索引擎正是由于只覆盖某一专门领域的网站而脱颖而出。本文写作时尚无生物学方面的专门引擎,(译者注:现在已经有了一个生物学专业检索引擎,名为NEEHOW,是一个中国人自己设计维护的专业检索引擎,URL:http://biology.neehow.org 及http://biology.neehow.org.cn)比较受欢迎的搜索引擎还有 LookSmart,

这是《读者文摘》杂志的一项服务,它将该机构的浓缩诀窍应用在了网络上的相关领域。  图 1.1 因特网上各域名主机数量的增长。因特网上主机的总数已经超过12,000,000台,商业站点数量(.com)在 1994年首次超过教育站点(.edu)。[Data Network Wizards (http://www.nw.com)]

 图 1.2 剖析一个电子邮件(e-mail)消息(各部分已经标示出来)。这是一个NCBI帮助服务器对求助消息的自动答复。 

Page 31: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

图 1.4 用 Fetch 来下载一个文件。在 Indiana 大学的分子生物学 FTP 服务器(上图)建立一个匿名 FTP 进程来下载ClustalW 序列比对程序(下图)。注意基于 GUI 的程序与图 1.3 所示 UNIX下程序的区别。 图 1.5 用 TurboGopher 来阅读一个文本文件。窗口标题显示了寻找图中文件的浏览路径,从Minnesota 大学的“Home Gopher”开始到 Johns Hopkins

大学的 Welch 医学图书馆结束。这种浏览不需要知道所寻找的信息的地址或位置,搜索在一系列层次结构的菜单中进行。 图 1.6 比较一个基于 Web 的图形用户界面浏览器(Microsoft Internet

Explorer)和一个纯文本Web 浏览器(Lynx)。两个浏览器都指向 Stanford

大学的 Saccharomyces 基因组数据库主页。上一页 下一页 返回目录 返回茶庄

 

第二章 GenBank 序列数据库简介一级蛋白质和核酸数据库在分子生物学界是如此的司空见惯,以致于我们很少会去考虑这些普遍存在的工具是如何建立的。但是如果我们能够了解这些序列是

Page 32: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

如何汇集到一起的,这将有助于我们加深对生物学的理解,并且能够更加充分地发掘这些记录中蕴藏的信息。

GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。每个记录代表了一个单独的、连续的、带有注释的DNA 或 RNA片段。这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成这些序列数据的技术方法划分。目前GenBank 中所有的记录均来自于最初作者向DNA 序列数据库的直接提交。这些作者将序列数据作为论文的一部分来发表,或将数据直接公开。GenBank由位于马里兰州Bethesda 的美国国立卫生研究院下属国立生物技术信息中心建立,与日本DNA 数据库(DDBJ)以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库(EMBL)一起,都是国际核苷酸序列数据库合作的成员。所有这三个中心都可以独立地接受数据提交,而三个中心之间则逐日交换信息,并制作相同的充分详细的数据库向公众开放(虽然格式上有细微的差别,并且所使用的信息系统也略有不同)。

这一章描述 GenBank 数据库是如何构成的,它如何与蛋白质数据库相衔接,以及如何解释其中的数据成分。关于序列数据库,前人已经作了大量的工作,具体可参见(Schuler et al., 1996; Bairoch and Apweiller, 1997; Benson et al., 1997; George et al., 1997; Stoesser et al., 1997; Tateno et al., 1997)。所有这些论文都指出了数据库快速增长的趋势,并对如何利用这些生物学资源提出了建议。出于科学研究的考虑,以及由于历史的原因,序列数据被分别存放在核苷酸和蛋白质数据库中。核苷酸序列是查询核苷酸数据库以及蛋白

Page 33: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

质数据库时的主要出发点,并且目前有一种趋势,将核苷酸数据库介入到蛋白质数据库的管理之中(正如我们下面将要看到的那样)。这并不奇怪,因为数据库维护者与数据提交者之间的直接通讯将有利于保证数据的真实性与准确性(提交者需要一个检索号,并且他们想要得到他们添加到数据库中的新记录)。在很多情况下,这种对数据的关注意味着提供适当的信息来注释CDS(coding sequence:编码序列),并告诉我们如何得到翻译产物。这种对蛋白质和核酸序列统一管理的倾向也明显地体现在 NCBI 的 Entrez 之中,在GenBank 的管理之中,以及在 GenPept 格式记录的生成过程之中。在欧洲,EBI 的工作人员统一维护管理 Swiss-Prot 和 TREMBL,这些工作人员也负责EMBL 核苷酸数据库的管理工作。还有Amos Bairoch 和他在日内瓦大学的研究组。(见本章后的列表)。尽管如此,建立核苷酸和蛋白质数据库的初衷还是有区别的。本章还初步讨论了将在第六章详细描述的数据模型。这一章主要是从GenBank flatfile 的角度介绍序列数据,但必须明确的是,“flatfile”(不论是GenBank, EMBL, Swiss-Prot 或 PIR),都只是ASN.1报告的一个方面。而ASN.1才是代表了 NCBI 数据模型的语言。GenBank 以 DNA为核心,包含了许多计算生物学资源。

历史上,蛋白质数据库先于核苷酸数据库。在 60年代初,Dayhoff 和他的同事们收集了所有当时已知的氨基酸序列,这就是“蛋白质序列与结构图册”(Dayhoff et al., 1965)。这一蛋白质数据库后来成为 PIR(George et al.,

1997)。这本书为今天整个生物信息学界日常工作所依赖的计算生物学资源播下了种子。这个在 1965年可以很容易地存放在一张软盘上的数据集(尽管那时

Page 34: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

并不存在软盘这种存储介质),是一小群人多年的工作成果。今天,任何一个DNA 或蛋白质数据库每天增加的数据量都数倍于此。最早的 DNA 序列数据库于1982年在欧洲分子生物学实验室诞生,随即就开始了一个数据库爆炸的时代。(见图 2.1)。R. Cook-Deegan(1993)在《基因战争》中详细描述了这一时期人类基因组计划的历史。此后不久因一项NIH 与洛斯阿拉莫斯国家实验室的合同而诞生了 GenBank。两个中心都致力于发展输入方式,这主要是将学术刊物上公开发表的论文转换为更适合计算机使用的电子格式。日本的 DNA 数据库(DDBJ),在几年后加入了数据收集的合作。在 1988年一次三方会议之后(现在称之为“国际 DNA 序列数据库合作计划”)达成了一项协议,对数据库的记录采用共同的格式,并且每个数据库只负责更新提交到这一数据库的那些数据。现在三个中心都收集直接提交的数据,并在三者之间发布。这样,任何一个中心都拥有并发布所有的序列数据。这种方式下每条记录只被生成这条记录的数据库所拥有,也就是说只有生成这条记录的数据库可以对记录进行更新,这就防止了“更新冲突”。否则如果每个数据库都可以修改任一条记录,并覆盖其他数据库的数据,就必定会发生错误。近年来的安排保证了没有一个数据库可以覆盖其他数据库更新的记录。所有的序列数据库也都是计算生物学中心,并且越发表明序列数据不能简单地由自动化方式来生成。每个数据库都成为了一个中心在那里生成序列数据,并由生物学家进行验证,同时还开发一些利用这些信息的工具(例如NCBI 的 Entrez,见第 5 章,以及 EBI 现在正在开发的 SRS)。很明显的一点是一些专职的,介入到收集数据、提供发现与检索工具,并且作为研究机构来研究新算法、发掘公共数据库并在最高水平进行科学活动的机构将能

Page 35: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

够最大限度地服务于用户群体。在这一环境下,知识被最高效率地获取与共享,并且新的研究与理解这样大量数据的方法也不断涌现。

这一章的着重介绍GenBank 核苷酸数据库,GenBank是包含了三个重要蛋白质数据库(Swiss-Prot, PIR 和 PDB)的一系列数据库中的一个。这一系列数据库中的每一个都对数据库现在和将来的使用方法产生了或产生过重大影响 。PDB是关于核酸和蛋白质结构的数据库,将在第三章中详细介绍。Swiss-Prot

和 PIR 可以称为二级数据库,它比已经存在于一级数据库中的数据提供了更多的信息。Swiss-Prot 和 PIR 中的蛋白质序列主要来源于核苷酸数据库,另外一小部分是直接向 Swiss-Prot提交的(这些蛋白质是直接测序的)或者是从公开发表的论文中搜索到的。这里没有详细讨论这些情况,我们建议读者通过其他途径了解更多的详情(Bairoch and Apweiller, 1997; George et al.,

1997)。

需要注意的是,如同在第六章和第十四章中一样,这里的“GenBank”指的是DDBJ/EMBL/GenBank。DDBJ 和 EMBL 核苷酸数据库与 GenBank紧密合作,逐日交换数据。他们从不同的地点,用不同的格式发布同样的信息。他们也都是提供其他数据、工具和服务的研究机构。这些虽然从理论上是无关的活动,但实际上很难分开。例如,Entrez(见第 5 章)是NCBI 的一个计划,它包含了GenBank 数据在其中。但 Entrez 和 GenBank(都是NCBI 的产品)从本质上是不同的,前者是一个信息检索系统,而后者是一个 Entrez从中进行检索的数据库。

Page 36: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

一级和二级数据库一级和二级数据库之间存在着本质的差别。序列数据库对科学界最重要的贡献就是这些序列本身。一级数据库记录了实验结果,以及一些初步的解释。而更进一步分析工作的结论只能从二级数据库中查找到。一级数据库中的核苷酸序列记录是从直接实验得到的,这些记录是对存在于某个实验室的试管中的生物分子测序的结果。它们不代表共有序列(虽然是多次读取同一克隆,或相同的基因来源),它们也不代表一些计算机生成的字符串。这在序列分析的解释中很重要,也意味着在大多数情况下一个给定的序列就是研究者所需要的全部。每一个这样的 DNA 或 RNA 序列都将被注释以描述对实验结果的分析,这一分析阐明了为什么这一序列会被这样确定。

在 DNA 序列记录中的一种常见的注释是编码序列(CDS)。大多数蛋白质序列都不是直接由实验确定的,而是通过 DNA 序列得到的。这在实验、计算以及相似性比对工作中占有很大的比重。这并行于赋予一个产物名称,或者功能说明(通过对相似性比对的分析)。这一方法很有效,但也有误导的可能 。DNA,RNA 和蛋白质序列都是计算分析工作的对象,它们是一级数据库中有价值的成分。

那些在 DNA 序列记录的基础上进行计算、分析或其他工作的研究者通常认为他们所处理的是原始信息。但是在很多情况下,氨基酸序列从某种程度上说是解释的结果,而并非是直接测序得到的。这样,在使用和说明由这些序列得到的结果时就需要格外小心。由mRNA 序列数据推导出蛋白质序列通常并不难,但必须

Page 37: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

选择正确的启始编码子。对于原核生物或低等真核生物序列的注释通常相对简单但研究者同样需要注意避免缺少注释或增加不必要的注释。(见第 10 章以及Cannon et al., 1997)。将序列标记为CDS通常需要格外小心,因为这是蛋白质数据库全自动或半自动生成的开始步骤。

格式与内容:计算机与人数据库被用来存放原始数据,以及一系列附加的注释。不同的检索工具和程序利用了这些信息中的不同部分。纵观各种格式,我们可以发现其中应用了一些共同的规则,以使得多种情况下在不同格式之间生成和交换数据成为可能。最便于人阅读的格式对计算机程序来讲很可能并非是最有效率的(例如GenBank

flatfile,见附录 2.1 和 2.2,这是一种人可以阅读的 ASN.1 版本)。这些记录还有二进代码版,更加紧凑,计算机处理也更快。但不幸的是,由于历史的原因对一种固定格式的频繁使用使得引入另一种格式极为困难,尽管新的格式可能更加富含信息,更加准确,易于复制和计算,易于抽取信息,易于使用。(但我们并未放弃尝试,见第 3、6、14 章)。GBFF 的简单性,使我们都可以获得易用的工具,这也是 EMBL 和 GBFF极大通用性的重要原因。

作为最简单的格式,一个 DNA 序列可以表示为一个带有一些标记的核苷酸字符串。这里是一个以 FASTA(或 Pearson 格式)文件表示的核苷酸序列数据:>L04459

*******************

或同样的,一个蛋白质记录:

Page 38: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

>P31373

*******************

FASTA 格式广泛应用于许多分子生物学软件包之中。作为最简单的情况(正如上面所显示的),大于号(>)表示一个新文件的开始。标记符��上面第一个例子开始部分的 L04459��后面是大写或小写字母的 DNA 序列,通常 60 个字符一行(但这并非是标准规定)。如果需要的话,用户或数据库可以在这个简单格式的基础上增加复杂的结构化信息。例如,在不违反上面规定的前提下,可以在 FASTA 的说明行中加入更多的内容,使这个简单的格式包含更多的信息,就象下面这样:>|

*******************

现在这个 FASTA 文件中包含了 gi号码(见下面,以及第 6 章)、GenBank 检索号码、LOCUS 名称、以及 GenBank 记录中的 DEFINATION字段。这个记录是从ASN.1 记录生成的,(见附录 2.2),而ASN.1是NCBI 用来存储和维护所有数据的格式。(在计算机中这些数据保存为一行,如果打印出来,将比本书的页面宽出许多。所以,这里做了折行处理)。

在分子生物学的历史上曾经使用过许多格式,其中有些格式现在还在使用,同时也有许多工具用来在这些格式之间转换数据。NCBI 的 asn2ff 程序可以将ASN.1 文件转换为多种 flatfile 文件格式,它可以生成GenBank、EMBL、GenPept、Swiss-Prot 以及 FASTA 格式的文件。这一程序包含在 NCBI工具软件包之中(见第 6 章)。Don Gilbert 的 READSEQ(见本

Page 39: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

章末的互联网资源列表)是另一个广泛使用的工具,已包含在许多软件包中。在使用这些工具进行格式转换时,用户应当注意,有些 GenBank 或 EMBL 格式下的特性将被丢失。READSEQ只工作于序列自身,并不处理注释部分。那些只需要序列数据的程序(例如BLAST,见第 7 章)最好使用 FASTA 格式的序列来进行查询。尽管 FASTA 格式的信息含量比其他格式少,但它提供了人和计算机都可理解的处理原始数据的简单方法。

数据库正如上面提到的,所有在 EMBL 中出现的序列也都包含在 DDBJ 和 GenBank

中,反之也如此。GenBank每两个月发布一次新版本,并且每天都通过匿名FTP提供递增式(以及非递增式)的更新。几个核苷酸数据库之间也每天以如同特性表文档(见下面)所描述的公共数据格式交换新生成的以及更新过的数据记录。这一特性表是了几个核苷酸数据库进行注释的共同语言。同时,核苷酸序列数据库还发展了一套数据提交流程(见第 14 章),这是一系列关于数据记录内容和格式的指示。(见本章末的互联网资源列表)。

核苷酸记录是主要的序列数据和生物信息来源。大多数蛋白质序列数据库中的序列是从核酸数据库的记录中推导出来的,这导致了两个重要的结果:

1. 如果一个编码序列没有能在核酸记录中正确地标识出来,它就不会出现在蛋白质数据库中。查询蛋白质数据库是最有效的相似性检索方法(见第7 章),这样,应当但却没有在被研究的 mRNA 或基因序列中标识的CDS就有可能导致丢失重要蛋白质序列。

Page 40: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

2. 不幸的是,在核酸数据库特性表文档中特别应用于蛋白质序列的特性是十分有限的正如本章末的列表所显示的那样。

剖析 GenBank Flatfile

GenBank flatfile(GBFF)是GenBank 数据库的基本信息单位,也是最广泛地用以表示生物序列的格式之一。在本书写作的时候,它也是从GenBank 到DDBJ 和 EMBL 数据库,以及 EMBL、DDBJ 之间或向其他数据库交换数据时所采用的格式。DDBJ flatfile 格式与 GBFF 格式是相同的(见附录 2.1)。EMBL

格式则每行都带有前缀,以表明本行的信息类型(见附录 2.3)。注释部分(见下面)前缀为“FT”,在内容上与其他数据库相同。所有这些格式实际上都是由更结构化的 ASN.1(见附录 2.2)生成的。但是主要由于历史的原因,许多用户(专家或非专家)在工作中使用 GBFF(或 EMBL flatfile 格式)

GBFF 可以分成三个部分,头部包含关于整个记录的信息(描述符)。第二部分包含了注释这一记录的特性,第三部分是核苷酸序列自身。所有的核苷酸数据库记录(DDBJ/ EMBL/ GenBank)都在最后一行以 // 结尾。

头部头部是记录中与数据库关联最大的部分。各个的数据库并不一定在这一部分包含相同的信息,而可能存在着微小的差别。但各数据库已作出努力以在彼此之间保证信息兼容。

所有的 GenBank flatfile开始于 LOCUS 行:*********************

Page 41: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

这一行中的第一项是 LOCUS 名称。历史上曾用这个名称来表示本记录描述的基因座,提交者和数据库工作人员花费了无数的时间来设计这一名称。这一成分开始于一个英文字母,总长度不能超过 10 个字符。第二个字符以后可以是数字或字母,所有字符均要大写。LOCUS 名称在以前是最为有用的,那时大多数 DNA

序列记录只表示一个基因座,这样在 GenBank 中寻找一个可以用少数几个字母和数字来代表生物体的独特的名字是很容易的事。经典的例子包括HUMHBB:人 β-珠蛋白基因座,或 SV40:猿猴病毒(拷贝之一,因为存在许多拷贝)。为了可用起见,LOCUS 名称在数据库中必须是独一的。因为几乎所有有意义的命名符都被使用过了,所以今天 LOCUS 名称已不再是一个有用的成分。但仍有许多软件包依赖于一个独一无二的 LOCUS 名称,所以数据库还不能将其彻底去掉。可行的办法是代之以一个独一无二的词,最简单的是用一个保证不会重复的检索号码,象例子中的 AF010325那样,以满足对 LOCUS 名称的要求。**********************

下一项是序列长度,从 1 到 350,000bp。在实践中 GenBank 和其他数据库很少接受 50bp 以下的记录。所以一般不鼓励将 PCR 引物(24bp)作为序列提交给数据库。350kb限制是一个经验值,各个数据库用不同的方法提供更长的重叠群(见第 6、12 章以及附录 2.4)。**********************

LOCUS 行中的下一项表明生物分子的类型。“分子类型”通常是DNA 或RNA,但也有少量其他类型出现,它们也都表明单链或双链(ss 或 ds)。这些

Page 42: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

属性现在已经很少使用了,这也是另一个历史遗留物。这些包括类型:DNA、RNA、tRNA、rRNA、mRNA 和 uRNA,以表明生物分子的最初来源。例如cDNA 测序实际上代表了一个 mRNA,而mRNA才是这个序列真正的分子类型。如果 tRNA 或 rRNA是直接或以 cDNA为中介测序的,那么 tRNA 或 rRNA

就是分子类型。如果序列是通过聚合酶链反应(PCR)从基因组数据中得到的,那么 DNA是分子类型,尽管这一序列实际上编码结构 RNA。**********************

下一项是GenBank 分类码,由三个字母组成,这或者具有物种分类意义,或者出于其他分类目的。这一代码的存在也是由于历史的原因,可以追溯到GenBank为了保持可管理的文件大小而将整个数据库按物种分类分割为几个文件的时候。GenBank 的分类与 EMBL 以及 DDBJ略有不同,这在其他文献中有介绍(Ouellette and Boguski, 1997)。在历史上这种分类是非常随意的,现在已不再象历史上那样起到重要的作用,因为物种分类信息已经表现在了“生物体”行以及“来源”特性中。这比仅用三个字母作为分类码要清晰明确得多。NCBI近几年来没有再采用更多的基于生物体的分类,但有些新的基于功能的分类却显得越来越重要,因为它们代表了功能方面可定义的差别(Ouellette

and Boguski, 1997)。已表达序列标记(EST)分类在 1993年被采用,其后很快又增加了序列标记位点(STS)类。还有基因组综述序列(GSS)和未完成的高通量基因组序列(HTG)都代表了按功能划分的一类数据,这些都要求用户以及数据库工作人员用不同的方法来处理。例如,用户可以在这些数据集中检索(例如通过 FLASTN 在 EST 或 HTG 分类中查找),并对命中的记录做进

Page 43: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

一步分析解释。这时,所有数据库均以相同的方式来说明功能性分类,并且在任一数据库中所有的数据集都会出现在同一分类中。CON 类是一个正在计划被使用的新的实验性分类,将用来表征通过重叠群构造的片段或大的整合序列。这样就很有可能超出现在对单一记录的 350kb限制。这样的记录可能以如同附录2.4 的形式出现,这个 CON 类记录给出了大肠杆菌的全基因组序列,长度在4.6mb 以上。这个记录没有包含序列或注释,但包含了如何将存在于其他分类中的片段拼接成完整序列的指示。这一实验性分类中的记录将带有检索号和版本号,并且同其他记录一样,在几个合作者之间交换。所有被切分的数据也将出现在这一分类中。*********************

LOCUS 行中的日期是数据最后被公开的日期。在许多情况下,也是第一次被公开的日期。记录中包含的另一个日期是序列提交给数据库的日期(见下面)。必须注意的是,这两个日期并没有法律保证,数据库并未声明这两个日期是正确的。所以它们只供用户参考,并不能作为仲裁的判据。就作者的经验,它们也从未被用以作为优先权声明或专利权请求的依据。**********************

DEFINITION 行(也称为“DEF”行)在 GenBank 记录中用以总结记录的生物意义。这一行将出现在 NCBI 的 FASTA 文件中,这样任何人进行 BLAST 相似性搜索时都会看到这些信息。生成这一行时要非常小心,因为许多记录生成工作可以部分地自动进行。所以数据库工作人员要检查这一行以保证信息的一致性和有效性。但是,用一行文字来说明生物背景并不总是可行的,对此不同的数据库采

Page 44: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

用了各自的解决方法。其中有一些共识,并且每个数据库也都了解其他数据库的解决方法,并尽力与之一致。下面是DEFINITION 行结构标准的一个小结。对于mRNA,可以象这样:

属 种 产物名称 (基因符号) mRNA complete cds

或者对于基因组记录:

属 种 产物名称 (基因符号) gene complete cds

当然,各个数据库采用的解决方法也考虑到了其他类型的记录。下列这些规则应用于细胞器序列,以保证用户及数据库工作人员明了 DNA 的来源和生物背景(假定提交者是明了的):

DEFINITION 属 种 蛋白质 X(xxx) gene, (下列选一)complete cds.

, 编码线粒体蛋白质的核基因

, 编码叶绿体蛋白质的核基因

, 编码线粒体蛋白质的线粒体基因

, 编码叶绿体蛋白质的叶绿体基因

或者

DEFINITION 属 种 XXS 核糖体 RNA gene, (下列选一)

Page 45: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

complete sequence.

, 编码线粒体 RNA 的线粒体基因

, 编码叶绿体 RNA 的叶绿体基因

基于一项合作数据库之间最近达成的协议,将在 DEFINITION 行中给出属和种的全名,而不再使用通用名(如 human)或属名缩写(如H.sapiens)。数据库中在此协议之前生成的记录将最终按此协议进行更新。只有一个生物在这个协议之外,那就是人免疫缺陷病毒将在 DEFINITION 行中表示为HIV1 和 HIV2。******************

检索号在记录的第三行,是从数据库中检索一个记录的主要关键词(见第 6

章)。这个号码将在参考文献中被引用,并始终和序列在一起。就是说,当序列被更新(例如更正一个核苷酸)时,这个号码不会改变。检索号码采取下列两种方式之一:1+5 或 2+6 格式。1+5 格式是指 1 个大写字母后跟 5 位数字;2+6 格式是指 2 个大写字母后跟 6 位数字。绝大多数新近加入数据库的记录采取后一种方式。所有的 GenBank 记录都只有一个单独的 ACCESSION 行,行中可能有多个检索号码,但绝大多数情况只有一个检索号。这通常称为主检索号码,其余的是二级检索号码。*********************

不幸的是,在以前二级检索号码还有一些不同的含义,但定义方式并不统一。二级检索号码可能与主检索号码相关,或者主检索号码只是已经取消的二级检索号码的替代品。合作数据库正在努力使后者成为任何情况下的缺省方式。但因为

Page 46: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

二级检索号码已经使用了 15年以上(在此期间GenBank 的管理方式也经过了多次调整),能阐述所有情况的全部数据已无从得到。*********************

NID 行是了核苷酸序列的 gi号码(geninfo identifier)(见第 6 章)。前缀字母(d,e 或 g)表明是哪一个数据库生成了这个号码,或这一号码用于哪个数据库。因为NCBI首先使用了这个号码,所以 DDBJ 和 EMBL 用NCBI(GenBank)指定的号码来填充他们的数据库。简单地说,一个 gi号码对应于一个核酸序列(蛋白质序列也有 gi号码,见下面以及第 6 章)。当序列改变时,gi号码也改变,但检索号码不变。

在本书出版时,将出现第三种标识符。合作数据库已同意将版本号加在不同版本的序列上(就象NID 或 gi)。格式是:检索号.版本号。例如:******************

这表明序列第 1 版,检索号为AF010325,gi号为 2245686。在本书写作时,还没有确定这个标识符应放在哪一行中,但肯定会在 ACCESSION 和 NID 行之后。很可能就选择在 VERSION 行(正如上面那样)。相关信息请参考最新的GenBank release note。这个标识符中的版本号码将随每次序列改变而加1,gi 的更改也是如此(但不是每次加 1,而是改变到下一个可能的整数)。这个标识符格式的检索号码将承担现在由检索号/gi号(在 NID 行)所承担的任务,它最终取代 GBFF 的 NID 行将一点也不令人奇怪。Accession 行在可预见

Page 47: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

的将来不会被取消,因为它还有历史价值,也因为还存在一些由于历史原因而保留的二级号码。*******************

KEYWORDS是另一个有趣的历史遗留物,并且不幸地在很多情况下被误用了。给一个记录加上关键词通常并不十分有效,因为在过去的年月中有许多作者选用了不在受控词表中的词,并且在整个数据库中用法也不一致。因此,NCBI不鼓励使用关键词,但在查询时加入关键词是可以的,特别是那些没有在其它记录中出现的过词,或以一种受控的方式来使用的词(例如:对于EST,STS,GSS,HTG 记录)。这时,拒绝加入关键词只是NCBI/GenBank

的策略。*******************

SOURCE 行中有生物的通用名或科学名称。有些情况下也有其它来源的信息(见下面)。现在正在一致努力以保证来源特性中包含所有必须的信息(不同于现在的 SOURCE 行),并且所有关于分类的信息(SOURCE 行和ORGANISMS 行)可以从来源特性以及 NCBI 分类服务器中获得。对于系统族或关于分类的其它方面感兴趣的读者可以访问 NCBI 的分类主页(见章末列表)。这一分类被所有核苷酸序列数据库以及蛋白质数据库 Swiss-Prot 所采用。*******************

每个 GenBank 记录至少要有一篇参考文献。许多情况下有两篇,就象附录 2.1

那样。前面这个例子是一篇未发表的论文(应该是“已投”),如果将来文章发

Page 48: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

表的话则将代替于此。参考文献提供了科学证据以及一个背景来解释这个特定的序列为何会这样确定。当参考文献发表时,通常会有一个 MEDLINE标识符,正如下面例子中一样,提供了指向MEDLINE/PubMed 数据库的链接。*****************

在 1998年末,又加入了一个新的行,以及其标识符 PUBMED,允许指向PubMed 数据库以及发表者在线全文电子版的链接。*****************

最后一次引用通常出现于许多 GenBank 的记录中,为那些将要围绕这一序列开展工作的研究者提供科学依据。这其中通常包括第一作者完成此项工作的主要实验室,或作者的通讯地址。日期是记录被提交给数据库的日期,而不是这些数据第一次公开发表的日期,那将在 LOCUS 行中出现(见上面),如果这一记录没有被更新过的话。

GBFF头部的最后一部分是评论。这一部分包括关于整个记录的许多不同的注释和评论(也称之为“描述部分”)。基因中心喜欢在这一部分中加入自己的内容以及致谢等。有许多 GenBank 记录没有这一部分,这是可选的。这里也可以包括电子邮件地址和 URL,但在实践中 NCBI 并不鼓励这样(虽然象上面提到的一样有些基因组测序中心已经这样作了),对此简单的解释是电子邮件地址通常比建筑物的地址更容易被轻易更换。但DDBJ几年前就已经将电子邮件地址包含在了记录之中,这又一次体现了政策考虑上的微妙差别。

特性表

Page 49: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

GBFF 记录的中间部分,也是最重要的一部分,就是注释,它直接表达了记录的生物背景知识。也许有人争辩说生物背景在记录所引用的参考文献中有最好的表现,但不论怎样,记录中的一整套注释有助于快速地抽取相关生物信息,并允许提交者指出这一记录当时为什么会被提交到这个数据库中(见第 14 章)。这里对于注释的选择就十分关键了。特性表文档(见第 14 章)详细描述了合法的特性(允许使用的注释),以及这些特性的允许限制词。不幸的是,这里经常有一些非法的,推测性的或由计算得出的注释。如果一个注释是仅由计算得到的它作为记录说明的可用性就大打折扣了。

一般考虑这一节描述 GenBank 中的一些关键特性,讲述他们的重要性以及包含的信息。由于第 14 章包含了关于这一部分的大量最新的 GBFF 文档,所以这里的讨论只限于生物背景,以及关于这一部分由NCBI工作人员给出的指导性意见。这些材料将引导读者深入了解数据模型(第 6 章)以及 GBFF 在序列分析中的重要地位,并且也作为对特性定义以及 GenBank 语言中限定语的介绍。这里的特性与其它在第 6 章以及第 14 章中讨论的特性略有不同。在 GBFF 记录中,GBFF

的每项注释都称之为一个“特性”。而在 NCBI 数据模型中,特性指对于部分序列的注释,但关于整个序列的注释通常称为“描述符”。这样在 GenBank词汇表中,从数据模型的角度看来源实际上是一个描述符(BioSource,指整个序列),而不象在其它地方那样是一个特性。但因为本章是关于 GenBank 数据库的,所以我们采用了前一种定义。读者应该清楚其中的微妙差别,特别是在读本书的其他部分时。

Page 50: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

来源来源(source)是唯一一个必须在所有GenBank 记录中出现的特性。所有的特性都有一系列合法的限定词,有些是强制性的(例如来源中的/organism

(生物体))。所有的 DNA 序列记录都有出处,即使是合成序列这样极端的特例也一样。大多数情况下一个记录只能有一个来源特性,并带有/organism限定词。这里是附录 2.1 中的例子:***************

限定词 organism 包含属和种的科学名称,有些情况下还可以在亚种水平描述。对于来源,一系列限定词将包括了关于 BioSource 的所有材料,这可能包括图谱、染色体或组织、克隆标识以及其它库信息。在来源以及其它所有GenBank

记录的特性中,作者都必须要注意避免加入冗余的信息。对于读者来说,对一切不能由计算证实的东西都必须抱一点怀疑态度。组织来源以及文库也只有和相关的发表文献对照才比较可靠(如果有文献的话),并且只有在这种情况下这类信息才在 GenBank 的所有记录中一致地使用。在以系统化的方式使用限定词的一批记录中,正象许多大的 EST 集一样,分类可以被证实(就是说,这一生物确实存在于 NCBI 维护的关于所有生物的数据库中)。此外如果限定词还在所有记录中一致地使用,对于研究者将是十分有益的。但不幸的是,许多限定词在数据库中的使用缺乏充分的一致性,这就使得它们实际上没有很大的价值。

Page 51: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

隐含于 BioSource 以及生物体中的是DNA 或 RNA 使用的基因编码,这将被用以将核苷酸翻译为蛋白质序列(如果记录中存在的话)。这一信息包含在 CDS

中。

CDS

正如在第六章中详细介绍的,CDS指示读者如何将两个序列连接在一起,或如何根据核苷酸序列以及基因编码得到氨基酸序列。GBFF 以 DNA为核心,通过DNA 序列坐标系统映射所有特性,而不是从氨基酸的角度。正如下面GenBank Y11895 的例子所显示的(这个例子来自一个提交到 EMBL 的记录)。*********************

在分析这些数据时,我们必须从DNA坐标推导出氨基酸位置,并且我们对于所编码蛋白质的了解也将仅限于从对 DNA 特性的描述中获得。这一限制可被Sequin克服(见第 14 章)。这一例子也显示了数据库交叉索引(db_xref)的使用。这一受控限制词允许数据库将另一个外部数据库的序列(第一个标识符)与一个在本数据库中使用的标识符交叉索引。允许 db_xref 的数据库都是合作数据库所维护的(见章末列表)。

正如上面提到的,以及将在第六章中讨论的,NCBI 给每个记录赋予一个gi(geninfo)标识符。这意味着翻译产物蛋白质序列(不是简单附属于 DNA

记录,如同在 GenBank 记录中显示的),也有自己的 gi号码。一个特定的标

Page 52: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

识符当且仅当序列更改时才更改。蛋白质 gi号码现在作为 PID db_xref 或蛋白质标识符出现。下面这个例子显示了两种情况:/db_xref = “PID:e322087”

/db_xref = “PID:g2415691”

前缀 e 和 g表示 EMBL 及 GenBank。‘g’前缀后面的整数是NCBI赋予的 gi

(这里的 gi没有字母,只有 PID值)。这里可以有两个 PID,因为每个数据库各自维护其标识符。在 GenBank 中,只有 EMBL 生成的记录有两个 PID,其中一个带有‘e’前缀,另一个带有‘g’前缀。这一混乱将很快结束,因为 1998年后 gi号码的使用将被简化。对于核苷酸序列,还将有一个序列标识符,带有版本号成分,以及一个固定的序列标识符(或检索号)。***********************

在过渡时期,所有的序列标识符需要同时存在,但 PID将最终被取消 。Protein_id(或核苷酸序列数据库生成的蛋白质检索号)将由 3 个字母加 5 位数字构成,后跟一个句号和另一个整数,显示这个蛋白质序列的版本。当序列更新时,这一数字也将增加,就象 gi那样。这样如果旧版本存在的话用户将可以简单地通过版本号来查找以前版本的记录。氨基酸序列是核苷酸序列数据库最重要的副产品之一,所以已经有大量的努力来保证其正确性(如果对 GenBank

记录进行翻译,必须找到正确的相位,以指导对给定序列的翻译)。这些序列提供了蛋白质数据库的原始材料,也提供了最有效的发现新基因的方法(见第 7

章)。当注释可以被证实时,它们就有附加值,所以正确的标识符是十分重要的产物名称或蛋白质名称有可能是主观的,并且经常是通过与其它未充分注释的

Page 53: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

序列的微弱相似性而赋予的,而且它们本身也常常没有被充分注释。所以用户必须意识到信息缺乏的恶性循环。当一个记录描述了一个单独基因或全长mRNA

序列,并伴有已发表的文章时,往往可以由此获得充分的信息。这样的记录通常是一个研究组的工作成果,这个组对基因的细节已进行了一定的研究。幸运的是已有许多这类记录在数据库中,构成了研究者应用这些数据的知识基础。

基因最近才加入的基因特性实际上自数据库开始时就已经隐含地使用了,它以前经常作为一个基因限定词出现在一些其它特性中。将其作为一个单独的特性来显式地使用,极大地便利了根据这一特性来注释的其它数据成分的生成和确定过程。这个新特性也统一了生物学家对 GenBank 记录中基因特性的不同定义和使用方法。

虽然很明显不会所有的生物学家都同意关于基因的一个统一定义,但作为最简单的说明,基因代表了 DNA 的一个可以用一个名字标识的片段(例如附录 2.1

的例子中的 CHIP 基因),或经常在基因组测序计划中使用的数字(例如GenBank 检索号U95973 中的 T19D16.1)。基因特性允许用户看到感兴趣的基因片段,并在某些情况下作出选择。

RNA

不同的结构 RNA 可以用来注释基因组序列中的 RNA(例如mRNA、rRNA、tRNA)。虽然目前这些还没有象蛋白质序列那样分成单独的记

Page 54: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

录,但这些序列(尤其是mRNA)对我们对于基因组高级构成的理解是十分重要的。RNA有特别的意义,因为它们是可以在实验室中被观测的生物对象。因此它们是有关基因组的极有价值的信息片段,并且经常是它们自身的 mRNA 记录。这与启动子不同,启动子没有什么特征,不均匀地分布在大量记录中,很难从生物角度定义,并且实际上对于 GenBank 记录没有什么用处。基因组记录中的RNA 特性代表了一个生物分子存在的实验依据。

小结DDBJ/EMBL/GenBank 数据库是最常用的核苷酸及蛋白质序列数据库,它储存了大量的公共分子生物学信息。理解各个数据成分的含义,知道如何从记录中提取生物学知识,将极大有助于我们对于这个文件格式的理解。虽然这个数据库从来也不是为用计算机读取而设计的,但已经有一批热衷于计算机的生物学家用整套的计算机程序来对记录进行分析、转换和信息抽取工作。DDBN/EMBL/

GenBank 在国际合作 DNA 序列数据库内部维护一种数据交换格式,这在近几年可能不会改变,尽管存在着象ASN.1那样更好的,信息更丰富的其它选择。但现在的安排也有好处,这是一个便于阅读的简单格式,能代表它希望描述的生物背景知识。

第二章中涉及的互联网资源************

 参考文献

Page 55: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

附录:数据库文件格式上一页 下一页 返回目录 返回茶庄

 

第三章 结构数据库【前介】

本章将集中介绍生物信息学中生物分子结构的有关内容,并将研究重点放在三维结构实际存在的氨基酸序列上,力图使读者了解结构数据库记录的内容及如何合理应用各类通用软件程序处理这类记录。本章不涉及结构生物学家们建立三维分子结构的计算程序,也不讨论相似蛋白质构象的精细结构。在本章参考书目后列出了一些优秀的讨论蛋白质构象的有关专著和蛋白质结构决定方法。

用图象直观表示蛋白质和核酸结构在生物化学教科书和研究论文中屡屡出现。这些图象是美丽迷人的反而使我们忽视了图象背后所反映的实验细节���实验中应用的生物物理方法,X射线晶体衍射学家和核磁共振波谱分析学家们努力工作的成效.在结构数据库中记录的数据是实用化的实验数据。 它既不同于直接由仪器获得的原始数据,也并非原始数据的简单数学转换。每一个结构数据库记录都内含着随结构预测技术的进步而不断变化的假设和偏好。尽管如此,每个生物分子结构蕴涵着有关序列所缺失数据的至关重要的信息。

三维分子结构数据的一些概念

Page 56: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

首先做一个关于如何记录生物高聚物的三维数据的思想实验。考虑一下如何在纸上记录如肌球素这类蛋白质的三维球棒模型的所有细节和尺度关系。一条开始的途径是从由三维模型主干描绘出的氨基酸序列入手。从N’端开始,我们通过将每个残基的化学结构与 20 种普通氨基酸化学结构(其结构的图解可以从教科书中找到)比较,以识别每个氨基酸侧链。

一旦序列被写出来,我们将绘制生物高聚物的二维草图,草图中包括所有的原子、基本符号、化学键,可能会占用几页纸。亚化血红素配合基的绘制即为一例。将它的化学结构画在纸上后,我们可以通过量测模型中每个原子在设定的直角坐标系中的距离记录三维数据。同时也提供了球�棒结构中每个原子“球”的 x,y,z坐标距离数据。

下一步是提出一个系统的分门别类的记录方案以保存与识别有关的每个原子的(x,y,z)坐标信息。最简单的方法是在生物高聚物的二维草图上,每个原子的右侧,标出(x,y,z)三元坐标值。

以上思想实验有助于我们对三维结构数据库应包含哪些内容形成初步的概念。从人类可读性的角度而言,这样的结构记录形式是足够的,但计算机却不一定能够理解它。计算机需要原子、化学键、坐标、残基、分子间结合关系的清晰明显的编码。

坐标、序列、化学图像

Page 57: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

典型的三维结构记录中与使用的文件格式无关的最明显的数据是坐标数据,它表征了分子中原子的空间位置,用沿着每个坐标轴到某特定原点的距离(x,y,z)表示。每个原子的坐标数据归属于结构记录中的标注信息列表:空间中的每一点代表了记录中的元素、残基和分子。对于生物多聚体,这标注信息来源于序列。每个序列固含的是重要的化学数据。我们能够直接从序列中推断出完整的包含所有原子和化学键的生物高聚物分子化学联接,能够恰如早先所描述的仅从序列信息出发描绘出草图。我们把这分子“草图”称作三维结构的化学图像。序列是生物高聚物分子完整化学图谱的固有表示。

当描绘从属原子与化学键的略图以表示序列时,我们可以借鉴教科书中描绘的每个残基的化学结构,以免露掉一两个甲基。同样地,计算机可利用“残基词典”在内存中建立结构的类似于略图的化学图像表示,“残基词典”中则包括一组对应于每个普通氨基酸或核酸模块的原子类型与化学键信息表。

原子、化学键和完整性

分子图像可视化软件完成了精细的“点联接”过程,而绘制出如我们在生物分子结构教科书中所见到的完美的蛋白质结构图像,例如图 3.1 所示的胰岛素3INS 结构(Isaacs,Agarwal,1978)。显然,原子间联接依靠化学键。在目前的应用中,三维分子结构数据库记录使用了两种不同的键数据信息优化存储方法。

记录原子与化学键信息的经典途径是依靠“化学准则”。这些准则是显而易见的物理化学准则,比如稳定的碳、碳键的平均长度大约 1.5埃。应用这些来源于化

Page 58: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

学键的规则,意味着空间中两个 1.5埃距离的碳原子总形成单键。有了这些化学准则,我们可完全简化化学键信息存储。倘若结构本身未违背任何化学规则,则能够被完整记录而不带任何附加键信息。

最初的三维生物分子结构文件记录格式,Brookhaven 蛋白质数据库(Bernstein等,1977)的 PDB 格式皆以化学准则方法为基础。一般而言,这些记录没有生物高聚物的完整键信息。无需“残基词典”,而仅用可能成键原子对的键长与键类型匹配表即可解译用“化学准则方法”编码的数据。

PDB 数据文件读入软件包必须能基于这类规则重构化学键。对于程序员,如何解释 PDB 文件中的键信息尚未形成明确统一的规则,而导致了各类软件绘制化学键连接时的不一致,尤其应用了不同的算法和距离容差,这类情况更为严重。虽然 PDB 文件组织方案在记录数据存储方面的要求最低,但比较连键信息和化学图像描述已在记录中详细说明的情况,则对存储信息进行恰当解释所需算法也相应更复杂。这将迫使程序开发者做更多的工作。基于事件的编程中,考虑连键规则中的种种例外情况,更需要复杂的逻辑说明。

第二种方法在由 PDB衍生而来的分子建模数据库(MMDB)的数据库记录中得到应用。MMDB运用标准的“残基词典”,其中记录了氨基酸、核酸残基这样以聚合体形式存在,具有末端多样性的分子中所有原子、化学键信息。在结构科学家解决分子结构而使用的专用软件中,这类数据词典是很普遍的。读入MMDB 数据的软件能利用词典所提供的键信息将原子连为一体,而无须力图满足化学准则的要求。最终,用软件获得准确的三维坐标数据。这种方法使软件开

Page 59: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

发简单化,因为连键规则中的例外情况在数据库文件中已被记录,而无须附加逻辑控制代码即可将之读入。

一些不熟悉结构数据的科学家常常希望在公共数据库中的结构信息表达类同于教科书。他们会对结构中某部分的数据丢失感到惊讶。相应于某一特定分子的三维数据库记录的适用性并不意味着完整性。结构的完整性定义如下:化学图像中任一原子至少有一维坐标值确定。

在结构数据库中,完整的记录是不多见的。大多数由X射线衍射获得的结构缺少氢原子坐标,因为氢原子的空间位置不能用实验手段决定。但一些建模软件可用于估计氢原子位置,并用其重建结构记录。在结构数据库中识别由模型构造的分子是容易的。它们常常有过于复杂的坐标数据和所有用实验手段无法确认的氢原子可能表达形式。

【PDB:Brookhaven 国家实验室蛋白质数据库】

概述

计算机在生物学中的运用起源于生物物理方法的应用,如X射线结晶衍射。于是最初的“生物信息学”数据库被用于存储复杂的三维数据不足为怪。现代的蛋白质数据库以收集的蛋白质三维结构公共数据为核心,附带核酸、糖类三维结构和各类由X射线衍射结晶学家、核磁共振谱分析学家通过实验测定的合成物。本部分集中详细介绍由蛋白质数据库 PDB提供的生物信息学数据库服务。

PDB 数据库服务

Page 60: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Brookhaven 国家实验室(详见本章末列表)蛋白质数据库的 WWW站点为三维结构数据的提交、检索提供了大量的服务。

提交结构数据

对于那些希望向 PDB提交三维结构信息的人们而言,可以经由AutoDep 服务机构按照一定的基于网页的程序步骤实现其愿望。因为提交程序是随编写时间而不断变化的,所以在 PDB 的网络站点上应该能找到最新信息。核酸结构数据保存在核酸数据库 NDB 中。Biotech

Validation Suite站点是镜像站点,提供在提交结构数据前屏蔽立体化学构象与几何学构象不一致的 PDB 文件的服务。

PDB明文规定拒收依靠计算机三维建模而非实验手段获得的结构数据。而关于已被宣布为例外结构的最新细节数据的提交需与 PDB商议。容纳结构模型的单独的数据库是现成的,可以在本书的网络站点上查询有关信息。

PDB 的 ID 编码

PDB 中登记入册的结构记录拥有一个唯一的包含字母与数字的被称为 PDB-ID

或 PDB 编码的四位字符串,可由数字 0~9 和大写字母A~Z 组合而成。因此可能的组合方案超过了 130 万种,没有按某特定顺序分配 PDB-ID。但蛋白质数据库 PDB 的索引编撰者尽量设计好的记忆方法,使结构名称易于记忆,如早先如图 3.1 所示的胰岛素记录 3INS。

Page 61: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

数据库查询、PDB 文件检索与链接

PDB 和它的一些镜像站点提供由每个 PDB 记录的所有文本信息索引的文本搜索引擎,可按一些专门的查询项目(如提交数据、作者姓名、结构表达)检索 。PDB 最新的搜索引擎,3DB Atlas,可用于 PDB 记录检索,如图 3.2 示 。3DB Atlas也是链接有 PDB 结构数据第三方注解的基本数据库,支持大量的到基于因特网三维结构服务的其它网点的链接。其中包括了一些二维、三维浏览器如Kinemage(Richardson,Richardson,1992)、Resmol(Sayle,Milne

r�White,1995)。图 3.2b 显示了蛋白质 1BNR 的到 3DB 记录Barnase 的一些链接。创建的图像有助于调整三维结构方向,以获得观察结合位点这类确定特征的最好视角。3DB Atlas也与专门设计的数据库相连,这些数据库由对诸如结构进化(FSSP:Holm,Sandar,1993)、结构相似性(DALI:Holm,Sander,1996)和蛋白质运动(Gerstein等,1994)等相关课题有兴趣的研究者维护。3DB 可相应链接 NCBI 的 MMDB 服务(Hogue

等,1996),提供了一条到 Entrez(Schuler等,1996)系统(包括序列、分类、PubMed/MEDICINE 服务和 VAST 结构相似性比较)的通路。

源自 PDB 结构记录的序列

PDB 文件编码格式的序列是众人皆知的。因为不能确保结构的完整,PDB 记录包括两个序列信息备份:隐性序列和显性序列。两者都被用于重构生物高聚体的化学图像。

Page 62: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

显性序列在 PDB 文件中以关键词 SEQRES打头逐行存储。不同于其它序列数据库,PDB 记录用三字母氨基酸编码,任意选择三个字母作为名称的非标准氨基酸在许多 PDB 记录序列条目中可被找到。在 PDB 中,一些双螺旋核酸序列条目被指定依照在条目中按从 3’到 5’端的顺序排列的一条链在上,从 5’到 3’端排列的互补链在下的方式排列。虽然这些以双螺旋形式表达的序列对人类而言是容易理解的,但直接由计算机阅读此类从 3’到 5’端排列的显性序列是荒堂的。

因为三维结构可能对应有多个生物高聚物链,所以使用者必须借助 PDB链识别标记方可确定需要的序列。PDB 文件 SEQRES 入口用一个大写字母或空格作为链识别标记,以识别条目中的每个单独的生物高聚体链。如图 3.1 所示的3INS 结构,在记录中便存在两种胰岛素分子。3INS 序列包括A、B、C、D四个氨基酸序列。由胰岛素的生物化学背景知识知道 A、B 蛋白质链源自同一基因,在翻译修饰的过程中,胰岛素序列被切为如 PDB 记录所示的两段。这个信息没有在三维结构数据库中被记录。单字母链命名方案与所枚举的大齐分子量聚合物,如衣壳病毒,的三维结构是有困难的,因为单字母链识别器的可识别总数是有限的。

PDB 记录中的隐性序列蕴涵在由 PDB 文件中的 ATOM 记录及相应(X,Y,Z)位置坐标构成的化学立体结构中。在解决诸如核酸序列后向编码或非标准氨基酸识别等利用显性序列无法明确解决的问题时,隐性序列是十分有用的。实践中,许多 PDB 文件浏览器,如Rasmol,仅用隐性序列重构 PDB 记录蛋白质的化学图象,而忽略由 SEQRES 引导的显性序列信息。若要求这类软

Page 63: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

件打印某不完整的分子序列,其打印结果序列在现实中将并不存在。所以说隐性序列尚不足于重构完整的化学图像。

举例说明,假设在 PDB 文件 SEQRES 条目中存在一个序列 ELVISISALINES,但缺少子序列 ISA 的(X,Y,Z)位置坐标信息,阅读隐性序列的软件会错误地构建 ELVISLINES 的化学图象。用于测试软件是否仅依赖隐性序列去分析结构信息的样本测试结构 3TS1(Brick等,1989)在 Java 三维结构浏览器Webmol 中的图像如图 3.3 所示。

PDB 序列验证

为合理地检验来自 PDB 记录的序列,必须先获得ATOM 记录中的隐性序列。这一步并不繁琐。若结构因间断而不完整,则给定链会拥有一套隐性序列框架。每个框架与 SEQRES 条目中相应链的显性序列相对应。用这种方式可产生包括可能丢失坐标信息的那部分生物序列在内的完整化学图象。而这种验证需以MMDB、mmCIF 数据库的建立为物质基础。

由 PDB 结构记录衍生出来的单字母编码类型蛋白质、核酸序列检验样本最好来自NCBI Entrez 体系的 MMDB。如对胰岛素这样的序列记录系统地建立了数据库附录,利用附录:pdb|3INS|A, pdb|3INS| B,pdb|3INS|C, pdb|3INS|

D,可以由 Entrez 中被分割的蛋白质序列恢复完整的序列。PDB 文件中包含Swiss-Port 蛋白质数据库 DBXREF 序列记录的参考说明。以下两点需要注意:其一,因为检验程序在链接过程中未被实现,所以 Swiss-Port 中的序列不需与

Page 64: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

结构一、一对应;其二,许多 PDB 文件分类简单而含糊不清,这一点在一些源自不同种类的分子复合物的三维结构中有所表现。

【MMDB:NCBI 的分子建模数据库】

概述

NCBI 的分子模型数据库 MMDD(Hogue等,1996)是NCBI Entrez 体系(Schuler等,1996)的一部分。其中囊括了由晶体衍射和核磁共振实验研究得到的所有 PDB(Bernstein等,1977)生物分子三维结构。MMDB是ASN.1 记录格式,而非 PDB 记录格式的数据库。MMDB 结构与原始的 PDB 结构相比,增加了一些附加信息,包括经程序验证的显性化学图像信息,一致的二级结构衍生定义,与 MEDLINE 相匹配的引用,基于源自生物实体的蛋白质或核酸链进行分类的分子匹配。

MMDB 数据库服务

NCBI 的 MMDB提供了诸如被检验序列的 BLAST 检索,结构-序列匹配,文件格式转换,编程界面显示等服务。

结构记录文本查询

  正如其它三维结构服务那样,MMDB 数据库可利用 WWW Entrez 及Network Entrez(Schuler等,1996)进行文本查询。MMDB亦称为 Entrez

Page 65: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Structure 组分。MMDB 检索域包含 PDB、MMDB 的 ID 编码,源自 PDB 注释记录的自由文本,作者名及其它著书目录检索域。

MMDB 结构摘要

  MMDB 的网络界面提供了每个 MMDB 结构记录的结构摘要网页,如图3.2b 示。MMDB 结构摘要网页为结构中的每条链提供了 FASTA 格式的序列,并提供了到 MEDLINE、3DB Atlas、Brookhaven PDB 网页及站点的链接,结构中每条氨基酸链和核酸链邻近序列的链接和到每条链中各域间VAST 结构比较服务的链接。

BLAST:新序列相似性

  当研究者希望找到新序列的相似结构,NCBI 的 BLAST(Altschul等,1990)在 BLAST 检索数据库“pdb”中提供了 MMDB 所有验证序列的拷贝 。BLAST 网页界面,可以 FASTA 格式将序列粘贴到序列条目“箱”中,并选择相应“pdb”序列数据库,在目前公共结构数据库的所有验证序列中进行检索。

Entrez Neighboring:已知序列相似性

Entrez 中的序列已经完成了 BLAST 操作。依靠 Entrez 的“neighboring”操作,可找到与给定蛋白质序列相似的序列结构。

下面说明如何利用 Entrez“ Neighboring” 操作以决定与已知序列相似的序列三维结构是否存在。首先找到 WWW Entrez 的“Search the NCBI protein

Page 66: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

database”选项,再执行对感兴趣序列进行检索的查询请求。如查询oncomodulin,若在查询中检索记录摘要,可在下拉式菜单上选择“Structure links”项,按Display键可显示出两个 MMDB 记录:IRRO(Ahmed等,1990)和 IOMD。

通过执行蛋白质“neighboring”邻接操作,然后从三维结构邻近的蛋白质族列表中找出链接对象并链接,可完成细微相似性的扩展查询。仍以查询oncomodulin为例,每个蛋白质记录将显示有几百个“邻近”蛋白质。首先选择“邻近”蛋白质列表,再执行在包含所有“邻近”蛋白质的网页顶部的[Display][Structure list]命令,结果将给出很长的包括三维结构数据库中所有其它同源钙指蛋白质(如 parvalbumin)在内的查询清单。

VAST:基于三维形状的结构相似性

  VAST(矢量分析检索工具,Gibral等,1996)用于检索三维结构的相似性。它舍弃了序列信息,而单纯依靠由二级结构衍生的三维矢量指标进行检索 。VAST具有检索结构相似而序列不相似的生物高聚体的能力。如同BLAST 一样,VAST 可以 N*N 方式操作数据库中的所有条目,并存储结果,以利于 Entrez

界面快速检索。利用 VAST 算法,对 10,000 多个局部结构一一匹配比较,并记录了结构之间的匹配与重叠关系如图 3.2c 示。VAST 算法是基于统计意义下的相似性比较算法,故而检验蛋白质结构比较中偶然发生的局部结构的诸多相似性是没有必要的。例如, sheets 中有许多小片段具有显而易见的相似性,用 VAST 检验其相似性,结论是具有细微同源性,而这是用普通序列对比算法

Page 67: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

无法检验的。正基于此,这类相似性将提供一个关于研究蛋白质家族结构、功能进化的更宽广的视角。

  序列相似性检验程序提供了两序列的匹配信息,结构相似性检验程序提供了三维结构的重叠信息。利用一套三维旋转、变换矩阵操作可将结构的相似部分集中在一起。一种方便的序列匹配方法是通过蛋白质骨架中 碳的空间堆叠寻找三维重叠。除了相似结构的列表,由VAST获得的邻近结构检索结果还包括详细的残基间匹配和关于结构重叠的三维转换阵。在实践中,选择具高度相似性的局部结构,并与 DALI(Holm 和 Sander,1996)比较,可知通过 VAST获得的匹配是保守的。利用 VAST 重叠区可以容易地识别由于蛋白质进化而结构改变的区域,因而DALI 在为构建结构模型而进行的序列、结构比较中更有用。在研究蛋白质结构关系时,尤其与记录蛋白质家族信息的 SCOP(Murzin等,1995)数据库联合使用,VAST 和 DALI这两个工具都是十分优秀的,正如图3.2d 所示。

【结构文件格式】 PDB

 PDB 文件格式是纵向排列的,类同早先 FORTRAN 程序员所用的打洞卡,PDB 网站上保持了这种文件格式风格。由结构科学家开发的结构软件大多由FORTRAN 语言编写。而生物信息学的其它方面则采用了另外的语言,如C 语言;PDB 文件往往前后矛盾,如本章所述的那样,表面上看起来语法容易分析,但实际上存在着不少漏洞。对初学者而言,最显著的问题是关于生物高聚物的键

Page 68: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

信息是不存在的,而迫使利用化学规则编程,以识别由 PDB命名方式命名的各原子及提高对例外情况进行操作的鲁棒性。PDB句法分析软件常常需要同义代名词列表和例外情况列表以正确解释信息。但本章内容不着重于阐述如何构建PDB 语法。

  两种新的以化学背景为基础的文件格式:mmCIF(大分子化学交换格式)和 MMDB(分子建模数据库)产生了。两种文件格式都力图使 PDB 信息现代化两者皆以机器文法一致的数据描述语言开头。数据描述语言采用了在编程语言中可以任何名称、任何值出现的“标记值”对。两者的格式说明皆支持机器阅读,相应软件利用这个格式说明文件检验数据流。两种软件文件格式可通过基于匹配的利用带有显性 SEQRES 化学图像和文件中记载的验证信息重构固有ATOM

及 HETATM 化学图像的策略由 PDB 文件衍生出来。最终使得这两种格式在综合生物分子序列数据库方面优于 PDB 格式数据库文件,它们在未来软件中的应用前景是令人鼓舞的。

mmCIF

产生 mmCIF(Bourne等,1995)文件格式的原本目的是作为小分子晶体学家熟悉的 CIF(化学交换格式:Hall等,1991,基于 STAR 语法子集合)的扩展。用于分析验证格式说明的 CIF 软件并非与 mmCIF前向兼容,因为它们对STAR 语法均有不同的补充。MmCIF 记录的基本数据组织形式是一组关系表。 MmCIF把格式说明称做“mmCIF词典”,保存在 Rutgers 大学的核酸数据库 WWW站点上。“mmCIF词典”是包含保持 PDB 文件中存储信息及衍生自基本坐标数据的其它数据信息(如键角信息)所需要的一系列说明。MmCIF 数

Page 69: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

据说明界面对所有的数据都是一致的,可支持基于 WWW 的相关数据库网络查询格式 NDB Protein Finder。

靠“mmCIF词典”检验数据流需要相当大的 mmCIF 数据 I/O开支。所以mmCIF 可能被指定为高级存档类查询格式。用 FORTRAN 和 C 编写的将mmCIF表转换成关系表并读入内存的软件函数库是适合于一般晶体学家所用的一些 UNIX工作平台的。

MMDB

MMDB 文件格式依靠ASN.1(Rose, 1990)数据描述语言定义,这类数据描述语言也可用于包括远程通讯和自动化制造在内的其它类型领域。由于美国国家药物图书馆也用 ASN.1 对序列和目录信息进行数据说明,所以 MMDB 格式还借用了其它数据说明的特定方式,如用于描述数据记录所引用参考著作书目的部分。ASN.1 文件可以人类可读的文本文件或各种二进制文件或可被任何硬件平台解压的二进制文件类型出现。MMDB标准残基词典是一个有关标准生物高聚体残基类型化学图像的信息查询表。MMDB 格式说明被保存在 NCBI 的MMDB FTP站点上。比较“mmCIF词典”, MMDB ASN.1说明更紧凑,数据条目更少,避免了衍生数据的堆积。

与 mmCIF关系表设计对比,MMDB 数据记录分层记录结构组织。在性能方面,ASN.1 格式的 MMDB 文件比 mmCIF 或 PDB 记录具有更快的输入、输出流速度。所构建的层次与 mmCIF 或 PDB 文件关系设计方案比较,在加载时需要更少的检验步骤。因此ASN.1 文件对于三维数据库浏览是较理想的。

Page 70: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

对 MMDB而言,一个完整的应用编程界面是有用的,可做为包含各类 C 代码库与应用程序的 NCBI工具箱的一部分。NCBI工具箱支持 x86 和基于 Alpha 的Windows平台,Macintoch 68K 和 PowerPC 处理器,以及各种类型的UNIX平台。三维结构数据库浏览器,Cn3D,便是NCBI工具箱中的一个基于MMDB-API 的附原代码的应用程序。

【结构信息显示】

多种表示类型

我们常用多种图像表示类型观察分子结构的不同面貌,蛋白质结构的典型图像如图 3.4 示(可见彩色图版)。图为用 RasMol (Sayle 和 Milner-

White,1995)产生的金属框架类型和空间填充模型格式的酶 barnase

1BN1(Buckle等,1993)图像。

因为蛋白质结构记录 1BN1 在结晶体中有三种 barnase 分子,所以借用文本编辑器手写 PDB 文件以删除多余的链。为了使三维结构浏览器依照用户的意图进行显示,在三维分子结构软件中编辑数据文件是习以为常的。既然如此,在三维结构中记录的衍射结晶实验数据并不是来自“生物单元”。“生物单元”定义为三维结构的生理学形式,是目前 PDB 数据库实施面临的生物信息学挑战之一。在我们的例子中,分子 barnase 应是唯一的,但相反,对应一个晶体单元,我们却发现了三个分子。又在如图 3.3 所示的其它例子 3TS1(Brick等,1989)中,分子是一个二聚体,但 PDB 文件中仅记录了相称子单元中的一个,文件的

Page 71: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

注释记录中以非解析的形式写入了一个旋转变换阵。从对称的操作中重建生物单元是具有挑战意义的,需要专用软件实现。

图 3.4a 所示的金属框架类型图像清楚地显示了 barnase 的化学结构特性,我们可以从交互计算机显示的图像中看到 barnase 序列轨迹。图 3.4b 所示的空间填充模型图像清楚地显示了生物高聚物的表面形状和尺寸,但用这种表达,理解化学细节和键链接是很困难的。图 3.4c 所示的 碳骨架图解是一种典型的结构表达方式。它显示的并非是化学键链接,但这些链接向我们显示了蛋白质骨架中 碳的构成走向,故称之为“虚拟键”。图中选择了紫色的色氨酸侧链,并用画圆点的方式标注出来。图解中,barnase 的三个氢核区域中的三个色氨酸侧链所占据的空间体积被加亮,以示突出。

图 3.4c 所示带状模型显示了蛋白质链 -helix、 sheet 区域中二级结构元素的组织形式。这种表示形式是很常用的,箭头指出了二级结构元素从N 到 C 的方向,识别复合物拓扑中的二级结构最有效。

图 3.4 中从不同视角传达的各种信息阐明了用独特的不同于其它三维图像应用程序的方法显示三维生物高聚物结构数据的必要性。这一需求排除了来自宏观世界的诸如计算机辅助设计(CAD)和虚拟现实建模语言包(VRML)这类软件的有效利用。

描绘数据:群体、退化与动力学

Page 72: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

利用 X衍射NMR技术从分子的“同步”群体(包括规则晶格的空间“同步”及由外部磁场产生的核旋转状态行为的“同步”)推断出三维结构。群体的信息被收集为一整体。用数值方法获得结构中原子的(X,Y,Z)坐标位置。由这些数据获得的样本的化学图像与源自实验的三维结构数据构成的期望图像相一致。这个期望的化学图像包含源自序列的生物高聚体信息的混合,这与例子中所提出的诸如酶作用物、添加基团、离子等已知小分子的化学图像性质相同。

分子群体应用略微不够理想的结果是出现数据库记录中退化坐标匹配,如化学图像中一个原子对应多个坐标。当分子群体具有明显的异质构造时,将被记录在数据库中。

NMR 原型和集合总体

图 3.5(见彩色图版)表示了四个三维结构,左边的由X晶体衍射得到,右边的由NMR 实验获得。右边的 NMR 结构显得“模糊”。实际上,在这些图像中有许多不同的复杂结构首尾相连堆积在一起。每个结构被称为一个“原型”,所有“原型”的集合称作“集合总体”。在“集合总体”中的每个“原型”是一个非手性镜象的,似是而非的结构,同“集合总体”中的其它“原型”一样,与基本的 NMR 数据相符合。

NMR 结构(图 3.5b、d 所示)“集合总体”的图像显示了分子在溶解状态下的动态多样性。反应于实验中,即是溶解状态下的自由分子能够进行动态结构变化形成对比的是,X射线衍射结构(图 3.5a、c 所示)提供了一幅静态分子图像。它反映了在限制动态结构变化的规则晶格状态下实验条件。这些图像形象地说明

Page 73: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

了结构特征。若利用 X射线衍射结构测量两原子间的距离,我们将得到一个数值;而用 NMR 结构“集合总体”,将得到一取值区间。很明显,对距离的说明将依赖于三维结构的来源!当心忽略或未能显示结构数据库中表示的群体退化的软件,因为这种信息的缺失会进一步导致对说明的曲解。用隐藏了“集合总体”中其它成员的软件量测 NMR 结构中两原子的距离将只给出单值,并不是实验学家所发现的正确的距离区间。

相对无序性

典型的 X晶体衍射结构只有一个“原型”。但一些原子子集合可能还有退化的坐标,我们称这种情况为“相对无序性”(如图 3.6a 示,见彩色图版)。许多X射线衍射结构数据库记录具有“相对无序性”。三维分子图像软件常忽略“相对无序性”和“集合总体”的存在。一些应用程序仅显示“集合总体”中的第一个“原型”, “相对无序性”集合中原子的第一个位置,忽略其它退化的坐标值。最糟的是有时会在两个退化位置间错误地连上化学键,使得结构图像一团糟恰如图 3.6b 所示。

局部动态性

一种单一技术可用于限制相同结构中不同于其它原子的构型。举例说明如下:一个多种作用力作用的内部原子或骨架原子在 NMR 或 X衍射实验数据上是大部分一致的,因而分子表面上的原子拥有更大的结构自由度(见图 3.5b 中不同残基的涂片尺寸)。内部蛋白质侧链典型地显示了“集合总体”上较少的柔韧性所以可以得出结论:蛋白质内链完全缺少构型源动力。但最敏感的生物物理方法

Page 74: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

单色氨酸残基的荧光染色分光,具有特殊的检测色氨酸侧链构型的多样性的能力。对这种方法进行多年的反复研究,显示在多相结构中,纯化蛋白质内部的色氨酸布局更易出现(Beechen 和 Brand,1985)。最近对这一方法的研究表明此方法能够在单晶 erabutoxin 中检测色氨酸的折叠,而用 X射线晶体学方法(Dahms 和 Szabo,1995)是做不到的。在说明三维结构数据时,注意在数据中多相性是不被体现的,除了实例中提供的大部分布局形态外,NMR 和 X衍射方法的结果是一致的

【数据库结构浏览器】

RasMol 和基于 RasMol 的浏览器

一些检查 PDB 文件的浏览器是有效的(Sanchez-Ferrer等,1995)。最流行的浏览器是Roger Sayle 的 RasMol(Sayle 和 Milner-

White,1995)。RasMol 代表了软件驱动三维图像显示的重大进展,它的源代码对于有兴趣于高性能三维图像的任何人都是受欢迎的学习材料。RasMol 格外小心地处理 PDB 数据,经常重新计算信息,以弥补在基本的数据中出现的不一致性。它并非致力于证实 PDB 文件中编码的序列或结构的化学图像。RasMol

本质上即未完成基于“词典”的标准残基检验,也未完成隐性与显性序列的匹配。RasMol忽略了相关的混乱“集合总体”,一次仅显示一个 NMR“原型”。在 PDB 文件中编码的其它数据,如二硫键,不是利用直接检验,而是通过基于化学规则的重新计算得到的。

Page 75: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

RasMol 包括许多出色的输出格式,能够被Molscript(Kranlis,1991)程序用来制作奇妙的用于出版的“PostScript”带状图表。为了能最有效地利用RasMol,必须掌握它的在许多传统三维结构程序软件中被普遍使用的命令行语言。在 Massachusetts 大学由 Eric Martz 维护的 RasMol主页中可获得RasMol 图像显示,RasMol指南,源代码和基于用户的邮件支持列表等RasMol 操作服务。

一些对学术界用户免费的新软件程序日益通用,这些软件程序是基于 RasMol

软件驱动三维透视图算法和零星的 PDB 语法分析的,其中包括MDLL 公司提供的嵌入到 Netscape 中的 Chime 软件。由Dirk Walther开发的 Java Applet

程序 WebMol是表面上借助RasMol 类型透视图,基于 Java 的三维结构浏览器,如图 3.3 示。WebMol 软件已证明目前在大多数 PC 机和工作站上使用的Java字节编码的编译器不足以快速地完成超过 200 个残基的 RasMol 类型软件驱动三维透视图的显示。这限制了 WebMol 的适用对象只是小型结构和分子的实际化学键模型。

MMDB 浏览器:Cn3D

Cn3D是一种新的三维结构浏览器,用于浏览 MMDB 数据记录。由于 MMDB

数据记录克服了一些 PDB 条目数据化学图像模棱两可的缺点,并且所有的键信息是“显性的”,所以 Cn3D具有可靠地显示三维数据库结构的能力,而不需要语法分析,校验和 PDB 文件读入程序的例外情况处理等环节。Cn3D默认的结构图像更具有资料存储与显示处理的能力,因为它不会受数据错误表达的影

Page 76: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

响。但因为Cn3D依靠MMDB 中 ASN.1 记录的完整化学图像信息,所以它目前尚不能读入 PDB 文件。

Cn3D提供了一套“控制面板”,可以在三维图像的一侧隐藏或显现。例如,在三维图像顶端显现的 Viewer Control面板,具有一套看起来象磁带录制机控制键的图像动画控制键,用于逐个显示 NMR获得的多个结构“集合总体“或VAST 相似性关系图像中的重叠结构。“GO”键使图像形成动画,当图像以动画形式显示时。用户可以旋转或放缩结构。发行前景被看好的 Cn3D 2.0将具有完整的状态存储能力,使结构彩色化描述,以 ASN.1 结构记录形式存储信息和手工编制 PDB 文件或手写文本更新成为可能。这些信息可以被不同工作平台的用户共享。

其它三维浏览器:Mage、CAD 和 VRML

各类文件格式已被用于表示缺少化学细节的数据表达的三维生物高聚物结构数据。普通的浏览器,例如那些用于处理“宏观”数据的工程软件或虚拟现实浏览器,可用于浏览这些文件格式。“Protein Science”杂志出版了这样一个通用文件格式:Kinemage(Richardson 和 Richardson,1992,1994)。这是第一个被广泛运用的分子结构软件,在因特网和 WWW 网出现之前,是个人计算机用户的通用软件。象 Kinemage 和 VRML这样的文件格式包括三维图像显示信息,而几乎没有关于基本分子化学图像的信息。并且,在这样的文件中编码各类描述文件是困难的。分子填充模型、金属框架模型和球棒模型等各自需要单

Page 77: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

独的 VRML 文件,因为在文件中必须包括每一个图像物体(圆柱体、线、球体)的明确列表。

生物分子三维结构数据库记录目前与例如基于 CAD 软件的那些“宏观”软件工具是不兼容的,计算机辅助设计软件技术是成熟并且具有鲁棒性的,一般优于可利用的分子结构软件。但CAD 软件和文件格式由于缺少某种用于蛋白质结构细节观察的“专门“视角和分析功能,而不能在分子研究领域中完全适用。

查找出版的结构

作为几乎所有结构�功能信息的基础,结构是真正有价值的数据,以至于一些结构科学家不情愿将他们的数据移交给公共数据库。过去,一些杂志没有要求立刻将结构提交给 Brookhaven Protein Data Bank。由于作者从未扰乱或从未选择不将他们的数据提交给公共数据库,而导致了“不合法”的结构的增加,这种情况往往是由于用于确定结构的准则的某一部分具有多种可能性造成的。随着新的成功的折叠识别技术(如 threading)的出现,结构的“ holding back”导致发现机会的丧失。新的计算方法依靠完整的三维结构数据库。

告诉一个结构的著者应从出版的著作而不是从这里列出的数据库中获得三维结构是必要的。在获得结构之前,结构科学家应首先找到描述感兴趣坐标的原始文献。下一步,利用 Brookhaven Protein Data Bank 中的“Pending/Waiting

List”进行完全的检索,看看是否结构数据正在被处理或仍在“架上“。如果这些可能性已被排除,给文献的主要著者发封信,直接从中获取坐标信息。通常,著者将提供原始的 PDB 文件,这种文件能够在其他研究者的 PDB 软件中浏览

Page 78: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

之前,尚需要一些编辑(通常是重编号)。如果必须编辑 PDB 文件,应首先学习其它 PDB 文件的结构及查阅在线的 PDB 格式文本。

上一页 下一页 返回目录 返回茶庄 

第四章 应用 GCG 进行序列分析(另加)Barbara A. Butler

Genetics Computer Group. Inc

Oxford Molecular Group

Madison. Wisconsin

一、引言

快速、经济的核酸序列测序方法的出现使包括分子生物学、遗传学以及生物化学在内的许多科学领域发生了革命。(Gilbert, 1981; Sanger, 1981)。这项技术的发展同时也使人们需要构建公用数据库来存储在全世界范围的实验室内得到的序列信息(Benson et al., 1997; Stoesser et al., 1997)。由于提交到数据库中的序列需要进行分析和解释,同时已经存在的数据库中的条目需要进行辨识和修补以供研究人员进一步研究之用,因此随着公用数据库的建立,生物信息学和计算生物学逐渐走向成熟。

生物信息学可被视为为对生物信息,特别是对核酸以及蛋白质序列信息的获取、分析和存储。而计算生物学则是指为实现上述目的进行的相应算法和计算机应用程序的开发。近十年来全基因组测序计划中积累的大量数据使这两个领域都有了

Page 79: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

飞速的发展,从商业的、学术的各种来源出现了许多可用于序列分析和数据库搜索的程序。用于个人计算机和 Macintoshe 机的软件包,特别是可供多用户使用的软件包通常比较昂贵,并且可能缺少用于分析和编辑的综合性的程序组。与商业程序相比,那些公用的能独立运行的程序(即此程序不是作为软件包的一部分而可以独立运行)很便宜,但需要下载有时甚至要在本机上进行编译,而且用户还必须熟悉输入序列的格式和学习如何使程序有效地运行。虽然现在通过网络使用选定的程序已经成为可能,但如果分析需要综合多个程序则难以进行。例如,研究者可以使用某种软件进行数据库搜索但却无法进一步将搜索到的序列进行对比。同样,要创建一个序列对比然后再进行编辑也是很困难的。

这一章中介绍了一种集成环境,它将大量序列分析和数据库搜索程序集成在一起,并且可以访问各种来源的序列数据。这一集成环境即为Genetics

Computer Group开发的 SeqLab, 它同时也是Wisconsin 软件包的一部分 。Wisconsin 软件包是一组综合性的序列分析程序,它使用公用的核酸和蛋白质数据库。SeqLab是一个图形用户界面(GUI),通过它可以使用所有Wisconsin 软件包中的程序及其支持的数据库。此外,它还提供了一个环境用于创建、显示、编辑和注释序列。SeqLab也可以被扩展使其可以包括其它公用或非公用的程序和数据库。

在这一卷的其它章节中详细讨论了许多应用 Wisconsin 软件包程序所进行的分析,以及 Wisconsin 软件包与 SeqLab支持的数据库。因此,这一章中只强调访问数据库条目和本机序列的环境,可进行分析的类型以及编辑和注释这些条目和序列的方法。

Page 80: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

二、Wisconsin 软件包

Wisconsin 软件包是一个综合性的序列分析软件包,它由 120 多个独立的程序组成,每个程序进行一项单一的分析任务。由于所有程序输入的序列有统一的格式,所以无论是公用的还是私人的数据库中的条目或是独立的序列文件都可以用 Wisconsin 软件包中的程序进行分析。此外,某些程序的输出文件的格式设定使得这些文件可以用其它程序进行进一步的分析。基于上述原因,以及软件包作为一个整体的模块性,用户可以将这些程序进行组合,从而可以对序列进行各种不同的分析。这一章的附录中列举了使用最广泛的一些程序。包括所有程序的完整目录以及详细的描述可以在 Wisconsin 软件包的程序使用文档中找到。

Wisconsin 软件包支持各种 UNIX平台以及 OpenVMS。关于GCG,Wisconsin 软件包,支持的平台以及硬件需求的一般性信息可以在GCG 的主页(/www.gcg.com/)以及 Wisconsin 软件包的用户手册中找到。

三、Wisconsin 软件包使用的数据库

GCG支持五种数据库供Wisconsin 软件包使用,其中包括两种核酸数据库和三种蛋白质数据库。这些数据库既有GCG 格式的(供大多数 Wisconsin 软件包程序使用),也有BLAST 格式的(供BLAST 数据库搜索程序使用)。同时还提供了用于 LookUp 程序以及数据库参考搜索的索引。

GCG支持的两种核酸数据库是GenBank 数据库(Benson et al., 1997)以及仅由GenBank 中没有的序列组成的简化版的 EMBL 核酸序列数据库

Page 81: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

(Stoesser et al., 1997)。为了方便进行搜索,这两个数据库被组合成一个更为广泛的核酸数据库,称为GenEMBLPlus。这个联合数据库包括GenBank

和 EMBL 核酸序列数据库的表达序列标记(EST),序列标记位点(STS)以及基因组序列纵览(GSS)条目部分。可以用特定 TAG 分别搜索这三部分或用特定 GenEMBL 搜索没有这三部分的 GenEMBLPlus。

GCG支持的三种蛋白质数据库是 Protein Information Resource(PIR)国际蛋白质序列数据库(George et al., 1997), SWISS PROT 蛋白质序列数据库(Bairoch and Apweiler, 1997)和 SP-TrEMBL 数据库(Bairoch and

Apweiler, 1997)。SP-TrEMBL是欧洲生物信息学研究所以及 Switzenland 的Geneva 大学的 Amos Bairoch博士联合开发的。它包含了大多数在 EMBL 数据库条目中有标记的预测的翻译区域,但不包含已经在 SWISS-PROT 中出现的任何条目。SP-TrEMBL 中的条目用 SWISS-PROT 的格式进行注释,当这些条目在 SWISS-PROT 中出现时,就会从 SP-TrEMBL 中删除掉。为了方便进行搜索,SWISS-PROT 和 SP-TrEMBL这两个数据库被结合在一起组成一个更为广泛的蛋白质数据库��SWISS-PROTPlus。

GCG支持的数据库两个月更新一次(与 GenBank 数据库的更新日程同步),这是GCG 数据库更新服务的一部分。Wisconsin 软件包实体程序和脚本也可用于下载数据库以及格式化站点上的数据库版本,或者用于数据库版本间的更新以及将个人的数据库转换为Wisconsin 软件包可用数据库的格式。这些实体程序的列表和说明都可在 Wisconsin 软件包系统支持文档中找到。FASTA 格式的

Page 82: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

数据库可直接用于 Wisconsin 软件包中除BLAST 和 LookUp 以外的所有程序而不需进行格式转换。

四、SeqLab 环境

SeqLab是Wisconsin 软件包基于 OSF/Motif 的图形用户界面。它使用户可以在一个基于窗口的环境中使用大多数 Wisconsin 软件包中的程序和所有支持的数据库。SeqLab 的使用需要在微型计算机上运行 X-terminal 或 X-server。关于 X-server 软件的介绍可以在 GCG主页www.gcg.com 中找到。

Wisconsin 软件包初始化完成后,在 UNIX提示符下键入命令 seqlab 以启动SeqLab。这时会出现一个标题为 SeqLab主窗口的窗口(如图 4.1 所示)。这个主窗口可以有两种模式:Main List 模式和 Editor 模式(这里即指 SeqLab

Editor)。在 Main List 模式中 SeqLab主窗口显示一个列表文件,文件中包含单序列文件、列表文件、多序列格式(MSF)文件、富含序列格式(RSF)文件以及数据库条目的名称。在 Editor 模式下 SeqLab主窗口显示这些文件和数据库条目中的序列。用户可用 SeqLab主窗口(图 4.1)中的 Mode:选择按钮在两种模式之间进行切换。两种模式下都可以访问 Wisconsin 软件包程序以及所支持的数据库,然而除此以外在 SeqLab Editor下用户还可以编辑和注释序列。因此这一章重点介绍 SeqLab Editor。

横贯 SeqLab主窗口顶端的是一个菜单条,菜单选项可概括如下:

File: 从数据库或目录文件中增加序列或创建新的序列。

Page 83: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Edit: 移动、编辑序列并执行简单的操作。

Functions: 根据分析主题进行组织的 Wisconsin 软件包程序。

Extensions: 可从 SeqLab运行的附加程序列表。

Options: 用于序列和输出显示、文件管理器以及打印的参数。

Windows: 用于输出显示,程序监视和特征注释的窗口列表。

Help: Wisconsin 软件包程序和 SeqLab界面的在线帮助。

除了 Mode选择按钮以外,SeqLab主窗口中还包括一个 Display选择按钮用于改变显示序列的颜色或给它加上阴影,以及一个比例条用于改变水平方向的比例。此外,还有一组图标提供了另一种选择编辑选项,观看序列信息以及设置保护的方法。当然,窗口中的大部分空间还是用于显示序列的(图 4.1)。 从数据库中增加条目以及从目录中增加序列文件

一个序列首先必须出现在 SeqLab主窗口中,然后才能对其进行编辑或用Wisconsin 软件包中的程序进行分析。数据库条目可以通过条目名称或访问号加入。GCG 格式的单序列文件、列表文件、MSF 以及 RSF 文件可以用文件名加入(关于这些文件格式的细节以及如何创建可参考 SeqLab指南)。

要从数据库中往 SeqLab主窗口中增加一个条目,首先使用鼠标左键选取菜单条中的 File选项, 然后从下拉菜单中选取 Add Sequences From选项。接下来

Page 84: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

从出现的扩展菜单中选取 Databases选项, 这时将出现一个 Database

Browser窗口(如图 4.2)。在窗口底部的 Database Specification 文本框中键入要加入的数据库条目的名称或访问号,然后点击Add to Main Window

按钮和 Close按钮。这一过程可简写如下。(本章中全部采用这种简写方式来描述键盘和鼠标命令)

从数据库中往 SeqLab主窗口中增加一个条目的方法如下:

1。选取 File菜单中的 Add Sequences From, 单击Database选项。

2。在 Database Browser(图 4.2)的 Database specification 文本框中键入条目名称或访问号。

3。单击Add to Main Window 与 Close按钮。

用户也可以往 SeqLab主窗口显示的列表中加入 GCG 格式的序列文件。 往 SeqLab主窗口中加入目录文件的方法如下:

1。选取 File菜单中的 Add Sequences From菜单,单击 Sequence Files选项。

2。选取 Filter 文本框中合适的过滤器(缺省值为*.seq,它将显示目录中文件名以.seq 结尾的所有文件。如果用*代替*.seq将显示目录中所有文件)。

3。从Directory 域中选择合适的目录。

Page 85: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

4。单击 Filter按钮。

5。从Add Sequence窗口的 Files 域中选择要加入的文件名。

6。单击Add 与 Close按钮。

双击数据库条目或序列名称可以看到有关此条目或序列的参考信息。这一操作将打开 Sequence Information 窗口。在必要的时候,这一窗口中任何文本框里的信息都可以进行编辑。例如要给数据库的条目改名或给作为一个大项目的一部分的序列加一个 ID号(访问号)通常是很方便的。

用户可以用箭头键和水平、竖直滚动条浏览显示在 SeqLab 中的序列。键入残基的编号然后回车即可移动到序列中相应的残基处。关于在 SeqLab Editor 中浏览用的其它快捷方式,包括移动到当前光标处等等,在 SeqLab 的指南中有详细的介绍。

创建一个新的序列条目

用户可以向 SeqLab 中输入新的蛋白质或核酸序列。

输入一个新的蛋白质或核酸序列的方法如下:

1。选取 File菜单的 New Sequence选项。

2。在 New Sequence 框中选择DNA, RNA 或蛋白质中的一种。

Page 86: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

当列表出现后,单击条目的开始处,然后键入序列或从其它窗口粘贴序列信息。双击新条目的名称加入参考信息。这一操作会打开 Sequence Information窗口。所有文本框都是可编辑的,包括改变条目名称,描述,作者名以及 ID/访问号。在窗口底部的大文本框中可以加入一般参考信息。

编辑已存在的序列

显示在 SeqLab Editor 中的已存在序列是受保护的,不可能无意中插入或删除一些残基。然而这种保护状态是可以改变的。当这种保护被去除时,可以增加或删除残基,也可以在条目间剪切和粘贴序列或序列的一部分。

改变一个序列的保护状态的方法如下:

1。选取 File菜单中的 Sequence Protections选项。

2。选取 Sequence Protections窗口中所有按钮并单击OK。

SeqLab 用于编辑多序列对比结果特别有效。因为用户可以移动到独立序列或对比结果内的某个绝对位置上,可以把序列组成组,这样一组中一条序列的改变同样会影响发生这组中所有其它的序列,或者把已经组成的组打散,可以在间隙间移动残基岛而不改变整个对比结果。例如,用户可以通过滑动 psqalt岛将一个包含 gq...psqalt......asw 的对比结果改为 gq.......psqalt....asw,就好象psqalt这六个残基连成一个字符串。这个岛代替了右边一个间隙符号,就好象残基岛向右方移动,同时一个间隙符号出现在岛的左边,这样整个对比结果保留下来。关于编辑操作的完整列表见Wisconsin 软件包的 SeqLab指南。

Page 87: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

五、用操作(operations)和 Wisconsin 软件包程序分析序列。

一旦序列加入并显示在 SeqLab主窗口中,就可以运行任何Wisconsin 软件包中程序对其进行分析。程序创建的输出文件列在 Output Manager窗口中(详见下文观察输出部分)。这些文件有些可以重新加入到 SeqLab Editor 或SeqLab List 模式中进行扩展或相关分析。此外,还有几种简单的操作可以从SeqLab Editor 中直接运行。

执行简单操作

SeqLab Editor 中的 Edit菜单使用户可以对显示的序列进行一些简单的操作而不用运行程序。这些操作包括翻译核酸序列,反转以及互补核酸序列,计算序列对比结果中的共有序列,寻找短的序列特征模式。这些操作的优势在于运行迅速并且结果可以自动显示在 SeqLab Editor 中,从而可以直接进行编辑和注释,同时也是最重要的是其结果可以作为从 Functions菜单中选中的 Wisconsin

软件包程序的输入。

选择一个操作的方法如下:

1。根据名称选择一个序列或一段序列。

2。选取 Edit菜单中相应的操作选项。

运行 Wisconsin 软件包程序

Page 88: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Wisconsin 软件包程序用于对 SeqLab Editor 中显示的序列进行更大规模的或更为鲁棒的分析。所有可用的程序都列在 Functions菜单下并根据分析功能进行了分组。以作图功能组中的 Map 程序为例。

运行 Wisconsin 软件包中 Map 程序的方法如下:

1。根据名称选定一个序列或用光标选定一段序列。

2。选取 Functions菜单中的 Mapping, 然后选定 Map选项。

根据名称选定一个程序将为此程序打开一个 Program窗口。每个 Program窗口都有相同的基本格式,其中包括选定的序列名称,运行此程序所需的参数,一组用于选择和存储可选参数的按钮以及用于运行程序、关闭窗口和获取帮助的按钮。Map 程序的 Program窗口如图 4.3 的左图所示。

用户可以选用参数的缺省值来运行程序,也可以通过 Program窗口中的按钮和文本框来改变参数值。此外,每个程序都有其独有的一组可选择的参数,可用于修改程序进行的分析或改变输出显示的方式。这些可选参数列于 Program

Options窗口中,当选定 Program窗口的 Options按钮时 Program

Options窗口将被打开。通过为Map 程序选定必须的以及可选择的参数,用户可以选择包含在一个限制性酶切图中的酶子集,使其只包含产生图上 5'突出端的酶,或选择忽略作为限制性酶切图一部分正常所包含的反转互补链。Map

Options窗口如图 4.3右图所示。 

Page 89: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

  选取 Program窗口中的 Run按钮将使用选定的参数运行这一程序并关闭Program窗口。如果一个程序在同一个 SeqLab运行进程内再一次运行,Program窗口出现时会保留上一次选定的参数。通过选定 Save Settings按钮可以在不同的 SeqLab运行进程间保存选定的参数。在 Program窗口中选取GCG Defaults将把 Program 和 Programs Options 中的参数重新设为缺省值。所有的 Program窗口都有一个 Help按钮用于访问此程序特定的在线帮助。

六、观察输出

在 SeqLab期间运行程序产生的输出文件列于 Output Manager窗口中(如图 4.4 所示)。

打开Output Manager窗口 的方式如下:

1。选取 Windows菜单中的 Output Manager选项。

这个窗口中列出的输出文件可以被显示或打印出来。单击Display按钮可以显示窗口中被加亮的那个文件。图 4.4 中给出了一个显示的输出文件的例子。单击Print按钮可以把选定的文件传送到网络打印机上。

对于以前启动的 SeqLab运行进程间产生的输出文件必须列在 Output

Manager窗口中才能看到或打印出来。选取 Add Text Files 或 Add Graphics

Files按钮并且从出现的 file browser 中根据文件名选取相应文件。产生图形输

Page 90: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

出的程序将创建以.figure为扩展名的文件。当这种类型的文件被选中要进行显示,它会被转换使其可以显示在一个 X-window 中。当这种类型的文件被选中进行打印,它会根据选择的打印机及其设置被转换为 PostScript 或 HPGL 格式。

某些输出文件(序列文件,列表文件,MSF 文件)可被加入 SeqLab Main

List 或 Editor 中用作 Wisconsin 软件包程序的输入。如果在 Output

Manager窗口中选中这样一个文件,Add to Main List 以及 Add to Editor

按钮将处于激活状态(如图 4.4 所示)。如果选中的文件不能加入这些窗口中,这些按钮将处于非激活状态。 七、监视程序执行过程并解决问题

每次 SeqLab 进程执行期间运行的程序都记录在 Job Manager窗口中(如图4.5 所示)。这个窗口可从 SeqLab Main Window 的 Windows菜单条中访问到。

打开 Job Manager窗口的方法如下:

1。选中 Windows菜单的 Job Manager选项。

Job Manager窗口的上半部分是所有当前 SeqLab 进程间运行的程序的事件记录。根据名称选中相应程序即可监视此程序的状态。如果一个程序因某种原因运行失败,会在这个窗口中出现一条消息,并在 Output Manager窗口中出现这个程序的一个事件文件。从这个窗口中也可以终止正在运行的程序。

Page 91: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

 八、给序列加注释并在 SeqLab Editor 中图形化地显示注释。

SeqLab有一个独特的特征即它链接到数据库条目的特征表格(Features

table)上。例如,核酸数据库的条目通常有关于位置、编码区、单独的内含子和外显子以及聚腺苷酸化位点的特征。SWISS-PROTPlus 条目通常有关于已知蛋白质模式 modif 的位置、翻译后修饰位点以及二级结构的特征。这些特征可以在SeqLab Editor 中通过涂色残基(Features Coloring)或示意图(Graphic

Features)观察到。

选择特征显示方式的方法如下:

1。选定 Display 方式按钮中的 Features Coloring。

2。选定 Display 方式按钮中的 Graphics Features。

图 4.6 的上图给出了一组对比的数据库条目的图形特征显示的实例。SeaLab主窗口(图 4.1)中的 1:1滑动条可用于改变示意图的水平比例。

通过选取 Windows菜单的 Features选项可以显示一个条目的数据库特征。这一操作将打开一个 Sequence Features窗口(图 4.6)。用户可以选择观看所有的特征或是只看选中的那部分特征。在 Sequence Features窗口上部区域选取一个特征时在下部区域中会显示关于这个特征的详细信息。双击一个条目中的一个特征也可以打开这个窗口。

Page 92: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

SeqLab Editor另一个独特同时的也是非常有用的特征是可以增加特征或编辑现有特征。这一操作可以在 Sequence Features 和 Feature Editor窗口中完成(图 4.6)。

增加一个特征的方法如下:

1。用光标加亮一个区域(或在 Feature Editor 的文本框中 From 和 To

区域中填上起止范围)。

2。选中 Windows菜单的 Features选项。

3。在 Sequence Features窗口中选中 Add按钮。

4。在 Feature Editor窗口中选中 Shape and Color按钮。

5。在 Feature Editor窗口的关键词文本框中键入特征名。

6。在 Feature Editor 出口的 Comments 域中键入详细的注释。

7。单击OK按钮和 Close按钮。

编辑一个特征的方法如下:

1。选中 Windows菜单的 Features选项。

2。在 Sequence Features窗口中选中要编辑的特征。

3。在 Sequence Features窗口中选中 Edit按钮。

Page 93: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

4。修改 Feature Editor窗口中的形状、颜色、范围、关键词或注释。

5。单击OK按钮和 Close按钮。  九、在 SeqLab Editor 中保存序列

当用户退出 SeqLab Editor 模式或保存编辑的工作时,信息被保存在一个富含序列格式文件(RSF)中。这是一种新型文件,它包含了序列的参考信息和特征信息以及序列本身。RSF 文件格式允许特征信息显示在 SeqLab Editor 中。RSF

文件可以包含一个或多个序列条目。如果数据库条目被保存,这些条目的复制件(包括所有的参考信息和特征表格信息)都被包含在这个 RSF 文件中。以这种方式创建的 RSF 文件自动添加到显示在 SeqLab List 模式下的当前列表文件中并存储在用户的工作目录里。

十、在 SeqLab 中可以实现的分析实例。

SeqLab 中可以使用多个序列分析程序的特性使用户可以应用这些程序顺序地回答相关问题或在对输入序列进行编辑后重复某项分析。而可以同时访问公用数据库和本机序列的优点使用户可以在一个分析中使用其中任意一种而不用先进行转换或格式化的工作。这一部分中介绍了 6 种用 SeqLab 可以解决的序列分析问题。

在两条 mRNA 中寻找开放阅读框架,翻译并对比 RNA 与蛋白质序列。

Page 94: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

对两条相关的 mRNA 进行测序的用户可能希望寻找开放阅读框架(ORF)、翻译以及进行核酸与氨基酸序列间的两两对比。

把序列加入 SeqLab Editor 中,从 Functions菜单中选中 Map选项运行 Map

程序。Map 输出文件包含了限制性酶切图和 6 种可能的翻译框架的 ORF 的显示这些 ORF 的起始和终止位置可进行标记并选为 SeqLab Editor 中序列显示的范围,然后可用 Edit菜单的 Translate 操作进行翻译。翻译结果自动出现在SeqLab Editor 中。

两条相关的核酸或蛋白质序列可用 Gap 程序(Needleman and Wunsch,

1970)或 BestFit(Smith and Waterman, 1981)程序进行对比。Gap 程序寻找两条序列间的全局最优对比结果。适用于两条待比对的序列是进化相关的情况。BestFit 程序寻找两条序列的局部最优对比结果,它适用于两条序列不是进化相关而是功能相关的情况。

通过参考搜索寻找数据库中的相关条目并进行对比

研究一个特征序列家族成员的用户可能希望寻找这个家族中的其它成员并建立它们的多序列对比。

从 Functions菜单中选取 LookUp 程序。LookUp 在数据库条目的参考信息部分搜索描述词并建立匹配条目的列表(Etzold and Argos, 1993; Etzold et

al., 1996)。在参考部分的 Definiton, Author, Keyword 和 Organism 域中搜索描述词并在词之间使用“and”(&)、“or”(|)以及“but not”(!)

Page 95: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

布尔表达式。例如,在 SWISS-PROT 条目的 Description 域搜索“lactate &

dehydrogenase & h & chain”将产生一个输出文件,其中列出了乳酸脱氢酶 H 链(lactate dehydrogenase H chain)条目。这个输出文件可以从Output Manager窗口中加以显示,然后与用户的序列一起添加到 SeqLab

Editor 中。

要创建所有这些序列的多序列对比,只要根据序列名称选中这些序列并从Functions菜单中运行 PileUp 程序。由 PileUp产生的多序列文件也列在Output Manager窗口中并可以直接添加到 SeqLab Editor 中。推荐采用这一步的原因在于数据库条目的特征表格(Features table)信息可与对比结果一起被包括进来。必要时对比结果是可以被编辑的,并且如果数据库条目有相似的特征,这些特征可被附加给用户序列。LookUp 程序窗口,输出文件以及输出文件中的序列对比结果如图 4.7 所示。    用查询序列搜索数据库,将找到的条目与查询序列进行对比并产生进化系统树

克隆并测序一个未知功能基因的用户可能希望在一个数据库中搜索相似的序列。如果搜索到了,用户可能进一步希望创建与查询序列最相似的序列的多序列对比并产生数据的种系图。

Page 96: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

往 SeqLab Editor 中添加一个查询序列并从 Functions菜单中选取 FASTA 程序。FASTA 程序(Pearson and Lipman, 1988)在数据库中搜索与查询序列相似的序列。输出文件可从Output Manager窗口中加以显示并直接添加到SeqLab Editor 中。在这个输出文件中数据库条目与查询序列局部相似性最好的区域被加以标记。如果要显示的话,每个数据库条目只有这种区域可以显示在SeqLab Editor 中。不要的条目可以从 SeqLab Editor 中一起被删除。

从 Functions菜单中选中 PileUp 程序创建这些序列的多序列对比。输出可从Output Manager窗口中加以显示并添加到 SeqLab Editor 中更新已经存在的未对比序列。必要时可对这一对比结果进行编辑,并且数据库条目的有用的特征表格信息也可以添加给查询序列。

从 Functions菜单中选取 PaupSearch 程序,程序提供了一个 PAUP(进化系统简约性分析(Phylogenetic Analysis Using Parsimony))(Suofford,

1996)中树搜索方式的 GCG 接口。PaupDisplay 程序为 PAUP 中的树操作,鉴定以及显示方式提供了一个 GCG 接口。FASTA 搜索的输出,前 6 个序列的对比结果以及这一对比结果产生的进化树如图 4.8 所示。    

Page 97: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

拼接交叠序列片段产生一连续序列,寻找并翻译这一序列的编码区域并在数据库中搜索相似序列

克隆了一个基因,把它分解克隆为一组有交叠的序列片段并进行了测序的用户可能希望把这些序列片段重新组装为一条连续的序列。一旦 contig拼接完成,用户可能希望在序列中寻找阅读框架,翻译并在数据库中搜索相似序列。

Fragment Assmbly System 的程序可用于拼接交叠序列片段。GelStart 程序创建一个项目。GelEnter 程序把序列片段复制到项目中。GelMerge 程序寻找片段之间的交叠并把它们拼接成 contig。GelAssemble 程序是一个编辑器,可用于编辑这些连续的部分并解决片段之间的冲突问题。所有这些程序都可以从Functions菜单中选取。一旦拼接完成,最终构成此 contig 的连续序列可以被保存为一个序列文件并添加到 SeqLab Editor 中。

使用 Map、Frames、TestCode(Fiekett, 1982)或 Codon

Preference(Gribskov et al., 1983)程序可预测序列中的编码区(所有这些程序可以从 Functions菜单中选中)。使用 Edit菜单的 Select Range 功能选择这些程序预测的区域并使用 Edit菜单中的翻译操作把它们翻译为蛋白质。这些提出的翻译区域也可以作为核酸共有序列的特征被加入。

选取蛋白质序列然后选择 Functions菜单中 BLAST(Altschul et al.,

1990)。BLAST 程序在数据库中搜索与查询序列相似的条目,此程序既可以进行远程搜索也可以进行本机搜索。搜索结果可以从Output Manager窗口中加

Page 98: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

以显示。如果被搜索的是一个本机的数据库,结果文件可以加入 SeqLab

Editor 或 Main List窗口中,并允许对找到的序列进行进一步分析。

对比相关的蛋白质序列,计算对比结果的共有序列,辨识序列中新的特征序列模式,在数据库中搜索包含此模式的序列或在对比结果的共有序列中搜索已知的蛋白质模式

辨识了一组相关序列的用户可能希望对其进行对比并计算对比结果的共有序列。如果可以在对比结果中找到保守模式,用户可能希望在数据库中搜索包含这种模式的其它序列。用户可能还希望在计算出的共有序列搜索已知的蛋白质模式。

选取待对比的序列,从 Functions菜单中选取 PileUp 程序创建多序列对比,PileUp 程序的输出文件可从Output Manager窗口中加以显示并添加到SeqLab Editor 中。用户可以对对比结果的某个区域重新加以对比并以此替换原有的对比结果。只要选取一个区域并重新运行 PileUp即可。从 PileUp

Options窗口中选取"realign a portion of an existing alignment(重新对比一个已存在的对比结果的一部分)",这可能有利于选择一个替代评分矩阵或不同的创建和扩展处罚。新的输出文件将包含最初的对比结果以及替换原始对比结果的重新对比的区域。

用 Edit菜单中 Consensus 操作计算对比结果的共有序列。如果保守模式可被辨识,从 Functions菜单中选取 FindPatterns选项。从共有序列中剪切下此特征序列模式并把它粘贴到 FindPatterns 模式选择器中,并在数据库中搜索包含这一模式的序列。

Page 99: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

此外,运行 Motif 程序可在共有序列中搜索已知的蛋白质模式。Motif 在蛋白质序列中搜索在 PROSITE,蛋白质位点和模式的 PROSITE字典中已知的蛋白质模式(Bairoch et al., 1997)。如果辨识出一个 Motif,则给所有序列增加一个特征,并标出它的位置。图 4.9 显示了一个蛋白质序列的匹配、一个共有序列以及 Motif 搜索的结果。    使用 Profile 进行相似性搜索并对比相关序列

序列分析的一个新的扩展领域是 Profile技术。一个 profile是一个位置特定的评分矩阵,它包含了一个序列对比结果中每个位置的所有残基信息。这一点与共有序列不同,共有序列中只包含每个位置的保守残基的信息。Profile做好后可用于搜索数据库、数据库划分或在一个集合中搜索与原始对比结果中的序列相似的序列。它也可以用于把一条单独的序列与一个对比结果进行对比。

使用 ProfileMake 程序(Gribskov et al., 1987,1990)可创建一个序列对比结果的 profile。使用 ProfileSearch 程序可用 profile 对数据库进行搜索,ProfileSegment 程序可以显示搜索结果(Gribskov et al., 1987,1990)。使用 ProfileGap 程序可将一个序列与 profile 进行对比(Gribskov et al.,

Page 100: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

1987,1990)。ProfileMake, ProfileSearch, ProfileSegments 以及ProfileGap 程序都可以从 Functions菜单中启动。

十一、引入非Wisconsin 软件包组件的程序扩展SeqLab

SeqLab另一个关键特征在于它的灵活性,可以在环境中插入附加程序。这一过程需要获取要引入程序的可执行文件,并创建一个描述必需和任选参数以及输入输出文件格式的配置文件。关于如何创建一个配置文件的详细介绍参见Wisconsin 软件包系统支持手册。不必把这些可独立运行的程序链接到Wisconsin 软件包的任何进程上。用这种方式,可以从 SeqLab 内运行任何编译来运行在运行 Wisconsin 软件包的计算机操作系统下的程序,同时观察其输出也十分容易,就象它是Wisconsin 软件包的一部分。ClustalW(Higgins et

al., 1996)就是Wisconsin 软件包 9.0 版本引入的扩展程序的一个实例。注意除非可执行文件已经下载下来或已经编译连接并且配置文件已被编辑指向这一文件的位置,否则这不是一个功能程序。

附录

Wisconsin 软件包程序根据程序功能组织为几部分。列出的主题都在 SeqLab

Functions菜单中。下文中列出了大多数(但不是全部)从 SeqLab 可访问到的程序以及简要的说明。GCG主页提供了更新信息以及 Wisconsin 软件包程序的完整列表。

1.两两比较

Page 101: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

(1)Gap: 使用 Needleman 和 Wunsch(1970)提出的算法来寻找两条序列的全局最优对比结果。

(2)BestFit: 使用 Simith 和 Waterman(1981)提出的算法寻找两条序列的局部最优对比结果。

(3)FrameAlign: 创建一条蛋白质序列与一条核酸序列的三种前向阅读框架的三联体编码之间的局部最优对比结果。对比时通过加入必要的间隙保持阅读框架。

(4)Compare/DotPlot: 比较两条蛋白质序列或核酸序列,创建包含序列相似区域信息的文件,并将结果图形化地显示为一个相似性的点矩阵。

(5)ProfileMake/ProfileGap: 创建一个位置特定性的评分表,称为 profile,定量描述一组进行对比的序列的信息。ProfileGap

创建一个 profile 和一条序列间的最优对比结果(Gribskov et

al., 1990)。

2.多个比较

(1)PileUp: 通过两两对比创建一组序列的多序列对比。同时可以创建一个图形文件,显示用于创建此对比结果的聚类情况。

Page 102: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

(2)PlotSimilarity: 在多序列对比结果中图形化序列相似性分数的平均过程。

3.数据库参考搜索

(1) LookUp: 通过索引域如Name, Accession, Number, Author, Organism, Keyword, Title, Reference, Feature, Definition, Length 或描述项的日期(Etzold and Argos,

1983)搜索数据库条目。

4.数据库序列搜索

1. BLAST: 在数据库中搜索与查询序列相似的序列(Altschul et al.,

1990)。查询序列以及要搜索的数据库是肽和核酸的任意组合。程序可以搜索用户本机上的数据库或保存在 Bethesda Maryland 的国家生物信息中心(NCBI)的数据库。

2. FASTA: 在数据库中搜索与查询序列相似的序列。程序由William Pearson 和 David Lipman(Pearsonand Lipman, 1988)所写。

3. TFASTA: 在核酸数据库中搜索与蛋白质查询序列相似的序列,进行比较之前它将数据库中序列的 6 种阅读框架都进行翻译(Pearson and Lipman, 1988)。

(4)FrameSearch: 在一个核酸数据库或列表文件中搜索与一个蛋白质查询序列相似的序列。也可以在一个蛋白质数据库或列表文件中搜索与核酸查询序列相似的序列。对于每个序列对比,程序寻找蛋白质序列与核酸序列的每条链的所有可能的三联体之间的最优对比结果,对比时加入间隙来保持阅读框架。

4. ProfileMake/ProfileSearch/ProfileSegments: ProfileMake创建一个位置特定性的评分

Page 103: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

表,称为 profile,定量地描述一组对比序列的信息。ProfileSearch 使用这个 profile在数据库、数据库划分、或在列表文件中搜索与创建此 profile 的序列相似的序列 。ProfileSegments 显示数据库条目和 profile 相似的局部区域(Gribskov et al., 1990)。

5. FindPatterns: 辨识包含短的特征序列模式的序列。模式可在每个位置任意定义并且(或者)可以完全不匹配。

5.编辑和发布

1. Pretty: 多序列对比结果显示多样化。也可用于计算对比结果的共有序列

2. Publish: 单序列或多序列的显示多样化。提供了一个用于显示选项,翻译以及标记身份的菜单。

3. MapSort/PlasmidMap: 采用 Plasmid选项的 MapSort创建一个包含限制酶识别位点位置的文件。这个文件可以用 PlasmidMap 程序加以图形化显示但必须是循环限制酶切图。

6.进化

1. Distances/GrowTree: 创建一组序列对比结果中两两之间相关距离的距离矩阵,这一距离用每 100 个残基中替换的核酸或氨基酸的个数表示。同时创建一个种系图。

2. PaupSearch: 为 PAUP( 进 化 系 统 简约性 分 析 ��Phylogenetic Analysis Using Pasimony)(Swofford, 1996)中的树搜索选项提供一个 GCG 接口。

3. PaupDisplay: 为 PAUP( 进 化 系 统 简约性 分 析 ��Phylogenetic Analysis Using Pasimony)(Swofford, 1996)中的树操作、鉴定以及显示选项提供一个 GCG 接口。

4. Diverge: 应用 Li 发表的各种方法(Li, 1993; Pamilo and Bianchi, 1993)评估两条编码为蛋白质的核酸序列每个位点的同义码和不同义码的置换个数。

7. 片段拼接

1. GelStart/GelEnter/GelMerge/GelAssemble: GelStart创建一个片段拼接项目或对已经存在的项目进行初始化。GelEnter将片段复制或输入到项目中。GelMerge 寻找片段间的交叠并将它们拼接为 contig 或连

Page 104: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

续的区域。GelAssemble是一个用于显示 contig 的编辑器,可用于去掉片段间的冲突。

2. GelView: 在给定的时间显示一个项目中所有的 contig 以及每个 contig 中包含的所有片段。

8. 模式识别和基因预测

1. TestCode: 根据核酸序列每 3 个碱基组成的非随机性使用Fickett(1982)开发的算法预测蛋白质编码区。

2. CodonPreference: 根据三联体的使用以及第三位 GC 出现频率偏差预测蛋白质编码区。现已有几个组织的三联体使用频率表(Gribskov et al., 1983)。

3. Frames: 根据起始和终止三联体编码子的位置,图形化显示一条核酸序列的 6 种转录框架的开放阅读框架。

4. FindPatterns: 辨识包含短的特征序列模式的序列。模式可在每个位点任意定义并且(或者)可能完全不匹配。

5. Motifs: 通过在蛋白质序列中搜索在蛋白质位点和模式的 PROSITE字典中定义的特征序列模式(Bairoch et al., 1997)来寻找已知的蛋白质模式 motif。

6. Composition: 确定核酸或蛋白质序列的组成。对核苷酸序列,也可用于确定双核苷酸以及三核苷酸的内容。

7. CodonFrequency: 创建序列编码区或已存在的三联体编码子使用表的编码子频率表。输出可用于许多 Wisconsin 软件包程序,其中也包括 CodonPreference。

9.输入/输出

1. Reformat: 格式化序列文件,符号比较表,或酶数据文件,使其能够用于 Wisconsin 软件包程序。也可用于修改序列的显示。

2. FromStaden: 将 Staden 格式(Staden, 1980)的序列文件转换为 GCG 格式。如果文件中存在多个序列,将对每个序列创建一个文件。

3. FromGenBank: 将 GenBank 中 flatfile 格式 (Benson et al., 1997) 的序列文件转换为GCG 格式。如果文件中存在多个序列,将对每个序列创建一个文件。

4. FromPIR: 将 PIR 格式(George et al., 1997)的序列文件转换为GCG 格式。如果文件中存在多个序列,将对每个序列创建一个文件。

5. FromFASTA: 将 FASTA 格式(Pearson and Lipman, 1988)的序列文件转换为GCG 格式。如果文件中存在多个序列,将对每个序列创建一个文件。

6. ToPIR: 将GCG 格式的一个或多个序列文件转化为 PIR 格式(George et al., 1997)。 7. ToFASTA: 将 GCG 格式的一个或多个序列文件转化为 FASTA 格式 (Pearson and

Page 105: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Lipman, 1988)。 8. ToStaden: 将GCG 格式的一个或多个序列文件转化为 Staden 格式(Staden, 1980)。

10.作图

1. Map: 显示核酸序列,在序列上方显示限制酶剪切位点,并在下方显示蛋白质翻译物。Map也可用于创建核酸序列的肽图。

2. MapPlot: 图形化显示限制酶识别位点,每条线代表一个酶。 3. MapSort: 预测核酸与一个或多个限制酶作用后得到片段的大小。 4. PeptideSort: 预测核酸序列分解后的肽片段。预测到的肽片段根据重量、位置以及高

性能液体层析仪(HPLC)决定的相关保留时间进行排序。它也包括每条肽链以及整个蛋白质组成的概要。

11.引物选择

1. Prime: 为 PCR(聚合酶链反应)选择低聚核苷酸引物,引物测序以及引物扩展实验。PCR受Hoffmann-LaRoche 所有的美国 4.683.195 以及4.683.202号专利的保护。

12.蛋白质分析(1)CoilScan: 在蛋白质序列中定位 coiled�coil段。

1. HTHScan: 在蛋白质序列中搜索 helix-turn-helix motif,这种 motif

代表了通常与基因调节有关的序列特定的 DNA绑定结构。 2. Isoelectric: 预测并绘制蛋白质序列的滴定曲线。 3. ProfileScan: 使 用 profile 数 据 库 在 蛋 白 质 查 询 序 列 中 搜 索 motif ( gribskov et al,

1990)。

1. PeptideSort: 预测核酸序列分解的肽链片段。预测到的肽片段根据重量、位置以及 HPLC 保留时间进行排序。它也包括每条肽链以及整个蛋白质组成的概要。

Page 106: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

1. PepPlot: 使用 Chou 和 Fasman(Chou and Fasman, 1978)提出的方法预测二级结构。预测结果在一组并列的图中,同时也包括亲水性和疏水性力矩图。

2. PeptideStructure/PlotStructure: 预测并显示蛋白质序列的二级结构抗原性、灵活性、疏水性以及表面概率。

3. SPScan: 在蛋白质序列中搜索分泌信号肽链(SPs)。

13.RNA 二级结构

1. Mfold/PlotFold: 使用 Zuker 的能量最小化方法预测并显示 RNA 分子的最优以及次最优二级结构。

2. StemLoop: 在序列中搜索发夹的碱基配对片段(stem)或反向重复序列。用户指定最小的发夹碱基配对片段长度,最小和最大的发夹末端单连区(loop)尺寸,以及每个发夹碱基配对片段最小的键数。

14.翻译

1. Translate: 将核酸序列翻译为多肽序列。 2. BackTranslate: 把氨基酸序列翻译为核酸序列。输出显示帮助用户识别可能有利于创

建人造探针的最低任意限度的区域。

上一页 下一页 返回目录 返回茶庄 

第五章 生物数据库的信息检索Andreas D Baxevanis

国家人类基因组研究学会,基因组技术部

Page 107: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

国家保健学会马里兰州,Bethesda

如第二章所述,建立 GenBank是为了适应人类基应组工程等科学研究产生的大量序列数据的信息爆炸。总的来说,GenBank是带有注释的公用 DNA,蛋白质序列的集合。写作本书时,GenBank 中有 160 万条链的纪录,含超过 10亿个核苷酸碱基。向GenBank 存入新的序列有两种方法:通过 Sequin 和BankIt等工具直接提交,或通过国际核苷酸序列数据库的组成部分GenBank,EMBL,和 DDBJ等相互之间传递数据的共享协议。关于提交工具及这种数据协作的性质的进一步的信息参见第 14 章。

GenBank 或其他任何有关的生物数据库必须容易查找而且查出的记录的格式便于使用??,否则就不会有很大的用处。??另外,因为总的来说生物学界还不能有效的利用隐藏在这些上百万的碱基及氨基酸之中的信息,排序的工作也没有很大的用处。为了使这些数据对于一般的使用者容易利用而做过很多努力,这些工作的结果--程序和界面是本章的重点。因为这些更通用的数据库与生物学家通常使用的那些数据库相差很远,所以本章的论述集中在如何查询 NCBI

数据库上,但是本章同时也注意到一些较小的较专门的数据库,它们提供的信息在 GenBank 中未必能找到。

检索数据库记录:检索服务器

Page 108: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

查询 NCBI 数据库最简单的方法可能是使用名为Retrieve 的邮件服务器。检索服务器通过简单的关键字搜索来查询记录。一次可以检索一个可用的数据库,可以是简单的(只含有一个关键字〕或复合的(含有由逻辑算符组合的多个关键字)。服务器的地址为 [email protected]。同大多数邮件服务器一样,如果向服务器发送一封正文只含一个单词Help 的邮件将会返回一个关于如何使用检索服务器的详尽的解释。

回顾第一章,使用一个邮件服务器时,向服务器发送的消息必须是严格的符合服务器可以理解的指令格式。如下例所示: 此处,消息的标题与服务器无关。由于返回查询结果时将会带有原来的标题,因此发送多条消息给服务器的时候加上一个描述性的标题有助于使用者区分不同的查询结果。消息正文以名为DATALIB 的查询参数开始,该参数表示应检索那一个可用的数据库(这里是查询 SWISS-PROT)。标志“BEGIN”表示没有别的检索参数了,紧接着的词都是搜索条件。可以用逻辑符号AND,OR,及NOT 组合检索条件;圆括用于分隔检索条件;引号表示必须组合在一起的短语。本例中,服务器将会返回所有含有短语"histone H1"且含有单词Saccharomyces 及 Schizosaccharomyces 之一的记录。如果不用逻辑运算符及分隔符(即,检索条件为 histone H1 Saccharomyces

Schizosaccharomyces〕,则在条件之间将会自动加上OR,这不符合使用者的要求。这个复合查询的结果显示于图 5.1。

Page 109: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

通常,提交的检索范围过大,返回的记录数远多于对查询者有用的数目。例如,前面的检索如果没写种类名的话将会失败,因为含有"histone H1"的记录太多。况且,即使这条短语并不是某条记录的真正主题,它也有可能出现在该记录之中:例如,这个短语是某篇论文的标题的一部分,但论文是讨论别的序列的。当查到的记录太多无法处理的时候,将会产生错误。输出行数及检索到的记录数都有上限;这主要是由于很多电子邮件系统不能处理太大的电子邮件信息,而且过多的泛泛的查询只会降低系统的速度。为了提高检索质量,用户可以设定额外的检索参数;用于改变行数或记录数的限制,或只返回记录的标题而不是全部列出。用户也可以限制实际检索的域。回到上面的例子,如果检索条件以"histone H1"[DEF]开始,则表示仅在记录的定义行中查找这个短语。可以在检索帮助文档中找到检索参数和域限制条件的完整的清单,以及可以检索的数据库的列表.

图 5.1 提交检索服务器的一个复合查询的结果。注意检索在 SWISS-PROT 和更新过的 SWISS-PROT上运行共两次(后者含有上一个数据库主版本之后的新的记录)。此处提交的查询只返回了一条记录。

集成信息检索:ENTREZ 系统

检索服务器可以对有目标的检索记录,但它主要的缺陷在于一次只能从一个数据库中检索到记录;想对一批数据库进行检索的用户必须为每一个目标数据库分别发出一次申请。很明显,这些大量的公用数据库之间存在着逻辑联系。例如MEDLINE 中的一篇论文可能描述一个基因的序列,该基因又在 GenBank 中

Page 110: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

出现。其核苷酸序列所编码的蛋白质的序列又存放在蛋白质数据库中。这种蛋白质的三维结构可能又是已知的,结构的数据可能出现在结构数据库中。最后,基因可能定位在某条染色体的某个区域,这类信息存放在图谱数据库中。

在这些生物学上的联系的基础上开发了一种方法;可以通过它查询所有与某一特殊的生物学实体有关的所有信息,而不必按次序查询分立的数据库。这就是一个名为 Entrez 的分子检索系统。它由NCBI开发和维护,Entrez 在所有的主要的数据库计算机平台上均可使用,允许对 PubMed(MEDINE)的记录,核苷酸和蛋白质的序列数据,三维结构信息,图谱信息进行集成的访问。全部信息只需经过一次查询。Entrez 能够通过数据库之间的两种类型联系:相近性和硬连接来提供集成的信息检索。

相近性

相近性联系着一个给定的数据库之内的记录。使用者在查看MEDLINE 中某条记录时可以要求 Entrez"找出所有类似的论文",类似的,使用者在查看一个序列的同时可以要求 Entrez"找出所有与这个序列类似的序列"。一个数据库之内的相近性关系是建立在对相似性的统计计算上的:

BLAST 序列数据可以用基本局部对比搜索工具(Basic Local Alignment

Search Tool,即BLAST)相互比较。这个算法试图找到"高度匹配的片段对"(high-scoring segment pairs,简记为HSPs),即能够无缺口的对齐且达到一定的分数的成对的序列。第 7 章详细的讨论了 BLAST 算法系列及它们的应用。

Page 111: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

VAST 几套坐标数据之间的比较采用一种名为VAST 的基于向量的算法。VAST

即Vector Alignment Search Tool(Madej等,1995;Gibrat等,1996)。VAST 的比较有三个步骤:

1.第一,在坐标数据的基础上,标出所有的构成蛋白质的核心部分的 α螺旋和β片层。然后根据这些二级结构单位的位置计算向量。以下的步骤使用这些向量来做对比而不是整个一套坐标。

2.然后,算法试图最佳的匹配这些向量,寻找类型和相对方位相同的成对的结构单位,并且在这些单位之间还要有同样的连接方式。其目标在于识别高度相似的"核心结构",这些成对结构的匹配性要比随机的选择蛋白质相互比较得到的高得多。

3.最后,在每个残基位置上使用蒙特-卡洛方法对结构的排列进行优化。

使用这个方法有可能找到一些序列相似性不明显的蛋白质之间的结构上的关系(可能在功能上也有关系)。最后的对齐结果不一定是全局的,可能在不同的蛋白质的单独的结构域之间配对。

需要重点注意的是VAST不是确定结构相似性的最好办法,因为还可以利用三维坐标文件中的其它信息来做更进一步的修正,如考虑侧链的位置及侧链之间的相互作用的热力学特点。而把结构压缩成一列矢量必然会导致信息的丢失。然而,考虑到这个问题的数量级-即需要做的成对比较的次数-及采用更高级的方法所需要的计算能力和时间,VAST至少为结构相似性问题提供了一个简单

Page 112: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

和快速的答案。关于别的基于 X射线或 NMR坐标数据的结构预测方法可以参见第 11 章。

加权的关键词 序列数据对比问题与 MEDLINE 记录的对比相比较还是容易一点,MEDLINE 的记录是自由书写的文本,语法上不固定。Entrez 使用了名为"相关配对模式检索"的方法来做这种对比,该方法依靠的基础是加权关键词(Wilbur 和 Caffee,1994;Wilbur 和 Yang 1996),这个概念用具体的例子来描述比较合适。考虑具有下面两个标题的两篇文稿: 这两个标题含有公共词BRCAI,Breast,和 Cancer,这些公共词的存在显示这些文稿的主题可能是相似的。同时也考虑单词之间的距离,对两条记录中的公共词距离较近的给予较高的分数,分开较远的给予较低的分数。在这个例子中,对词Breast 和 Cancer将给予较高的分数,因为这两个词是相邻的,比它们之中的任何一个与 BRCAI 之间的距离短。标题中找到的公共的词比摘要中的公共词得分高,因为一般认为标题的词比摘要中的词"更重要"。一个词的总的权重取决于它在 MEDLINE 中的所有记录中出现的频率,在数据库中总的来说出现较少的词得到较高的权重。

如果不算相近关系所基于的那些方法,实际确定和利用这些关系的能力是基于所有这些分支数据库的数据的底层格式。这种格式称为抽象语法形式(Abstract Syntax Notation,即ASNI),所有类似的域(如引用书目)可以

Page 113: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

以完全一样的方式在这种格式中结构化,而不管这条记录是在蛋白质数据库,核酸数据库或其它数据库之中。NCBI 的这种数据模式将在第 6 章中深入的讨论

硬连接

硬连接的概念比相近性的概念更容易接受。硬连接用于联系不同的数据库中的记录,只要这些记录之间存在逻辑联系,就存在硬连接。举例来说,如果一条MEDLINE 记录是关于??装配型质粒的,那么在这条记录和对应的核酸记录之间就建立一条硬连接。如果这个装配型质粒??上的一个开放阅读框架编码某种已知的蛋白质,那么在核酸记录和蛋白质记录之间就建立一条硬连接。如果这种蛋白质恰好已经有实验测出了它的结构,那么在这条蛋白质记录和结构记录之间也会建立一条硬连接。

相近性和硬连接的关系可以用图 5.2 来解释。每个分支数据库(MEDLINE,蛋白质,核酸,结构及基因)用一个五角形表示。从每个五角形引出又回到自身的曲线表示相近性关系,根据相近性关系可以在同一数据库内寻找相关的记录。图的中心从五角形到五角形的直线连接代表硬连接关系。根据硬连接关系可以在几个数据库之间寻找相关记录。使用者通过合理的使用这两种类型的关系可以只进行一次查询就可以获取多得不可思议的信息,比对单个的数据库分别进行查询所花的时间少得多。

## 图 5.2 Entrez 集成信息查询相同中的关系的示意图。每个五角形表示一个数据库;每个五角形上指向自身的曲线代表相近性关系,图的中心的直线表示硬连接。

Page 114: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

搜索的入口点

如图 5.2 所指出的,基本上可以从任何地方开始使用 Entrz 系统搜索-使用者不必考虑从何处进入信息的空间。然而,选取不同的数据库作为搜索的起点就会有不同的域可以用于搜索。这显然是由于不同类型的数据库中的记录必须有不同的组织方式,以反映了它们所编目的实体的生物学特点。表 5.1 列出了每个Entrez 系统中的数据库可以用于搜索的域。

实现

不考虑平台的差异,Entrez 的搜索可以用两种界面进行。第一种称为Network

Entrez,是用客户-服务器方式实现的。这是 Entrez 程序中最快的,它直接连接到一个 NCBI 的"发送者"。其图形用户界面的特点是一套窗口。由于客户软件存于用户的计算机上,需要用户去获取,安装和维护软件,软件加入了新的特征时可以下载更新的部分。安装的过程相当简单。

第二种实现方法是在环球网上,称为WWW Entrez 或者 Web Entrez。可以利用各种可用的网页浏览器,例如 Internet explorer 或 Netscape,它们把搜索结果传回桌面上。使用网络浏览器的用户不必再确认是否安装了最新的 Entrez

版本-只要浏览器是较新的版本,查询的结果总是通过最新的 Entrez 版本得到的。Web 版还有另外一项用处,上述所有的相近性关系和硬连接关系都可以用超文本表示,用户可以通过点击记录上的特定的词来浏览。

Page 115: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

用网页实现比网络版进步的地方在于网页可以有连接到外部数据源的能力。如由某个杂志或出版社维护的论文的全文版本,或某些本来不是 Entrez 组成部分的专门的数据库。网络版的速度上的优势同时导致了这方面的限制,直接连接到NCBI 发送者意味着用户一旦连接到 NCBI就不能再转移到别的任何地方。这两种方法的另一个主要区别在于表达方式上,网络版用一套窗口而网页版用一系列的网页,服从标准的网页规范。选择哪一种是用户的爱好问题,两种方法在Entrez 的搜索空间中得到的一样的结果。

Entrez 的查询方法:举例

##

图 5.3 从MEDLINE开始作 entrez 查询,使用网页版的 Entrez 版本(http://www.ncbi.nlm.nih.gov/entrez)。详细说明参见正文。

为了解释前面的 Entrez 系统的集成特性并且把相近性联系的特性讲透彻,最好的方法是考虑一个生物学的实例。此处使用 Web 版的 Entrez界面。从NCBI 网址上的 Entrez主页开始,用户可以选择组成 Entrez 系统的五个数据库之一作为查询的起点。此处查询从MEDLINE开始。PubMed 的查询主页显示于图5.3,此页上的表格要求进行两项选择然后提交查询。首先用户必须选择查询域,把搜索范围限制在数据库入口的一个特定的域上(例如,生物学分类或标题)。其次,用户必须选择一种查询模式,指定客户和服务器的交互方法。如果是Automatic 模式,服务器会自动的查看搜索框中输入的词条,在数据库中查找符合得最好的词条。显然Automatic 模式和 List Terms 模式常常返回同样的

Page 116: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

结果,但由于在开始查询的时候记录的可能的索引方式用户可能还不太清楚,建议使用 List Terms 模式。

假设用户要检索关于 hiv 1 的摘要。使用 Entrez 查询窗口,在查询框中输入hiv 1,选定 Text Words为检索域(即在标题和摘要中查找HIV 1 的出现),选择 List Terms为查询模式。(当然也可以用 Organism 作为检索域;使用两种不同的方法进行检索并观察输出的不同对用户来说是一个很好的练习。)检索命中后会打开一个新的网页(图 5.4)。这一页包含一个词条选择窗口,用户可以浏览与原来的词条(HIV 1)最接近的词条。注意选择窗口在 HIV 1后面还显示了很多略有区别的其它条目。如果用户选择的是Automatic 模式,就会忽略这些额外的条目,这样可能忽略了重要的信息。采用 List Terms 模式,就可以使用户看到原来的检索词的各种变种。

##图 5.4 在 MEDLINE 数据库上进行 Entrez 检索查的所有条目。详细说明参见正文。

到这一步还没有实际检索到记录。要检索记录用户要先在词条选择框中点击需要的词条(此处为 hiv 1)然后点击 Select按钮。随后打开的网页的上部显示了现在检索的状态和查到的记录数(图 5.5)。执行上面所述的查询返回了17,943 条记录,数量太大了,任何人都无法完全过滤一遍。因此有必要进行修正以减少返回的摘要的数量。如果用户对 HIV 1 的杂二聚体??的折叠感兴趣,可以用 heterodimers 和 folding 作为附加的检索词,重复上面的步骤。虽然每个单独的词都能检索到成千上万条记录,它们的组合只查到 6 条记录(图

Page 117: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

5.6)。在 Entrez 系统中,缺省的逻辑算符是AND,在检索词下方的修正窗口中可以看到。

为了看到实际的检索结果,用户应点击标记为Retrieve 6 Documents 的那个按钮;随后会打开新的窗口(图 5.7)。窗口中每一条记录有下面几个部分:检查框,第一作者的名字,出版年份,标题,引用信息。选中窗口底部的 Jacoco-

Molina 1993年的记录;点击作者名字打开另一个窗口,这个窗口包括引用信息,论文名称,所有作者列表,来源及摘要,以标准的引用格式书写。

图 5.7 所示的页面上,在 Display按钮后面的下拉菜单中可以选择一些别的格式。切换到 Absttract 格式将得到起来非常相似的记录。差别在于在摘要后面显示了一些分类信息如MeSH 条目以及与这条记录有关的编有索引的材料。使用MEDLINE 格式将打开MEDLINE/MEDLIARS页面,记录的左边有每个域都对应的两个字母的代码(如作者域的代码为AU)。这种格式的记录可以存储而且能容易的输入到第三方的目录管理程序,例如 EndNote 和 Reference

Manager。

在图 5.8 的上端是一排连接按钮。这是用户可以进一步查看刚才讲过的相近性和硬连接关系的入口点。如果用户点击 Related Articles按钮,Entrez会显示出有 133 条与 Jacobo-Molina这条记录相关的记录-即有 133 条具有相似的主题的记录。-这些论文的前 20篇显示在图 5.9 的一个新的列表中。第一篇是原来的那篇关于 HIV 1反转录酶的晶体结构的论文。这一篇称为原记录,它显示在列表的上端,相近的记录列在后。这些相近记录的排列是按照相似程度降序排

Page 118: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

列的。因此最靠近原记录的被认为是与原记录最接近的。浏览一下标题用户就可以很容易的找到与 HIV 1 的蛋白质有关的结构和功能研究的有关信息,可以很快的得到相关索引的目录。当用户在写论文的时候这种功能尤为有用而且节省时间。因为用户在到图书馆的书架中去寻找之前就可以浏览摘要并选定真正感兴趣的论文。

从这个新的论文列表中,用户可以通过使用列表中每一项旁边的检查框来找到硬连接的记录。仍然用这个例子,将Display按钮后面的下拉菜单选为Proteins links然后点击Display按钮,将会从蛋白质数据库中找到与本页这条 MEDLINE 记录有关的 19 条记录并列表;图 5.10 显示了其中的 6 条。这一页的格式与已经在 MEDLINE 中见过的那些格式相同,区别在于每条记录后面有一些超链接对应可用的其它格式或对应相近和有硬连接的记录。有用的格式之一是 FASTA,它提供了一种格式可以输入到大多数序列分析程序中去。点击相近蛋白质的超链接所得到的输出大体上是对这个蛋白质序列用 BLAST 搜索的结果。用户可以以相似的步骤访问核酸数据库。

这次查询得到的蛋白质记录的列表中有 IHIV-A 和 IHIV_B 的记录,是一种 HIV-

1反转录酶在一个点发生突变的突变体(Cys280→Ser)。点击Graphic View

连接将打开一个图形方式的视图,看到这条记录的特征表中的所有信息。这个蛋白质有大量的二级结构单元,用这种类型的视图可以很容易的准确的整理出沿着蛋白质链有那些二级结构单元。如果点击标有 1 Structure Link 的超链接,将打开一个结构一览页面(5.12)。这一页显示的细节是从源 PDB 文档的标题开始,还有三字母格式的原始结构,到其它信息的链接,如VAST 相近记录的

Page 119: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

列表。如果点击"View/Save:IHIV"下面的 View按钮,则将调用 Cn3D 软件,打开新的窗口显示结构透视图。有些用户对于蛋白质的外形的直观形象感兴趣,Cn3D为此提供了强大的界面。它所给出的信息比任何人从观察字符串(蛋白质的序列)中所能得到的信息更多。可以通过窗口底部和右边的滚动条沿着轴旋转蛋白质分子,或者当光标在窗口中时用点击然后拖拉的方式随意的旋转它。用户也可以放大观察结构的某部分,必要时用数字给残基编号;如本例中的一处变异的位点可以标出。用户也可以改变图的着色方案以确定该蛋白质的特殊的结构特征。在图 5.13 的例子中,涂刷和着色的方案分别空白填充和疏水性。这个组合的方案可以用于观察表面的电荷分布,指示出蛋白质的那些是蛋白质之间相互作用的部位,那些是蛋白质和 DNA 作用的部位。关于 Cn3D 的进一步的资料在地 3 章中。Cn3D 的文档中也有。另外,用户也可以把坐标信息存入到一个文件中,用第三方的程序来观看,如 Kinemage(Richardson 与Richardson,1992)和 Rasmol(Sayle 与 Milner-White,1995)。

集成的信息访问:查询服务器

有时候用户没有 Entrez平台可用,他将只好通过电子邮件来进行检索。也有可能用户在实验室通过 T1 连接在环球网上访问 Entrez但速度又不够快。Query

是一种使用电子邮件的 Entrez,它能满足需要。Query 的思想与 Retrieve 非常类似,但是一次能查询不止一个数据库。Query 可以在一个指定的数据库范围 中查询(蛋白质,核酸,结构或 MEDLINE),而且能返回相近的和有硬连接的记录。

Page 120: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

同使用 Retrieve 一样,Query 的用户向服务器发出查询请求时必须遵循规定的格式。图 5.14概括了 Query 的申请的一般的格式,显示出在搜索之中可以使用的标志和选项。(Query也支持Retrieve 的语法,所以向Query 服务器发送Retrieve 格式的查询请求也能正确执行。)最简单的查询是使用检索词。执行这种查询要先给定目标数据库和一个或几个检索词。用 Query 和用Retrieve 一样,基于词的检索可以限定在数据库记录的特定域中,这样得到的结果更好。为了显示 Query 和 Retrieve 的区别,我们将采用图 5.3至图 5.14

中用过的例子,而按Query 的格式表达。 查询以一行"DB p."开始,指出要检索的是蛋白质数据库。对比 Retrieve 一次只允许检索一个数据库;Query允许一次检索所有同类的数据库(此处由蛋白质数据库构成无冗余的查询集)。数据库由一个单字符代码指定:p表示蛋白质n表示核酸,m表示 MEDLINE,t表示结构,s表示对蛋白质和核酸同时检索。检索空间与 Entrez 检索时用过的相同。

与原来 Retrieve 检索不同的是,对检索词分别限定了几个域:只在蛋白质名称域中查找"histone H1",只在生物名称域中查找生物名。注意符号&用于表示逻辑与 AND,竖线符(|)用于表示逻辑或 OR,逻辑非用连字符表示(-);因为检索词中也有可能出现连字符,所以表示逻辑算符的连字符必须在左边或右边至少有一个空格,以与实际的检索词区分。

Page 121: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

到此为止,Query看来与 Retrieve 的区别还不大。实际上执行前面的查询得到的结果与 Retrieve 相同。然而使用 DOPT标志(显示选项)能够彻底改变查询结果,对于用户更为有用。继续看这个例子,可能用户需要有 FASTA 格式的结果而不是标准的 Entrez 文档的摘要格式。另外,用户不想看蛋白质记录本身,而是想要与它们有关的核酸链。为了达到这种效果,可以如下的修改检索语句:DB p

TERM histone H1 [PROT]

&(Saccharomyces [ORGN] | Schizosaccharomyces [ORGN])

DOPT fn

 DOPT 语句中的 fn表示与检索条件确定的蛋白质记录有关的核酸记录(n)要用 FASTA 格式(f)显示。这次检索的结果如图 5.15 所示。DOPT 语句的多种功能使得Query 可以输出由别的程序(如序列对比编辑器或预测工具)处理的信息,尤其是 FASTA 格式的结果,这使得Query 非常有用。

最后,Query 用户还可以用一下三个附加的标志选项。HTML 可以使得返回的结果为HTML 格式,可以用网页浏览器来看,DISPMAX 可以控制返回的最大记录数:如果不使用 DISPMAX,则该缺省值为 200,另外还有电子邮件的行数限制为 10 万行。最后,PATH 使返回的查询结果送到另外一个电子邮件地址而不是发出检索请求的地址。

NCBI上的序列数据库

Page 122: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

从上面的论述看起来,NCBI 似乎是序列数据领域的中心,但世界上还有其它的一些专门的数据库也在科学交流中发挥特殊的作用。这些数据库通常提供一些辅助的信息,如性状,实验条件,杂交??,以及图谱特征。这些数据对于科学交流的某些领域来说很重要,因为它们有助于合理的实验设计。然而这些数据不完全符合 NCBI 的数据模式的限制,因此建立了这些专门的数据库,它们将被用来作为GenBank 的附件而不是作为它的一部分。

这些特殊的数据库之中的两个是酵母基因组数据库(Saccharomyces

Genome Database,即 SGD)和 Arabidopsis thaliana 数据库(AtDB),两者都在斯坦福的人类基因组中心。关注 SGD是因为

酵母的全基因组已经被测序,这个数据库提供了一个非常简单的查询界面,使用基因名,基因信息,无性系,蛋白质信息,序列名,作者名,或全文来作文本方式的查询。例如,用 GeneName 作为检索主题,hho1为基因名查询,将会打开一个 SacchDB 信息窗口,显示所有的关于 HHO1座位的信息(图5.16)。座位窗口中还有连接到别的数据库的跳转点,如MEDLINE,酵母蛋白质数据库(Yeast Protein Database,即 YPD)。从这条记录到 Sacch3D 的连接提供了 PDB 中找到的 HHO1 的蛋白质产物的同结构族的信息。还有到二级结构和三级结构预测的站点的连接。及??根据查询一些数据库预先计算出的BLAST报告。返回到原座位窗口,点击 Seq&Disply 连接,用户将能看到序列的座位周围区域的图形显示。可用的视图包括物理图谱,遗传图谱,染色体特征图谱以及其它。HHO1 的物理图谱显示在图 5.17(注意着色)。注意图形上部的黄色的粗棒,它给出了目前视图的位点相对于着丝点的位置。在黄色棒上点击

Page 123: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

就可以在染色体上移动查看,点击单独的基因,无性系,或序列名就会给出与特定的区域有关的详细信息。

还有一个这样的专门一种生物的数据库即 FlyBase,它的目标是维护果蝇(Drosophila)的基因和分子生物学方面的综合信息。可以用 World Wide

Web,Gopher,FTP 访问 FlyBase。可查到的信息包括大范围的果蝇方面的书刊目录,涉及果蝇的项目的研究者的地址,11,000 多个基因的 38,000 多个等位基因的信息汇编,13,000 多种染色体畸变,图谱信息,基因产物功能的信息,存储中心和基因组无性系的列表,同类数据库的信息。所有这些方面的检索都可以通过一种简单的检索机制完成。

例如,查找基因符号,capu为检索词,将找到一条名为 cappuccino 的基因的记录,在果蝇卵母细胞周期的正确极化中需要用到它(Emmons等,1995)。调用图形视图可以显示 cappuccino 的基因及其细胞学定位及邻近区域的其它基因,用户可以在基因条上点击任何地方查看某个基因的具体细节信息(图 5.18)。在这个视图上可以清楚的看到重叠的情况:这儿的cappuccino看来与为转录因子编码的 slp1 和 slp2 重叠了。选择窗口底部的类别按钮之一就能改为以查看无性系,缺失,重复,倒置,易位,转座,或其它变异的图形视图。

医学数据库

虽然本章的重点在于序列,但对于生物学家来说,除了分类和组织序列信息的数据库之外,还有别的类型的数据库也很有用。例如不基于序列的信息源

Page 124: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Online Mendelian Inheritance in Man(OMIM),它是由约翰霍普金斯大学的 Victor McKusick 编辑的关于人类基因和基因异常的目录的电子版 。OMIM提供了来源于出版物的简明扼要的文本方式的信息,内容是关于大多数有遗传学基础的人的正常条件,附有图片解释这些条件和异常情况,配有完备的引用信息。OMIM 的在线版位于 NCBI,每条记录引用的参考资料都有到Entrez 系统的连接。

OMIM提供了一个编号系统对每条记录有一个唯一的编号,与登录代号相似,但数字的某些位表示了与基因异常本身有关的信息。例如,第位表示异常的遗传模式:1表示显性遗传,2表示隐性遗传,3表示 X 连锁的座位或性状,4表示Y 连锁的基因或性状,5表示线粒体,6表示常染色体的基因或性状。(1 或 2

与 6 的区别是:在 1994年 5月之前的记录赋予 1 或 2,以后的记录则不论显性或隐性都赋予 6。)数字之前的星号表示这个座位上的基因引起的性状不受其它地方的基因的影响:然而异常本身可能是由于多处变异引起的。未确定遗传模式的异常不带星号。最后,#号表示性状由两处或两处以上的基因异常引起的。

OMIM 的查询很容易进行。检索引擎根据输入到检索窗口的一个或几个词执行简单的查询,返回含有该词的文档的列表,用户可以在列表中选择一个或更多的异常查看其OMIM 记录的全文。记录含有各种信息,如基因符号,病变的名称,对病变的描述(包括临床的,生物化学的,细胞遗传学的特征),遗传模式上的细节(包括图谱信息),临床的说明,还有参考文献。由于篇幅的限制不能在此显示一条完全的记录,建议读者可以试用检索词Alzheimer 作输入进行检索,可以得到一条包含 OMIM提供的大多数特性的记录。

Page 125: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

上一页 下一页 返回目录 返回茶庄 

第六章 NCBI 数据模型前言 数据模型什么是数据模型生物学家大都熟悉用动物模型来研究人体疾病。尽管人体疾病有可能在动物中找不到完全相同的形式,但某种动物疾病和人体疾病有相当多的类似性质使我们可以从动物疾病中获得的数据来推断人体的疾病过程。通过将肌肉想象成弹簧和水压活塞的组合,将骨骼想象成杠杆臂,可以得到描述肌肉骨骼运动的数学模型。这样的模型可以对更多复杂的生物系统进行有意义的预测和检验。显然,如果模型与描述的实际现象可以更加接近或精致,则它对所模拟的自然现象的预测和理解就更有意义。

八年前,NCBI 介绍了一种新的序列相关信息模型。这种新模型使基于 Entrez

系统的完整数据库 GenBank 的建立以及相应的软件得到快速的发展。该模型具有如下优点:它能轻而易举的从已公布的说明的 DNA 序列映射到编码蛋白,到基因的染色体设计,到三维蛋白质的结构(见第 5 章)。该模型的优点对生物学家使用 Entrez有很大的帮助。但是很少有生物学家了解该模型的基础。当基因信息变得越来越丰富,越来越复杂的情况下,出现了很多符合 GenBank 数

Page 126: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

据,且模型本身更好理解的实际数据模型。这一章不深入讨论细节,只介绍一些实用的索引及 NCBI 模型所起的作用。

模型的一些例子

GenBank 数据是以 DNA为中心角度的数据报告(见第 2 章),也就是以CDS 特征为代表的一段编码蛋白质的 DNA 序列。限定符/

translation="MLLYY"描述了将CDS 特征翻译成的氨基酸顺序。其它的 DNA

特征(例如mat-肽)有时被GenBank 数据应用来描述未命名蛋白质(部分由/translation 描述)的切分产物,但这不是一种令人满意的解决方法。相反,大多数蛋白质序列数据库以蛋白质为中心角度,这样可能完全失掉其与编码基因之间的联系,或者只是间接的用序列号表示其联系(这并不提供准确的对基因突变分析有重要作用的密码子--氨基酸对应关系)。

NCBI 数据模型直接构造了包含 DNA 和蛋白质序列的模型。翻译的过程是由两种序列间的关系决定而不是由一种对另一种的解释确定。和蛋白质相关的注解(例如肽切分产物)是由蛋白质序列特征直接注释。这样,用 BLAST 或其他序列搜索工具去分析由CDS 特征得到蛋白质序列就变容易了,尽管返回基因时可能会丢失精确的中间联系。一组 DNA 序列和由它翻译的蛋白质被称为核酸—蛋白质组,它是NCBI为使用这些数据的中间数据。GenBank 数据格式只是人类可读的一种特殊数据形式。它失去了有联系的序列集合,而倒退回比较熟悉的那种序列(以 DNA为中心的视角)。Entrez 的目标是更直接的反映数据的低层结

Page 127: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

构。由BLAST 实现的从GenBank 到蛋白质序列的翻译实际上是从蛋白质—核酸组得到蛋白质序列。Part A:

LOCUS RNKOR1 1757bp DNA ROD 25-MA-1995

DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 1 and 2.

ACCESSION U17993

NID g727256

KEYWORDS .

SEGMENT 1 of 3

LOCUS RNKOR2 658bp DNA ROD 25-MA-1995

DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 3.

ACCESSION U17994

NID g727257

KEYWORDS .

SEGMENT 2 of 3

LOCUS RNKOR3 4048bp DNA ROD 25-MA-1995

DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 4 and complete cds.

ACCESSION U17995

NID g727258

KEYWORDS .

Page 128: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

SEGMENT 3 of 3

Part B:

LOCUS RNKOR 6463bp DNA ROD 25-MA-1995

DEFINITION Rattus norvegicus kappa opioid receptor gene.

ACCESSION ZZ123456

NID g2182225

KEYWORDS .

SOURCE Norway rat.

ORGANISM Rattus norvegicus

Eukauyotae; mitochondrial eukaryotes; Metazoa; Chordata;

Vertebrata; Eutheria; Rodentia; Sciurognathi; Myomorpha; Muridae;

Murinae; Rattus.

REFERENCE 1 (base 1 to 1757)

AUTHORS Yakovlev, A.G., Krueger, K.E. and Faden,A.I.

TITLE Structure and expression of a rat kappa opioid receptor gene

JOURNAL J. Biol. Chem.270, 641-6424(1995)

MEDLINE 95204422

PUBMED 7896774

REFERENCE 2 (bases 1 to 1757)

AUTHORS Yakovlev,A.G.

TITLE Direct Submission

JOURNAL Submitted(02-DEC_1994) Alexander G. Yakovlev, Georgetown

University School of Medicine, Neurology, 3900 Reservoir Rd.,

Page 129: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Washington, DC 20007, USA

FEATURES Location/Qualifiers

Source 1..1757

/organism=”Rattus norvegicus”

/strain=”Sprague-Dawley”

/sex=”maile”

CONTIG join(U17993:1..1757,gap(200),U17994:1..658,gap(),U17995:1..4048)

图 6.1 A:从GenBank 中一条记录的部分。GenBank 格式仅仅指出了记录是有顺序的序列的一部分;它不提供关于其他部分是什么或它们之间如何联系的。完整的该记录见 http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?uid=2182225&form=6&db=n&Dopt=g

B:新的 CON 中片段代表,新的 GenBank 格式的延续,容许片段记录之间建立联系,CONTIG 行可以包含单个序列,已知长度的间隔,未知长度的间隔。尽管这种格式中没有特征及序列,但每个组成成分仍以传统格式表达。

GenBank 格式也隐藏了一些 DNA 序列的多序列性。例如一般意义上,一个基因的三个外显子是有顺序的,或是被侧面的非编码区或 DNA 内含子密集包围着,而内含子的整个长度是没有被测序的。这时候在 GenBank 的数据中会有三条记录,每一个对应一个外显子。没有一个特征能清楚地代表该编码区完整的序列顺序(三个外显子是有一定的顺序并被一定长度的未翻译的 DNA 序列隔断)。在GenBank 格式中,这时会有 SEGMENT 行指出第一个记录是 SEGMENT 1 of

3、第二个记录是 SEGMENT 2 of 3、第三个记录是 SEGMENT 3 of 3,但这仅

Page 130: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

告诉使用者这是一些没有确定顺序的片段(图 6.1A)。从整个 GenBank角度来看,使用一种被称为 LOCUS 的算法将无序片段正确定位,组合在一起的片段使用相同的起始字母,以不同的数字结尾,例如RNKOR1,RNKOR2,RNKOR3。显然当 LOCUS 名字中包含其它与该序列不相关的干扰时,这种复杂的安排会遇到问题。况且还没有一个序列记录包含了全部的片段,也没有任何方法可以描述片段之间的距离。因为在 EMBI 序列数据库中根本没有分割片段的信息,所以任何从这种形式派生出来的记录都缺乏一些基本的信息。

NCBI 数据模型定义了一种直接代表片段的格式,被成为“片段序列”。其包含的元素不是A,G,C,T,而是由怎样从其它序列构造的方法组成。所以以上面的例子为例,片段序列将包含:RNKOR1-200bp间隔-RNKOR2-未知长度的间隔-RNKOR3。该片段序列和其他记录一样有自己的名称(RNKOR)、序列号、特征、位点和注解。通常我们将这种形式的存储方式称为包含RNKOR1、RNKOR2、RNKOR3、所有中间联系和特征的序列 RNKOR片段集。当GenBank 以核酸-蛋白质组形式发行时,片段集被分成多条记录,片段集就消失了。然而从 Entrez 图的视角看片段集,片段集象一条线将它的组分连接在一起。DDBJ/EMBL/GenBank 最近同意了一种方法用于代表构造结构,它将被放在新的 CON 分割中(图 6.1B)。

不同于 GenBank 格式,NCBI片段序列不要求片段间有间隙,事实上片段可以重叠。这使得片段序列适合用于代表诸如细菌基因的长序列,这恰恰就是Entrez 基因分离细菌基因和其它诸如酵母等全染色体基因中所做的。NCBI 软

Page 131: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

件工具包(Ostell,1996:见本章末尾的内部资源)包含了搜集数据的功能,包括序列和特征,自动将小的个体片段重新映射到全染色体上。这为图象视角 、GenBank 结构视角、FASTA 视角或对离散数据进行全染色体分析提供了可能。这种根据命令在大范围区域内组装片段的能力已经在细菌基因中有所应用。在越来越大的区域进行拼接或者许多不同组拼接时组装命令将越来越重要,而且这种基于大规模单片段基础上处理的思想是完全不现实的。

ASN.1处理方法

NCBI 数据模型经常被提到或和“NCBI ASN.1”或“ASN.1 数据模型”混淆 。Abstract Syntax Notation 1(ASN.1)是国际标准组织(ISO)的标准之一,是为描述结构数据和保障允许各计算机和各种软件之间交换结构和内容可靠翻译数据。说一个数据模型是用 ASN.1写的就象一个计算机程序是用 C 或FORTRAN写的,指明了语言而不是指程序本身。从特殊的以 DNA为中心的视角来看,熟悉的 GenBank 格式实际是的给人读的,而ASN.1是为计算机读的,并且有复杂的数据关系的描述。从这个简单的形式看,我们创造了一系列的人可读的格式如 Entrez,GenBank 和 BLAST 数据库。没有这些一般意义上的格式的存在,Entrez(见第 5 章)中相邻或连接关系的存在是不可能的。这一章是关于 NCBI 数据的结构和内容以及它作为生物药学数据库和工具的作用。关于这个任务和格式的 ASN.1选择参见Ostell,1995。

定义方式

Page 132: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

我们已经对 NCBI 数据模型所定义的序列举了几个例子,可以看出 NCBI 数据类型相比 GenBank更加丰富、描述更加清晰。该模型的重点是它的细节问题,我们在下面将它进行展开。在这里我们简单地介绍一下该模型大致的理论和基本原理。

将数据输入计算机的目的有两个:重现和发现。重现是基本的能够找回它原来的本身。尽管这很重要,但如果能比找回本身得到更多的信息,也就是说能从信息中得到发现,这当然是更有价值的。从识别数据库中完全不相关的两条数据中发现它们之间的关系,或者对数据进行新角度的分析计算,科学家能从中得到发现。强调NCBI 数据模型就是为了促进这种发现,从而定义了能描述信息间的联系和适合计算的数据模型。

对这种模型的第二个考虑是稳定性。NCBI是美国国家机构而不是由个人赞助的因此成员对支持生物信息的努力有长远的考虑。NCBI提供了大规模的能支持科学研究几十年的信息系统。就所有关于生物药学方面的人士所知,在近几十年内可能会有许多概念性和技术上的革命,所以 NCBI必须适应这些新的观点,适应对软件和数据新的要求。所以我们尽量选用基本观察或数据点的主要数据元素不考虑解释的核心和这些元素的命名(这些都很可能会发生变化)。

综合考虑上述原因,NCBI有四个核心元素:文献出处,DNA 序列,蛋白质序列和三维结构。另外两个项目(分类和基因图)更具解释性,但是不管怎样,它们和组织和联系方面一样重要所以 NCBI 在这个领域内建立了一个相当大的基础。

Page 133: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

出版物

出版物是科学研究的核心。科学信息从这里进行检查、评价、传播和永久的记录。出版物可以说是活的连接实际中不同结构或内容域的数据库的桥梁(例如某序列数据库中的一条记录和基因库中的某条记录可能出自同一篇文章)。它们被当作联系实际数据库的无价之宝(“我读了关于这条记录的文章,现在我想看看这个数据”)。

出版物也是功能的基本注释和实际数据库的上下文,也许是最好的注释。原因之一是实际数据库有能有效使用该数据库的结构,但缺乏足够的代表性能继续进行完整的生物的、实验的或某记录的历史上下文。另一方面,发表的文章仅仅受语言的限制,比实际数据库中的记录更包含了更完整和详细的描述信息。根据发表文章的内容,作者被科学同僚评价,而不是根据数据库中的记录。即使由于要追求更好的目的,科学家在继续工作,即使关于它们的知识在增长而数据库保持静态的。很少有繁忙的科学家会有兴趣去学习数据库系统,并能保持个人记录能及时更新。

NCBI有一系列进行中的项目能保证GenBank 记录的高可靠性,提供便利和强大的记录更新工具,以及与科学家日常工作习惯相应的有用数据。不管怎样,与出版物保持可靠的联系能保证及时对数据库记录进行最丰富的注解。

一般来说,实际的数据库并没有对引用的形式和内容进行详细的分析,因此不同数据库之间,引用的质量、格式和内容等有很大的出入。我们认识到和出版物相互联系的重要性,认识到科学知识相对文献的动态性以及 NCBI 的优势(因

Page 134: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

为NCBI是国际健康组织的国际医药图书馆的一部分),我们认为仔细和完整的工作是一项有意义的工作,尽管很多专业人士告诫说这是一项艰巨的任务。以下是一些数据库的说明,可供对 NCBI有兴趣的科学家和使用者参考,完整的说明需要另外一章。

作者

在不同的数据库中作者的姓名是有不同的格式的:只有姓、姓和首字母、姓-逗号-首字母、姓/名,名首字母和全称姓的作者、带有和不带有称谓(如 Ph.D)或尾缀(Jr.,III)。一些文献数据库(如MEDLINE)可能仅用一个固定的数字代表作者。尽管这只是不便于读者阅读,但这对数据库系统产生了严重的问题,就象 Entrez那样,只能提供按作者姓搜索的简单功能。由于这个原因,该说明提供了两种可选择的作者姓名代表格式,一个是简单的字符串形式,另一个是包含姓、名和其它等的结构域。当数据直接被送到 NCBI 或作者姓名有固定格式的其它数据库(如MEDLINE)时使用结构形式。当该形式不能破译是则仍然被看成为字符串形式,但这时复现受到限制,但至少还是能用其他的方法复现出一些数据的。

即使是结构形式的作者姓名也必须支持多样性,这是因为一些文献只给首字母,而另一些只给名和中间名。这时要强调两点:第一点,NCBI 数据格式是为了适合于我们直接阅读以及能和现存数据相一致;第二点,在一个特殊的资源被转化时软件开发者必须了解该格式的意义。一般说来,NCBI尽量使数据形式满足统一格式,但可能也会使其它的性能下降。

Page 135: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

作者的社会关系(如作者的工作地点等)就更加复杂了。至于作者姓名对于支持结构形式和字符串形式也还有一些问题。然而,即使对那些有统一格式作者姓名的文献来源,也不能将社会关系分解成结构形式。而且,也有很多作者是属于相同的机构或一个作者参与了几个机构。NCBI 数据模型支持以上情况。尽管在写本文时,MEDLINE 或 GenBank只支持前一种格式,而两种格式都出现在出版物上。

文章

最常见的生物科学的文献标题是期刊文献,所以对于生物数据库的引用格式缺省为期刊文献。然而,文章也可能出现在书、手稿以及电子期刊上,数据模型应该能引用书、期刊或手稿。文章出处占有一个域,其它域用于存储其它的能唯一确定其在书、期刊或手稿中的有用信息,如文章的作者(对应与书的作者或编辑者)、文章的标题、页码等等。

那些能辨识文章出处的域以及对数据库使用者有用的能识别相同文章的域是完全不同的。NCBI 出处比对服务(见本章末)使用出处域来区分定位文献的出处这个比对过程包含能同时配合相同的期刊名、年份、文章的首页以及文章作者的姓。其他的信息(例如文章标题、页数、全部页数、作者名单)仅用于观看而对输入来源不起作用。作为出处的数据模型要容许最小信息集能作用,和 MEDLINE

比对后,被从MEDLINE 中得到的完整的域所替代,从而满足科学研究精确的需要。

专利权

Page 136: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

随着专利的出现,我们需要将专利而不是文章当作文献条目进行引用。NCBI支持由美国专利局合作的完整的专利引用顺序。实际上,专利说明书倾向于限制科学的作用,理由如下:

专利是合法的文献而不是科学的文献,它的目的是支持专利的声明和存在,而不是完全描述生物的过程。这是为在律师办公室的情况,不是为做研究的科学家所以存在的说明书只是解释专利中的一些方面,而不是文章的核心。只要不是基因的专利,组织信息、生物特征位点等等根本不可能出现。不管怎样大多数出现在专利说明书中的序列也以一些更有用的格式(对科学家)出现在公共数据库中。

从NCBI 的观点,GenBank 列出专利说明中的序列的目的是能复现序列本身(通过相似性比较),用以定位和某序列相关的专利。这种情况下要实现合法的确定,我们必须检查专利的全文。要评价生物序列,人们必须定位专利中没有包含的信息。这里的联系是序列和专利号之间的联系。其它在专利定位中使用的域是诸如专利名称和发明者的姓名等。

引用电子数据

和 GenBank 类似,这是一类相对新的包含了数据提交数据库的方法的方案,这也是一种形式但又和一般期刊不完全相同的出版物。在一般情况下,文章的出版需要经过相当长的时间,而且从来没有数据库的积累会赶在发表之前,因此数据的积累会有一定的间隔。提交的数据由于是一种形式的出版物可能包含了在本记录中工作过的科学家的姓名,这和真正出版物列出的名单可能不一致。大多

Page 137: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

数情况下提交数据给数据库的科学家是提交数据的作者,但也不完全是,特别是大序列中心。最终NCBI提出了也引用修改的记录,在记录的修改栏里做简单的注释,注释记录的变化,所有的提交数据都在记录中保存留下编辑的历史记录。

MEDLINE 和 PubMed UIDs

一旦文章的出处和 MEDLINE 中的匹配,最简单和最可靠的方法去找到该篇文章的方法是MEDLINE唯一辨识器(MUID),这是一个简单的整数。NCBI提供了许多服务去使用 MUID 来恢复出处和从MUID获得摘要、将数据和文章联系起来或者提供WWW 的网上连接。

最近根据和 MEDLINE 以及许多出版者的协定,NCBI提出了 PubMed。和直接由出版者提供类似,PubMed 包含了所有的 MEDLINE,而且 PubMed还包含了最近出版的文章,还包括了一些由于它们的主题原因将永远不能在MEDLINE 中出现的文章。这时,NCBI提出了一种新的文章辨识器叫 PubMed

辨识器(PMID)。出现在 MEDLINE 中的文章将同时有 PMID 和 MUID。只出现在 PubMed 中的文章则只有 PMID。PMID 和 MUID提供了相同的目的是提供一种简单可靠的和出处的连接或一种方法建立网上热连接。NCBI 现在正将所有的服务转向使用 PMID。

NCBI 数据模型存储了大部分的出处,即所谓的出版等价物,是由一系列的出处等价物组成,包括可靠的辨识器(PMID 或 MUID)和出处本身。出处格式的

Page 138: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

存在使得不用从数据库中特别恢复,因为辨识器提供了一个可靠的记录的出处的联系或是说索引。

Seq-IdS:序列标识

NCBI 数据模型定义了一类对象,被称为序列辨识器(SeqId)。需要这类对象是因为NCBI 合成了许多用不同方法命名的数据源并且这些名字具有不同的含义。例如一个简单的情况:PIR,SWISS-PROT 和核甘酸序列数据库都使用有类似格式的序列号,光说“A10234”是不能唯一地从所有这些数据库集合中找到序列记录的。我们必须区别从 SWISS-PORT 和从 PIR 中的 A10234。(DDBJ/EMBL/GenBank 核酸数据库共用一套序列号,所以从 EMBL 中的A12345 和从GenBank 中的 A12345是相同的。)这些形式也可能是不相同的,因此当序列数据库处理仅考虑包含一序列的一条记录时,PDB 记录只有一个简单的结构,该结构有可能包含不只一个序列。所以 PDB 的 SeqId 包含了分子名称和链状 ID去标识一个唯一的序列。下面一部分就叙述通常使用的几种SeqId 的格式以及使用。

LOCUS名称

LOCUS 出现在 GenBank 中的 LOCUS 行以及 DDBJ 记录(EMBLE 的 ID 行)是GenBank 中最初的辨识器。就象基因 LOCUS 名称一样,它兼有唯一辨识器功能记忆以及序列的组织源等功能。由于 LOCUS 行是有固定的格式,LOCUS

的名称限制在少于或等于 10 个数字或大写字母。在 GenBank 中,名字的前三个字母是组织码,剩下的字母是基因码(如:HUMHBB 代表人体 -球蛋白区

Page 139: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

域)。然而,当该区域的功能和原先设想的功能不同时,LOCUS 中的基因码会发生变化。这种不稳定性显然是复现中的一个问题。另一个问题是GenBank 中的序列和组织随时间呈几何指数增长,这使得发明或修改记忆名称是不可能的。基于以上几点使得 LOCUS 名称在 GenBank 中不再作为有用的名称,尽管它将永远存在在数据的首行,这只是为了和以往的数据格式兼容。

序列号

由于使用 LOCUS(或 ID)名称作为对核酸序列唯一辨识器的困难,国际核酸序列数据库合作者们(DDBJ/EMBL/GenBank)引入了序列号。开始时它不具有生物意义是为了保证其相对的稳定性。它是由一个大写字母和五个数字组成。(新的序列号是由两个大写字母和六个数字组成。)首字母是为了分配到不同的数据库以便序列号对于不同的数据库是唯一的。

序列号是对 LOCUS/ID号的改进,但实际使用中,问题和不足是显然的。例如,当序列对于时间是稳定时,许多使用者发现用相同的序列号复现出的序列并不总是相同的。这是因为序列号标明了整个数据库的记录,一旦记录被修改了(或者说从开始部分插入了 1000bp)的时候,序列号不变(只是相同记录的升级版)。如果我们分析起始序列和记录序列 U00001 的第 100 个位置假设是与蛋白质相关的位点,升级后一个完全不同的序列将在第 100 个位置上。

序列号出现在 GenBank 的 ACCESSION 行上。该行的第一个序列号称为基本序列号,它是复现该记录的关键,大部分记录只有这个序列号。第二级序列号是为了给该记录提供历史信息。例如如果U00001 和 U00002是同一个记录的不

Page 140: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

同版本,则U00002将成为一个新记录的基本序列号,U00001是二级序列号。在实际的标准中 U00001 记录将从GenBank 中删除因为旧的记录已经过时,二级序列号将取代旧的成为用户需要复现的记录。这时应该标注二级序列号不是指同一对象,所以用户应仔细检查它们的注释。(数据库的不同,甚至是同一数据库的不同时间)使用二级序列号也有自己的问题,这是因为没有足够的信息去确定怎样发生和为什么会发生。但不管怎样,序列号仍然是DDBJ/EMBL/

GenBank 记录恢复中最可控最稳定的方法。

Gi号

1992年NCBI开始对所有 Entrez 中的序列使用基因信息号(gi),其中包含从DDBJ/EMBL/GenBank 中的核酸序列、根据 CDS 特征翻译的蛋白质序列以及从 SWISS-PROT、PIR、PRE、PDB、专利以及其它得到的蛋白质序列等。Gi是由原数据库提供的另外的 SeqId。尽管由于原数据库的不同 SeqId 的形式和意义不同,但 gi 在意义和形式上对不同源数据库是相同的。

在形式上,它只是简单的整数(所以有时被称为GI号)。它只是一些特定序列的辨识器。假定一个序列加入 GenBank,给定序列号U00001。当该序列在NCBI 所内部处理时,它加入所谓的 ID 数据库。ID 确认以前从未见过U00001,就给它一个 gi号 54。当提交器通过改变出处修改记录时,U00001

又加入 ID。ID认出该记录出现过,恢复原先的 U00001 和新记录进行比较,如果完全相同,则给该记录 gi号 54;如果不相同,即使只有一对碱基不同,则给新 gi号 88。然而因为原数据库的意义,新序列仍保持序列号U00001。这时

Page 141: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

ID标识旧记录(gi54)的替换时间,并将它加入历史指示它被 gi88 的记录替代。ID也加入历史 gi88指出它替代了 gi54。

Gi号有三种主要功能:

1. 提供了从多源数据库序列间的简单标志; 2. 提供了指示特别序列的标志。任何分析 gi54 存储分析的人可以肯定只要 U00001有

gi54,它就是有效的; 3. 它是稳定且可恢复的。NCBI 保持每个 gi号的最新版本。由于历史在记录中存在,任何发现 gi54不再是 GenBank 的一部分的人仍然可以通过 NCBI 的 ID 复现该记录,通过查看历史可以看到它被 gi88替代。检查 gi54 和 gi88 可以确定它们的关系,研究人员可以映射以前的分析到 gi88 或者重新分析数据。由于 gi54 在 ID 中总是存在的,这使得我们可以随时分析时局而不仅限于 GenBank 发行时间。

基于上述原因,从计算 Entrez 序列邻居到确定新序列的处理或 BLAST

数据库的产生所有NCBI 的内部处理序列都是基于 gi号。NID/PIDs

GenBank 中的 NID 和 PID指示了核酸的 gi号和记录的蛋白质序列。补充这个是使希望能在一个平台上计算序列的科学家能利用稳定的 gi号去追踪序列。正象前面提到的,使用 gi号而不是用序列号将保持使用有效,即使记录的序列以后发生变化(例如,5’端)。

在写本文时,又出现了一种新的 SeqId(序列版本,见下文),它是被用于选择的序列辨识器。一旦这种转变完成,可能 NID 和 PID号将不再出现在数据格式中,尽管使用 gi号的分析将继续有效。而且,初始数据将出现在 NCBI准备与 GenBank 数据平行的 ASN.1 文件中。

Page 142: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

序列版本组合辨识器

最近,国际核酸序列数据库联合会(DDBJ,EMBL 和 GenBank)同意引入一种更好的辨识器。这种辨识器是组合了序列(标明特定的序列记录)和版本号(根据序列本身变化)。这种 SeqId被期望成为理想的引用序列的方法。

使用者将仍能够仅仅基于序列号就能复现记录而不需要特殊的版本号。这种情况下,将得到该记录的最新版本,这也是 Entrez 和其它复现程序现在所作的工作。

分析数据库数据的科学家(例如将所有脱水酒精序列用一种特定分类方法中分离)和希望他们的结论保持有效的科学家希望能参考序列号和版本号。某序列的子序列(例如在研究基因的规则的 5’延长端)被调整后,将导致版本号的增加。由于同时引用序列号和版本号,使得复现出同一记录,原始分析将保持有效。

同时引用序列号和版本号将使马虎的使用者认识到在分析作完后序列可能已经发生了变化。而且根据版本号可以轻易的知道一个序列被修改的次数。由于序列版本辨识器的优先权,现已存在的 NIDs 和 PIDs(简单使用 gi号)将被去除。

蛋白质序列的序列号

联合会也同意给蛋白质序列记录分配序列版本号。以前,除了使用 gi号,很难可靠地引用给定编码区翻译后的产品。这限制了 BLAST 结果的使用。例如,这些序列将和提交给蛋白质数据库的蛋白质序列有相同的状态,并且它们有和对应核酸序列优先的连接权。

Page 143: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

一般的 SeqId

一般的 SeqId是指被基因中心和其他组织当作标识序列的一种辩识基因所使用的。其中一些序列可能永远也不会出现在公共数据库中,或者是最终被提交的初级数据。例如,在 Entrez 基因分离的人体染色体的记录包含了除序列组成的多种物理和基因映射关系。物理映射是由不同组织提供的,是用一般的 SeqId标识组织的。

局部的 SeqId

局部的序列辨识器最突出地被使用在数据提交的工具 Sequin 中(见第 14 章)。每个序列仅当完整的被提交公共数据库处理后,才能最终得到一个序列号和一个 gi号。提交过程中,Sequin 分配一个局部辨识器给每个序列。就象许多NCBI提供的软件工具一样要求序列辨识器,局部的 ID允许使用这些工具而不需要先提交到公共数据库。

BIOSEQ:生物序列

Bioseq即生物序列是NCBI 数据模型的中心元素。它包括一个简单的连续的核酸分子或蛋白质分子,它定义了一个线性完整的协调系统。生物序列必须至少有一个序列辨识器(SeqId)。它包含了分子(DNA,RNA 和蛋白质)的物理类型的信息,也有一些注释信息(例如指示特定生物序列的特定区域的生物特征)。它还有描述信息(例如该分子是从某个组织中获得的,这描述了整个生物序列)。

Page 144: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

然而,生物序列不需要分子的完整序列。它可能是一个分开的序列,例如外显子序列,而不是所有内含子序列。或者它可能是只有一点标识的基因或物理映射。

序列是相同的

即使实际序列没有完全确定,所有生物序列有一个整数值的完整协调系统。所以对物理映射或对高分割基因的外显子来说,标识和外显子之间的距离只有从一群胶体中得到。所以当一个完整的序列染色体的协调关系已经精确了解后,那些基因和物理映射是最佳的推测,即和实际关系的错误概率最小。

不管怎样,任何生物信息都能被注释以相同的信息。例如一个基因特征可以被放在 DNA 序列的一个区域内,或者是物理映射的某个位置。该映射和序列可以根据共同的基因特征归为一类。这大大简化了能展示这些表面上不相关的数据的软件的编写任务。

序列是不相同的

尽管相同的协调系统有很多优点,不同的生物序列类所代表的方式不同。最一般的类(见图 6.2)简单介绍如下。

实际生物序列

在实际生物序列中我们知道分子类型,可能是它的长度和拓扑结构(例如线性,环状),但不是实际的序列。它可以代表基因分子(只有外显子序列已经确定)的内含子。长度可能只能从一群胶体的数量得到。

Page 145: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

原始生物序列

这是大多数人想的序列,一串简单连续的碱基和残基是已知的。因此长度是已知的,序列中它应该和碱基或残基的数量配合。

离散的生物序列

离散的生物序列不包含原始生物序列,但其他生物序列的辨识器。这可以被用于代表只有外显子已知的基因序列。离散生物序列中的部分将是代表外显子的原生物序列和代表内含子的实生物序列。

离散生物序列也被用于 NCBI 来代表整个染色体。这就是 Entrez 基因分离的方法(见图 6.3)。这时,所有的部分都可能是原生物序列(许多情况的记录都已经存在于 GenBank 中)。可能在连接部分有重叠。

Delta 生物序列

Delta 生物序列是用于代表从不同的基因序列中心得到的未完高产量基因序列(HTGS)。即使有未知的生物序列子区域存在,使用 Delta 序列而不是离散序列是指对整个序列只需一个序列辨识器。也就是说即使数据库中存在早期的版本Delta 序列保持着相同的序列号(见本章末尾)。

映射生物序列

映射生物序列用于代表遗传和物理的映射关系,和实生物序列类似都包含有分子结构可能是拓扑结构以及真实分子长度粗糙估计的长度信息。这个信息只提供

Page 146: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

协调系统以每个生物序列的属性。对一个遗传映射给定协调系统我们可以根据遗传证据估计基因的位置。和原生物序列的数据是碱基和残基类似,作用基因特征表是映射生物序列的主要数据。

BIOSEQSETS:序列集合

生物序列经常储存在相关序列的上下文中。例如核酸序列和它编码的蛋白质序列自然属于一类。NCBI 数据模型为这个目的提供了序列集合。

序列集合有一系列描述。将生物序列进行压缩时,需要对集合中每个序列进行描述。将出版物和生物原信息结合在一起是比较方便的安排,这些生物原信息是期望对所有序列的但经常在序列集合中出现相同。例如,DNA 和蛋白质序列都是从同一组织中获得的,所以该描述信息应该用于该集合,同样也适用于出版物。

最一般的序列集合如下。

核酸--蛋白质集合

核酸-蛋白质集合包含核酸和一个或多个蛋白质,它是最经常由 SequIn 数据提交产生的集合。序列的组成是通过描述从核酸到蛋白质的翻译过程的编码区(CDS)的特征来联系的。传统的核酸和蛋白质数据库中这些记录可能用交叉参考来指明这种联系。核酸-蛋白质集合将二者放在一起使得这种联系更加清楚。它也允许用于所有序列的描述信息的同时存在(例如组织或出处)。

数量、种类的研究

Page 147: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

序列提交的一个主要的类是以人口或种类研究的形式出现。这些研究包括同种类(数量研究)或不同种类(种类研究)一定数量的个体相同基因的比对。序列比对可能从以下的序列比对中得到。若基因编码了某个蛋白质,则数量或种类的序列集合可能也是一个核酸-蛋白质集合。

其它的生物序列集合

Seg 集合包含了一个离散的生物序列和一个部分生物集合,反过来部分生物集合有包含了被离散生物序列引用的原生物序列(这可能组成了核酸-蛋白质集合的核酸部分)。

Equiv 生物序列集合被用于 Entrez 基因分离,以维持生物序列的多平衡。例如,人体染色体有一个或多个不同种类的遗传、物理映射。不同生物序列之间的比对是基于对一般人员的注释(见第 12 章和图 12.4)。

序列的注释属性

序列注释是对序列注释的一个自包含包裹,或是指向特定序列的特定位置的信息。它可能包含一个特征表,一类序列比对或一类序列的图表。

多序列注释可以放在生物序列或生物序列集合中。每个生物注释可以有特殊的属性。例如 PowerBLAST(Zhang and Madden,1997)创造了包含序列比对的序列注释,每个序列注释是基于使用的 BLAST 程序(例如BLASTN,BLASTX)命名。个体块的比对在 Enrez 和 Sequin 中可以看到。

Page 148: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

由于序列注释的组成有对序列的特定参考,因此序列注释可以单独存在或和其他科学家互换;它不需要存在于具体的序列记录上。(另一方面,描述的范围依靠于包裹的位置。)因此关于生物序列的信息可以创造,交换以及独立于生物序列的比较。这是序列注释和 NCBI 数据模型的一个重要特性。

序列特征

序列特征(Seq-feat)是一块通过一或两个序列位置(Seq-locs)清楚附在生物序列区域的结构数据。序列数据自己本身是可以包含一般的信息。例如,它有能指示一些特征的标志。这些特征包括是否是部分(超过了生物序列末尾)、是否有一个生物的例外(解释为什么基因序列的密码子没有按预期的翻译成氨基酸的编辑RNA)、是否该特征是由实验决定的(例如,信使 RNA隔离于假定的编码区)。

一个特征经常有位置。Seq-loc指示了作用蛋白质序列的位置。编码区经常以ATG开始,以终止子结束。如果分布位点是在一个基因序列上,而且信使 RNA

有连接出现,则位点可以有多于一个中间物。(为防止其它连接产生了分离的编码区特征,对每个离散的分子种类有一个多中介 Seq-loc)

特征可以是有选择的产生作用。对一个编码区 Seq-loc 的产物指向相应的蛋白质序列。这是使数据模型能单独地保持核酸和蛋白质序列的连接,而且有每个序列对分子适当的注释。基因序列中信使 RNA 的特征可能含有反映后翻译 RNA

的信使 RNA 序列。该特征包含有唯一对应该特征的信息。例如CDS 特征有遗传编码区和阅读框架,同时信使 RNA 特征有翻译氨基酸的信息。

Page 149: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

折衷设计完全调整了特征要求的组成。如果一个特殊的特征需要一个特定的域而其它域不会受到影响。一种新的特征类型即使一个复杂的特征类型可以被加入,其它特征不受影响。用于显示特征在序列上位置的软件只需要考虑对通用特征的位置。

尽管DDBJ/EMBL/GenBank 特征表允许很多特征(见第 2 章),NCBI 数据模型对待一些特殊特征和其他特征相同。特别一些特征直接对分子生物学的中心原理建模,可以被用于连接记录和用计算机揭示新信息。这些特征将在下面进行讨论。

基因

一个基因有自己的特征。过去它仅仅是其他特征的修饰。基因的特征指明了含有可测表示的基因的位置即核酸序列可遗传区域。这中表示可能能从许多基因的组成(包括编码区,推动子,增强子和终止子等)里获得。基因的特征是指大约能覆盖被大家所认为是基因的核酸区。当然这种模糊的概念有简单性,它对高层次基因视角(如遗传映射)适合的相当好。在大规模的基因测序中,当生物学家只想知道“xyz”基因而不是整个染色体时,模糊概念很有实际用途。基因特征对基因数据库(能得到基因更详细的信息)可能也有交叉参考作用。RNA

RNA 特征可以描述编码中介(如信使 RNA)和结构 RNA(如tRNA,rRNA)。信使 RNA 的位置和响应编码区(CDS)完全确定了 5’和 3’未翻译区,外显子和内含子。

Page 150: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

编码区(CDS)

NCBI 数据模型的编码区(CDS)特征可以被想成通过遗传编码从核酸到蛋白质翻译的命令。(见图 6.4)编码区象是连接两种序列的联系。

几种情况可能对经典的基因对蛋白质的共线性产生例外。例如翻译故障(核糖体的错位)会导致特征位置 Seq-loc 的重叠。

除非清楚给定了编码区特征,否则编码区被认为是普遍的。在序列中当遗传编码没有特定位置跟随时,如第一位置上是变起始子,制止子 tRNA饶过终止子,或加入 selenocysteine时,编码区特征容许这些非正常情况被指出。

蛋白质

蛋白质特征以蛋白质或蛋白质分解产物命名。一个简单的蛋白质序列可能有许多蛋白质特征。可能有一种特征描述原肽,翻译的最初产物。(这个特征的名字是用于产生蛋白质的 CDS 区域的描述。)可能有一个短一些的蛋白质特征用于描述成熟的肽,或者为防止病毒性的多蛋白质,采用几个成熟肽特征。通过膜组成蛋白质的含有信号的肽可能被指出。

其他

几种其他的特征不常用。区域特征提供了一种简单的方法命名染色体区域(例如“主要组织互容局面”)或多肽的域。特征纽带指示了蛋白质两个残基(如二硫

Page 151: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

键)之间的联系。位置特征指示了一个已知位置(如活跃的,一起的glycosylation,methylation)。

最后,许多特征存在于合法特征表中,包含了生物学的许多方面。然而在用于记录之间的联系和用于计算得到发现等方面,它们比以上介绍的特征的用处少。

序列比对

序列比对是映射一个生物序列的坐标多一个或几个其他的生物序列。例如,从两个组织得到的相同基因可能从同一祖先分化成不同的组织,个人特殊的基(或三联体码)可能会加入或从序列中丧失。比对中在适当的位置引入缝隙能重现原始的相同系统。

可以用软件算法进行比对(例如BLAST运用了包含一个或多个序列比对的序列注释)或者由科学家(提供序列人群的研究的人)人工进行。序列比对目的是期望能抓住过程的结果而不是过程本身。

所有形式的序列比对是由多个部分组成。每部分是仅包含序列或者是比对中对任意序列适用的缝隙的比对区域(不是序列和缝隙的混合区域)。以下的三维比对(三序列间的多重比对)作用于五个部分。

序列不是离散的

注意到刚显示的三个生物序列的实际序列不包含冲突。基因码的一个基本属性是它是共maless(Crick et al,1961)也就是说没有中间能区分密码子或在正

Page 152: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

常框架内翻译。基因是一列连续的核酸。我们提醒读者序列也是无间隙的。间隙只是比对报告中显示出的,由比对数据产生的;它们只供比较使用。

对角线集合

序列比对类型中,对角每部分是独立于下一个部分的,而且没有联系一部分和其他部分的有说服力的说明。这是由点阵显示的一种关系(见第 7 章和图7.4)。方阵中的一系列对角线说明了序列间未分离区域的同源性。然而,对角线可能重叠数次(例如序列的重复区域)或者是矩阵的区域可能根本没有对角线。

比对类

一个部分的局部的比对定义了序列间的联系,因为实际只有长度被包含在比对中。然而,这并不意味着一部分和下一个之间存在着有序的联系。这种比对对一般的蛋白质搜索是有用的,因为蛋白质的几个有不同功能的区域可能只存在于一条多肽上。

序列图表

图表是能进行序列注释的第三种注释。序列图表定义了一些连续的值超过一个限定间隔的集合。它可被用于显示象G+C 含量、表层蛋白、亲疏水性或覆盖序列长度的基精确性等属性。

序列的描述

Page 153: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

序列的描述是指形容一个生物序列(或生物序列集)并将它放在生物或文献背景下。序列描述应用于整个生物序列或对生物序列集合内的每个序列描述相关的序列。

描述器被引入 NCBI 数据模型以减少记录的冗余信息。例如核酸序列的 蛋白质产品应从象核酸自己的相同生物源(器官,组织)得到。许多情况下描述 DNA

序列的出版物也讨论了翻译后的蛋白质。在核酸-蛋白质集合这一层次,将这些条目用描述子替代,每条目只需一份拷贝就能恰当地描述所有的序列。

生物源

生物源包含了源生物(学名和俗称)的信息,在 NCBI 中它的系统包含了分类和它的核酸和(如果恰当的话)线粒体的基因码。它也包含了细胞中(例如核酸基因或线粒体)序列位置的信息和其它的调整(例如变性、克隆、分离、染色体映射位点)。

一个基因的序列记录和它的蛋白质产品在核酸-蛋白质集合层将典型的含有一个简单的生物源描述器。然而种群或后基因组研究将对每个组分有生物源描述器。(这个组分可能是核酸生物序列或它们自己本身是核酸-蛋白质集合。)种群研究中的生物源将有相同的组织名称,而且通常含有各不相同的调整信息,例如拉伸或克隆名称。

分子信息

Page 154: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

分子信息描述器指出了分子类型[例如,基因,信使 RNA(通常和 cDNA 区别),rRNA,tRNA 或肽链],排序的技术(例如标准,EST,部分肽链序列的概念翻译方法)和序列补全(例如补全,缺左(5’或氨基)端,或两端都缺)。每个核酸和每个蛋白质都应有自己的分子信息描述器。正常情况下,这个描述器将不会出现在核酸-蛋白质集合层。(它可能在序列集合,由于所有部分的离散生物序列应该是同一类型。)

模型的使用

为建数据库和产生报告使用 NCBI 数据模型会有一些后果。其中一些在后续部分讨论。

GenBank 格式

GenBank 格式是以 DNA为中心的角度看序列记录。(GenPept 视角代表等价的以蛋白质为中心的视角。)为了维持对这些历史角度的适应性,一些映射将在不同序列的特征或在相同序列的重叠特征间。

GenBank 格式中,编码区特征的蛋白质产品被当作翻译限定器,而不是当作可以有自己特征的序列。生物序列的产品中最大的蛋白质特征被用于产品限定器一些其它的在 NCBI 数据模型的蛋白质生物序列中注释的特征,例如成熟的肽链或信号肽链被映射到 GenBank 格式中相应的 DNA 系统(通过 CDS 中介)。

Page 155: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

基因特征用序列给区域命名,特别是覆盖了所有已知的能影响基因显性的情况。这区域的其它特征将从基因特征中产生基因限定器。这样就没有必要对其它特征单独注释基因限定器。

FASTA 格式

FASTA 格式包含了一个界限行和序列特征,可能被用于不同分析程序的输入(见第 2 章)。界限行从一个右>符号开始,通常后面跟有以可分析形式出现的序列辨识器。例如:

界限行的剩余部分是序列的题目,它可以由软件根据特征和其它核酸-蛋白质集合的信息产生。

对离散的生物序列,每个原始生物序列部分都能独立地描述,之间有少许分割。(一般的 BLAST 搜索服务使用这种方法产生搜索数据库,使得成功的结果能映射到个人 GenBank 记录中。)但离散的生物序列也可以被看成一个简单的序列这是原始组成将被看成是一连续的。(折衷格式是用于产生 Entrez 的 BLAST

邻居。见第 5 章。)BLAST

基本局部比对搜索工具(BLAST,Altschul et al.,1990)是一种普遍的查明序列相似形的方法。BLAST 程序使用一种由用户提供的查询序列,从整个 NCBI

序列数据库中搜索。每个搜索结果是序列比对,这些是和序列注释结合。(详细的操作 BLAST 搜索可以在第 7 章中找到。)

Page 156: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

数据注释的结果可以被用于产生传统的 BLAST报告,但在从诸如 Entrez 和Sequin等软件工具的视角看它更加有用。这些程序的视角是用于显示比对信息例如图表视角只显示了对搜索序列的插入和删除的关系,当视角抓住了个人序列,显示比对区域中碱基和残基的不匹配情况。序列视角在个人碱基或残基层显示了比对的详细内容。这种能从概述到详细资料的放大功能使它更容易地从一个简单的报告中看到序列间的联系。

最后,序列注释或任何一种序列比对可以被该成其它提炼工具(例如联合或插入比对程序)。结果可以被返回显示程序。Entrez

Entrez 序列复现程序(Schuler et al.,1996,见第 5 章)被设计成使用用NCBI 数据程序捕获的联系。例如,序列记录的出版可能包含 MEDLINE UID 或PubMed UID。Entrez 可以复现的是通向 PubMed 文章的连接。编码区域特征的序列位置指向 Entrez 复现的蛋白质结果。数据模型间的联系允许在按按钮的同时复现有联系的记录。Entrez 中基因分离更加利用了数据模型,能显示大规模基因的特定区域,就象当人激活 ProtTable钮。Sequin

Sequin是提供原始数据和其它生物信息和为提供DDBJ/EMBL/GenBank 数据库(见第 14 章)合成记录(通常是生物序列集合)的一种工具。它完全使用了NCBI 数据库模型,利用冗余信息使条目合理。例如,由于使用者提供了核酸和蛋白质序列,Sequin 可能确定编码区的位置(一个或多个中间的核酸,通过

Page 157: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

基因码产生了蛋白质产品)。比较编码区的翻译和提供的蛋白质,报告不协调。它能确定每个生物序列有生物源信息应用。这个要求可由替代一个简单的生物源描述器核酸和他的蛋白质产物得到满足。

Swquin 的视角是活跃的,由于在已存条目双击(在 GenBank平台段落或序列上图表显示特征)将推进该条目的编辑(例如特征,描述器或序列数据)。

结论

NCBI 数据模型是一种自然的映射,它反映了生物学家对序列关系以及他们注解这些序列。这些结果数据可以被存贮,传递给其他分析程序,调整,然后显示所有都不需要通过多种格式的转换。这种模型的定义强调基本的能在实验室中测得的数据元素,例如离散分子的序列。就象定义了理解新的生物概念,数据的指出可以不需要改变已有数据的情况下得到扩展。软件工具相对稳定,只有在利用新数据域的时候需要程序的增加。分离特定域(例如出处,序列,结构,映射)减少了数据模型的复杂性。

上一页 下一页 返回目录 返回茶庄 

第七章:序列比对和数据库搜索Gregory D.Schuler

National Center for Biotechnology Information

National Library of Medicine. National Institutes of Health

Bethesda. Maryland

Page 158: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

引言在生物学的研究中,有一个常用的方法,就是通过比较分析获取有用的信息和知识。达尔文正是研究比较了 galapagos finches同其它一些物种的形态学特征,从而提出了自然选择学说。今天,我们对基因和蛋白质序列进行比较,从本质上来讲是同达尔文一样,进行同样的分析,只不过更加精细,更加详尽。在这个意义上,我们从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。最常用的比较方法是序列比对,它为两个或更多个序列的残基之间的相互关系提供了一个非常明确的图谱。在这一章我们只讨论一下双重比对,即只比较两个序列,至于较多的序列即多序列比对,将在第八章介绍。

七十年代以来,DNA 测序方法的飞速发展,极大地引发了序列信息量的扩增,从而使可供比较的序列数量呈现爆炸式增长。分子生物学家应该意识到,将未知序列同整个数据库中的已知序列进行比较分析已经成为他们手中一个强有力的研究手段。在过去的三十年里,即使不提及计算机的应用,序列比较的各种算法也已经发展得越来越迅速,也越来越成熟,已经能够跟上序列数据库增长的步伐。今天,我们已经拥有一些小的模式物种的基因组的全序列,还拥有人类基因序列的一些较大的样品,我们已经进入比较基因组时代,也就是说,对两个物种进行全基因组序列比较已经不再是一个梦想。

序列比对的进化基础

Page 159: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

进行序列比对的目的之一是让人们能够判断两个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。值得注意的是,相似性和同源性虽然在某种程度上具有一致性,但它们是完全不同的两个概念。相似性是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量,而同源性是指从一些数据中推断出的两个基因在进化上曾具有共同祖先的结论,它是质的判断。基因之间要么同源,要么不同源,绝不象相似性那样具有多或少的数量关系。如图 7.1 所示,比较家鼠和小龙虾的同源的胰蛋白酶序列,发现它们具有41%的相似性。

由于受到研究进化关系这一目的的影响,大多数比对方法很自然地都希望能够在某种程度上建立起分子进化的模型。我们通常都假定同源序列是从某一共同祖先不断变化而来,但事实上,我们无法得知这个祖先序列到底是什么样子,除非能够从化石中获得它的 DNA,我们所能够做到的只是从现存物种中,探求真相。从祖先序列以来所发生的变化包括取代、插入以及缺失。在理想情况下,同源基因或蛋白质序列在相互比较时,残基之间相互对应,从而使取代的情况很明显地表现出来。在某些位置,一个序列中拥有某些残基而另一个序Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins

Edited by A.D.Baxevanis and B.F.F.Ouellette

ISBN 0-471-19196-5.pages 145-171. Copyright© 1998 Wiley-Liss. Inc.

  

Page 160: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

列中缺少这种残基,表明这些残基是插入到前者或是从后者中丢失的。这些空位在序列比对时用连续的短线填补。如图 7.1,在序列比对中,发现了 5 个空位。

|------ S-S-------*|

Mouse IVGGYNCEENSVPYQVSLNS-----GYHFCGGSLINEQWVVSAGHCYK-------SRIQV

Crayfish IVGGTDAVLGEFPYQLSFQETFLGFSFHFCGASIYNENYAITAGHCVYGDDYENPSGLQI

*

Mouse RLGEHNIEVLEGNEQFINAAKIIRHPQYDRKTLNNDIMLIKLSSRAVINARVSTISLPTA

Crayfish VAGELDMSVNEGSEQTITVSKIILHENFDYDLLDNDISLLKLSGSLTFNNNVAPIALPAQ

|---- S-S--------|

Mouse PPATGTKCLISGWGNTASSGADYPDELQCLDAPVLSQAKCEASYPG-KITSNMFCVGFLE

Crayfish GHTATGNVIVTGWG-TTSEGGNTPDVLQKVTVPLVSDAECRDDYGADEIFDSMICAGVPE

◇ *|-------------S-S------------------|

Mouse GGKDSCQGDSGGPVVCNG----QLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAAN

Crayfish GGKDSCQGDSGGPLAASDTGSTYLAGIVSWGYGCARPGYPGVYTEVSYHVDWIKANAV--

Page 161: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

图 7.1、保守位点通常在功能上极为重要。对老鼠的胰蛋白酶(Swiss-Prot

P07146)和小龙虾的胰蛋白酶(Swiss-Prot P00765)作比对,相同的残基用下标线标出,在比对上方标出的是三个二硫键(-S-S),这些二硫键中的半胱氨酸残基极为保守,打星号的残基的侧链参与电荷传递系统,打菱形符号的活性位点的残基负责底物的特异性。

在残基-残基比对中,很明显,某些位置的氨基酸残基相对于其它位置的残基具有较高的保守性,这个信息揭示了某些残基对于一个蛋白质的结构和功能是极为重要的。如图 7.1 所示,处于活性位点的残基都是极为保守的,比如形成二硫键的半胱氨酸,参与电子传递的氨基酸残基以及决定底物特异性的氨基酸残基。这些保守的残基对于保持蛋白的结构与功能非常重要,另一方面,由于历史原因,某些保守位置对蛋白功能并无太大的重要性。当我们处理非常相近的物种时必须十分小心,因为相似性在某些情况下更多地是历史的反映而不是功能的反映,比如,mouse 和 rat 的某些序列具有高度的相似性,可能仅仅是因为没有足够的时间进行分化而已。尽管如此,系列比对仍然是从已知获得未知的一个十分有用的方法,比如通过比较一个新的蛋白同其它已经经过深入研究的蛋白,可以推断这个未知蛋白的结构与功能的某些性质。必须指出的是,不能够仅仅是通过比较分析这一判据来断定结论是否正确,结论还必须经过实验验证。

当我们发现两个基因或蛋白质具有惊人的相似性时,我们会认为他们之间具有一段共同的进化历程,从而我们判断他们会具有相似的生物学功能,但是,这个推断在成为结论之前必须经过实验的验证。例如,ζ-晶状物是脊椎动物眼睛里晶状体基质的组成部分,根据序列相似性的基础,它在 E.coli 中的同源物是代

Page 162: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

谢酶苯醌氧化还原酶(如图 7.2),不管二者的共同祖先如何,它们的功能在进化中已经改变了(Gonzalez et al.,1994)。这就好象火车变成了铁路餐车,虽然对二者的外部结构的观察揭示了它们结构的历史,但是仅仅根据这一信息往往会得出有关其功能的错误结论。当一个基因适应了一个新的功能时,保守位置通常也会发生一些形式上的变化,比如,当蛋白具有催化功能时,活性为点的残基相当保守,而当蛋白功能改变时,这些残基将会发生漂移。Human-ZCr MATGQKLMRAVRVFEFGGPEVLKLRSDIAVPIPKDHQVLIKVHACGVNPVETYIRSGTYS

Ecoli-QOR ------MATRIEFHKHGGPEVLQA-VEFTPADPAENEIQVENKAIGINFIDTYIRSGLYP

. . ******. . . * …. . . * *.* ..****** *

Human-ZCr RKPLLPYTPGSDVAGVIEAVGDNASAFKKGDRVFTSSTISGGYAEYALAADHTVYKLPEK

Ecoli-QOR -PPSLPSGLGTEAAGIVSKVGSGVKHIKAGDRVVYAQSALGAYSSVHNIIADKAAILPAA

* ** *.. **.. ** . * **** . . * *. **

Human-ZCr LDFKQGAAIGIPYFTAYRALIHSACVKAGESVLVHGASGGVGLAACQIARAYGLKILGTA

Ecoli-QOR ISFEQAAASFLKGLTVYYLLRKTYEIKPDEQFLFHAAAGGVGLIACQWAKALGAKLIGTV

. * * ** . * * * .. .* * * * *.***** *** *.* * *..**

Human-ZCr GTEEGQKIVLQNGAHEVFNHREVNYIDKIKKYVGEKGIDIIIEMLANVNLSKDLSLLSHG

Page 163: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Ecoli-QOR GTAQKAQSALKAGAWQVINYREEDLVERLKEITGGKKVRVVYDSVGRDTWERSLDCLQRR

** . . *. ** .* * ** …. * * * . .. . . . . * * .

Human-ZCr GRVIVVG-SRGTIEINPROTMAKES----SIIGVTLFSSTKEEFQQYAAALQAGMEIGWL

Ecoli-QOR GLMVSFGNSSGAVTGVNLGILNQKGSLYVTRPSLQGYITTREELTEASNELFSLIASGVI

* .. * * *.. . . . . . .*.** . . * . . * .

Human-ZCr KPVIGSQ--YPLEKVAEAHENIIHGSGATGKMILLL

Ecoli-QOR KVDVAEQQKYPLKDAQRAHE-ILESRATQGSSLLIP

* . * *** *** *. . * .*.

图 7.2、最佳全局比对:对人类 ζ-晶状物(Swiss-Prot Q08257)和 E.coli苯醌氧化还原酶(Swiss-Prot P28304)的氨基酸序列进行比对。这是一个由CLUSTAL W 程序(Higgins et al., 1996)得到的最佳全局比对结果。在比对下方,星号表示残基相同,打点表示这个残基是保守的。

早期的序列比对方法只应用于那些在全长范围内具有简单相似性的一些序列。全序列比对就是对序列进行全程扫描,进行比较。以上讨论的胰蛋白酶和 ζ-晶状物之间的比较就属于全序列比对。具有简单的球形结构域的蛋白一般可以使用全序列比对的策略,以为所有的同源序列尚未经过实质上的变化

蛋白质的模块性质

Page 164: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

许多蛋白质在全程范围内并不具有相似性,但却似乎是由众多的模块结构域搭建而成。图 7.3 描述了这样的一个例子,如图所示的是在血凝过程中的两种蛋白的组成结构,它们是凝血因子 XII(F12)和组织型血纤蛋白溶酶原活化因子(PLAT),除了具有丝氨酸蛋白酶活性的催化结构域,这两种蛋白还具有不同数量的其它结构域单元,包括两种纤连蛋白重复,一个类似于上皮生长因子的结构域以及一个成为“kringle”域的单元。这些组分可以以不同顺序反复出现,组分形式的不同通常是由于整个外显子交换引起的。由于全程比对建立时,基因的外显子/内含子结构还没有被发现,因此全程比对并没有顾及到上述现象的重要性,这是可以理解的。在大多数情况下,使用局部比对是较为合理的,这种比对方法可能会揭示一些匹配的序列段,而本来这些序列段是被一些完全不相关联的残基所淹没的,因此,操作者应该明白,如果不恰当地使用了全程比对,很可能会掩埋一些局部的相似性。设计局部比对的另外一个很明显的原因就是在比较一个拼接后的 mRNA 和它的基因序列时,每个外显子都应该进行局部比对。  图 7.3、血凝过程中的两中蛋白的模块结构:人类组织血纤蛋白溶酶原活化因子以及凝血因子 XII 的模块结构的示意图。标记为Catalytic 的模块在若干种凝血蛋白中是常见的,F1 和 F2是较为常见的重复模块,首先在纤连蛋白中被发现 。E 模块同表皮生长因子极为类似。通常称为”Kringle domain”的模块被标记为K。 

Page 165: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

点阵描述方法之所以广泛流行,其部分原因就在于它能够揭示出拥有多个局部相似性的复杂关系,图 7.4就是应用这种处理后的一个例子。图中 F12 和 PLAT

蛋白质序列使用 DOTTER 程序进行比较(软件可见本章结尾列表),其基本思路就是把两个序列分别作为一个二维坐标系中的两个坐标轴,在这个坐标系区域内,如果某一点所对应的横轴坐标和纵轴坐标所对应的两条序列的残基相同,则在这个位置上打上标记点,每个点通常都表示在一些小窗口中,序列相似性高于其它一些隔绝的区域(或者由DOTTER 程序定义的隔绝区域,由不同的灰色阴影标记)。如果两个序列在一段区域内很相似,标记点将会连成一条斜线段,将这些线段的位置同图 7.3 中两个蛋白的已知的组成结构相比较是很有价值的,特别是要注意连续反复出现的结构域的出现方式。从 PLAT 的 kringle

结构域开始水平扫描,可以发现两条线段对应于 F12 序列中的两个 kringle 结构域,虽然现在我们已经拥有许多更复杂更精确的方法来寻求局部相似性(下面将会讨论),点阵描述方法仍然是一个很流行很有效的描述方法。 图 7.4、点阵序列比较:对人类凝血因子 XII(F12:Swiss-Prot P00748)和组织血纤蛋白溶酶原活化因子(PLAT:Swiss-Prot P00750)的氨基酸序列进行打点比较。这个图由DOTTER 程序(Sonnhammer and

durban,1996)产生。 在点阵描述方法中,某些形式的点可能会勾勒出一定的路径,但这需要操作者通过这些信息进行推理,另外一个图形描述方法即路径图提供了更直接明了的

Page 166: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

比较结果,图 7.5 描述了PLAT和PLAU中与EGF相似的结构域之间进行比较时的比对、点阵和路径图三种方法的关系。

cPLAU 90 EPKKVKDHCSKHSPCQKGGTCVNMP—SGPH-CLCPQHLTGNHCQKEK---CFE 137

PLAT 23 ELHQVPSNCD----CLNGGTCVSNKYFSNIHWCNCPKKFGGQHCEIDKSKTCYE 72

图 7.5、点阵、路径图和比对:所有这三种视图都表示人类尿激酶血纤蛋白溶酶原活化因子(PLAU:Swiss-Prot P00749)和组织血纤蛋白溶酶原活化因子(PLAT:Swiss-Prot P00750)中同 EGF 相似的模块的比对结果。a) .整个蛋白都由DOTTER 程序进行比较:这里只显示了同 EGF 模块相似的较小区域的放大图;b)由BLASTP得到的比对的路径图;.c).用普通的字符形式显示的BLASTP 空位比对。

要理解路径图,先想象一个二维格子,顶点表示序列残基之间的点(与点阵中表示残基本身相反),沿线段上连接两个顶点的边缘对应两个序列上匹配的残基,水平和竖直线段的边缘对应一个序列拥有而另一个序列上没有的残基,换句话说,这些边缘平台组成了比对中的空位,全图对应了所有可能的比对中必须审视的搜索空间,这个空间中每条可能的路径都对应于一种比对。 最佳比对方法

Page 167: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

除了某些很不重要的问题,对于众多问题而言,比对方法多种多样,很有必要从中挑选出最好的一个或几个方法,这就是把一种比对描述成一个路径的概念所指。许多计算机科学的问题都可以简化为通过图表寻求最优路径(比如寻找从纽约打电话到旧金山的最有效的途径)。为了这一目的已经确立了许多行之有效的算法,对每一种路径都有必要对其进行某种意义上的打分,通常是对沿这一途径的每一步的增量进行加和。更精密的打分程序将在下文叙述,在这里我们只假定相同残基加正分,有插入或缺失的残基就加负分(扣分),根据这一定义,最合适的比对方法会得到最高分,也就是我们寻找的最佳路径。

今天我们所熟悉的 Needleman-Wunsch 算法就是针对寻求最佳序列比对这一问题所设计的动态规划寻优策略(Needleman and Wunsch,1970)。动态规划的思想是这样的,如果一条路径终止于最佳路径上的一点,那么这条路径本身就是起点到这个中间点的最佳路径,也就是说,任何一个终止于最佳路径上的一点的次级路径必然就是终止于这一点的最佳路径本身。这样,最佳路径就可以通过把各个最佳的次级路径连接而成。在基本的 Needleman-Wunsch

公式表达中,最佳比对必然对每个序列都由始至终,就是说从搜索空间的左上角直至右下角。换句话说,它搜索全程比对。

然而,对这种基本策略稍作修改就可以实现最佳的局部比对。这种比对的路径不需要到达搜索图的尽头,只需要在内部开始和终结。如果某种比对的打分值不会因为增加或减少比对队的数量而增加时,这种比对就是最佳的。这个过程依赖于打分系统的性质,就是说某种路径的打分会在不匹配的序列段位置减少(以下叙述的打分系统合乎这个标准)。当分值降为零时,路径的延展将会终止,一个

Page 168: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

新的路径就会应运而生。这样,我们会得到许多独立的路径,它们以不匹配的序列段为界限而不是像在全程比对中以序列的结尾作为界限。在这些路径中,拥有最高分的一个就是最佳的局部比对。

应该意识到,寻优方法总是把最佳的比对方法表达出来,而不在意它是否具有生物学意义,另一方面,寻求局部比对时可能会发现若干个重要的比对,因此,不能仅仅注意最佳的一个。改良的 Smith-Waterman(Altschul and

Erickson,1986;Waterman and Eggert,1987)算法把寻找 K 种最好的但不相互交叉的比对方式最为目标,这些思想后来都在 SIM 算法(Huang et

al.,1990)的发展中得以体现。一个名叫 LALIGN(在 FASTA 程序包中)的程序提供了有用的 SIM工具(Pearson,1996)。对于比对多模块的蛋白质而言,寻找次优比对尤为重要。正如图 7.6 所示,LALIGN 程序被用来获得三个最好的局部比对(比对人类凝血因子 IX 和因子 XII)。一个标准的 Smith-waterman 算法只会报告出最好的一个比对,改良的算法会报告出第二和第三的比对方式,从而显示出功能结构域。Comparison of:

A. f9-human.aa >f9 gi|119772|sp|P00740|FA9_HUMAN COAGULATION FA -461 aa

B. f12-hum.aa>f12 gi|119763|sp|P00748|FA12_HUMAN COAGULATION -615 aa

using protein matrix

① 35.4% identity in 254 aa overlap; score: 358

220 230 240 250 260 270

Page 169: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

F9 QSFNDFTRVVGGEDAKPGQFPWQVVLNGKVDAFCGGSIVNEKWIVTAAHCVE---TGVKI

.:....:::::: : .:. :. ..: ..::.::... :..:::::.. . ..

F12 KSLSSMTRVVGGLVALRGAHPYIAALY-WGHSFCAGSLIAPCWVLTAAHCLQDRPAPEDL

370 380 390 400 410 420

280 290 300 310 320 330

F9 TVVAGEHNIEETEHTEQKRNVIRIIPHHNYNAAINKYNHDIALLELDEPL-----VLNSY

::: :... ... .. :. .: . :...... .:.::.::: :.: .:..:

F12 TVVLGQERRNHSCEPCQTLAVRSYRLHEAFSPV--SYQHDLALLRLQEDADGSCALLSPY

430 440 450 460 470 480

340 350 360 370 380

F9 VTPICIADKEYTNIFLKFGSGYVSGWGRVFHKGRS-ALVLQYLRVPLVDRATCLRSTKF-

: :.:... . .. :.:::. :. . . : :: .::... . : ..

F12 VQPVCLPSGAARPSETTLCQ—VAGWGHQFEGAEEYASFLQEAQVPFLSLERCSAPDVHG

490 500 510 520 530

390 400 410 420 430 440

F9 -TIYNNMFCAGFHEGGRDSCQGDSGGPHVTEVEGTS---FLTGIISWGEECAMKGKYGIY

.: .:.:::: ::: :.:::::::: : : .... : ::::::..:. ..: :.:

Page 170: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

F12 SSILPGMLCAGFLEGGTDACQGDSGGPLVCEDQAAERRLTLQGIISWGSGCGDRNKPGVY

540 550 560 570 580 590

450

F9 TVVSRYVNWIKEKT

:.:. :..::.:.:

F12 TDVAYYLAWIREHT

600 610

------------------------------------

② 34.7% identity in 49 aa overlap; score: 120

100 110 120 130 140

F9 VDGDQCESNPCLNGGSCKDDINSYECWCPFGFEGKNCELDVTCNIKNGR

.....: .::::.::.: . . : :: :..: :..:.. . .::

F12 LASQACRTNPCLHGGRCLEVEGHRLCHCPVGYTGPFCDVDTKASCYDGR

180 190 200 210 220

-------------------------------------

③ 33.3% identity in 36 aa overlap; score: 87

100 110 120

F9 DQCESN-PCLNGGSCKDDINSYECWCPFGFECKNCE

:.:... :: .::.: . .. .: :: ..:..:.

F12 DHCSKHSPCQKGGTCVNMPSGPHCLCPQHLTGNHCQ

100 110 120 130

Page 171: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

--------------------------------------

图 7.6、最佳和次佳的局部比对:在使用 LALIGN 对人类凝血因子IX(F9;Swiss-Prot 900740)和凝血因子 XII(F12;Swiss-Prot P00748)进行比对时发现了三个最佳的比对结果。

取代分和空位处罚刚才描述的打分系统仅仅使用于简单的匹配/不匹配的情况,但是在比较蛋白质时,我们可以用取代矩阵来增强弱势比对的敏感性。很显然,在相关蛋白质之间某些氨基酸可以很容易地相互取代而不用改变它们的生理生化性质,这些保守取代的例子包括异亮氨酸(isoleucine)和颉氨酸(valin)(体积小,疏水),丝氨酸(serine)和苏氨酸(threonin)(极性)。在计算比对分之时,相同的氨基酸打分会高于取代的氨基酸,而保守的取代打分高于非保守变化,换句话说,设计了一系列的分值,而且,在比对非常相近的序列(mouse 和 rat 的同源基因)以及差异极大的序列(mouse 和 yeast 的基因)时会设计出不同系统的分值,考虑到这些因素,使用取代矩阵会极为有利,在这个矩阵中,任何氨基酸配对的分值会一目了然。

第一个广泛使用的最优矩阵建立在进化的点突变模型上(PAM)(Dayhoff

et al.,1978)。一个 PAM就是一个进化的变异单位即 1%的氨基酸改变,这并不意味着经过 100次 PAM后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次改变,甚至可能变回到原先的氨基酸,因此另外一些氨基酸可能不发生改变。如果这些变化是随机的,那么每一种可能的取代频率仅仅取决于不

Page 172: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

同氨基酸的出现的频率(称为背景频率)。然而,在相关蛋白中,已经发现的取代频率(称为目标频率)大大地倾向于那些不影响蛋白质功能的取代,换句话说,这些点突变已经被进化所接受。Dayhoff同合作者们第一次使用了 log-

odd 处理,在这种处理中,矩阵中的取代分值同目标频率于背景频率的比值的自然对数成比例。为了评估目标频率,人们用非常相近的序列(比对时不需要取代矩阵)来收集对应于一个 PAM 的突变频率,然后将数据外推至 250 个PAM,PAM250矩阵结果如图 7.7。虽然Dayhoff等人只发表了 PAM250,但潜在的突变数据可以外推至其它 PAM值,产生一组矩阵,在比较差异极大的序列时,通常在较高的 PAM值处得到最佳结果,比如在 PAM200 到 250 之间,较低值的 PAM矩阵一般使用于高度相似的序列(Altschul,1991)。 图 7.7、PAM250 分值矩阵。 用同样方式建立了 BLOSUM 取代矩阵,但在评估目标频率时,应用了不同的策略,基本数据来源于 BLOCKS 数据库,其中包括了局部多重比对(包含较远的相关序列,同在 PAM 中使用较近的相关序列相反)。虽然在这种情况下,没有进化模型,但它的优点在于可以通过直接观察获得数据而不是通过外推获得。同 PAM 模型一样,也有许多编号的 BLOSUM矩阵,这里的编号指的是序列可能相同的最高水平,并且同模型保持独立性。举例来说,如图 7.8 所示的BLOSUM 的矩阵,至少有 62%的相同比例的序列被组合成一个序列,因此取代频率更加受到那些比空位变化还大的序列的极大影响,取代矩阵在处理高度

Page 173: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

相似序列时使用高的阈值(直至BLOSUM90),处理差异大的序列时使用低的阈值(直至BLOSUM30)。 图 7.8、BLOSUM62 分值矩阵。 为了补偿那些插入或缺失,可以在比对中引入一些空位,但不能太多,否则会使分子变得面目全非。每引入一个断裂,比对的分值都会有所扣除,对于这些断裂有许多罚分的规则。最常用的一个就是用一个附加的罚分比例去乘空位的长度其中有两个参数:G(有时称为断裂开放惩罚)和 L(断裂延伸惩罚),对于一个长度为 n 的空位,扣分总数为G+Ln,但在选择空位参数时,在很大程度上是唯经验的,所选的分值很少会有理论上的支持。通常来说,对于 G会选择一个高分(在 BLOSUM62 中约为 10-15),对于 L会选择一个相对的低分(大约 1-2),选择这个范围是因为插入和变异是很罕见的,但当它们一旦发生,就会影响到一系列附近的残基。

 比对的统计学显著性对任何一个比队,我们都可以计算一个分值,但重要的是需要判定这个分值是否足够高,是否能够提供进化同源性的证据。在解决这一问题时,对于偶然出现的最高分,有些思想很有帮助,但是,没有一个数学理论能够描述全程比对的

Page 174: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

分值分布,其中一个能评估其重要性的方法就是将所得的比对分值和那些同样长度和组成的随机序列进行比较。

但是,对于局部比对而言,情况要好得多。正如问题总是从简单开始,人们首先注意到那些没有多少空位得局部比对,这种比对被称为高分片段配对(HSP)。HSP通常用改进得 Smith-waterman 算法或简单地使用大的空位罚分方法获得。Karlin-Altschul 统计学为描述随机的 HSP 分值的分布提供了数学理论,概率密度函数形式被称为极值分布,这很值得注意,因为,更普遍更一般的分布的应用可能会夸大它的重要性,把一个已知得比对分值S同预期的分布相关联可能会计算出 P值,从而给出这个分值的比对显著性的可能性。通常,P值越趋近于零,分值越有意义。

相关的变量E表示分值不低于 S得可能的比对数量,而极值分布由两个参数表示,即K 和 λ,可以得到解析解,并且对于任何打分系统以及背景频率都是固定的。比对的显著性依赖于搜索空间的大小(就像在草堆中找针依赖于草堆的大小)。搜索空间的大小由序列长度计算出来,但由于统计的正确性,这个长度必须由局部比对的预期长度进行校正,以免出现边缘效应(Altschul and

Gish,1996),需要进行这种校正还因为在搜索空间边缘开始的比对在达到一个有效分值之前就会超出序列的范围。

把比对局限于没有空位的基础之上,使问题大大简化,但是却脱离分子生物学的实际情况。实际上,要建立一个插入和缺失的精确模型需要空位,但如果空位相对较少,在这些空位之间仍然可以获得高分值区域,有代表性的是可能会获

Page 175: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

得紧密相邻的 HSP,在这种情况下,从总体上去评估它的显著性是较为合理的,也许,每个片段并不显得很重要,但是几个片段同时出现就不太像是偶然事件了。Karlin-Altschul 加和统计学可以计算 N 个 HSP 的统计值,这个方法的实质是把N 个最佳片段的分值进行加总,从而计算事件偶然发生的可能性,其它一些论据也被用来确认这些分值只是在片段与比对一致的情况下进行加总。虽然加总的分值分布与 HSP 分值最大值有差异,仍然可以得到解析解。

最后,仍然有必要对局部排队的显著性进行合理评估,其中包括了模型中的空位。正如同传统的 Smith-waterman 比对,虽然没有先验的证据,人们仍然认为这些比对的分值也应该遵循极值分布,但是,分布参数 K 和 λ 的值不能通过计算获得,当然,通过模型获得这些值的方法已经被大大地发展了。

数据库中的相似性搜索上述讨论主要集中于那些较为特别的匹配的序列,但是对于一个新发现的序列,我们无法得知用什么序列同它进行比对,数据库相似性搜索使我们能够从数据库中存在的数十万个序列中挑选出可能同感兴趣的序列有关联的序列,这个方法有时会导致意想不到的收获。用这种策略获得成功的第一个例子是人们因此发现病毒肿瘤基因 v-sis是细胞中编码血小板派生生长因子的基因的一个变体形式(Doolittle et al., 1983; Waterfield et al., 1983)。那个时候,序列数据库还不大,因此这个发现足以另人感到万分惊奇。然而今天如果进行数据库搜索并且一无所获的话,那就更另人感到费解了。如同其它几个小的物种基因组一样,酵母 saccharomyces cerevisiae 的基因组全序列已经被测定出来。在脊椎动

Page 176: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

物中,大量的部分基因诸如人类和老鼠的基因都已经被测定并存入基因库(genebank)中,这也导致了表达序列标签(EST)工程。EST片段的主要用途是在数据库搜索中,用 EST片段进行 cDNA克隆可以分离出感兴趣的基因,包括其它模型生物中的同源基因。最近报导的多重内分泌腺肿瘤(MENI)基因就和人与老鼠的多个 EST片段相匹配,其中之一在 MENI 发表前一年就已经入库保存了(Chandrasekharappa et al., 1997)。

在数据库搜索中,基本操作就是将查询序列和数据库中的主题序列作比对。比对结果是排列好的 hit list,后面是一系列的单独的比对情况,以及不同的分值和统计值(如图 7.9)。下文将会详细介绍选择不同的搜索程序、序列数据库和不同的参数都会对搜索产生影响,而且还有不同的界面,比如操作台命令、WWW

形式和 E-mail等。图 7.10 给出了一个使用 Web界面进行数据库搜索的例子。这种形式的一个优点就是对任何一个感兴趣的比对,全部注解和文献应用都可以通过超文本简单方便地联接至原始的序列条目和相关的在线文献。

a The best score are: initn initl opt z-sc E(59248)

gi|1706794|sp|P49789|FHIT_HUMAN FRAGILE HISTIDINE 996 996 996 1350.4 0

gi|1703339|sp|P49776|APH1_SCHPO BIS(5’-NUCLEOSYL) 431 395 395 536.2 2.8e-23

gi|1723425|sp|P49775|YD15_YEAST HYPOTHETICAL 24.8 290 171 316 428.1 2.9e-17

gi|1724021|sp|Q11066|YHIT_MYCTU HYPOTHETICAL 20.0 178 178 184 250.7 2.2e-07

gi|417124|sp|Q04344|HIT_YEAST HIT1 PROTEIN (ORF U 159 104 157 216.2 1.8e-05

gi|418447|sp|P32084|YHIT_SYNP7 HYPOTHETICAL 12.4 139 139 140 195.0 0.00028

Page 177: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

gi|1351828|sp|P47378|YHIT_MYCGE HYPOTHETICAL 15.6 132 132 133 183.9 0.0012

gi|1169826|sp|P43424|GAL7_RAT GALACTOSE-1-PHOSPHA 97 97 128 169.7 0.0072

gi|418446|sp|P32083|YHIT_MYCHR HYYPOTHETICAL 13.1 102 102 119 166.8 0.01

gi|1708543|sp|P49773|IPK1_HUMAN PROTEIN KINASE C 87 87 118 164.5 0.0014

gi|1724020|sp|P49774|YHIT_MYCLE HYPOTHETICAL 17.0 131 82 117 161.5 0.02

gi|1724019|sp|P53795|YHIT_CAEEL HYPOTHETICAL HIT- 98 98 116 161.5 0.02

gi|1170581|sp|P16436|IPK1_BOVIN PROTEIN KINASE C 86 86 115 160.4 0.023

gi|1730188|sp|Q03249|GAL7_MOUSE GALACTOSE-1-PHOSP 87 87 120 159.3 0.027

gi|1177047|sp|P42856|ZB14_MAIZE 14 KD ZINC-BIODIN 132 79 112 156.3 0.04

gi|1209081|sp|P07902|GAL7_HUMAN CALACTOSE-1-PHOSPH 78 78 117 154.8 0.048

gi|1177046|sp|P42855|ZB14_BRAJU 14 KD ZINC-BINDIN 115 76 110 154.5 0.05

gi|140775|sp|P26724|YHIT_AZOBR HYPOTHETICAL 13.2 115 65 109 152.6 0.064

gi|1169852|sp|P31764|GAL7_HAEIN GALACTOSE-1-PHOSP 62 62 104 137.9 0.42

gi|113999|sp|P16550|APA1_YEAST 5’,5’’’-P-1,P-4-TE 108 66 103 137.1 0.47

b>>gi|1169826|sp|P43424|GAL7_RAT GALACTOSE-1-PHOSPHATE UR (379 aa)

initn: 97 init1: 97 opt: 128 z-score: 169.7 E(): 0.0072

Smith-Waterman score: 128; 30.8% identity in 107 aa overlap

10 20 30

FHIT MSFRFG-QHLIKPSVVFLKTELSFALVNRKPV

...: X.:.. . : .: ..:: :

Page 178: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

GAL7 VWASNFLPDIAQREERSQQTYHNQHGKPLLLEYGHQELLRKERLVLTSEYWIVLVPFWAV

190 200 210 220 230 240

40 50 60 70 80

FHIT VPGHVLVCPLRPVERFHDLRPDEVADLFQTTQRVGTVVEKHFHGTSLTFSM—QDGP---

: ..:. : : :.:. .: : : :: .: ... : .. X. ::. .:: . .:

GAL7 WPFQTLLLPRRHVQRLPELTPAERDDLASTMKKLLTKYDNLFE-TSFPYSMGWHGAPMGL

250 260 270 280 290 300

90 100 110 120 130 140

FHIT EAGQTVKH--VHVHVLPRKAGDFHRNDSIYEELQKHDKEDFPASWRSEEEMAAEAAALRV

..: : : .:.: :

GAL7 KTGATCDHWQLHAHYYPPLLRSATVRKFMVGYEMLAQAQRDLTPEQAAERLRVLPEVHYC

310 320 330 340 350 360

图 7.9:进行 FASTA 搜索的输出:(a)用人类组氨酸三联体蛋白作为(Swiss-Prot P.49789)查询序列,以 Swissprot 数据库为基础,进行FASTA 搜索所得到的命中结果,在这个操作中,参数 ktup=1;(b).以数据库中的一个条款(在命中列表中以箭头标出)为查询序列(其中包含老鼠的 1-磷酸-半乳糖尿苷酸转移酶序列)所得到的最佳局部比对结果。虽然在这里,序列的相似性不太好,但是这些蛋白在结构上都显示了很好的相似性。

Page 179: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

 7.10:在 WWW上进行数据库相似性搜索:NCBI 数据库搜索的高级 BLAST

形式,在 Web 网页上容易实现。查询序列应该由剪切板中粘贴到最大的文本框中,(在本图中,框中显示的是U43746 序列)。搜索中另外一些基本的元素包括搜索程序的名字以及数据库的名字,这两个元素都可以通过下拉框选择。如果需要的话,可以设定附加的选项参数。这里还有一个基本的 BLAST 形式,当然高级的选项参数被隐藏起来了。最后,简单地点击一下“Submit”键,提交请求后就可以开始搜索了。 如今的序列数据库非常之大,并且正以爆炸式的速度不断增长,在这种条件下,利用动态程序的方法直接进行数据库搜索已经变得不切实际。一个解决方法就是使用大型计算机和相关的特殊硬件,但是我们要讨论的目的是普通计算机能干些什么。当最佳方法不可行时,我们必须求助于那些启发式方法,这些方法充分利用了近似值以加快序列比较,但同时会在错过正确比对这一方面冒一点险。

有一种启发式方法建立在这样的策略之上,它将序列分解成由连续字母组成的短串(称为字串)。基于字的方法,在八十年代早期由Wilbur 和 Lipman提出并且广泛使用于今天的搜索程序之中。其基本思想是这样的,一个能够揭示出正确的序列关系的比对至少包含一个两个序列都拥有的字串,把查询序列中的所有字串编成索引,并且在数据库扫描中查询这些索引,这些击中的字串就会很快被鉴定出来。

Page 180: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

FASTA

FASTA 程序是第一个广泛使用的数据库相似性搜索程序。为了达到较高的敏感程度,程序引用取代矩阵实行局部比对以获得最佳搜索。但众所周知,使用这种策略会非常耗费工作时,为了提高速度,在实施耗时的最佳搜索之前,程序使用已知的字串检索出可能的匹配。在速度和敏感度之间权衡选择依赖于 ktup 参数,它决定了字串的大小。增大 ktup 参数就会减少字串命中的数目,也就会减少所需要的最佳搜索的数目,提高搜索速度。缺省的 ktup值在进行蛋白比较时选择 2,但是在间距较大的情况下,将 ktup值降为 1较为理想。

FASTA 程序并不会研究每一个遇到的字串命中,但在一开始会寻找包含若干个附近的命中的片段。使用启发式方法,这些片段会被赋予分值,最好的一个在输出时会显示为 init1 分值,这若干个片段会被组合起来,一个新的 initn 分值会从中计算出来。然后在最好的初始片段中局限于其对角线带上,会进行一次包含空位的局部比对以评估最可能的匹配。这个最佳比对的分值会在输出时显示为opt 分值。对最后报导的比对来说,还要进行一次全程的 Smith-Waterman 比对。图 7.9b 显示了一个例子。对数据库中的每一个序列都只会由一个最佳的比对,但是,如果蛋白质中包含若干个模块,一些很有意义的比对就会被错过,匹配序列还必须由 LALIGN 程序作进一步分析。

从 2.0 版本开始,FASTA 对每一个检索到的比对都提供一个统计学显著性的评估。程序为随机分值假定了一个极值分布,但是改写了概率密度函数的形式,其中预期的分值与数据库中的序列长度的自然对数呈线形关系,这样,可以使用

Page 181: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

简单的线形回归函数计算常规的比对的 z值。最后,计算出预期的 E值,从而给出那些 z值不小于已知值的随机比对的预期数目。

BLASTBLAST 程序对数据库搜索进行了大量的改良,提高了搜索速度,同时把数据库搜索建立在了严格的统计学基础之上。但是,为了达到这一目的,仍然需要权衡选择,也就是说,局部比对的限制条件可能不包括空位。这个限制条件对应用Karlin-Altschul 统计学极为有利,另一方面,既然空位没有明确地放在模型中,结果就不会象人们期望的那样接近于预期的比对。这并不是说插入和确实会妨碍匹配,在大多数情况下,比对仅仅会被分解为若干个明显的 HSPs。无论如何,老版本的 BLAST 程序(1.4 以前)的局限性在新版本中已经被消除了,新版本在对待空位问题上有着明确的作法(在下面讨论)。

对于一个即将被BLAST 程序报告的比对,其中必然包含一个 HSP,其分值不小于终止值 S。这个终止值因人而异,但是使用时是很难知道其合适值的。因为程序基于 Karlin-Altschul 统计学,人们可以指明一个预期的终止 E值,然后软件会在考虑搜索背景的性质的基础上(比如数据库的大小,取代矩阵的性质)计算出正确的 S值。BLAST 的一项创新就是邻近字串的思想。这个协定不需要字串确切地匹配,在引入取代矩阵的情况下,当主题序列中的字串有一个最低分值T时,BLAST就宣布找到了一个命中的字串。这个策略允许较长字串长度(W)(为了提高速度),而忽略了敏感度。于是,T值称为制衡速度和敏感

Page 182: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

度的临界参数,而W是很少会变化的。如果 T值增大,可能的命中字串的数目就会下降,程序执行就会加快,减小 T值会发现较远的关系。

发生一个字串命中后,程序会进行没有空位的局部寻优,比对的最低分值是 S。将比对同时向左方和右方延伸并将分值加和就会得到结果。当遭遇一系列的最低分值时,加和的分值就会下降,这时,分值就不再可能反弹回 S值。这个发现为附加的启发式知识提供了依据,因此,当分值的降低(与遭遇的最大值相比)超过分值下降阈值X时,命中的延伸就会终止。于是,系统回减少毫无指望的命中延伸,继续进行其它操作。

使用 BLAST

可以通过 e-Mail、WWW 或控制台命令操作 BLAST 程序,无论如何,一次数据库搜索包括四种基本元素:BLAST 程序的名称,数据库名称,查询序列和大量的合适的参数,很显然,当以上元素发生变化时,搜索的细节就会随之改变。为了避免混淆,我们把BLAST 功能性描述为普通名词,避免提及专有工具。读者可能会要参考使用到的专有工具的有关内容。要得到关于用 e-Mail 执行 BLAST

搜索的介绍,给 [email protected] 发一封含有“HELP”的邮件;在WWW工具中,帮助是在线的;如果使用 Unix 系统,使用 man blast 可以获得详细的帮助信息。

表 7.1、BLAST 程序:

Page 183: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

程序 数据库 查询 内容

Blastp 蛋白质 蛋白质 使用取代矩阵寻找较远的关系:可以进行 SEG 过滤。

Blastn 核苷酸 核苷酸 寻找较高分值的匹配,对较远关系不太适用。

Blastx 核苷酸(翻译)

蛋白质 对于新的 DNA 序列和 ESTs 的分析极为有用。

Tblastn 蛋白质 核苷酸(翻译)

对于寻找数据库中没有标注的编码区极为有用。

tblastx 核苷酸(翻译)

核苷酸(翻译)

对于分析 EST极为有用。

几种不同的 BLAST 可以通过查询序列和数据库序列的类型来加以区分:blastp 比较的是查询蛋白同蛋白质数据库;相应于核酸序列的程序是 blastn;如果序列类型不同,DNA 序列可以被翻译成蛋白序列(所有六种阅读框架)后同蛋白序列进行比较,blastx 比较一个 DNA 的查询序列同一个蛋白质序列库,其结果对分析新序列和 ESTs很有用;对于一个基于核酸序列库的蛋白质查询,

Page 184: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

tblastn 程序对于寻找数据库中序列的新的编码区很有用;最后一个只在特殊情况下使用(在这里介绍只是出于完整的考虑),tblastx将DNA 查询序列和核酸序列库中的序列全部翻译成蛋白质序列,然后进行蛋白质序列比较,这个程序主要应用于 ESTs 比较,尤其是当人们怀疑到其中有可能的编码区,即使并没有确切地发现这一区域。

所有这些程序使用服务器上的序列数据库,从而不需要本地的数据库,表 7.2

和 7.3陈列了一些 BLAST 使用的蛋白质和核酸的序列数据库。对于常规的搜索,nr 数据库拥有大量的氨基酸和核酸序列,同时合并相同的序列以减少冗余度。为了检测在过去 30天里提出或更新的序列,提供了一个称为“month”的数据库。不管是 nr还是month,都是日日更新。表 7.2 和 7.3 中列出的其它一些数据库在一些特别的环境里十分有用,比如在比较模型物种(酵母和大肠杆菌)的全序列时,搜索特别类型的序列(dbest 或 dbsts),或检测是否存在污染或问题序列(vector,alu 或 mito)。

表 7.2、使用 BLAST 的蛋白序列数据库:

数据库 描述

Nr 融合了 Swiss-Prot,PIR,PRF 以及从GenBank 序列编码区中得到的蛋白质和 PDB 中拥有原子坐标的蛋白质,绝非多余。

Page 185: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Month Nr 的字集,每月(30天)更新,搜集了过去 30天中的最新序列。

Swissprot Swiss-Prot 数据库。

Pdb 拥有三维空间结构的原子坐标的氨基酸序列库。

Yeast 由酵母基因组中基因编码的全套蛋白质。

ecoli 有大肠杆菌基因组中基因编码的全套蛋白质。

表 7.3、使用 BLAST 的核苷酸序列数据库:

数据库 描述

Nr 极有价值的 GenBank,排除了 EST,STS 和 GSS部分。

Month Nr 的字集,每月(30天)更新,搜集了过去 30天中的最新序列。

Est Genbank 中的 EST部分(expressed sequence tags, 表达序

Page 186: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

列标签)。

Sts Genbank 中的 STS部分 (sequence tagged sites, 序列标签位点)。

Htgs Genbank 中的 HTG部分 (high throughput genomic

sequences, 高容量基因组序列)。

Gss GenbankGSS(genome survey sequences,基因组测定序列)。

Yeast 酵母的全基因组序列。

Ecoli 大肠杆菌的全基因组序列。

Mito 脊椎动物线粒体的全基因组序列。

Alu 搜集了灵长类动物的 Alu 重复序列。

vector 搜集了流行的带菌体的克隆。

Page 187: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

一个 BLAST 搜索的例子会介绍搜索输出的不同元素。如图 7.11 所示的例子,一种 Alzheimer疾病感受性蛋白质的氨基酸序列(由GenBank 中 L43964翻译)作为查询序列同 dbest 数据库用 tblastn 进行搜索。进行这么一次搜索的目的是要鉴定模型生物中可能的同源物的 cDNA克隆,从而为在人类中无法进行的实验打开方便之门(相应于 EST 序列的克隆是已经实现的)。数据库中的每一个 EST 序列在同 alzheimer 蛋白质序列比较以前,都已经按照所有的阅读框架得到翻译。图 7.11a 显示了此次搜索得到部分命中的列表,前两列给出了每一个显著性匹配的序列的标识和描述。尽管浏览时定义被缩短了,我们仍然可以看到老鼠和果蝇的序列都被包含进来了。下一列给出了得到最佳 HSP(即使其它阅读框架翻译结果也会达到命中)的阅读框架。后面三列给出了最佳HSP 的分值、p值总和及 p值计算时使用到的 HSP 数目。

包含一种果蝇 EST(由箭头标出)的比对在图 7.11b 中得以显示。其中包含了两个 HSP,并且显示了每一个的分值,EST 的概念性翻译同查询序列并排显示。相同的氨基酸残基在两个序列之间回显,+表示两个不同残基匹配的分值是正数(比如保守取代)。从不同阅读框架得到的两个 HSP是显著的并且彼此相邻,这一点从序列坐标就可以看出来。这种形式表示 EST 序列的一种阅读框架是错误的,并且对于用相对容错性的工具进行序列单向通行数据分析时极为有效。

asum

Reading High Probability Y

Page 188: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

sequence producing High-scoring Segment Pairs: Frame Score P(N) N

gb|AA056325|AA056325 zf53a03.sl Soarea retina N2b4HR H... +3 724 3.4e-102 2

gb|T03796|T03796 IBIB913 Infant brain,Bento Soares...+3 567 2.6e-78 2

gb|AA260597|AA260597 mx76g09.r1 Soares mouse NML Mus m...+2 239 4.9e-53 4

gb|H86456|H86456 yt01b06.s1 Homo sapiens cDNA clon...+2 323 4.3e-52 4

gb|N24576|N24576 yx72a04.s1 Homo sapiens cDNA clon...+1 365 5.5e-47 2

gb|AA265273|AA265273 mx91c12.r1 Soares mouse NML Mus m...+2 239 6.4e-41 2

gb|AA237206|AA237206 mx18e01.r1 Soares mouse NML Mus m...+3 159 1.5e-40 3

gb|R146001|R146001 yf34b10.r1 Homo sapiens cDNA clon...+1 278 1.5e-40 2

gb|AA200706|AA200706 mu03f12.r1 Soares mouse 3NbMs Mus...+1 343 1.9e-40 1

gb|AA045064|AA045064 zk77f12.s1 Soares pregnant ulerus...-3 269 2.3e-37 2

gb|AA087434|AA087434 mm28a04.r1 Stratagene mouse skin....+3 322 3.6e-37 1

gb|R05907|R05907 ye93h02.r1 Homo sapiens cDNA clon...+3 252 7.7e-37 2

gb|AA268820|AA268820 vb01c10.r1 Soares mouse NML Mus m...+2 234 7.7e-35 2

gb|AA162310|AA162310 mn44a07.r1 Beddington mouse embry...+1 134 8.3e-34 3

gb|N27820|N27820 yx54h10.r1 Homo sapiens cDNA clon...+3 154 7.8e-29 2

gb|AA234907|AA234907 zs38f03.r1 Soares NhHMPu S1 Homo... +2 155 1.8e-28 2

gb|AA231081|AA231081 mw11d11.r1 Soares mouse 3NME12 5... +3 134 8.8e-23 2

gb|H91652|H91652 ys80c04.s1 Homo sapiens cDNA clon... -3 215 3.7e-22 1

gb|H50532|H50532 yo30h08.s1 Homo sapiens cDNA clon... -2 211 1.2e-21 1

gb|AA150236|AA150236 zl03c01.r1 Soares pregnant uterus...+1 159 5.0e-21 2

gb|AA144382|AA144382 mr15d12.r1 Soares mouse 3NbMS Mus...+3 159 7.6e-21 2

Page 189: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

gb|AA390557|AA390557 LD09473.5prime LD Drosophila Embr...+3 130 1.6e-20 2

gb|AA210480|AA210480 mo86b03.r1 Beddington mouse embry...+2 128 2.0e-20 3

gb|H19021|H19021 ym44b02.r1 Homo sapeins cDNA clon...+2 134 5.9e-20 2

gb|AA283084|AA283084 zt14g09.s1 Soares NbHTGBC Homo sa...-3 175 2.3e-19 2

gb|H25759|H25795 y149d01.s1 Homo sapiens cDNA clon...-2 185 5.0e-18 1

gb|H33787|H33787 EST110123 Rattus sp.cDNA 5’ end..... +1 137 6.7e-17 2

gb|AA201988|AA201988 LD05058.5prime LD Drosophila Embr...+3 175 5.5e-15 1

gb|AA263526|AA263526 LD06652.5prime LD Drosophila Embr...+1 167 7.0e-14 1

gb|R46340|R46340 yj52c04.sl Homo sapiens cDNA clon...-1 151 5.6e-13 1

gb|AA246675|AA246675 LD05588.5prime LD Drosophila Embr...+2 117 2.8e-10 2

gb|AA282899|AA282899 zt14g09.r1 Soares NbHTGBC Homo sa...+3 118 6.1e-07 1

gb|AA247705|AA247705 csh0941.seq.F Human fetal heart,....+3 56 0.0039 2

 bgb|AA390557|AA390557 LD09473.5prime LD Drosophila Embryo Drosophila

melanogaster cDNA clone LD09473 5’

Length – 659

Score – 130 (60.4 bits), Expect – 1.6e-20, Sum P(2) – 1.6e-20

Identities – 25/60 (41%), Positives – 40/60 (66%), Frame - +3

Query: 105 TIKSVRFYTEKNGQLIYTTFTEDTPSVGQRLLNSVLNTLIMISVIVVMTIFLVVLYKYRC 164

+I S+ FY + L+YT F E +P + +++ ++LI++SV+VVMT L+VLYK RC

sbjct: 480 SINSISFYNSTDVYLLYTPFHEQSPEPSVKFWSALGSSLILMSVVVVMTFLLIVLYKKRC 659

Page 190: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Score – 117 (54.3 bits), Expect – 1.6e-20, Sum P(2) – 1.6e-20

Identities –23/30 (76%), Positives – 27/30 (90%), Frame - +1

Query: 75 LEEELTLKYGAKHVIMLFVPVTLCMIVVVA 104

+EEE LKYGA+HVI LFVPV+LCM+VVVA

sbjct: 391 MEEEQGLKYGAQHVIKLFVPVSLCMLVVVA 480

图 7.11、一次 TBLASTN 搜索的输出:在这次 TBLASTN 搜索中,以 dbest 数据库为基础,以阿尔茨海默氏病(即进行性老年性痴呆)基因(Genbank 检索号码 L43964)的蛋白质产物为查询序列,目的是为了从其它那些可能同人类基因有同源性的物种中鉴定出一些 cDNA克隆。(a).命中列表的一部分显示了其中最好的 25 个命中。每个检索出来的序列都由它们的 GenBank 检索号码以及一部分定义行组成。其中包括了它们的阅读框架和最佳 HSP 分值,同时显示的还有一个偶然命中的可能性的加和。最后一列中的数据给出了在计算加和的可能性时所涉及到的 HSP 的数量。在这个命中列表中可以见到至少 10 条从老鼠中得到的序列和一条从果蝇中得到的序列; (b).同果蝇的 EST 序列(GenBank AA390557)理论上的翻译序列匹配的结果。找到了两个 HSPs,每一个使用不同的阅读框架。相同的残基在两行序列中间的相应位置回显,而“+”符号标记着那些不相同但是其取代分值是正分的残基。

BLAST 的最新改进最近发布的 BLAST 程序的修订版提高了搜索速度、敏感度和实用性。这个完全重新写过的软件包指定为 2.0 版本(避免同WU-BLUST混淆,这个软件是由

Page 191: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

华盛顿大学设计的,有时称为BLAST2)。应该注意到,在发布的 2.0 版本中,命令行的参数有很大改变,其中一些常用的参数列在表 7.4 中。

一个改进来自于引发一个字串命中的延伸的标准。现在,在一个需要考虑的残基的窗口里必须找到两个字串命中。使用这种策略提高了搜索速度,因为大量随机的字串命中将会被忽略,并且很有可能得到一个显著性良好的比对。第二个改进是能够明确地而不是含蓄地处理空位。除了帮助使用者更加容易地理解产生的比对,新版本还提高了较远关系的敏感性,其中可能会包含许多插入和缺失。比较从寻找无空位的 HSP这一标准策略开始,然后,这一比对中获得最高分区域的中心一列被鉴定出来,接着,从这一点向前和向后延伸,通过赋值的路径进行无空位局部比对的搜索。如同最初的 HSP 搜索,一个分值下降的阈值X将会促使放弃那些遭遇大量负的取代分值的路径。对剩余的 HSP 进行反复的这种操作,将会揭示另外的含空位的比对,并保证它们同已经报告的部分不会相交。这个系统不同于 FASTA 所采取的策略,FASTA只会产生一个最佳的比对。

表 7.4、一些对于 BLAST很有用的参数值:

参数名称 BLAST 1.4 BLAST 2.0

数据库 (database) 第一参数 -d database

查询序列文件 (query sequence file)

第二参数 -I filename

Page 192: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

期望阈值 E (expectation cutoff) E = number -e number

HSP 分值阈值 S (HSP score cutoff)

S = number -s number

字串分值阈值 T (word score cutoff)

T = number -f number

多命中窗口A (multihit window) n/a -A number

打分矩阵 (score matrix) -matrix matrix -M matrix

低复杂度过滤 (low-complexity filtering)

-filter seg -F

空位开放罚分 (gap opening penalty)

n/a -G number

空位拓展罚分 (gap extension penalty)

n/a -E number

PSI-BLAST反复 (PSI-BLAST iterations)

n/a -j number

Page 193: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

对于那些弱势的但是显著性较强的比对,进行较高敏感性的数据库搜索的一个方法就是使用诸如profile(表头轮廓)的数据结构(Gonzalez et al.,

1994)。这个策略可能曾经被认为是个进行数据库搜索的比较先进的课题,但是BLAST 的一个新特性简化了基于 profile 的搜索工作。一个 profile 可能会被理解为一个列表,其中列出了在一个保守的蛋白质结构域中每一个位点发现每一种氨基酸残基的频率。建立一个 profile 可能是很乏味的,其信息是从那些拥有我们感兴趣的蛋白质结构域的多序列比对中得到的,这些比对必须预先准备好,而且,在这里有许多技术上的问题还没有解决。

位点特性反复 BLAST(PSI-BLAST)是指BLAST2.0 的一个特性,其中一个profile被不断组织并且不断精练。这个过程开始于使用一个简单查询序列的一个标准的数据库搜索。在这个初始的搜索结果中,一个 profile从高度显著的比对中获得,然后这个 profile 在第二轮的数据库搜索中使用。如果需要的话,这个过程会反复进行,并且在操作中为了精练 profile,会在每一轮中加入新的序列。

为了演示 PSI-BLAST 方法的高敏感性,旦氨酸三联体蛋白(HIT)序列被用来作为数据库搜索中的查询序列。HIT 和 1-磷酸乳糖尿苷酸转移酶(GalT)基于位点重叠的三位结构相似性最近得到描述(Holm and Sander, 1997)。经过一次标准的(一轮)BLASTP 搜索,没有发现一个对 GalT 序列有显著的命中。但是经过多次搜索,在每一次反复中都发现新的关系,正如图 7.12 所示。在第二次搜索中了发现老鼠的 GalT 蛋白质,并且在这一信息被加入 profile 之后,另外一些其它物种的同源物也被检测出来。

Page 194: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Sequences producing significant alignments: Hign E

Score Value

Pass1:

sp|P49789|FHIT_HUMAN FRAGILE HISTIDINE TRIAD PROTEIN 290 7e-79

sp|P49776|APH1_SCHPO BIS(5’ – NUCLEOSYL) – TETRAPHOSPHATASE (ASYMME... 117 8e-27

sp|P49775|YD15_YEAST HYPOTHETICAL 24.8 KD HIT – LIKE PROTEIN 88.0 6e-18

sp|Q11066|YHIT_MYCTU HYPOTHETICAL 20.0 KD HIT – LIKE PROTEIN 52.7 3e-07

sp|Q04344|HIT_YEAST HIT1 PROTEIN (ORF U) 45.3 4e-05

Pass2:

sp|P47378|YHIT_MYCGE HYPOTHETICAL 15.6 KD HIT – LIKE PROTEIN 70.5 1e-12

sp|P32083|YHIT_MYCHR HYPOTHETICAL 13.1 KD HIT – LIKE PROTEIN IN P... 59.0 3e-09

sp|P26724|YHIT_AZOBR HYPOTHETICAL 13.2 KD HIT – LIKE PROTEIN IN H... 57.6 9e-09

sp|P32084|YHIT_SYNP7 HYPOTHETICAL 12.4 KD HIT – LIKE PROTEIN IN P... 55.7 3e-08

sp|P53795|YHIT_CAEEL HYPOTHETICAL HIT – LIKE PROTEIN F21C3.3 54.3 9e-08

sp|P42856|ZB14_MAIZE 14 KD ZINC – BINDING PROTEIN (PROTEIN KINASE... 52.8 2e-07

sp|P42855|ZB14_BRAJU 14 KD ZINC – BINDING PROTEIN (PROTEIN KINASE... 50.2 1e-06

sp|P49774|YHIT_MYCLE HYPOTHETICAL 17.0 KD PROTEIN HIT – LIKE PROT... 49.5 2e-06

sp|P49773|IPK1_HUMAN PROTEIN KINASE C INHIBITOR 1 (PKCI – 1) 49.1 3e-06

sp|P16436|IPK1_BOVIN PROTEIN KINASE C INHIBITOR 1 (PKCI – 1) (17 ... 48.7 4e-06

sp|P44956|YCFF_HAEIN HYPOTHETICAL HIT – LIKE PROTEIN HI0961 47.3 1e-05

sp|P43424|GAL7_RAT GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 41.0 8e-04

Pass3:

sp|Q03249|GAL7_MOUSE GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 87.2 1e-17

Page 195: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

sp|P07902|GAL7_HUMAN GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 79.8 2e-15

sp|P31764|GAL7_HAEIN GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 64.7 6e-11

sp|P09148|GAL7_ECOLI GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 62.5 3e-10

sp|P22714|GAL7_SALTY GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 58.1 6e-09

sp|P09580|GAL7_KLULA GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 48.5 4e-06

sp|P08431|GAL7_YEAST GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 40.8 0.001

Pass4:

sp|P40908|GAL7_CRYNE GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 71.0 8e-13

sp|P13212|GAL7_STRLI GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 57.0 1e-08

图 7.12、使用 PSI-BLAST后,敏感性提高很大:在这次BLASTP 搜索中,查询序列是人类组氨酸三联体(HIT)蛋白(Swiss-Prot P49789),搜索时开启了 PSI-BLAST 功能。在每一次重复搜索中,新检索出来的具有统计学显著性的匹配都会显示它们的定义行,打分值以及 E 数值。 

低复杂度区域不管是蛋白还是核酸都包含一些偏颇的区域,在进行序列数据库搜索时这些区域可能会导致一些令人迷惑的结果。这些低复杂度区域(LCRs)在从明显的同性聚合顺串和短周期重复到更精细的情况(如其中某些或一些残基过多表现)的范围内变化。一个称为 SEG 的程序发展起来,目的是要把一个蛋白质序列分解为低复杂度和高复杂度组成的各个片段(Wootton and Federhen, 1993,

1996)。这个程序的结果表明数据库中的蛋白质有一半以上拥有至少一个

Page 196: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

LCR(Wootton and Federhen, 1993; Wootton, 1994)。LCRs 的进化、功能和结构性质并没有被很好地了解。在 DNA 中,有许多种简单的重复,其中一些已经知道是高度多样性的,并且在作基因图谱时经常使用的。它们源起的机制可能是聚合酶滑动、偏颇核苷酸取代或者不等交换。LCRs更偏好于在结构上以非球形区域的形式存在,那些在物理化学上已经被定义为非球形的区域通常可以在使用 SEG 程序时获得较好的结果(Wootton, 1994)。

对于包含 LCR 的序列进行比对是成问题的,因为这些序列不符合残基-残基序列守恒的模型。有些时候,与功能相关的属性可能仅仅是周期性或组成结构,而不是任何特异的序列。而且,对比对作统计学显著性分析的方法是建立在一定的随机概念基础上的,LCR 显然不符合这一条件,因此,对于一个包含 LCR 的查询序列,在进行数据库搜索的输出里会发现很多不正确的条目,因为这些匹配的显著性被过高评价了(Altschul et al., 1994)。这个问题大体上可以通过过滤(或者叫屏蔽)解决,操作是这样的,把有问题的子序列转化为不明确的字符(蛋白质用 X,核酸序列用 N),这样它们就不会对比对贡献正分了。

果蝇鳞甲基因产物的人类同源物就是包含 LCR 蛋白质的一个好例子,在用 SEG

分析的时候,两个低组成复杂度的序列区域被鉴定出来。图 7.13a 显示了缺省的树输出,其中低复杂度序列用小写字母表示在左边,高复杂度序列在右边用大写字母表示。第一个区域片段有 61 个残基,包含大量丙氨酸(alanine)和谷氨酸盐(glutamine)的多聚物;第二个区域片段有 14 个残基,偏向于精氨酸(arginine)。如果不进行过滤的话,许多包含这种偏向性序列的数据库序列都会被报告出来。使用命令行选项,SEG 程序就会产生一个过滤后的查询

Page 197: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

序列版本。另外,过滤可以有BLAST 程序自动完成,如果使用合适的参数。请注意在使用 BLAST时,缺省情况下就可以实行过滤(比如在 WWW 版本)。这就解释了为什么查询序列中的不明确的字符串(在原序列中没有出现)会在比对中被偶然发现。

a>gi|1703441|sp|P50553|ASH1_HUMAN ACHAETE – SCUTE HOMOLOG 1

1-11 MESSAKMESGG

agqqpqpqpqqpflppaacffataaaaaaa 12-72

aaaaaaqsaqqqqqqqqqqqqqqapqlrpa

a

1. DGQPSGGGHKSAPKQVKRQRSSSPELMRCK

RRLNFSGFGYSLPQQQP

aavarrnerernrv 120-133

1. KLVNLGFATLREHVPNGAANKKMSKVETLR

SAVEYIRALQQLLDEHDAVSAAFQAGVLSP

TISPNYSNDLNSMAGSPVSSYSSDEGSYDP

Page 198: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

LSPEEQELLDFTBWF

b>gi|1703441|sp|P50553|ASH1_HUMAN ACHAETE – SCUTE HOMOLOG 1

MESSAKMESGGXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXDGQPSGGGHKSAPKQVKRQRSSSPELMRCKRRLNFSGFGYSLPQQQPX

XXXXXXXXXXXXXKLVNLGFATLREHVPNGAANKKMSKVETLRSAVEYIRALQQLLDEHD

AVSAAFQAGVLSPTISPNYSNDLNSMAGSPVSSYSSDEGSYDPLSPEEQELLDFTBWF

c>gi|540240 (U14590) achaete – scute homolog b [ Danio rerio ]

Length – 195

Score – 193 bits (512), Expect – 7e-49

Identities – 107/155 (69%), Positives – 118/155 (76%)

Gaps – 8/155 (5%)

QUERY 86 KQVKRQRSSSPELMRCKRRLNFSGFGYSLPQQQPXXXXXXXXXXXXXXKLVNLGFATLRE 145

K +KRQRSSSPEL+RCKRRL F+G GY++PQQQP K VN+GF TLR+

540240 32 KVLKRQRSSSPELLRCKRRLTFNGLGYTIPQQQPMAVARRNERERNRVKQVNMGFQTLRQ 91

QUERY 146 HVPNGAANKKMSKVETLRSAVEYIRALQQLLDEHDAVSAAFQAGVLSPTISPNYSNDLNS 205

HVPNGAANKKMSKVETLRSAVEYIRALQQLLDEHDAVSA Q GV SP++S YS

540240 92 HVPNGAANKKMSKVETLRSAVEYIRALQQLLDEHDAVSAVLQCGVPSPSVSNAYS----- 146

Page 199: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

QUERY 206 MAG—SPVSSYSSDEGSYDPLSPEEQELLDFTNWF 238

AG SP S+YSSDEGSY+ LS EEQELLDFT WF

540240 147 -AGPESPHSAYSSDEGSYEHLSSEEQELLDFTTWF 180

图 7.13、使用 SEG 程序检索低复杂度区域:使用 SEG 程序对人类 achaete-

scute 蛋白(Swiss-Prot P50553)进行分析,发现了两段低复杂度区域。(a).

以缺省的“tree”格式执行程序得到的输出结果,左边用小写字母显示了低复杂度区域,右边用大写字母显示了高复杂度区域。 (b) .开启-x命令行开关,SEG

程序将会产生把低复杂度区域屏蔽掉的序列结果。 (c).为了方便使用,操作者可以使用 BLAST 程序来进行低复杂度区域的屏蔽。当一个低复杂度区域被屏蔽掉的序列作为查询序列被提交给数据库进行检索时,在 BLASTP 输出结果的比对中可能也会包括一些被屏蔽的分段序列。  

重复元件如果查询中包括一个重复元件的序列-比如说一个 Alu 重复-可能会出现许多错误的和令人费解的结果。虽然在蛋白质-蛋白质搜索中,这一般不会成为什么大问题,但是在包含 DNA 序列任何比较中,都必须对此引起必要的重视。基因组序列可能会包含大量分散的重复序列,特别是一些多基因族(例如Alus,

LINEs 和人的序列中的 MERs),甚至mRNA 序列中也可能含有重复序列,几乎都是信息的非翻译区。因此,重复元件在数据库序列中非常普遍,如果查询序列中也有这些重复,就会在比对中出现大量不正确的正分。虽然重复元件显示了

Page 200: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

大量不同成分,仍然有足够的相似性使比对具有一定的高显著性。虽然比对会跨越这些重复而不是侧面的单一序列,但是直接从数据库搜索的输出结果观察,这并不是显而易见的。

GenBank 和 Swiss-Prot 数据库中都包含一些“暖序列(warming

sequence)”,这些数据向使用者指出查询中包含重复序列(Claverie and

Makalowski, 1993)。在 GenBank 中,这些条目表示了人类 Alu 重复的不同亚科的一致序列;在 Swiss-Prot 中的类似条目是Alu 序列的六种翻译框架(一个接着一个,中间由若干X 分隔)。在两种情况下,单词“WARNING”在定义行中非常显著。暖序列不必出现在命中列表的上方,而且,可以有许多包含 Alu

重复的数据库序列同查询序列非常相似,甚至比查询序列同暖序列还相似。这在图 7.14a 中有所体现,它显示了对人类转录因子 CBFB(在 3’UTR 包含一个Alu)基于 nr 数据库进行一次 blastn 搜索的一部分命中。暖序列(用箭头标出)位于命中列表的第 31 位。虽然列表顶部的一些匹配显示了真正的关系(第一个是一个自命中),绝大多数只是因为具有Alu 重复才会出现错误的正分。

在查询中更直接地检测 Alu 重复是否存在的方法就是在查询前先对 alu 数据库做一次搜索。如图 7.14b 所示,做完这个以后,包含 alu 的暖序列作为最高分匹配被报告出来。如果查询序列被发现包含重复元件,接下来的行动就是要对这个序列进行编辑改动,把它剔除或者屏蔽掉。在这里一个有用的工具就是CENSOR,它能够自动检测并且消除重复元件。

a

Page 201: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Smallest

Sum

High Probability Y

Sequences producing High – scoring Segment Pairs: Score P(N) N

gb|L20298|HUMCBFB Homo sapiens transcription factor... 8691 0.0 2

dbj|D14571|MUSPEBP2B2 Mouse mRNA for PEBP2B2 protein, co.. 2574 0.0 25

gb|L032791|MUSP215CBF Mus musculus core – binding factor m 2574 0.0 25

dbj|D14572|MUSPEBP281 Mouse mRNA for PEBP2B1 protein, co.. 2130 0.0 26

dbj|d14570|muspebp283 Mouse mRNA for PEBP2B4 protein, co.. 1701 0.0 26

gb|L03305|MUSCBFAA Mus musculus core – binding factor m 942 0.0 27

gb|L03306|MUSCBFAB Mus musculus core – binding factor m 2130 1.6e-282 10

gb|U22177|DMU22177 Drosophila melanogaster Big brothe... 382 1.5e-37 2

emb|Y10196|HSPEX H.sapins PEX gene 400 4.4e-22 1

gb|L77570|HMUDGCRCEN Homo sapiens DiGeorge syndrome cri... 409 6.7e-22 2

gb|AD00067|1010603 Homo sapiens DNA from chromosome 1... 392 2.0e-21 1

emb|Z83822|HS306D1 Human DNA sequence from PAC 306D1 ... 392 2.0e-21 1

emb|Z82097|HSF77D12 Human DNA sequence from fosmid F77... 391 2.5e-21 1

dbj|D42052|HUMKIAA000 Human cosmid Q7A10 (D21S246) inser... 391 2.5e-21 1

gb|U83511|HSUB3511 Human Xp22 cosmids U177G4,U152H5, ... 386 6.5e-21 1

gb|U52112|HSU52112 Human Xq28 genomic DNA in the regi... 386 6.5e-21 1

gb|S83170|S83170 tissue – type plasminogen activator.. 382 1.1e-20 1

emb|X9642|HSCAMF3X1 H.sapiens Y chromosome cosmid CAMF... 383 1.1e-20 1

gb|U95739|HSU95739 Human chromosome 16p11.2 – p12 BAC c. 383 1.1e-20 1

Page 202: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

gb|95743|HSU95743 Human chromosome 16p13.1 BAC clone... 383 1.1e-20 1

gb|U91322|HSU91322 Human chromosome 16p3 BAC clone C.... 383 1.1e-20 1

gb|U82609|HSU82609 Human centromere – specific histone.. 382 1.3e-20 1

gb|AC001061|HSAC001061 Homo sapiens (subclone 2_g6 fromP.... 382 1.3e-20 1

emb|Z46940|HSPRMTNP2 H.sapiens PRM1 gene, PRM2 gene and... 382 1.4e-20 1

gb|K03021|HUMTPA Human tissue plasminogen activator... 382 1.4e-20 1

gb|U15422|HSU15422 Human protamine 1 (PRM1), protamin... 382 1.4e-20 1

gb|U91323|HSU91323 Human chromosome 16p13 BAC clone C... 382 1.4e-20 1

emb|Z54147|HSLI29H7A Human DNA sequence from cosmid L12... 381 1.7e-20 1

emb|Z82194|HSJ272J12 Human DNA sequence fom clone J272J12 374 1.7e-20 2

dbj|D0035|HIV2CAM2 Human immunodeficiency virus type-... 380 2.0e-20 1

gb|U14567|HSU14567 ***ALU WARNING: Human Alu_J subfam... 373 2.4e-20 1

gb|L81578|HSL81578 Homo sapiens (subclone 2_b2 from P... 386 3.0e-20 2

gb|L81854|HSL81854 Homo sapiens (subclone 2_b8 from P... 377 3.4e-20 1

bSmallest

Sum

High Probability Y

Sequences producing High – scoring Segment Pairs: Score P(N) N lcl|HSU14567 ***ALU WARNING: Human Alu – J subfamil... 373 4.1e-24 1

lcl|unknown gb|M94643_HSAL001949 349 1.4e-22 1

Page 203: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

lcl|HSU14574 ***ALU WARNING: Human Alu – Sx subfami... 347 7.0e-22 1

lcl|HSU14573 ***ALU WARNING: Human Alu – Sq subfami... 347 7.0e-22 1

lcl|unknown gb|Z15026_HSAL001005 (Alu – J) 324 1.4e-21 1

lcl|unknown gb|M15657_HSAL001254 (Alu – J) 337 6.3e-21 1

lcl|unknown gb|M61839_HSAL002304 (Alu – J) 314 6.6e-21 1

lcl|unknown gb|X17354_HSAL000525 (Alu – J) 329 6.6e-21 1

lcl|HSU14572 ***ALU WARNING: Human Alu – Sp subfami... 329 2.4e-20 1

lcl|unknown gb|J03619_HSAL001939 (Alu – Sx) 329 2.8e-20 1

lcl|unknown gb|L11910_HSAL002838 (Alu – J) 307 2.8e-20 1

lcl|unknown gb|M11228_HSAL002744 (Alu – Sp) 329 2.9e-20 1

lcl|unknown gb|L18035_HSAL004322 (Alu – J) 318 9.3e-20 1

lcl|unknown gb|L05367_HSAL002551 (Alu – J) 318 1.0e-19 1

lcl|unknown gb|M58600_HSAL002004 (Alu – J) 322 1.2e-19 1

lcl|unknown gb|Z23796_HSAL005276 (Alu – J) 306 1.7e-19 1

lcl|unknown gb|M90058_HSAL002955 (Alu – J) 294 2.5e-19 1

lcl|unknown gb|D14642_HSAL003786 (Alu – J) 315 4.0e-19 1

lcl|unknown gb|M29038_HSAL002942 (Alu – J) 314 5.5e-19 1

lcl|unknown gb|M92357_HSAL001387 (Alu – J) 310 9.8e-19 1

图 7.14、反复元件可能会导致令人迷惑的结果:本次 blastn 查询使用的查询序列是人类转录因子 CBFB(GenBank L20298)的 cDNA 序列。(a).如果使用 nr

数据库,最先的一些匹配同查询序列具有真正的关联,但是也会报告许多不正

Page 204: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

确的命中结果,这些命中分布于各个人类染色体的基因组区域。在这个命中列表中,打箭头处(位于第 31 行)的一致的 Alu-J 序列被列为警告序列。 (b).如果使用 alu 数据库,Alu-J警告序列就成了最佳匹配序列。  为了鉴定这些潜在的搜索成果,学会怎样评估搜索结果非常重要。上述的一些策略只应用于 Alu反复,它是人类以及其它一些物种中出现频率最高的,但是其它一些反复仍然存在,虽然含量较低,而且,其它物种会显示出完全不同类型的反复元件。现在有一个数据库搜索输出的附加性质,它可以指示出反复元件。例如,注意比对中与 DNA 序列编码区域相关的位点是非常有益的。如果非编码区域匹配而编码区域不匹配,那么反复序列就很令人怀疑;如果查询序列同大量序列匹配,但是这些序列相互之间没有什么关系,但是比对的分值都很相近,这样的结果就极为可疑。例如图 7.14a 中,许多匹配的相似性分值都几乎一样,而且包括了从若干不同的人类染色体上来的质粒。虽然对这个发现有很多解释,但是一个明智的看法就是至少承认这个现象可能是出于外界因素(如反复元件的存在)的影响。

小结在世界各地科学家们每天都要执行序列比对和数据库搜索成千上万此,并且所有的分子生物学都应该熟悉这些要紧的工具。这些方法注定要不断发展,并且接受不断增长的数据库容量的挑战。特别是当可利用的信息增长时,使用者更加难以解释其结果。数据库搜索工作台致力于事后处理搜索结果并且图形显示,从而

Page 205: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

解决这一问题。这些策略的例子包括 PowerBLAST(Zhang and Madden,

1997),BLIXEM(Sonnhammer and Durban, 1994)和 BEAUTY(Worley

et al., 1995)。

这一章描述了数据比较的一些基本概念,但是使用大量不同的程序以获得更详尽的信息非常有用。研究人员应该了解程序工作的基本操作,并且选择相应的参数。此外,他们应该了解潜在的外部影响并且知道如何避免。最重要的是,应该结合实验方法的发现和评估事物的强大威力。

第七章中涉及到的可以在互联网上使用(获得)的软件:

CULSTAL.W ftp://ftp.ebi.ac.uk/pub/software/

DOTTER ftp://ftp.sanger.ac.uk/pub/dotter/

LALIGN.FASTA

ftp://ftp.virginia.edu/pub/fasta/

BLAST ftp://ncbi.nlm.nih.gov/blast/

SEG ftp://ncbi.nlm.nih.gov/pub/seg/

参考文献:Altschul.S.I : (1991).Amino acid substitution matrices from an information theoretic perspective. J.Mol.Bio. 219. 555-565.

Altschul.S.E. and Erickson.B.W. (1985). Significance of nucleotide sequence alignments: A method for random sequence permutation

Page 206: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

that preserves dinucleotide and codon usage. Mol.Biol.Evol. 2. 526-538.

Altschul.S.E. and Erickson.B.W. (1986). Locally optimal subalignments using nonlinear similarity functions. Bull.Math.Biol. 48. 633-660.

Altschul.S.E and Gish.W. (1996). Local alignment statistics. Methods Enzymol. 266. 460-480.

Altschul.s.E., Gish.W., Miller.W., Myers.E.W., and Lipman.D.J. (1990). Basic local alignment search tool. J.Mol.Biol. 215. 403-410.

Altschul.S.E., Boguski.M.S., Gish.W., and Wootton.J.C. (1994). Issues in searching molecular sequence databases. Nature Genet. 6. 119-129.

Altschul.S.e., Madden.T.L., Schaffer. A.A., Zhang.J., Zhang.Z., Miller.W., and Lipman.D.J. (1997). Gapped BLAST and PSI-BLAST: A new generation of protein database search programs. Nucl.Acids.Res. 25. 3389-3402.

Baron.M., Norman.D.G., and Campbell.I.D. (1991). Protein modules. Trends Biochem.Sci. 16. 13-17.

Chandrasekharappa.S.C., Guru.S.C., Manickam.P., Olufemi.S.E., Collins.E.S., Emmert-Buck.M.R., Debelenko.I..V., Zhuang.Z.., Lubensky.I.A., Liotta.L.A., Crabtree.J.S., Wang.Y., Roe.B.A., Weisemann.J., Boguski.M.S., Agarwal.S.K., Kester.M.B., Kim.Y.S., Heppner.C., Dong.Q., Spiegel.A.M., Burns.A.L., and Marx.S.J. (1997). Positional cloning of the gene for multiple endocrine neoplasia- Type 1.Science 276. 404-407.

Clavrie.J.M., and Makalowski.W. (1993). Alu alert.Nature. 371. 752.

Dayhoff.M.O., Schwartz.R.M., and Orcutt.B.C. (1978). A model of evolutionary change in proteins . In Atlas of Protein Sequence and Structure. M. O. dabhoff. ed. (Washington.DC: National Biomedical Research lFoundation). pp. 345-352.

Doolittle.R.J., and Bork.P. (1993). Evolutionarity mobile modules in proteins. Sci Am. 269. 50-56.

Doolittle.R.F., Hunkapiller.M.W., Hood.L.E., Devare.S.G., Robbins.K.C., Aaronson.S.A., and Antoniades.H.N. (1983). Simian

Page 207: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

sarcoma virus onc gene, v-sis, is derived from the gene (or genes) encoding a platelet-derived growth factor. Science 221. 275-277.

Fitch.W.M. (1969). ocating gaps in amino acids sequences to otimize the homology between two proteins. Biochm.Genet.3. 99-108.

Fitch.W.M. (1983). Random sequences.J.Mol.Biol. 163. 171-176.

Gibbs.A.J., and Melntyre.G.A. (1970). The diagram: A method for comparing sequences. Its use with amino acid and nucleotide sequences. Eur.J.Biochem. 16. 1-11.

Gonzalez.P., Hemandez-Calzadilla.C., Rao.P.V., Rodriguez.I.R., Zigler.J.S., Jr., and Borras. T. (1994). Comparative analysis of the zeta-crystallin/quione reductase gene in guinea pig and mouse. Mol.Biol.Evol. 11. 305-315.

Henikoff.S., and Henikoff.J.G. (1991). Automated asscembly of protein blocks for database searching. Nucl.Acids.Res. 19. 6565-6572.

Henikoff.S., and Henikoff.J.G. (1992). Amino acid substitution matrix from protein blocks. Proc.Natl.Acad.Sci. U.S.A. 89. 10915-10919.

Higgins.D.G., Thompson.J.D., and Gibson.T.J. (1996). Using CLUSTAL for multiple sequence alignments. Methods Enzymol. 266. 383-402.

Holm.L.., and Sander.C. (1997). Enzyme HIT. Trends Biochem.Sci. 22. 16-117.

Huang.X., Hardison.R.C., and Miller.W. (1990). A space-efficient algorithm for local similarities. Comput.Appli.Biosci. 6. 373-381.

Jurka.J., Klonowski.P., Dagman.V., and Pelton.P. (1996). CENSOR: A program for identification and wlmination of repetitive elements from DNA sequences. Comput.Chem. 20. 119-122.

Karlin.S., and Altschul.S.F., (1990). Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes. Proc.Natl.Acad.Sci. U.S.A. 87. 2264-2268.

Karlin.S., and Altschul.S.E. (1993). Applications and statistics for multiple high-scoring segments in molecular sequences. Proc.Natl.Acad.Sci. U.S.A. 90. 5873-5877.

Page 208: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Lipman.D.J., and Pearson.W.R. (1985). Rapid and sensitive protein similarity searches. Science . 227. 1435-1441.

Needleman.S.B., and Wunsch.C (1970). A general method applicable to the search for similarities in the amino acid sequence of two proteins. J.Mol.Biol. 48. 443-453.

Patthy.L., (1991). Modular exchange principles in proteins. Curr.Opin.Struct.Biol. 1., 351-361.

Pearson.W.R. (1996). Effective protein sequence comparison. Methods Enzymol. 266. 227-258.

Pearson.W.R., and Lipman.D.J. (1988). Improved tools for biological sequence comparison. Proc.Natl.Acad.Sci. U.S.A. 85. 2444-2448.

Smith.T.F., and Waterman.M.S. (1981). Identification of common molecular subsequences. J.Mol.Biol. 147. 195-197.

Smith.T.F. Waterman.M.S., and Burks.C. (1985). The statistical distribution of nucleic acid similarities. Nucl.Acids.Res. 13. 645-656.

Sonnhammer.E.L..L., and Durban.R. (1994). A workbench for large scale sequence homology analysis. Comput.Appl.Biosci. 10. 301-307.

Sonnhammer.E.L..L.., and Durban.R. (1996). A dot-matrix program with dynamic threshold control suited for genomic DNA and protein sequence analysis. Gene 167. GCI-10.

Waterfield.M.D.., Scrace.G.T.., Whittle.N.., Stroobant.P.., Johnsson.A.., Wasteson.A.., Westermark.B.., Heldin.C.H.., Huang.J.S.., and Deuel.T.F. (1983). Platelet-derived growth factor is structurally related to the putative transfoming protein p28sis of simian sarcoma virus. Nature. 304. 35-39.

Waterman.M.S.., and Eggert.M. (1987). A new algorithm for best subsequence alignments with applications to tRNA-rRNA comparisons. J.Mol.Biol. 197. 723-728.

Waterman.M.S.., and Vingron.M. (1994). Rapid and accurate estimates of statistical significance for sequence database searches. Proc.Natl.Acad.Sci. U.S.A. 91. 4625-4628.

Page 209: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Wilbur.W.J.., and Lipman.D.J. (1983). Rapid similarity researches of nucleic acid and protein data banks. Proc.Natl.Acad.Sci. U.S.A. 80. 726-730.

Wootton.J.C. (1994). Non-globular domains in protein sequences: Automated segmentation using complexity measures. Comput.Chem. 18. 269-285.

Wootton.jJ.C.., and Federhen.S. (1993). Statistics of local complexity in amino acid sequences and sequence databaseas. Comput.Chem. 17. 149-163.

Wootton.J.C.., and Federhen.S. (1996). Analysis of compositionally biased regions in sequence databases. Methods Enzymol. 266. 554-571.

Worley.K.C.., Wiese.B.A.., and Smith.R.F. (1995). BEARTY: an enhanced BLAST-based search tool that integrates multiple biological information resources into sequence similarity search results. Genome Res. 5. 173-184.

Zhang.J.., and Madden.T.L.. (1997). PowerBLAST: A new network BLAST application for interactive or automated sequence analysis and annotation. Genome.Res. 7. 649-656.

上一页 下一页 返回目录 返回茶庄 

第八章 多序列比对的实际应用(另加)Andreas D.Baxevanis

Genome Technology Branch

National Human Genome Research Institude

National Institutes of Health

Bethesda.Maryland

Page 210: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能,不管它们是双重比对还是多序列比对,都可以回答大量的其它的生物学问题。举例来说,面对一堆搜集的比对序列,人们会研究隐含于蛋白之中的系统发生的关系,以便于更好地理解蛋白的进化。人们并不只是着眼于某一个蛋白,而是研究一个家族中的相关蛋白,看看进化压力和生物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域,我们可以对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性。

显然,分析一群相关蛋白质时,很有必要了解比对的正确构成。发展用于多序列比对的程序是一个很有活力的研究领域,绝大多数方法都是基于渐进比对(progressive alignment)的概念。渐进比对的思想依赖于使用者用作比对的蛋白质序列之间确实存在的生物学上的或者更准确地说是系统发生学上的相互关联。不同算法从不同方面解决这一问题,但是当比对的序列大大地超过两个时(双重比对),对于计算的挑战就会很令人生畏。在实际操作中,算法会在计算速度和获得最佳比对之间寻求平衡,常常会接受足够相近的比对。不管最终使用的是什么方法,使用者都必须审视结果的比对,因为再次基础上作一些手工修改是十分必要的,尤其是对保守的区域。

由于本书偏重于方法而不是原理,这里只讨论一小部分现成的程序。我们从两个多序列比对的方法开始,接下去是一系列的利用蛋白质家族中已知的模体或是式样的方法,最后讨论两个具有赠送的方法,因为绝大多数公开的算法不能达到出版物的数量。在本章结尾部分将会列出更详细的多序列比对的算法。

Page 211: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

渐进比对方法CLUSTAL W

CLUSTAL W 算法是一个最广泛使用的多序列比对程序,在任何主要的计算机平台上都可以免费使用。这个程序基于渐进比对的思想,得到一系列序列的输入,对于每两个序列进行双重比对并且计算结果。基于这些比较,计算得到一个距离矩阵,反映了每对序列Bioinformatics: A Practical Guide to the Analysis of genes and Proteins

Edited by A.D. Baxevanis and B.E.E. Ouellette

ISBN 0-471-191965. pages 172-188. Copyright © 1998 Wiley – Liss. Inc.

   的关系,于是,基于邻近加入方法,这个矩阵被用来计算出一个系统发生辅助树。这个辅助树,加权后可以证实极相近的序列,然后以双重比对极相近的序列开始,为组建比对提供基础,然后重新比对下一个加入的比对,依次类推。如果加入的序列较多,那么毫无疑问,必须加入空位以适应序列的差异,但是加入空位必须接受空位开放罚分和空位扩展罚分。在绝大多数情况下,使用者不会在比对时加入结构信息,但是空位开放补偿利用了可以出现在 α-螺旋或 β-折叠末端的特殊残基以及空位罚分所偏好的残基,众所周知,这些残基更喜欢显示这

Page 212: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

个特异性。已经存在的空位的扩展原则很简单,只是要在那些极有可能在结构中形成弯曲的位点扩展空位,这些空位扩展罚分计算是有位置决定的。

为了介绍基于 UNIX平台的 CLUSTAL W 的使用,考虑一下从四种不同物种来源的 UIA 蛋白(人类,鼠,Xenopus laevis 和果蝇)。这四种输入序列放在一个单独的文件中,作成六种可以接受的格式中的一种,然后在 UNIX提示符下执行 clustalw,用户必须执行命令才会看见主菜单:

*********************************************************************

**********CLUSTAL W(1.60) Multiple Sequence Alignments******************

*********************************************************************

1. Sequence Input From Disc 2. Multiple Alignments 3. Profile / Structure Alignments 4. Phylogenetic trees

S. Execute a system command

H. HELP

X. EXIT (leave program)

Your choice: 1

选择菜单中的选项 1(Sequence Input From Disc)以输入要比对的序列,选择 1后会出现序列输入菜单:

Sequences should all be in 1 title.

6 formats accepted:

NBRF PIR, EMBI, SwissProt, Peat son (Fasta), GDE, Clustal, GCG MSF.

Page 213: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Enter the name of the sequence file: UIA.seqs

系统会提示用户有六种可以接受的格式,然后会提问输入序列的文件名,在这里序列输入文件名为UIA.seqs,一旦输入这个文件名,屏幕上会显示读取文件的过程,然后返回主菜单,这时,用户可以选择选项 2 进行多序列比对:

**************** MULTIPLE ALIGNMENT MENU *****************

1. DO COMPLETE MULTIPLE ALIGNMENT NOW (Slow / Accurate) 2. Produce guide tree file only 3. do alignment using old guide tree file 4. Toggle Slow Fast pairwise alignments = SLOW 5. Pairwise alignment parameters 6. Multiple alignment parameters

7. Reset gaps between alignments? = ON

8. Toggle screen display = ON

9. Output format ooptions

S. Execute a system command

H. HELP

or press [RETURN] to go back to main menu

Your choice: 1

从这一点看,用户在执行多序列比对时有很多选择的自由,举例来说,在Multiple Alignment Parameters下,用户可以实际空位开放和扩展的罚分,指出在组建辅助树时分歧到什么程度证明可以跳过一个序列,选择一个分值矩阵(BLOSUM 或 PAM),并且可以选择当一个亲水残基出现(或缺失)在一个特异位点时,是否要执行特异性罚分,如果需要,要罚多少分。在 Pairwise

Alignment Parameters下,用户可以调整用于慢比对和快比对的罚分和窗口

Page 214: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

大小。因为在这个例子中,我们没有可以用来指示我们改变比对参数的任何信息因此只有选择选项 1(”Do complete multiple alignment now”)。选择选项 1后,程序会在屏幕上显示构件辅助树的过程,然后开始真正的所序列比对。

CLUSTA W 结束时,会显示最终的比对结果,上述的例子的结果显示在图 8.1

中。在比对下方,一些位点被标记为星号或圆点,这些标记分别显示这些残基在序列中是绝对或是高度保守的。如果返回的比对出现太多的空位或是不考虑这些蛋白的任何已知信息,用户就可以再修正参数,然后返回程序,看它是否影响最终的比对。CLUSTAL W (1.60) multipls sequence alignment

hum-U1A ------MAVPETRPNHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRSLKMRGQ

mse-U1A MATIATMPVPETRANHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRIMKMRGQ

xla-U1A ------MSIQEVRPNNTIYINNLNEKIKKDELKKSLYAIFSQFGQILDELVSRNLKMRGQ

dme-U1A ---------MEMLPNQTIYINNLNEKIKKEELKKSLYAIFSQFGQILDIVALKTLKMRGQ

* * *************.****************** . . .*****

hum-U1A AFVIFKEVSSATNALRSMQGFPFYDKPMRIQYAKTDSDIIAKMKGTFVERDRKR-EKRKP

mse-U1A AFVIFKEVTSATNALRSMQGFPFYDKPMRIQYAKTDSDIIAKMKGTYVERDRKR-EKRKP

Page 215: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

xla-U1A AFVIFKETSSATNALRSMQGFPFYDKPMRIQYSKTDSDIIAKMKGTFVERDRKRQEKRKV

dme-U1A AFVIFKEIGSASNALRTMQGFPFYDKPMQIAYSKSDSDIVAKIKGTFKERPKKVKPPKPA

******* **.****.***********.* *.*.****.**.***. ** .* .

hum-U1A KSQETPATKKAVQGGGATPVVGAVQGPVPGMPPMTQAPRIMHHMPGQPPYMPPPGMIPPP

mse-U1A KSQETPAAKKAVQGGAAAPVVGAVQ-PVPGMPPMPQAPRIMHHMPGQPPYMPPPGMIPPP

xla-U1A KVPEVQGVKNAMPGAALLPGVPGQMAAMQDMPGMTQAPRMMH-MAGQAPYMHHJPGMPPP

dme-U1A PGTDEKKDKKKK-----------------------------------------------P

. * *

hum-U1A GLAPGQIPPGAMPPQQLMPGQMPPAQPLSENPPNHILFLTNLPEETNELMLSMLFNQFPG

mse-U1A GLAPGQIPPGAMPPQQLMPGQMPPAQPLSENPPNHILELTNLPEETNELMLSMLFNQFPG

xla-U1A GMAPGQMPPGGMPHGQLMPGQMAPMQPISENPPNHILFLTNLPEETNELMLSMLFNQFPG

dme-U1A SSAENSNP-----------------NAQTEQPPNQILFLTNLPEETNEMMLSMLFNQFPG

* . * . .*.***.*************.***********

hum-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARDALQGFKITQNNAMKISFAKK

Page 216: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

mse-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARDALQGFKITQNNAMKISFAKK

xla-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARESLQGFKITQSNSMKISFAKK

dme-U1A FKEVRLVPNRHDIAFVEFTTELQSNAAKEALQGFKITPTHAMKITFAKK

********.********* .*.*..**...******* ..***.****

图 8.1、 以四种 U1A 序列为一系列的输入序列,使用 CLUSTAL W 多序列比对程序后得到的比对结果。保守性极高的残基位置由星号标记在序列下方的相应位置,保守性稍低的残基由打点标记出来。 MultiAlin

MultAlin 方法也是基于用一系列双重比对开始的思想,然后基于双重比对的打分值进行一个分层次的聚类。当序列都分成类后,开始进行多序列比对,计算出多序列比对中的两个序列比对的新值,基于这些新值,重新构建一棵树。这个过程不断进行,直到分值不在上升,此时所序列比对也就结束了。

MultAlin 可以在 INRA Toulouse 的一个环球网点上很容易地执行,要比对的序列按照 FASTA 的格式被粘贴到一个序列输入框内,然后从一系列下拉菜单中,用户定义适当的参数,比如输出格式,可选的输入格式,引用的分值矩阵以及空位开放和扩展罚分的分值。大多数用户只会根据输入序列的远近关系,选择不同的分值矩阵。然后,序列被提交到服务器上,当多序列比对返回时,会计算一个一致序列并显示在比对的下方。举例来说,如图 8.1 所示的用 CLUSTAL W

Page 217: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

比对的同样的序列被提交给 MultAlin 服务器,接受缺省的比对参数,其结果如图 8.2 所示,在一致序列中,所有序列都匹配的残基相应的位置用此残基的大写字母表示,大多数都匹配的用小写字母表示,同样地,符号!、$、%和#分别表示保守取代,具体含义如图 8.2上方的图例。

很明显,用两种方法分别得到的比对结果并不完全一样。主要区别在于CLUSTAL W 在果蝇序列中开放了两个长度超过 10 的空位,而MultAlin只开放了一个长空位,而且,MultAlin 可以得到比 CLUSTAL W 多 20 个完全相同残基的排队,当然,这并不以为这一种方法比另外一种方法优越,这有要重提本书的一个不便的话题,即从输入序列的性质出发,应用不同的方法会得到不同程度的成功。警慎的用户会选择若干个工具同时使用,并且对最终的比对结果作手工修正以期达到最佳效果。 

模体和样式前面叙述的方法对于多序列比对极为有用,但是用户必须实现搜集好独立的输入序列,要么通过一系列的 BLAST 或其它的数据库搜索,要么在实验室里直接作出决定。但是,有太多的方法可以获取一个单独的序列,并且基于此序列中的任何模体或样式,返回所有的蛋白质家族,完成某个特异方法所定义的最佳比对。很多时候,这些方法所揭示的距离关系并非从例行的标准的数据库搜索中轻易获取。在这一部分,我们讨论两种方法,都是搜索特殊数据库以获取序列的模

Page 218: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

体和样式的,当然也是两种从最少的序列信息中进行蛋白质家族分类的强有力的方法。ProfileScan

基于经典的头文件分析的 Gribskov 方法,ProfileScan 使用一种称为 pfscan 的方法寻找一个蛋白质或核酸的查询序列同一个头文件库的相似性,因此,在搜索中需要有两个头文件库:第一个是 PROSITE,一个 ExPASy 数据库,通过使用模体和序列样式(诸如指纹)将生物学意义重大的位点收集分类;第二个是Pfam ,收集了蛋白质结构域家族,与其它收集方法有很大不同的是,最初的蛋白质结构域的比对完全是有手工完成的,而不是依靠自动化的处理方法,正因为这样,Pfam只拥有 500 多条款目,但这些款目的质量极好。

基于 PROSITE 和 Pfam 的搜索可以通过访问 ProfileScan 的主页完成,她只需要一条简单的输入序列(用文本格式),或者一个标号,比如一个 SWISS-

PROT ID。用户可以选择搜索的敏感度,选择返回显著的匹配或者所有匹配,甚至包括边界的情况。为了说明输出的格式,我们现在向 PROSITE 系统提交人类的热休克诱导蛋白的序列作一次搜索:

normalized taw from to Profile | description

355,9801 41556pos 6 - 612 PF00012 | HSP70 Heat shock hsp70 protein

真正返回的 PROSITE 条目显得并不希奇,输出里含有值得注意的分值,这个前期加工(raw)的分值就是真正由搜索时使用的打分矩阵计算出来的,更信息化的数字是“normalized”,即N值,N值通常给出了用户在一个已知大小

Page 219: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

的数据库中可以寻找到的可能的匹配的数目,基本上来说,N值越大,偶然发生的命中几率就越小。举例来说,如果N值为 355,偶然命中的几率只有1.94Х10-349。数字“from”和“to”只是显示出查询序列和匹配的头文件重叠的位点。BLOCKS

BLOCKS 数据库利用了块的概念,对蛋白质家族进行鉴定,而不是只依赖于单个的序列本身。块的思想来源于更加普遍的概念�模体(motif),模体通常是指一段氨基酸序列的保守的伸展,拥有一定的蛋白质功能或者结构。当这些来源于同一家族中的蛋白质中的模体比对时(不引入空位),其结果就是块;块就是指比对,而不是序列本身。很明显,任何一个独立的蛋白都可以包含一个或者更多个的块,对应于它的每一个功能和结构模体。

BLOCKS 数据库本身来源于 PROSITE 的条目。当使用一个感兴趣的序列进行BLOCKS 搜索时,查询序列就会同数据库中所有的块在任何可能的位点进行比对,对于每一个比对都会使用位点特异分值矩阵或者 PSSM 进行打分。PSSM

和这本书前面叙述的分值矩阵(例如BLOSUM62)的重大区别在于,其分值考虑到了在给定的位点是否拥有一个匹配以及一个给定氨基酸占据块中的位点的可能性。所有基于这种形式的方法的核心思想都是观测残基占据比对蛋白质块中的一个特异位点的几率,这在本部分的结尾就会变的十分明白。

BLOCKS 搜索可以通过访问西雅图的 Fred Hutchinson肿瘤研究中心的BLOCKS主页完成,这个网点很直接,允许执行基于序列或者关键词的检索。

Page 220: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

如果用户在输入时使用了 DNA 序列,他就可以指明使用哪个遗传密码,搜索哪条链。不管执行搜索的是一个序列还是一个关键词,成功的搜索将会返回相应的块,图 8.3 显示了一个例子。在这个条目中(一个核内激素受体,称为类固醇指针),头几行按顺序分别标记为 ID,AC 和 DE,给出了这个块代表的家族的缩写,BLOCKS 数据库注册码和家族的详细描述;BL 行给出了关于组建这个特别的块的原始序列模体的信息:参数 width 和 seqs表示 block 的宽度(用残基计算),以及这个块中有多少序列数目,接下来是统计学有效性和构成长度的信息;最后是序列列表,只显示出对应于这个特殊模体的序列部分,每一行的开头都是这个序列的 SWISS-PROT 注册码,第一个残基在整个序列中的位置,然后是序列本身以及基于位点的序列权重,这个权重用 100刻度,100表示序列距离这个群体最远;注意到有些序列行中有空行:部分比对被聚集在一起,在每个聚集中,80%的序列残基是相同的。MoST MoS

模体搜索工具(或者写作 MoST),是一个 UNIX 程序,用来进行数据库搜索以寻找保守的模体。这个方法使用比对序列块(比对块,alignment block),可以容纳任意数目 N 的序列,每一个长 L,所有序列长度必须一致,但是在目前还不能引进空位。这个比对块用来产生一个蛋白质权重矩阵,然后对所有序列进行矩阵扫描,从目标蛋白质数据库开始搜索,对每一个长 L 的片段通过加和适合的权重矩阵元素得到其分值。如果找到在统计学上显著地匹配于序列块的序列,这些序列也会被加入到序列块中。搜索完一个循环后,权重矩阵必须重新计算,

Page 221: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

然后重新进行搜索,这个过程反复进行,直到再也找不到统计学意义显著的匹配序列为止,这个过程因而在数据库搜索过程中不断积累新的信息。

在执行 MoST时有一个可以设置的参数就是比例 R,R表示预期的虚假匹配数目被预测的真实匹配数目。因为MoST 搜索预期将会收敛(就是说因为不会再找到新的序列,反复过程将会终止),所以 R值的选择十分重要。如果R值太高,搜索就会延伸而不是收敛,最后会引进目标数据库中的所有序列,避免虚假匹配的一个方法就是逐渐增大 R值,观察匹配的数量和质量,如果可能出现延伸就放弃增大 R值。

MoST命令行形式为:

most database block [method] [seg] [cutoff] [i#%] > outfile

在这里 database指明要搜索哪一个数据库;block指明含有输入比对块的文件名(用 FASTA 格式存储);可选的 method 参数指明了怎样计算依赖位置的权重矩阵:如果不加指明,缺省值将选择出现一个特殊残基的可能性的Dirichlet 分布,选项 1 引用加权平均(Gribskov 方法),选项 2 引用Bayesian伪记数方法,选项 3 引用依赖数据的伪记数模型,至于执行中如何选择,在 MoST 的原始参考书中有详细描述,新用户应该先使用缺省值,检查结果的质量,然后考虑是否改变参数;seg 参数指明搜索中是否应用 seg 过滤算法,seg(缺省)表示开关开,-seg表示开关关;阈值 cutoff指明上面描述的比例 R,推荐初始值选择在 r0.1-r0.5;最后,使用 i#%参数将对输入块进行限制,比如,如果指定为 i80%,在组中只有相同比列大于 80%才被引用,

Page 222: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

这个选项可以在出现从多个物种来源的相同序列时,有效地放置数据系统的扭曲。

图 8.4 显示了一个 MoST 输出的例子。输出文件很便利地回应了开始的命令,允许多重 MoST,一个接一个地辨别。接下来是真正的块,头和尾都有一个额外的序列,标记 MAX 的序列被认为是一个 de facto 一致序列,它是基于计算矩阵得分最高的序列,在这里,它得分为 609,分值显示于序列最末端;同样道理,标记为min 的序列是最不一致的序列,得分最低,实际比对块的序列介于两行之间,按高分到低分排列,序列左边是序列标号,右边是分值。

图 8.5是输出的延续,作为这个输入块的第一轮重复的结果,找到了 5 个新序列(比对的上方)。在新序列的左边是这个条目的 Def 行的前几个特征,然后是显示的第一个残基的位置,序列本身以及序列的统计值。更进一步,原始序列(比对块中的序列)再出现,这些序列可以反过头来使用更在 Def 行后的标志数字同序列块相比。数字被缩短了,但是输出文件仍然继续,显示每一轮的计算结果,直到收敛。这个输出的一个好特点就是不匹配于块的残基很容易显示出来比对过程中程序已经替用户把它们用小写字母表示出来了。.

PROBE

有一个最新的比对模型程序叫做 PROBE,在某些方面,PROBE 与 MoST很相似,它们都运用反复计算的策略检测较远关系的序列,但是,从本质上讲,算法的机制是不一样的,所以有必要作进一步的讨论。

Page 223: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

在决定哪些序列相关时,PROBE 执行一个及物的搜索,如果一个双重搜索发现序列 A 和 B是相关的,另外一个搜索发现序列 B 和 C是相关的,那么 A 和 C就一定相关,即使 A 和 C 之间的双重比对没有直接发现它们相关。通过一系列的BLAST 搜索,所有这样的联系都被反复演绎出来,直到再不会发现新的序列。在这样一系列相关序列组成的集合上,将会进行一系列的比对,反复比对,直到比对不再改善。这时,将会进行下一轮的数据库搜索,应用上一轮的最佳比对寻找在上一轮中被忽略的相关序列。PROBE 程序反复操作这一过程,直到搜索收敛为止。

PROBE 和 MoST 之间的一个很重要的区别就在于 PROBE 在搜索开始时只需要一个序列作为“种子”,即使可以使用一个家族的序列,而在 MoST 程序中,必须输入一个预先准备好的不包含空位的比对。因为无法保证用机器寻找到的比对比手工的比对质量要好(很多时候恰恰相反),在进行 MoST 搜索时必然会携带手工计算比对时的位点偏向因素。MoST 和 PROBE 处理输入的方法是不一样的,MoST 一次必须处理一个比对块,而 PROBE按照反复搜索中的发现把输入序列分成多个块,在这里,用户要决定是否维持块的完整以及块是否可以进一步分成更小的组成单位,作出决定时最好依据它们的生物学功能。最后,MoST是一个贪婪的算法,下一轮搜索中发现的新序列一旦加入就不会被剔除,于是一个虚假的匹配很可能在接下来的搜索中不断蔓延,很可能引入更多的虚假匹配;而 PROBE 使用一个“jack knife”的程序会自动消除这样不相关的序列,就是说,推定的虚假匹配会被从数据中取消,然后重新搜索数据库,如果这个序列确实相关的话,它会在以后重新被加入到数据中去。

Page 224: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

PROBE 程序的 UNIX 发行版本的命令行采用这个形式:probe fastafile database –s<int> [options] > outfile

在这里,fastafile是进行搜索的种子序列文件,采用 FASTA 格式存储;database是要搜索的目标数据库;跟在-s标志后面的数字是进行搜索的随机种子,然后是打分阈值选项,可以是任意一个数字,再后面是返回序列的最大数目,等等。程序执行一次需要相当长的时间,但是得到的输出结果是相当值得的。图 8.6 显示了一个 PROBE得到的输出文件,种子序列是 amphoterin,一种和高度流动组蛋白(HMG-1)相关的 DNA-捆绑蛋白;最后找到了两个块,共包含 50 多个残基,每个块都是 PROBE 用统计学计算出来的最佳比对。对于每个序列,属于块部分的序列残基数目都被显示出来,后面跟着一个 gi标记符以及这个条目的统计值。PROBE产生的输出文件包含残基频率信息,以及内容信息,统计信息和”jack knife”程序剔除的序列列表。 

演示方法上述的比对方法对于寻找最佳比对这一点都很严格,但是它们的输出结果的阅读质量都不是太好,所以有必要从这些程序中得到输出结果,然后把结果输出到另外一些软件中去,使得多序列比对的结果可读性更好一些。这些演示方法通常都会让使用者更加容易地识别所有序列中精巧的序列样式,比通常显示的“一致序列”效果还好。MacBoxShade

Page 225: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

MacBoxShade(或者简写为MacBox),是VMS/UNIX 应用程序BoxShade 的一个 Macintosh 版本,它提供一个很简单的机制使得多序列比对结果形成一定的格式。MacBox只能读GCG MSF 格式的比对文件,所以必须用其他程序(例如ReadSeq)把序列文件转化为它可以阅读的形式。虽然只支持一种输入格式,但是再输出上就有较多的选项了:这包括 PostScript,支持 PostScript打印机或者用 PostScript 形式浏览;还有 PICT,缺省的Macintosh 格式,可以输入到字处理或者图形处理软件中去。通过大量的简单对话框,用户可以指定色彩方案,给残基记数的形式,以及与计算一致序列有关的选项。

Sims 和 Groups是两个重要的对话框,控制了如何计算一致序列,两者的区别很细微但是十分重要。Sims 对话框定义了什么样的残基之间相互相似,并且关系并非相反;Groups 对话框允许确认离散的群体,再这些群体中,所有同一个群体中的残基都认为是相同的,就是说,如果一个群体被定义为拥有lysine,arginine 和 histidine,那么在一个比对中给定位点出现任何一个这样的残基都会被认为是匹配的。检测这两个对话框十分重要,因为用户希望用缺省值计算一致序列。

为了描述 MacBox 的使用,一定量的组蛋白 H1 序列和从酵母中得到的 H1经过比对,并且被转化为MSF 格式,这个 MSF 序列文件被MacBox打开,并且要求程序通过普通对话框打印一致序列。还是在同一个对话框中,显示一致序列的方法被改为BLU,意思是在一个给定位点,非保守位点用空格(blank)表示,保守残基用小写字母表示,相同残基用大写字母表示。要真正运行比对程序

Page 226: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

可以从“Do it!”下拉菜单中选择“Display PICT”,会产生如图 8.7 的窗口,一致序列的表示法可以在普通对话框中改变成用户期望的形式。用户可以不象这里所作的根据所有序列的相似性留下阴影的形式,而是可以指定比对中的一个单个序列,然后根据其他序列同这个序列相似性的程度留下阴影。

对于没有Macintosh 或者 UNIX 机器的用户来说,原始的 BoxShade 程序可以通过互联网访问,通过下拉菜单而不是上述的对话框。当然,那样是不可能选择色彩方案或者选择如何显示一个一致序列了,但是可以指定一致序列基于字母还是符号。ALSCRIPT

ALSCRIPT是一个基于 UNIX 或者 PC 机平台的程序,它可以灵活地把多序列比对的输出结果格式化为 PostScript 格式,然后比对就可以在 PostScript打印机上打印或者用 PostScript 浏览。ALSCRIPT 的输入必须是如下三种格式之一:一个块文件,CLUSTAL W 格式或者 GCG 格式;使用 CLUS2BLC 和MSF2BLC 程序可以把其他格式转化为ALSCRIPT 可以阅读的格式,这两个程序都在 ALSCRIPT 程序包中。ALSCRIPT 在报告比对时提供了很好的灵活性:用户可以指定字体,部分比对的方框,选择阴影,增加文本识别,增加符号和行数以及颜色的选择。虽然ALSCRIPT本身不能产生或者编辑比对,但是它可以计算出一致序列并且用适当的方式显示匹配于一致序列的残基。正确使用程序可以揭示序列中的某些特征,比如电荷分布或者序列信号。

Page 227: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

图 8.8 显示了一个 ALSCRIPT命令文件格式的例子,命令文件被分解为两个逻辑部分,称为步骤 1 和步骤 2。步骤 1(Step1)命令控制了比对的总体面貌:字体型号,字体大小,记录定向以及颜色定义等等,步骤 1还给出了输入文件(BLOCK_FILE, 块文件)的位置以及比对输出的写入文件(OUT_FILE, 输出文件)。步骤 2 (Step2) 与比对的特定部分有关,比如改变同每一个序列相邻的标号,给特定的残基或者区域打上方框或阴影,给比对标上注释以及计算一致序列。所有这些例子都显示在图 8.8 中。注意那些注释行(行前标记为#),它们简单地介绍了每一个代码块的作用,这些代码都是由普通的大多数命令都使用的语法写的。跟在 BOX_REGION命令后面的四个数字显示序列中哪些区域被召集,在这里,第一个 BOX_REGION命令后面是 6 3 15 8,意思是从第三个序列的第六个残基开始到第八个序列的第十五个残基打上方框。写好的文件可以直接被ALSCRIPT 使用,这些文件可以从网上得到,也可以由发布的 UNIX

版本自带。

ALSCRIPT 和 MacBoxShade 使用的序列例子是一样的,但是程序本质上是不一样的,报告序列也是不一样的,图 8.7 和 8.9 的区别是很明显的。怎样评估和权衡十分容易:MacBoxShade 比较容易使用,因为所有因素都是对话框形式的,但是选项有限;而ALSCRIPT提供了更多的输出选项,但是正如显示的命令文件,学习怎样指定输出的格式需要一定的时间作为代价。实际上,ALSCRIPT命令文件可以由模式组成,这些模式使用于一个比对到另一个比对,只要用户对数字作必要的修改,这是一个很专业的产出结果。怎样选择比对格式

Page 228: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

工具依赖于用户的最终应用需要&#0;是要进行迅速地浏览观测还是要得到拥有出版质量的图形。

第八章中涉及到的有关课题的互联网地址:

比对方法(alignment

method)

HTTP 网址

   

Clustal W http://www2.ebi.ac.uk/culstalw/

MSA http://www.ibc.wustle.edu/ibc/msa.html

MultAlin http://www.toulouse.inra.fr/cgi-bin/multalin.pl

   

模体和样式(motifs and patterns)

HTTP 网址

   

BLOCKS http://blocks.fhcrc.org

MoST http://ncbi.nlm.nih.gov/pub/koonin/most/

Pfam http://www.sanger.ac.uk/Software/Pfam

Page 229: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

PROSITE http://expasy.hcuge.ch/sprot/prosite.html

PROBE ftp://ncbi.nlm.nih.gov/pub/neuwald/probel.0/

   

演示方法(presentation methods)

HTTP 网址

   

ALSCRIPT http://geoff.biop.ox.ac.uk/manuals/alscript/alscript.html

BoxShade http://ulrec3.unil.ch/software/BOX_form.html

MacBoxShade

ftp://ulrec3.unil.ch/pub/boxshade/MacBoxshade

   

转换效用(conversion utilities)

HTTP 网址

   

ReadSeq http://dot.imgen.bcm.tmc.edu:9331/seq-util/Options/readseq.html

参考文献:Bairoch.A. (1997). The PROSITE database: Its staus in 1997. Nucl.Acids.Res. 25. 217-221.

Page 230: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Barton.G. (1993). ALSCRIPT. a tool to format multiple sequence alignment. Protein Eng. 6. 37-40.

Corpet.F. (1988). Multiple sequence alignment with hierarchical clustering. Nucl.Acids.Res. 16. 10881-10890.

Gribskov.M.., McLachlan.A.., and Eisenberg.D. (1987). Profile analysis: Detection of distantly-related proteins. Proc.Natl.Acad.Sci. U.S.A. 84. 4355-4358.

Gribskov.M.., Homyak.M.., Edenfield.J.., and Eisenberg.D. (1988). Profile scanning for three-dimensional structural patterns in protein sequences. Comput.Appl.Biosci. 4. 61-66.

Henikoff.J.G.., and Henikoff.S. (1996). BLOCKS database and its applications. Methods Enzymol. 266. 88-105.

Higgins.D.G.., Thompson.J.D.., and Gibson.T.J. (1996). Using CLUSTAL for multiple sequence alignments. Methods Enzymol. 266. 383-402.

Luthy. R.., Xenarios.I.., and Lawrence.C.E. (1997). Extracting protein alignment models from the sequence database. Nucl.Acids.Res. 25. 1665-1677.

Sankoff.D. (1975). SIAM J.Appl.Math.78.35.

Tatusov.R.., Altschul.S.., and Koonin.E. (1994). Detection of conserved segments in proteins: Iterative scanning of sequence databases with alignment blocks. Proc.Natl.Acad.Sci. U.S.A. 91. 12091-12095.

上一页 下一页 返回目录 返回茶庄 

第九章 系统发育分析Mark A. Hershkovitz and Detlef D.Leipe

National Center for Biotechnology Information

Page 231: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

National Library of Medicine

National Institutes of Health

Bethesda,Maryland

 

系统发育学研究的是进化关系,系统发育分析就是要推断或者评估这些进化关系。通过系统发育分析所推断出来的进化关系一般用分枝图表(进化树)来描述这个进化树就描述了同一谱系的进化关系,包括了分子进化(基因树)、物种进化以及分子进化和物种进化的综合。因为”clade”这个词(拥有共同祖先的同一谱系)在希腊文中的本意是分支,所以系统发育学有时被称为遗传分类学(cladistics)。在现代系统发育学研究中,研究的重点已经不再是生物的形态学特征或者其他特性,而是生物大分子尤其是序列。

尽管本章的目的是想描述一个万能的系统发育分析方法,但是这个目标过于天真,是不可能实现的(Hills et al.,1993)。虽然人们已经设计了大量的用于系统发育的算法、过程和计算机程序,这些方法的可靠性和实用性还是依赖于数据的结构和大小,因此关于这些方法的优点和缺点的激烈争论成了分类学和系统发育学期刊的热门课题(Avise, 1994:Saitou, 1996; Li, 1997; Swofford et

al., 1996a)。Hillis等人(1993)曾经极其简单地介绍过系统发育学。

比起许多其它学科而言,用计算的方法进行系统发育分析很容易得到错误的结果,而且出错的危险几乎是不可避免的;其它学科一般都会有实验基础,而系统发育分析不太可能会拥有实验基础,至多也就是一些模拟实验或者病毒实验(Hillis et al., 1994);实际上,系统发育的发生过程都是已经完成的历史,

Page 232: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

只能去推断或者评估,而无法再现了。尽管现在的系统发育分析的程序存在着很多缺陷,许多生物学著作中仍然大量引用系统发育分析得到的结论,这些结论的源数据只是简单地应用了某一个系统发育的分析程序。只有在很偶然的情况下在应用某些软件处理数据时受到的困难会少一点,但是在概念上理解这些程序是如何处理数据仍然是个难题。

本文中关于系统发育分析方法的指导有如下一些目的。首先,我们要介绍一个概念性的步骤,这个步骤包含了当前在对生物序列进行系统发育分析时最广泛使用的方法中应用到的一些最重要的原理。这个步骤认为,所有的系统发育方法都刻画了一个模型去模拟真实的进化过程,然后假定程序发现的序列之间的差异是模拟的进化结果,而这个模型本身就包含了方法中固有的假定。对于一个好的使用的系统发育的分析方法,刻画一个正确的模型同描绘一个正确的进化树是同等重要的。另外,我们还将讨论一些比较通用的方法所刻画的模型,并且讨论一下这些模型是如何影响对数据组的分析的。最后,我们会针对系统发育模型和进化史的推论,提供一些具体方法应用的例子。

系统发育模型的组成系统发育的建树方法都会预先假定一个进化模型(Penny et al., 1994)。比如,所有广泛使用的方法都假定进化的分歧是严格分枝的,因此我们可以用树状拓扑发生图来描述已知的数据。但是在一个给定的数据组中,因为存在着物种的杂交以及物种之间遗传物质的传递,这个假定很可能会被推翻。因此,如果所观察的序列并非是严格遗传的话,大多数系统发育方法就会得到错误的结果。

Page 233: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

系统发育方法中固有的模型会导致一些额外的假定:

1. 序列有指定的来源并且正确无误(Helbig and Seibold, 1996;

Hershkovitz and Lewis, 1996; Soltis et al., 1997)。 2. 序列是同源的(也就是说,所有的序列都起源于同一祖先序列);这些序列不是“paralog“(paralog指的是一个祖先序列通过复制等方法在基因组中产生的歧化序列)的混合物。

3. 序列比对中,不同序列的同一个位点都是同源的。 4. 在接受分析的一个序列组中,序列之间的系统发育史是相同的(比如,序列组中不

存在核序列与细胞器序列的混合)。 5. 样本足以解决感兴趣的问题。 6. 样本序列之间的差异代表了感兴趣的宽组。 7. 样本序列之间的差异包含了足以解决感兴趣的问题的系统发育信号。

还有一些假定,在某些方法中是默认的,但是在另外一些方法中是可以修正的:

8. 样本序列是随机进化的。 9. 序列中的所有位点的进化都是随机的。 10. 序列中的每一个位点的进化都是独立的。

许多公开发表的系统发育分析结果的错误通常都是因为违反了上述假定,特别令人恼火的是现有的方法并不能察觉对基本假定的违反。每一个序列组都必须根据上述基本假定进行评估,并且同分析过程相协调。下面我们将会描述分析过程

系统发育数据分析:比对,建立取代模型,建立进化树以及进化树评估对 DNA 序列进行系统发育分析的四个主要步骤是比对,建立取代模型,建立进化树以及进化树评估。一般来说,执行这四个步骤的计算机程序都是相互独立的但是他们都是进行系统发育分析的有机部分。

Page 234: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

当前的讨论主要集中在分析 DNA 序列的方法上,这些方法基本上(不全是)仍然是通过碱基和密码子的替代来考察序列的差异;这个方法同样应用于对蛋白质序列的分析,但是由于氨基酸的生物化学多样性,我们必须引入更多的数学参数。因此,下面讨论的适用于核苷酸碱基的方法同样适用于氨基酸和密码子,而关于蛋白质的一些特殊问题和程序会在别的地方得到讨论(Felsenstein,

1996)。

因为建树的标准在一定程度上依赖比对和取代模型,因此一开始就应该介绍这些方法,这些介绍非常必要。三种主要的建树方法分别是距离、最大节约(maximum parsimony, MP)和最大似然(maximum

likelihood,ML)。距离树考察数据组中所有序列的两两比对结果,通过序列两两之间的差异决定进化树的拓扑结构和树枝长度。最大节约方法考察数据组中序列的多重比对结果,优化出的进化树能够利用最少的离散步骤去解释多重比对中的碱基差异。最大似然方法考察数据组中序列的多重比对结果,优化出拥有一定拓扑结构和树枝长度的进化树,这个进化树能够以最大的概率导致考察的多重比对结果。这些方面将会在后面详细讨论。

建立数据模型(比对)系统发育的序列数据通常会进行多重比对,也就是说,在系统发育的有关文献中通常会把那些单独的比对好的碱基所占据的位置称作位点;在进行系统发育的理论讨论时这些位点等同于特征符,而占据这些位点的真实的碱基或者空位被称为特征符状态;但是也有例外,STATALIGN 程序(Thorne and

Page 235: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Kishino, 1992)在进行系统发育分析时不会进行多重比对,它使用原始的未比对过的序列。

多重比对在第七章中有详细讨论,在这里我们只讨论与系统发育分析有关的多重比对方法。对准的序列位点将会被应用于系统发育分析,但是这只能描述一个先验的系统发育的结论,因为位点本身(不是真实的碱基)都是假定为同源的(Mindell, 1991; Wheeler, 1994)。因此,出于系统发育的目的,比对程序只是系统发育分析的一部分。

建立一个比对模型的基本步骤包括:选择合适的比对程序;然后从比对结果中提取系统发育的数据集,至于如何提取有效数据,取决于所选择的建树程序如何处理容易引起歧义的比对区域和插入----删除序列(即所谓的 indel状态或者空位状态)。

多重比对程序多重比对程序有如下一些属性:

计算机依赖性:无依赖;部分依赖;完全依赖。

系统发育调用:无调用;先验调用;递归调用。

比对参数评估:先验评估;动态评估;递归评估。

比对特征:基本结构(比如序列);高级结构。

Page 236: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

数学优化:统计优化;非统计优化。

在系统发育分析研究中,一个典型的比对过程包括:首先应用 CLUSTAL W 程序,然后进行手工比对,最后提交给一个建树程序。这个过程有如下特征选项:(1)、部分依赖于计算机(也就是说,需要手工调整);(2)、需要一个先验的系统发育标准(也就是说需要一个前导树);(3)、使用先验评估方法和动态评估方法(推荐)对比对参数进行评估;(4)、对基本结构(序列)进行比对(对于亲水的氨基酸,推荐引入部分的二级结构特征);(5)、应用非统计数学优化。这些特征选项的取舍都依赖于下面将要描述的具体的系统发育分析方法。

计算机依赖型提倡进行完全的计算机多重比对的人常常有这样的依据,他们认为手工比对通常都是含混不清的(Gatesy et al., 1993)。MALIGN(Wheeler and

Gladstein, 1994)和 TreeAlign(Hein, 1990, 1994)程序都试图在根据系统发育功能而优化比对的时候实现完全计算机化,尤其是试图通过初步的多重比对而优化出一个最大节约树(MP tree)。一般来说,只有当我们假定计算机程序能够进行正确的比对的时候,我们才会实行完全的计算机处理。之所以还提倡进行手工比对(比如,Thompson et al., 1994),是因为现在的比对算法和程序还不能满足系统发育分析的需要。

系统发育标准

Page 237: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

许多计算机多重比对程序(比如CLUSTAL, PileUp,ALIGN in ProPack)根据明确的系统发育标准(一个前导树)进行比对,这个前导树是由双重比对得到的。但是 SAM(Hughey et al., 1996)和 MACAW(Lawrence et al.,

1993)程序在进行多重比对时并不引入明确的系统发育标准,虽然这些程序也可以模拟系统发育过程操作参数。

如果在进行系统发育分析的时候,比对中引入了前导树,那么通过这个比对推导出的进化树逻辑上应该同前导树的拓扑结构相同。由CLUSTAL 比对得到的前导树(如图 9.1)将会被转化成 PHYLIP 树的文件格式,然后输入到画树程序中,这些画树程序包括 TreeTool(X windows), TreeDraw(Macintosh), PHYLODENDRON(Macintosh), TREEVIEW(Macintosh, Microsoft Windows) 或者 PAUP(图 9.1;Macintosh, Microsoft Windows)的画树工具。按道理,我们应该回过头来为CLUSTAL 比对再指定一个前导树,但是在实际操作中我们并不会这么做。有些程序(比如 TreeAlign and MALIGN)为了得到优化的比对和系统发育树,程序本身就设计了交叉(同步)递归优化的算法。理论上,能够解决比对----系统发育难题的同步优化算法或者配套算法应该是存在的,但是递归算法必须冒一定的风险,它很可能会导致一个错误的或者不完整的结果(Thorne and Kishino, 1992)。因此,根据比对结果建立进化树之后,必须考虑另外的可能性,也就是说,如果根据其它的比对结果得到一个并不是最优化的进化树,这个次优化的进化树是不是更能够满足研究的需要。

比对参数评估

Page 238: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

在比对中会出现一些序列区域,其长度是可变的,如何处理这些区域中 indel

状态的位点是最重要,这取决于进化模型的所有要素(比如,包括核苷酸转换/

颠换速率),而且相关的参数在前导树与比对推导的进化树中应该保持一致。比对参数应该随着进化的分叉动态变化(Thompson et al., 1994),只有这样才能保证碱基错配的几率能够满足序列趋异的需要;比对参数应该随时调整(Thompson et al., 1994, Hughey et al., 1996),以防止引入过多的近似序列而导致比对序列的信息量不足,可以通过降低近似序列的比对分值权重来防止这种情况。CULSTAL 程序兼顾了这两种情况(参数动态变化),而SAM 程序引入了序列权重。

利用基本结构或者高级结构进行比对根据二级或者三级序列结构进行比对,比起直接利用一级序列进行比对的可信度要好,因为在同源性评估中,人们一直认为复杂结构的保守性高于简单特征(核苷酸,氨基酸)的同源保守性,而且,立足于复杂结构的比对程序还可以搜索到一些特殊的关联位点,这些位点是进化的功能区域。实际上,基于系统发育的结构多重比对并没有将问题简化,也就是说,序列比对必须服从结构进化,而结构进化则同系统发育保持一致。有一个探索式的手工程序(如图 9.2),是用来对核糖体 DNA 进行结构比对的(Gutell et al., 1994),这个程序要考察相关取代的样式,但是相关性必须通过系统发育树中的多个独立的补偿性突变推导得到(cf. Harvey and Pagel, 1991)。

数学优化

Page 239: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

有些比对程序(比如,MACAW, SAM)根据一个统计模型进行优化,但是这些统计同系统发育模型的关系并不清楚。仅仅根据一个系统发育模型是没有办法比较多重比对方法的优劣的。

总结:对于系统发育分析,最好的比对程序是什么呢?对于一个给定的系统发育问题,如果预先不知道其中的系统发育关系,就很难知道最适用的比对方法(cf. Morrison and Ellis, 1997)。一般来说,我们并不赞成直接把计算机比对结果提交给建树程序,因为建树程序不能发现比对的错误;尤其是那些包含在比对程序包中(比如,CLUSTAL and TREE in

ProPack)的建树程序,特别要注意这一点(Feng and Doolittle, 1996),因为在这些程序包中的建树程序更加不严格。我们必须通过分子结构&#0;功能和碱基取代过程作出一些假定,并且结合另外一些独立的系统发育证据,对整个比对进行考察。

从比对中提取系统发育数据集在某些比对中,比对长度是可变的,这时,系统发育数据集同比对就不会完全吻合;即使 在一些长度不变的比对中,数据集也可能同比对结果不一致--举一个很简单的例子,有时候我们只需要处理第一个和第二个密码子位点,就不需要全部的比对结果,这个话题我们在后面讨论取代模型的时候还会涉及到。

如果比对中出现可变长度,我们通常会根据比对的不确定性程度和处理 indel

状态的原则这两个标准对比对结果进行取舍,从中选择所需的系统发育数据集;

Page 240: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

其中针对 indel状态的处理方法取决于建树方法以及从比对结果中发掘出的系统发育信息,最极端的方法是把包括空位在内的所有 indel 位点从比对中清除出去,在分析时不加考虑(cf. Swofford et al., 1996a),这个方法的好处是可以把序列的变化包容在取代模型中,而不需要特别的模型来处理 indel状态,但是它的缺点也很明显:indel 区域的系统发育信息完全被忽略了。

在提取数据集时保留 indel 区域但是忽略所有的空位分值,将会保留包括空位在内的位点碱基变化信息。某些长度可变区域在部分序列或者全部序列中很难对准,在这种情况下,这些难以对准的碱基的分值应该清零;这个方法存在很大的缺陷,MP 和 ML 建树方法会不加考虑地把这些清零的或者被忽略的分值理解为零分歧,但是实际上隐藏在这些分值下面的实际的数据(不管是空位还是难以对准的碱基),一般来说,反映出的分歧度都很大。PAUP 4.0 中的距离建树方法(将在下文描述)允许通过非空位区域外推得到空位区域的距离。

最大节约(MP;见下)是允许把可比对的空位合并,并将其视为特征符的唯一方法;可以通过两种方式达到目的:作为一个附加的特征符状态(第五种核酸碱基或者第二十一种氨基酸),或者作为一套独立于碱基取代的特征符集。当空位占据了不止一个位点的时候,前一个方法行不通,因为每一个空位位点都会被统计为一次独立的特征符状态变化。当比对的序列的局部出现很好的可比对的空位的时候,后一种方法非常有用。我们可以把一套空位特征符附加到比对序列数据集中,也可以用额外的碱基程序在适当的位置对空位计分,但是在计分的时候,空位位点中只有一个作为空位计分,其余的将会被忽略。PAUP将会执行这个方法。

Page 241: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

对于某些比对而言,比对程序会忽略所有的空位分值或者忽略所有低于预设值的空位分值;但是,还没有任何一种程序会忽略单个序列的单个位点。如果比对在序列组内部相当明确,但是处身其中时却不太清楚,此时必须对比对做“手术”,确保同序列组相关的明确的信息被保留,而除去模糊的信息。

图 9.3 给出了一个比对“手术”的例子。在空位区域,我们必须作出决定:在可供选择的比对中,哪一个更加合理,尤其重要的是,哪一个更加适合于建立进化树分析。如果手工解决比对的不确定性,就必须考虑系统发育关系、取代过程(比如,转换和颠换)和碱基组成;在这个阶段,用系统发育证据解决不确定性非常合理。在倾向于变长的序列区域,关系非常疏远的序列和序列组的比对就可以侧向展开(就是说,引入人工空位,并且忽略分值),最终的结果使得只有关系很近的序列区域对准在一起。某些序列中的某些位点虽然对准了,但是并不确定,他们的分值可以在计分时忽略;这个方法的优点是可以保留同这些序列相关的明确信息,缺点是最大节约和最大似然的建树方法会把这些“缺失”的分值看做是零分歧。

由MALIGN(Wheeler and Gladstein, 1994)和 TreeAlign得到的比对不需要在比对后用这些方法中的建树方法进行数据修饰,即使这些比对中仍然有一些同样类型的不确定性,这些不确定性在另外一个程序进行分析时需要修正。如前所述,这些程序会根据由比对得到的最好的 MP 系统发育进化树,对比对参数进行递归优化。MALIGN还会利用一套空位为代价,对以连接的可供选择的比对为基础的建树方法进行优化;在这个方法中,在最有可能的几种比对中出现的比对特征将会被加权。这就提供了一种方法,可以捕获序列分歧的数量

Page 242: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

(在取消不确定的比对区域的分值的时候这些分歧是被忽略掉的),因为这些区域的所有可能的比对方式都将显示这些区域的最大的序列分歧。处于不确定的比对区域中的位点很可能不是同源的,因此在进化树中需要加入一些噪声干扰或者偏向。

决定取代模型对于取代模型,应该给予同比对和建树同样的重视。就像前面暗示的那样,取代模型既影响比对,也影响建树;因此需要采用递归方法。现在,对于核酸数据而言,可以通过取代模型中的两个要素进行计算机评估(Swofford, 1997),但是对于氨基酸和密码子数据而言,没有什么评估方案(Felsenstein, 1996)。其中一个要素是碱基之间相互取代的模型;另外一个要素是序列中不同位点的所有取代的相对速率。还没有一种简单的计算机程序可以对较复杂的变量(比如位点特异性或者系统特异性取代模型)进行评估,同样,现有的建树软件也不可能理解这些复杂变量。

碱基取代速率模型一般而言,生物化学性质相近的碱基之间的取代频率较高;在 DNA 中,四种转换(A G, G A, C T, T C)的频率比八种颠换(A C, A T, C G,

G T, 以及前四种的反向取代)的频率要高;这些偏向会影响两个序列之间的预计的分歧。

Page 243: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

各个残基之间的相对取代速率一般由方阵形式列出;对于碱基而言,行数和列数都是 4,对于氨基酸而言,行数和列数都是 20(比如 PAM 方阵),对于密码子而言,行数和列数都是 61(除去了中止密码子)。非对角线元素对应于一个碱基变为另一个碱基的相对代价,而对角线元素则代表不同序列拥有同一个碱基的代价。

这些代价值可以固定为先验的代价表,以确保建树方法在计分时对每一种取代都使用确定的代价值。固定的代价方阵是典型的静态权重方阵,MP 建树方法(如图 9.4)使用的就是这种方阵。如果使用这种权重,那么这个方法就会被称为“加权节约”。又如,ML 建树方法,代价值是由即时的速率方阵得到的,这个方阵(如图 9.5)代表了各种取代可能会发生的概率的 ML 估计值。MP权重方阵只涉及简单的算术,而应用距离和 ML速率方阵则可以引入复杂的代数。为了避免盲目使用不适当的方法,建议大家熟悉其内部的基本原理(见 Li, 1997,

and / or Swofford et al., 1996a)。

实际上,“前进”和“反向”取代速率被认为是相同的;这个取代模型被称为是“时间可逆”;这个模型拥有“静态”的性质,因为在所有的碱基频率中没有预知的变化。在系统发育的特殊历史中,不同序列中的碱基频率不同表明,前进和反向速率实际上可能会不同;而传统的取代权重或者速率方阵不能包容这个“非静态”环境;本节的结尾将讨论一个基于非静态取代模型(“log&#0;det”)的建树方法,这个方法将会提供一个可供选择的计算方法。

Page 244: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

通常,特征符状态的权重方阵都会或多或少地通过观察进行过估值,当然也可以从速率矩阵衍生得到。比如,如果假定两个转化的其中一个,发生的频率是每个颠换的两倍,那么据此就可以确定一个权重方阵,比如,A&#0;G 的转换代价为 1,而A&#0;T 的颠换代价为 2(图 9.4)。(节约方法规定对角线元素值或者说是不同序列中拥有相同碱基的代价值为零。这是节约方法的一个缺点&#0;&#0;详见下文)在随后的建树步骤中,这套假定会把颠换的总数降至最低值,而力求把那些主要差异是转换的序列集中在一起。

任何一种“时间可逆”的核苷酸取代模型都可以用图 9.5 所示的方阵刻画,只是其中一个速率和其它速率的差异;在任意组合中,最多可以达到只有六个参数,其中每一个速率参数都是独立的(Swofford et al., 1996a;Li,

1997)。如果平衡的碱基频率不相等,则需要额外的参数;如果平衡的碱基频率不相等,但是却假定这些频率相等,那么系统发育进化树的最终结果将会出错(Li, 1997)。

侧线(paralinear)(Lake, 1994)和“log&#0;det”(Lockhart et al.,

1994)做了一些修正(见 Swofford et al., 1996a)来满足非静态环境的需要;这个方法只适用于距离进化树的建立;在这个方法中,对于每一个序列匹配,各种类型和变化方向的原始取代的数目都会计算在一个 4×4 的方阵中(如图 9.6)。每个方阵都会有一个代数行列式,这个行列式的 log值是评估序列差异性的一个要素,因此被称为“log&#0;det”。对那些拥有各种各样的碱基频率的序列进行双重比较,就会得到各种各样的方阵,也就会得到各种各样的行列式值;因此,在评估序列两两之间的距离的时候,就要受到序列两两之间的

Page 245: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

行列式值的影响,而且序列两两之间的比较允许适用不同的取代模型,因此沿着系统发育进化树的不同树枝,将会产生多元化。Log&#0;det尤其对位点之间的速率差异(见下文)敏感,因此,碱基频率的偏向可能只存在于那些承受变化的位点。

位点内速率差异模型除了取代模型的多元化以外,一个序列中各个不同位点之间取代速率的差异也会对建立进化树的结果产生很深远的影响(Swofford et al., 1996a);关于位点之间的速率差异(或者叫做位点异质性),有一个最明显的例子,就是在一个编码序列中,三联体编码的位点差异:在三联体编码中,第三个编码位点比另外两个位点更加容易发生变化;正是出于这个原因,许多系统发育分析方法在分析编码序列时,都会把第三个编码位点排除在外;但是在某些情况下,速率差异模型会更加敏锐(比如,对应于蛋白质或者 rRNA 的保守序列)。

对位点差异的取代速率进行估值的方法有非参数化模型(W.M. Yang et al.,

1996),不变式模型和 gamma 分布模型(Swofford et al., 1996a)。非参数化方法源于特异位点的相对速率的范畴;这个方法可以在 MP 建树方法中使用,只要根据相对的变异频率对特异位点进行简单加权就可以了,当然进行加权时需要有关于真实进化树的预备知识;这个方法同样也可以适用于 ML 建树方法,但是在计算上被认为是不切实际的(W.M. Yang et al., 1996)。不变式模型对一定比例的位点进行估值,这些位点并不能自由变化;剩余的位点假定为等概率变化。至于 gamma 模型方法,它假定一个给定的序列变化的概率

Page 246: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

是遵守 gamma 分布规律的,据此指定位点的取代概率;gamma 分布的形状(有形状参数 α 描述)描述了一个序列中各个位点的取代频率的分布(Swofford et al., 1996a, p. 444, Figure 13; cf. Li, 1997, p. 76, Figure

3.10; 注意尺度差异)。在一个混合方法中,可以假定一部分位点是不变的,而剩余的位点则是按照 gamma 分布变化的。

实际上,gamma修正可以是连续的,离散的或者自离散的(W.M. Yang et

al., 1996)。连续 gamma 的意思是各个位点沿一条连续的概率曲线变化;目前,这个方法在绝大多数情况下无法计算。离散 gamma逼近方法指定各个位点的概率,使得这些(大量的)概率值逼近 gamma曲线。自离散模型假定相邻的位点的变化速率是相关联的;许多组位点被分为许多类,其中每一类中的位点的变化速率可能被假定为常量或者异类值。

进化树建立程序使用各种各样的位点速率差异修正方法。对于核酸数据,PAUP

4.0 在单独或者混合使用时间可逆的距离建树方法和最大似然建树方法时,既使用不变式 gamma 模型,也使用离散的 gamma 模型;在使用 log&#0;det

距离建树方法时,使用不变式模型(见下)。对于核酸,氨基酸和编码子数据,PAML 使用连续的,离散的和自离散的 gamma 模型。对于核酸和氨基酸数据,PHYLIP 使用一种离散的 gamma 模型。

究竟使用哪一种取代模型呢?在一个给定的序列集中,即使一个取代模型中的任何参数都可以证明是很有判断力的,但是最好的模型并不一定总是拥有最多的蚕室;相反,参数越少,模

Page 247: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

型越好,这是因为对每一个参数进行估值都会引入一个相关的变量,而每引入一个附加的参数维度,都会使得整体的变数增加,有时候甚至会对模型起抑制作用(见 Li, 1997: p. 84, 表 4.1)。对于一个给定的序列比较,如果模型只有两个参数,那么碱基差异的总和要被划分为两个类别;如果模型有六个参数,那么碱基差异的总和要被划分为六个类别;很明显,如果分为六个类别,那么每一个类别中的位点样本数目将会很小,很可能小得无法进行合理地估值。

PAUP 的“描述树”特征是对 DNA 序列的取代模型进行规范的一个较好的策略,它使用似然方法同时评估六个可逆的取代速率、gamma 分布的 α 形状参数和不变的位点的比例(图 9.7)。这些参数可以通过相等的或者指定的碱基频率进行估值。通常,任何一个合理的系统发育进化树(比如,很容易就可以得到一个相邻连接的进化树)都适用于这个程序,因为很明显,对参数的估值在很大程度上受到特征符模式的影响,而不是进化树的拓扑结构(Swofford et al.,

1996b)。这个估值程序对于 50 个序列而言,并不会耗费太多的时间。如果序列较多,或者时间较紧,可以对试验的进化树进行精简,在保留全部的系统发育范围和结构的同时,减少分类数目。通过这些估算的取代参数,我们可以通过比较由较多参数和较少参数分别评估得到的似然分值,决定一个简化的模型是否合理(比如,六个取代类别是否可以减少到两个)。有时候,α 参数和不变位点的比例可以相互替换,所以我们应该比较每一个单独使用时得到的似然分值和两个同时使用时得到的似然分值。注意,和 MP 以及 ME不同,用不同的参数值得到 ML 分值可以直接比较(Swofford et al., 1996b)。

Page 248: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

对于编码蛋白质的 DNA 序列,根据样本的分歧程度,有时候很明显地,有用的变化基本上都是第一位和第二位的编码位点,而在整个数据集中,第三位点通常都是随机的,或者第三位点变化而第一位点和第二位点不变。尽管除去“无用”位点可以提高剩余位点的不同速率的估值精确度,上面所述的程序还是要对这个速率差异进行修正。对于节约进化树的建立,我们有时候会把随机的第三位点从分析中除去,因为这些位点只会引入噪声,如果碱基频率不相等,这些位点还会引入错误。

怎么样才能确定数据集中的非静态因素是否会成为一个问题呢?最简单的方法可能就是去比较 PAUP 中两种通过不同方法得到的建树结果和进化树评估结果,一种方法是使用时间可逆的方法,另一种方法是 log&#0;det距离建树方法。下面的章节中将会涉及到这些程序。

还没有什么好的计算方法,能够直接从序列数据中评估非静态因素的影响 。PAUP 中有一个命令,会列出所有序列的碱基频率。这个程序应该使用排除不变位点(Exclude Constant Sites)的选项。序列中的碱基频率可以很直观地比较出来。数据文件应该指定 gapmode=missing,或者 PAUP要把一个空位特征符计算为一个碱基变化。碱基频率的命令还要对数据执行一个“chi平方(chi&#0;square)”测试,但是这个测试并不切实际,因为它假定数据是从一个随机样本中提取的,而结果就会假定所观察到的不相等是相互独立的而不是系统发育结构的结果。一个毫无意义的 chi&#0;square 分值并不能除去非静态因素,而一个有意义的分值很可能会进一步证实非静态因素。PAUP 中的碱基组成命令已经被用来证明:在被子植物和绿藻的 5.8S rDNA 序列中,两者之间

Page 249: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

变化比较大的位点集中存在中碱基偏好,但是并不一定在某个序列上产生变化(Hershkovitz and Lewis, 1996)。

建树方法现有的软件中所采用的建树方法已经在某些著作(Saitou, 1996; Swofford

et al., 1996a; Li, 1997)中有很详尽的讨论;这部分只是简单地描述一些最常用的方法。建树方法可以分为两类,每类有两种不同的方法:

1. 基于算法的和基于标准的。基于算法的建树方法根据一系列的步骤得到一个进化树;而基于标准的建树方法则是根据一些优化的功能对可选的进化树进行评估。相邻连接方法(NJ)是一个纯粹的基于算法的建树方法,这个方法只得到一个进化树,这个进化树拥有令人满意的性质,它的距离附加值接近或者是非常优化的(见下);而一个基于标准的距离建树方法将会根据进化树的附加值优化的标准,对所有可能的进化树(不管这些进化树是否产生)进行评估。

2. 基于距离的和基于特征符的。历史上的和现有的许多关于系统发育的讨论描述了各种各样的基于距离的和基于特征符的建树方法的效用(比如, Saitou, 1996: Li, 1997)。距离建树方法根据一些尺度计算出双重序列的距离,然后抛开真实数据,只是根据固定的距离建立进化树;而基于特征符的建树方法在建立进化树时,优化了每一个特征符的真实数据模式的分布,于是双重序列的距离不再固定,而是取决于进化树的拓扑结构。最常用的基于特征符的建树方法包括MP 和 ML。

距离建树方法距离建树方法根据双重序列比对的差异程度(距离)建立进化树。如果所有的起源分歧事件都很精确地记录在序列中(Swofford et al., 1996a),那么距离

Page 250: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

建树方法将会重构真实的进化树。然而,当序列突变达到饱和时,分歧程度就会达到上限。一对分歧序列的其中之一在某个特定位点发生突变后,后续的突变不管发生在哪一条序列,都不会再造成更多的差异。实际上,后续的变异很可能会使得前一个位点恢复成相等的状态,从而屏蔽掉前一个突变,因此,绝大多数基于距离的建树方法都会针对这样“不可见”的替换进行修正。在实际操作中,使用的速率方阵都会很有效地假定:在所观察的相等的碱基对中,实际上存在一定比例的位点,这些位点经受了多次突变,而且,随着整个序列差异程度的增加,这些位点的比例也在增加。有些程序(至少是随意地)会计算出不正确的距离进行,比方说,MEGA 程序(Kumar et al., 1994)只针对密码子和氨基酸数据会计算出错误的距离;除非序列的整体差异程度很小,这个程序实质上将会保证给出错误的结果。

双重序列差异使用最大似然方法的取代速率计算得到。最常用的距离建树程序使用的模型局限于时间可逆模型,只包含很有限的几个取代模型;但是 PAUP

4.0 基本上会测试时间可逆模型的所有变化,包括用最大似然方法从数据中评估得到的实际模型,以及针对非静态数据的 log&#0;det距离建树方法所得到的模型。

与最大似然方法相比,距离建树方法的计算强度很小,但是可以使用序列进化的相同模型,这是它们最主要的优点。这个方法的缺点是屏蔽了真实的特征符数据。最常用的距离建树方法是“不加权配对组算术方法”(UPGMA,unweighted pair group method with arithmetic mean)、相邻连接方法(NJ,neighbor joining)和对距离进化树的附加值进行优化的

Page 251: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

方法,包括最小进化方法(ME,minimum evolution)。有些方法被不止一个系统发育软件包引用,但是在使用时不一定会使用相同的指定参数和(或)进化树优化特征(比如,树枝交换&#0;&#0;见下)。

不加权配对组算术方法(UPGMA,unweighted pair group method

with arithmetic mean)UPGMA是一种聚类或者说是分类方法&#0;&#0;它按照配对序列的最大相似性和连接配对的平均值的标准将进化树的树枝连接起来。它还不是一种严格的进化距离建树方法(Li, 1997)。只有当序列分歧是基于一个分子钟或者近似等于原始的序列差异性的时候,我们才会期望 UPGMA会产生一个拥有真实的树枝长度的准确的拓扑结构(ultrametric; Swofford et al., 1996a)。正如前面讨论的那样,在实际问题中很少会遇到这种情况。

相邻连接方法(NJ,neighbor joining)相邻连接算法在距离建树中经常会用到,而不会理会使用什么样的优化标准。完全解析出的进化树是通过对完全没有解析出的“星型”进化树进行“分解”得到的,分解的步骤是连续不断地在最接近(实际上,是最孤立的)的序列对中插入树枝,而保留进化树的终端(图 9.8)。于是,最接近的序列对被巩固了,而“星型”进化树被改善了,这个过程将不断重复。这个方法相对而言很快,也就是说,对于一个 50 个序列的进化树,只需要若干秒甚至更少。

Fitch&#0;Margoliash(FM)

Page 252: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Fitch&#0;Margoliash(FM)方法设法通过把所有可能观察到的距离相对于进化树中所有可能的路径长度的偏差的平方极小化,将进化树中观察到的双重距离的合适度极大化(Felsenstein, 1997)。有一些变量,在怎样对错误进行加权的处理上不太一样。对变化的估值并非是完全独立的,因为所有的进化树内部的树枝中存在的错误都至少被计算了两次(Rzhetsky and Nei, 1992)。

最小进化方法(ME,Minimum Evolution)最小进化方法先使用同 FM 相同的方式计算出路径长度,然后根据路径长度优化出最短的进化树;也就是说,它要求将观察到的距离相对于基于进化树的距离的偏差的平方最小化(Rzhetsky and Nei, 1992; Swofford et al.,

1996a; Felsenstein, 1997)。同 FM 方法不同,ME 方法并不使用所有可能的双重序列距离和所有可能的相关的进化树路径长度,而是先根据到外层节点的距离固定进化树内部节点的位置,然后根据这些观察点之间的最小计算误差,对内部的树枝长度进行优化。于是这个方法声称它消除了 FM 计算的依赖性。

究竟哪一个基于距离的建树程序是最好的ME 和 FM 似乎是最好的程序程序,它们在模拟研究中所取得的成绩几乎相同(Huelsenbeck, 1995)。ME 在计算机程序中的应用越来越广泛了,包括METREE(Rzhetsky and Nei, 1994)和 PAUP都在使用 ME。对于蛋白质数据,PHYLIP 中的 FM 程序提供了最多的时间可逆取代模型,但是没有对位点内部的取代速率差异进行修正。MEGA(Kumar et al., 1994)和 METREE 软件包包括一个针对蛋白质的 gamma修正,但是只有同一个原始(“p&#0;距

Page 253: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

离”)的分歧模型(没有距离修正或者偏好修正)结合时才进行修正,这种方法只有当分歧很小时才合理(Rzhetsky and Nei, 1994)。MEGA也计算同义的和异义的位点的分离距离,但是只有当没有取代或者碱基频率偏好的时候,以及没有对位点内部的速率差异进行修正的时候,这个方法才合理。因此,对于绝大多数数据集而言,对核苷酸数据应用一个更加理想的模型可能会比 MEGA

方法要好。

模拟研究指出,对于一个大范围的进化树形状空间,UPGMA 的可操作性很差(Huelsenbeck, 1995)。我们并不赞成使用这种方法,而之所以在这里会提及这个方法,是因为在现在的出版物上经常会出现 UPGMA 的应用,这一点可以由当前的出版物中出现的 UPGMA“基因进化树”证明(Huelsenbeck,

1995)。

很显然,NJ是最快的程序,并且所产生的进化树同ME 进化树相比,虽不能说一样,但也已经非常相近了(Rzhetsky and Nei, 1992; Li, 1997)。但是,NJ只产生一个进化树。根据数据结构,有大量不同的进化树可能和 NJ 进化树一样好,甚至比 NJ 进化树好得多(Swofford et al.1996a)。我们中的一个(MAH)和 D.Hillis(个人通讯)已经各自独立地得到了一些(虽然很少)数据集,对于这些数据集,NJ 给出的进化树很糟糕;但是使用 PAUP 方法中的“最接近(closest)”选项后,进行逐步加总,得到了一个较好的距离进化树(Swofford, 1997)。

特征符建树方法

Page 254: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

除了在所有的分析步骤中都会用到特征符数据以外,基于特征符的建树方法毫无共同之处。这就使得我们能够评估一个比对中每一个碱基位点对其它所有的碱基位点的依赖性。最常用的基于特征符的建树方法是最大节约方法和最大似然方法。

最大节约方法(MP,Maximum Parsimony)最大节约方法是一种优化标准,这个标准遵循“奥卡姆剃刀原则(Occam’s

razor)”:对数据最好的解释也是最简单的,而最简单的所需要的特别假定也最少。在实际应用中,MP 进化树是最短的&#0;也是变化最少的进化树,根据定义,这个进化树的平行变化最少,或者说是同形性最低。MP 中有一些变量与特征符状态改变的可行方向不尽相符(Swofford et al., 1996a)。

为了能够包容取代偏好,MP必须加权;比如,颠换的变换相对于转换(见上文)被加权。进行加权的最简单的方法就是建立一个加权步骤方阵,在这个方阵里,权重用速率的倒数,这个速率是由上面描述的 ML 方法评估得到的。步骤方阵加权可能会极大地减慢MP 的计算速度。

如果比对内部的位点确实存在这速率差异,那么 MP 方法就会执行得很不好(Huelsenbeck, 1995)。对于这个问题,还没有什么很好的解决方法。有一个方法,就是对数据集进行修改,使得最终分析的数据集中只包括那些内部差异性很小的位点,这些位点是由前面提到的似然分析方法判断得到的。更常见的情况是,MP 分析只简单地屏蔽掉那些高度同形的可疑位点(比如说,某些序列比对中的第三个编码位点)。另外一个方法是根据引导树中所能观察到的位点

Page 255: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

变化倾向,对位点进行循环加权。这个“连续逼近”方法在 PAUP 中会自动简化但是这个方法的出错的倾向程度取决于引导树的出错程度。

MP 分析期望能够产生大量的(有时候是成千上万个)具有相同分值的进化树。因为这些进化树之间的优化程度相同,所以只有所有进化树都严格一致的分组才算是得到数据的支持。距离建树方法和 ML 建树方法期望得到一个最简单的最好的进化树,是因为这些方法的算法中包括了除法和小数,而MP 建树方法只是计算离散的步长。对于一个给定的数据集,存在着比最佳的进化树差不了多少的 ME 进化树或者 ML 进化树,如果这些进化树严格一致的话,很可能会产生同MP 一致进化树多少有些可比性的分解。不幸的是,MP 的使用者传统上都会给出严格一致的进化树(有时候是进化树的一致性,其中有一个或者两个步骤不太好),而ME 和 ML 用户通常就不会这样做。

现在已经开发了大量的进化树统计量值来描述一个 MP 进化树。除了进化树的长度外,这些统计量包括各种各样的比例,用以描述同形的数量,比如稠度指数,或者一个进化树中一个特征符改变状态的平均次数(Swofford, 1990)。尽管在 MP 分析中仍然经常报告这些指数,但是已经证明这些指数受到许多人为因素的干扰,比如被分析的分类群的数量。

模拟研究(Huelsenbeck, 1995)已经表明,如果从世系分歧开始的序列进化的数量远大于世系分离的分歧数量(比如,一个进化树中,终端的树枝很长,而内部节间的树枝很短),MP 的效果同ME 一样差,比 ML还要更差。这种情况会造成“长树枝效应”&#0;&#0;长树枝可能会被人工连接,因为累积的非

Page 256: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

同源的相似性的数量超过了因为真实的相关性而保留的同源相似性的数量(Swofford et al., 1996a)。在这种情况下,特征符加权会改善MP 的执行效果(Huelsenbeck, 1995)。

最大似然方法(ML, Maximum Likelihood)ML 对系统发育问题进行了彻底搜查。ML期望能够搜寻出一种进化模型(包括对进化树本身进行搜索),使得这个模型所能产生的数据与观察到的数据最相似。

实际上,ML是从比对的每一个碱基位点衍生出来的。给定一个特定的进化树和观察到的全部的碱基频率,我们可以计算出似然值,具体方法是要计算一个位点遵循一个特定取代过程时所得到的变化模式的概率;似然值就是把在这个特定的取代过程中每一个可能的取代的再现的概率进行加和。所有位点的似然值相乘就得到了整个进化树的似然值(也就是说,数据集的概率给出了进化树和进化过程)。大家可以想象一下,对于一个特定的进化树,数据集的似然值在某些位点偏低,而另外一些位点偏高。如果进化树比较好,那么大多数位点的似然值都会较高,因此整个似然值较高;如果进化树不太好,似然值就会比较低。如果数据集中没有系统发育的信号,所有随机的进化树的似然值上都会相差无几。

取代模型应该得到优化,以适应观察到的数据的需要。比方说,如果存在着转化的偏好(其明显表现为有大量的位点只包含嘌呤或者只包含嘧啶),那么,如果计算数据的似然值时所采用的模型没有考虑偏好的话,其效果显然不如采用考虑了偏好的模型。同样地,如果有一部分位点确实只包含一种碱基,而另外一

Page 257: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

部分位点以相同的概率包含各种碱基,那么,如果计算数据的似然值时所采用的模型假定所有位点的进化都平等的话,其效果显然不如采用考虑了位点内部的速率差异的模型。对于一个特定的进化树,改变取代参数就意味着将改变与之相关联的数据集的似然值;因此,在某一个取代模型下,进化树可以取得很高的似然值,但是,在另一个取代模型下,进化树所取得的似然值就可能会很低。

因为ML要耗费大量的计算机机时,所以对于一个给定的数据集,想要在优化取代模型和进化树的同时进行完全的搜索几乎是不可实现的。值得推荐的是一个很经济的探索式的程序(Adachi and Hasegawa, 1996; Swofford et al.,

1996a)。在这一点上,可能最好的节约时间的方法是前面所说的对取代模型的 ML 评估(图 9.7)。这个程序可以反复进行,搜索到较好的 ML 进化树,然后重新对参数进行评估,然后搜索更好的进化树。

随着算法、计算机和对系统发育的认识的进步,ML标准在分子系统发育分析中也变得越来越流行。在模拟研究中,如果对由相同的模型产生的数据进行数据分析的话,ML做得总是比 ME 和 MP要好(Huelsenbeck, 1995)。在所有的方法中,ML 的计算强度最大,所以在某些情况下,它总是无法实现;而且,同样的模拟研究表明在许多情况下,ME 和 MP 方法同ML 方法的执行效果一样好(或者一样差)。

距离方法、节约方法和最大似然方法的差异距离方阵方法简单的计算两个序列的差异数量。这个数量被看作进化距离,而其准确大小依赖于进化模型的选择。然后运行一个聚类算法,从最相似(也就是说

Page 258: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

两者之间的距离最短)的序列开始,通过距离值方阵计算出实际的进化树,或者通过将总的树枝长度最小化而优化出进化树。

用最大节约方法搜索进化树的原理是要求用最小的改变来解释所要研究的分类群之间的观察到的差异。

用于系统发育推论的最大似然方法评估所选定的进化模型能够产生实际观察到的数据的可能性。进化模型可能只是简单地假定所有核苷酸(或者氨基酸)之间相互转变的概率一样。程序会把所有可能的核苷酸轮流置于进化树的内部节点上并且计算每一个这样的序列产生实际数据的可能性(如果两个姐妹分类群都有核苷酸“A”,那么,如果假定原先的核苷酸是“C”,得到现在的“A”的可能性比起假定原先就是“A”的可能性要小得多)。所有可能的再现(不仅仅是比较可能的再现)的几率被加总,产生一个特定位点的似然值,然后这个数据集的所有比对位点的似然值的加和就是整个进化树的似然值。

进化树搜索即使是对于一个只有 50 个序列的系统来说,单一的系统发育进化树的数量也会随着分类群数量的增长而按照指数规律增长,从而变为一个天文数字(Swofford et al., 1996a; Li, 1997)。由于计算能力的限制,现在一般只允许对很小一部分的可能的进化树进行搜索。具体的数目主要依赖于分类群的数量优化标准(比如说,MP要比 ML快得多)、参数设定(比如说,不加权的 MP

要比加权的快得多;预置了少量参数的 ML要比预置大量参数或者对参数进行同步优化要快得多)、计算机硬件以及计算机软件(对软件的依赖性较小;但是

Page 259: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

某些算法要比其它算法快;某些软件允许多线程;某些软件限制内存里的进化树的数量和种类)。搜索程序还会受到数据结构的影响:如果数据解析得很糟糕那么将会得到较多的“近乎优化”的进化树,这些进化树必须重新评估以确定其中最优化的进化树。

树枝交换算法不断修整由初始步骤所建立的进化树(Swofford et al.,

1996a)。这个算法的范围很广,既可以产生所有可能的单一进化树(穷举算法),也可以只评估次要的修改。

有两种搜索方法保证可以找到最优化的进化树:穷举法和树枝&#0;跳跃法(BB)(Swofford et al., 1996a)。对于一个很大的数据集,这两种方法都很不实用。对分类群数量的限制主要取决于数据结构和计算机速度,但是对于超过 20 个分类群的数据集,BB 方法很少会得到应用。穷举法要根据优化标准,对每一个可能的进化树进行评估。BB 方法提供一个逻辑方法,以确定那些进化树是值得评估的,而另一些进化树是可以简单地屏蔽掉的。因此BB 方法通常要比穷举法快得多。

绝大多数分析方法都使用“启发式”的搜索(Swofford et al., 1996a)。启发式现搜索出相近的次优化的进化树家族(“岛屿”),然后从中得到优化解(“山顶”)。不同的算法用不同程度的精确性搜索这些岛屿和山顶。最彻底也是最慢的程序(TBR,tree bisection-reconnection,进化树对分重接)先把进化树在每一个内部树枝处劈开,然后以任意方式将劈开的碎片重新组合起

Page 260: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

来(Swofford et al., 1996a)。最快的算法只是检查一下相邻终端的不太重要的重新组合,因此倾向于找到最近的岛屿的山顶。

有许多不同的软件会执行进化树的搜索算法。PAUP允许对搜索选项进行全范围的设置,从最肤浅的到最详尽的;而且,对于一个简单的定制搜索,它允许使用不同算法的任意组合,其中每一个算法都有多个可供用户定义的参数,同时还提供评估搜索过程和中途修改搜索进程的方法。PAUP还可以对进化树岛屿了如指掌,掌握岛屿被命中的次数。

要想改善搜索效率和进化树的优化,可以尝试大量不同的策略。比如说,有些分析方法要耗费大量的机时和精力才能找到岛屿;要到达同样的效果,我们可以先制造各种各样的“起始”进化树,这些起始进化树满足一个初始标准,然后用 PAUP将这些起始进化树排列成岛屿,最后用更加彻底的算法进行评估。

降低搜索代价的一个最好方法就是对数据集进行剪除。比方说,从数据集本身或者从预置的搜索中,我们可能会很明显地知道一个由五个终端组成的聚集是不可分解的,并且这些终端的排列并不影响剩下的拓扑结构,而且对这些终端进行分解并不符合数据分析的目的;这时,如果在分析中除去这个聚集中的四个终端,将会把搜索任务简化几个量级。

每一种分析都是独一无二的。影响对优化搜索策略(数据量,数据结构,时间量硬件,分析目的)进行选择的因素太复杂,使得我们无法推荐一个简单可行的处方。因此进行搜索的用户必须对他的数据非常熟悉;他们的脑海里必须要有明

Page 261: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

确的目标,了解各种各样的搜索程序,了解他们的硬件设备和软件的能力;他们必须能够发展他们自己的协议。

建立并搜索进化树的其它方法上述方法在当前的应用中是最广泛的。当然我们还可能会在别处注意到,还有大量的建立和搜索进化树的其它方法(Swofford et al., 1996a; Li, 1997)。这些方法包括Wagner距离方法和亲近方法(距离转化方法);包括 Lake 的不变式方法(一个基于特征符的方法,它选择的拓扑结构包含一个意义重大的正数以支持颠换);包括Hadamard 结合方法(一个精细的代数方阵方法,对距离数据或者观察到的特征符进行修正);包括裂解方法(这个方法决定在数据中应该支持哪一个基于距离的可选的拓扑结构)。四重奏迷惑(Quartet

puzzling)方法可以被ML 建树方法所应用,这个算法相对而言是个较快的进化树搜索算法。

确定树根这里所描述的建树方法所产生的都是无跟树(也就是说,进化树没有进化的极性)。为了评估进化假说,通常必须要确定进化树的树根。确定系统发育进化树的树根并不是一个简单的小问题(Nixon and Carpenter, 1993)。

对于序列数据,如果你接受一个分子钟,那么树根总是出现在横跨整个进化树的最长跨距的中点(Weston, 1994)。分子进化是否有真正意义上的分子钟,仍然是个有争议的问题(Li, 1997),但是不管树根在什么地方,绝大多数基

Page 262: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

因进化树都显示了非分子钟的行为。因此,通常都是使用外在的证据来确定树根究竟放在何处,也就是说,要决定这个进化树通过什么位置同外围的系统发育集团相连接;这些外围集团可能是那些与被分析的物种/序列没有最相近的共同祖先的任意的物种/序列。但是外围集团的树根确定问题将其推入一个两难的困境之中:同内部集团很相近的外部集团很可能只是内部集团的一部分,只是被错误地排除在外了。一个明显距离很远的外围集团(比方说,分析植物时用到的一个真菌种)很可能会拥有一个分歧非常大的序列,以至于把这个序列同内部集团放在一起将要受到长树枝效应的影响(见上)。

一个确定树根的聪明一点的办法就是分析时加入一个复制的基因(Baldauf et

al., 1996; Lawson et al., 1996)。如果来自于绝大多数物种或者所有物种的所有的平行基因在分析时都被包含进去,那么从逻辑上我们就可以把进化树的树根定位于平行基因进化树的交汇处,当然要假定在所有进化树中都没有长树枝问题。

评估进化树和数据现在已经有一些程序可以用来评估数据中的系统发育信号和进化树的健壮性(Swofford et al., 1997)。对于前者,最流行的方法是用数据信号和随机数据作对比实验(偏斜和排列实验);对于后者,可以对观察到的数据重新取样,进行进化树的支持实验(非参数自引导和对折方法)。似然比例实验可以对取代模型和进化树都进行评估。

随机进化树(偏斜实验)

Page 263: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

模拟研究表明,通过随机的数据集所产生的随机的 MP 进化树的长度的分布是对称的,但是使用系统发育信号的数据集,其分布将是不对称的(图 9.9;

Hillis and Huelsenbeck, 1992)。在偏斜实验中,g1 统计的临界值随着分类群数目的不同和序列中位点的不同而不同。这个实验并不评估一个特定的拓扑结构的可靠性,而且这个实验对其它的随机数据集中所呈现的信号都敏感,哪怕只是很少的一点。如果数据很明显地支持某些分组,而这些分组中的分类群被有选择地删除,那么这个实验可以用来决定系统发育信号是否还保留着,当然至少要为测试提供 10 种不同的特征符和 5 个分类群。PAUP 中包含了这个程序。

随机的特征符数据(排列实验)随机数据方法决定了一个从真实数据得到的 MP 进化树或者其中的一部分是否可以偶然得到。实际上,数据并非真正地随机化了,只是在每一个比对列中以不同次序排列,使得初始数据的共变性被消除了;结果产生了一个非随机序列的序列比对;正确地说,这些序列中的每一个位点都是从那些在整个比对中占据这个位点的碱基群体中随机得到的。排列结尾几率实验(PTP, the

permutation tail probability test)对 MP 进化树的分值和那些通过对每一个位点都进行大量的排列组合多得到的数据所推算出的进化树的分值进行比较,从而决定在原始数据中是否存在着系统发育信号。一个依赖于拓扑结构的实验(T&#0;PTP, topology-dependent test)对特殊的进化树的分值进行比较,从而决定这些差异是否可以产生偶然性;这个方法并不评估这个进化树或者其中的一部分是否正确(Faith and Trueman, 1996; Swofford et al.,

1996b)。值得注意的是,T&#0;PTP 实验看来似乎是进一步地确认了进化树

Page 264: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

中那些同MP 进化树很接近但是并不在其中的一些分组;这是因为这个方法探测集体的信号,这些信号可以把一个分类群放置在正确(如果不能说是准确,至少也是近似)的位置;结果可以通过附加的程序使用相关的数据子集进行调整(Faith and Trueman, 1996)。PAUP 中包含了这个程序。

自引导方法自引导方法是对进化树重新取样的评估方法,可以对距离建树方法、节约建树方法、似然进化方法以及衍生出的其它任何方法进行评估。这个方法是在 1979年(Efron, 1979)提出的,并且由 Joe Felsenstein将其引入(Felsenstein,

1985),作为系统发育分析中的进化树评估方法。典型的自引导分析结果是一个数字,这个数字同一个系统发育进化树的一个特定树枝相关,而这个系统发育进化树则给出了支持单源进化分支的自引导的重复比例。

那么在实际操作中应该怎么做呢?自引导方法的操作过程可以分为两个步骤,第一步先从原始数据集中产生(许多)新的数据集,然后经过计算得到一个数值,表征一个特定的数值(比方说,一个分类群)在进化树中出现的次数的比例;这个数值通常被称为自引导数值。从原始数据集中产生新的数据集的具体做法是重新取样,即从原始数据集中随机地“可以替换”地抽取各个列中的特征符作为新的样本。“可以替换”的意思是说每一个位点都可以重新取样,其抽取几率同其它任何位点的抽取几率都一样;结果是每一个新建的数据集同原始数据集的位点总数相同,但是某些位点重复了两次或者三次,而某些位点则丢失了;当然新建的数据集也有可能同原始数据集完全相同&#0;&#0;或者走向另

Page 265: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

外一个极端,只有一个位点被反复抽取,总数达到 500次,而原始数据集中其它 499 个位点都被丢失了。

虽然自引导评估方法已经成为整个系统发育分析中的一个普遍手段,但是对于这个方法究竟计算了什么仍然有一些争论。刚开始的时候,有人提议说自引导数值计算了重合性(Felsenstein, 1985)。在最近的阐述中,自引导程序被认为是计算了精确性&#0;&#0;这个生物学相关的参数给出了得到真实的系统发生史的可能性(Felsenstein and Kishino, 1993)。模拟研究表明,在合适的条件下(各种替换速率基本相等,树枝基本对称),如果自引导数值大于 70%,那么所得到的系统发育进化树能够反映真实的系统发生史的可能性要大于 95%

(Hillis and Bull, 1993)。同理,如果条件不是很合适,那么如果自引导数值大于 50%,则精确性的评估就会过高(Hillis and Bull, 1993)。在某些条件下,如果自引导数值较高,可能会使系统发生史看起来很好,从而得出错误的结论。

实际的考虑如果样本较小,这个技术是不会被用到的。如果一个特定的分组不太可信的话,那么就可以使用自引导方法进行评估,以确认将这个分组并入一个大的单源分组中是否可信(Sanderson, 1989)。也可以在实验中使用自引导方法,这个实验的具体做法是:每次删除一个内部树枝,然后根据剩余的内部树枝重新计算进化树,这样做的目的是为了收集分歧顺序信息,而这些信息在整个数据集中都是很不明确的(见实例:Leipe et al., 1994)。

Page 266: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

对折方法对折方法同自引导方法相似,都是要重新进行取样。但是,与自引导方法中产生“可以替换”的新的数据集不同的是,对折方法在对原始数据集重新取样时,是从每一个复制中除去一个和多个比对位点;结果是每一个对折的复制品都比原始数据集要小,而且不会包含重复的数据位点。虽然绝大多数论文都假定通过不同的技术方法评估所得到的可变性都应该很相似(Swofford and Olsen,

1990; Swofford et al., 1996a),实际上对折方法的使用频率远低于自引导方法。尽管如此,对折方法仍然有一定的市场,象 PAUP 和 PHYLIP这样的程序里都包含有这个选项。

带参数的自引导方法带参数的自引导方法同不带参数的自引导方法不同,前者使用了模拟的但是仍然真实的复制品,而不是虚假的复制品。在进行系统发育的序列分析中,与原始数据集大小相同的复制数据集是通过一个特殊的序列进化模型得到的,数据集还包括根据这个模型得到的最佳进化树拓扑结构(Huelsenbeck et al.,

1996a),然后就可以使用感兴趣的方法对每一个数据集进行分析。对实验进化树的树枝是否支持的判定方法同无参数的自引导方法大体相同。

作为一种还没有被其它方法(诸如进化树中所显示的分类群中的任何分组的单个谱系)(Huelsenbeck et al., 1996a, 1996b)检验过的测试假定,带参数的自引导方法还不能算是无参数的自引导方法之外的一种选择。在每一个复制品的分析中,“真实的”进化树(假定能够产生模拟数据的进化树)的分值可

Page 267: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

能会比每一个复制品的最好的进化树的分值都要大(或者小)。分值差异图则显示了样本偏差的一个真实的正规分布。任何期望的可选的进化树拓扑的分值差异的重要价值可以由这个正规图来决定。带参数的自引导方法可以同任何建树方法协同使用。目前,这个方法的局限因素在于程序生成模拟数据的可行性。有一个程序,能够在以下情况下模拟序列数据:模型包括两个取代类型(转化和颠换),碱基频率不相等,对于内部位点的速率差异设定或者没有设定 gamma

修正。这个程序可以在作者的 Web站点上找到,这个站点由Berkeley 维护(参见本章最后所附的 Internet 资源列表)。

似然比例实验正如方法名称所暗示的那样,似然比例实验适用于 ML 分析。评估一个次优化的似然值对于最优化模型中的正规的误差分布极为重要。在理想情况下,误差曲线被假定为一个 chi-平方分布,因此实验统计值应该是最优化数值和实验数值之差的两倍,而其自由度则是不同的参数的数目。

应用 chi&#0;平方实验来选择系统发育进化树存在不少问题,尤其是因为“参数空间的不规则性”(Z.Yang et al., 1995),但是如果取代模型之间的参数数目已知的话,这个方法可以用来评估取代模型的最优性。一旦我们用上述最大似然程序评估了一个取代模型和进化树,我们就可以用较少的参数对这个进化树进行评估(比方说,把位点内的速率设置为相同:图 9.7)。

Kishino&#0;Hasegawa 实验

Page 268: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

如果给定了伴随着决定进化树误差的不确定性,另外一个方法就可以决定与比对中每一个位点相联系的取样误差(Kishino and Hasegawa, 1989)。这个程序在 PAUP 中执行,可以用来测试一个特定的次优化的 ML 或者 MP拓扑结构同最优化的拓扑结构相比是否显著不同,当然必须假定用来产生最优化的进化树的模型是正确的。这个方法不能被用来评估任意选择的拓扑结构:因为不同的拓扑结构可能会拥有不同的似然功能,在某个模型下,一个统计学意义较差的进化树在另一种模型下,其统计学意义可能会变得很好。可以把本方法同带参数的自引导方法结合起来(模型和进化树已经预先最优化了),以避免这个问题(见 Sullivan et al., in press)。

约束进化树搜寻评估进化树的一个最有效的方法是比较无约束搜索和有约束的搜索,约束条件是必须搜索同一个特殊拓扑结构相联系的最优化进化树。除了比较简单分值外,还可以把约束进化树同排列实验、似然比例实验、Kishino&#0;Hasegawa 实验以及带参数的自引导评估方法结合起来。

系统发育软件PHYLIP

PHYLIP是一个包含了大约 30 个程序的软件包,这些程序基本上囊括了系统发育的所有方面。PHYLIP是免费软件,并且可以在很多平台上运行(Mac, DOS,

Unix, VAX/VMS, 及其它)。根据其作者 Joe Felsenstein(来自于 the

Page 269: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

University of Washington)所介绍的,PHYLIP 目前已经是最广泛使用的系统发育程序。

PHYLIP是一个命令行程序,没有 PAUP 或者 MACCLADE 程序那样的鼠标点击的界面。软件的文档写得非常好,很容易理解,命令行界面也很简明。如果想使用某一个程序,只要键入程序名称就可以了,程序界面可以从“infile”文件中自动读取数据。然后,使用者可以从选项菜单中选择选项,或者直接接受默认值,然后程序会将结果输出到一个叫做“outfile”(也可以是“treefile”)的文件中去。如果另外一个程序还要读取这个输出文件,就必须将“outfile”文件改名(改为“infile”)。图 9.10 给出了建立一个自引导的相邻连接的进化树的步骤的几个要点。接下来的部分我们将讨论一些用 PHYLIP 程序推导进化树的细节问题。

分析蛋白质数据的程序PROTDIST 程序计算蛋白质序列比对的距离矩阵。这个程序允许使用者从三个氨基酸取代的进化模型中选择其中之一。最简单的也是最快的(也是最不理想的)模型假定每一个氨基酸编程其它 19 中氨基酸的机会都是均等的。第二种是类别模型,在这个模型中,氨基酸分布在不同的分组中,按照转换的不同类别(转化成本组的氨基酸或者其它分组的氨基酸)进行评估。推荐使用第三种(默认的)方法,这个方法使用一张通过观察氨基酸转换得到的经验表,即DayHoff PAM 001 方阵(DayHoff, 1979)。在 PHYLIP 文档中和最新出版物(Felsenstein, 1996)中可以找到详细资料。

Page 270: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

PROTPARS 程序计算蛋白质序列的似然值。这个方法使用的进化模型同PROTDIST 程序中使用的进化模型不同,前者在评估观察到的氨基酸序列的转化的可能性时,考虑到潜在的核苷酸序列的转换。特别地,它作出如下(富有生物学意义的)假定:同义转化 [比方说:GCA (alanine) GCC (alanine)] 比非同义转化的发生频率要高。这样,举个例子来说,如果两个氨基酸之间的转化需要在潜在的核苷酸水平上进行三次非同义转换,那么这个转换的可能行比起那些在潜在的核苷酸水平上只要进行两次非同义转换和一次同义转换的氨基酸转化的可能性要小。PROTPARS不提供氨基酸转化的经验值选项(象 PAM 方阵那样的)。

分析核酸数据的程序DANDIST 计算核苷酸序列的距离矩阵,然后运行 NEIGHBOR 或者 PHYLIP 软件包中的其它距离矩阵程序计算输出结果,产生进化树。DANDIST允许用户从三种核苷酸取代模型中选择其中之一。比较老的(1969)Jukes and Cantor

模型同 PROTDIST 程序中的简单模型很相似,前者假定所有的核苷酸取代频率都一相等。比较近的(1980)Kimura双&#0;参数模型与之也很相似,但是它允许用户把颠换的权重设置得比转换的权重要高。PHYLIP也包含 DNAML,这是一个针对核苷酸数据的最大似然程序。因为这个程序执行起来相当慢,所以下面将描述一个推荐使用的程序&#0;&#0;Gary Olsen’s fastDNAml 程序(Olsen et al., 1994),这个程序是DNAml 的“姐妹”程序。

PAUP

Page 271: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

开发 PAUP(Swofford, 1997)的目的是为系统发育分析提供一个简单的,带有菜单界面的,与平台无关的,拥有多种功能(包括进化树图)的程序。在苹果机(Macintosh)上使用过 PAUP 程序(版本 3)的人对这个程序的菜单界面都会很熟悉,虽然这个版本已经不再发行了。PAUP 3.0只建立于 MP 相关的进化树及其分析功能;而 PAUP 4.0已经可以针对核苷酸数据进行与距离方法和ML 方法相关的分析功能,以及其它一些特色。

获取和编译程序在商业版本发行之前,现行的出版物中,有成打的分析使用了 PAUP 4.0 测试版本(由原作者通过 [email protected] 提供)。菜单界面的测试版本已经在Macintosh 68K 、PRC 计算机和微软的视窗操作系统上编译通过。命令行版本已经在 Sun Sparc、Supersparc、DEC Alpha(OSF1 和OPENVMS)、SGI(32 位和 64 位)以及 linux上编译通过。

初学的用户应该将其中一个菜单版本浏览一遍。在这些版本中也可以使用命令行这样会使得命令教程会变得容易一些。通常而言,命令都有缩写。比如,要执行启发式进化树搜索的命令可以键入“hs[earch]”(大小写不敏感;括弧内的字符为选项)。而且,因为文件在各个平台之间都是可移植的,菜单版本可以用来测试数据文件。如果希望在一个很快的 Unix 机器上跑一个分析程序,这个协议就显得非常重要。如果文件格式出错,菜单版本不仅仅报告文件格式的错误,而且还会打开文件,将错误的地方高亮度显示。

数据格式

Page 272: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

PAUP 使用一种称为NEXUS 的数据格式,这种格式还可以被MACCLADE 程序使用,当然 PAUP也可以输入 PHYLIP, GCG-MSF, NBRF-PIR, HENNIG86

数据格式以及文本比对(形如“{ name } <tab or space> { same-length

sequences } <ret>”的列表,以“;<ret> end”结束)。Sequencher(基因密码有限公司)和 Sequin 程序可以输出 NEXUS 格式。其它格式的比对序列(CLUSTAL, FASTA, GDE等等)可以通过 ReadSeq 程序将其转化为NEXUS 格式。如果使用 ReadSeq 程序,必须为每个单独的序列(分类单元)设计一个不超过八个字符的名字,因为程序会自动截取过长的名字。PAUP 中的名字可以无限长,但是每一个名字必须唯一。比对块(比方说,就像MSF 文件)可以由空格分开,作为更好的跟踪序列的位置。比对可以是连续的,也可以是较差存取的。PAUP 文件中可以在方括号中写明注解和注释(比方说,比对中基本位置的标记)。PAUP 可以识别 IUPAC 核苷酸的模糊密码,但是这些密码在进行距离和 ML 分析时被看作是丢失的数据。

PAUP 文件中的数据块可以包含附加的最优化信息,比如特征符和序列标签,丢失数据的定义以及特征符集和特征符权重集的定义;其语法同 PAUP 3.0 相同,并且可以通过帮助文档进行交互式查询。一个 PAUP 文件还可以包含假定和进化树块。这些块的格式同MACCLADE 程序所使用的格式基本相同,只有若干差异(Maddison and Maddison, 1992);举个例子,MACCLADE不能识别空位模式,而空位模式在 MP 分析中将会把空位看作是附加的特征符状态(FORMAT<space>GAP= { character } <space>

Page 273: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

GAPMODE=newstate<space> { other format options };)。同样地,PAUP会忽略一些 MACCLADE 数据选项。

在某些情况下,很南对数据进行手工格式化,这时就可以用菜单界面或者交互式的 MACCLADE 程序输出正确的格式文件。举个例子,可以通过 PAUP菜单界面创建“假定集”。假定中可以包含一个外围集团的说明规范、特定分类群的排除以及特征符,如果是MP 分析,还可以包含特征符权重和特征符类型的说明规范。假定还可以存储为一个合适的格式文件;打开一个数据文件的时候,就可以加载这个文件,或者,可以把注释粘贴到一个早先创建的文件中,以避免在并发的通话中需要将其加载。

PAUP也可以读取 PHYLIP 进化树的描述(从 PHYLIP 或者 CLUSTAL 输出),其中所提供的数据将被粘贴到一个 NEXUS 文件中的一个 PAUP 格式(begin trees; <ret>utree= { tree name } <space> { tree description };<ret>end;)的进化树块中。但是,PAUP 数据文件必须被激活并且在 PHYLIP 树中必须包含确切的分类群。PAUP会输入拓扑结构,以及优化的 PHYLIP&#0;或者 CLUSTAL&#0;衍生的树枝长度(命令为:gett[ trees ]

/file- { treefile } st [ oredbrlens ])。

建立进化树目前 PAUP 中的进化树建立功能包括MP 方法,如果是针对核苷酸序列,还有距离方法以及 ML 方法,使用的是 fastDNAml 算法(Olsen et al., 1994)。而且,PAUP 执行 Lake’s不变式方法(Swofford et al., 1996a; Li,

Page 274: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

1997)。每一种建树程序都允许使用多种的选项。MP选项包括任意特征符权重方案的说明规范。距离选项包括对 NJ, ME, FM(见 PAUP 发行附注 re:

PHYLIP)和 UPGMA 程序的选择。全范围的选项和他们的当前树枝可以通过菜单或者命令行进行查询(节约方法键入:pse [ ttings ] ?;距离方法键入:dse [ ttings ] ?;似然方法键入:lse [ ttings ] ?;)。距离方法和 ML 方法都有关于取代模型的详细的说明规范(取代数值,gamma, 以及不变位点的参数,假定相等,或者指定数值,或者经验的碱基频率)。任何进化树的这些参数都可以得到评估,只要设置参数数值为“est [ imate ]”, 并且用内存中一个期望使用的进化树执行“des [ cribe tree ]”命令(图 9.7)。

根据同 PAUP 4.0 测试版本一起发行的附注所说的,“PAUP*所找到的进化树的似然值通常都会同 PHYLIP 的一样高甚至更高[ 也就是说,更加好 ]”(这不仅是因为 PAUP 对进化树进行重新排布时更加广泛,而且也是因为因为它对树枝长度的迭代的收敛标准更加严格)。

不管使用哪一种建树方法,PAUP都提供了多种的进化树搜索选项。这些选项包括产生初始进化树(启动进化树)的算法规范:NJ, 逐步相加,或者输入进化树。逐步相加的算法也提供大量的选项,包括分类群“原态”的加和(分类群按照文件顺序相加):最接近的,最遥远的,或者对任意数目的复制品都是随机的。所有逐步相加算法的选项都考虑到了部分进化树的任意的最大数目,这些部分进化树是要保留下来并且在分类单元相加时进行扩建的。增大这个数目(比方说,增大到 100)也就意味着增大了起始拓扑结构的多样性,即使他们并不是随机的。

Page 275: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

一个随机的相加策略是默认的搜索策略的有用的补充(最近的相加,TBR交换,保存所有最好的进化树)。在随机搜索中,有大量的复制品可以同较快的 NNI

交换算法相结合。对于 MP 分析,可能存在这大量的长度相等的进化树,因此搜索时应该指定从每一个复制品中只保存一部分进化树,这些进化树同较慢的搜索的分值相当或者更好。而且,次优化的进化树的数目(这些进化树将会被交换以寻找更好的进化树)应该受到限制,可以通过设定 MAXTREES将其降至一个较小的数目(比方说,10)。通过这个策略,我们在浏览“进化树空间”区域时(这些区域很可能在较慢的搜索中被丢失),有时候会找到一些较好的进化树或者找到额外的唯一的最优化的进化树。可以指定随机相加的种子,但是默认值总是一样的。因此,除非更换种子,重复随机相加的搜索只能得到同样的结果。

评估进化树对于距离方法、MP 方法和 ML 方法,PAUP 执行无参数的自引导方法和对折方法,在执行过程中用到了这些建树方法的所有可用的选项。除非另外指定,所有的自引导方法都才能够同样的种子开始(也就是说,重复同样的自引导分析,其结果相同)。如果自引导数值大于 50%,则数值将会被绘制在进化树上;如果自引导数值处于 50%和任何指定的下界之间,则这些数值将从表格输出中决定。

对 MP 方法进行自引导分析或者对折分析时,MAXTREES 应该设为 10 和不超过 100 之间的一个数。这时因为,MP 进化树中分解性较差的那部分在用重新取

Page 276: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

样得到的数据进行操作时,其分解性通常会更差;因此,一个复制品所找到的相同长度的进化树的数目很可能是一个天文数字。因为那些并不能够被全套数据集很好地支持的进化树树枝的自引导数值或者对折数值不会很高,所以,对MAXTREES 加以限制(即便是有一些)不会对结果带来多少负荷,尤其是当复制品的数目增大到比方说 1000 的时候。

另外,PAUP 执行 Kishino&#0;Hasegawa 实验以比较MP 或者 ML 进化树(见发行附注 re: PHYLIP);计算多个进化树的四种类型的一致性(通常是对多个长度相等的 MP 进化树进行操作);计算 MP 进化树的逐步差异;评估指定分区之间的位点的信号冲突(比方说,在总和分析中,核内序列数据和细胞器序列数据)。

在 PAUP 中有不同的方法来确定一个约束进化树,但是最简单的方法是使用“loa [ d constraints ]”命令,从任何进化树文件或者任何数据文件中的进化树块中把一个或者多个进化树的定义输入到约束进化树缓冲中去。选择约束进化树要限定“hs [earch ]”命令。如果使用菜单,这个过程会很简单;也可以通过“help loa [ dconstr ]”和“help hs [earch ]”命令查询命令行的语法。

其它特色许多(但不是所有的)PAUP命令选项都是触发开关,因此在一次通话中一个已经设定的选项保持激活状态。在执行一个新命令或者程序之前,特别是在执行一个包含很多不同程序和数据集的复杂的会话之前,查询当前的设置是非常有

Page 277: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

用的;查询可以使用菜单,也可以在合适的地方直接键入命令“{ command-

name }<space>?”。

PAUP拥有一额外的附加的特色,在这里我们之涉及到其中的一部分:(1)、为画图、打印或者将 PICT 文件进化树(包括 PHYLIP 或者 CLUSTAL 进化树; 见图 9.1)输出为若干种格式(但是,遗憾的是,不包括TreeDraw、PHYLODENDRON 和 TREEVIEW 的辐射图)的基本的图形特色;(2)、一个能够编辑数据文件和日志文件的文字编辑器,这个编辑器可以分成四个面板,以浏览一个很长的比对或者日志的不同部分;(3)、将输出存入一个新的日志文件,或者将输出附加到一个已经存在的文件中去;(4)、使用外围集团、指定的祖先、指定的祖先状态或者中点方法确定进化树的树根;(5)、计算 MP 和 ML 方法中特征符状态的重新构建(如果这个程序使用 ML,精确度可能会好一些,但是非常慢,而且对于超过 100 个不同位点和 50 个分类群的数据集,几乎是不可实现的;输出结果可以被用来对一个进化树的变化进行手工标记);(6)、序列之间双重碱基差异的总和(现在叫做“二核苷酸频率”当然以后的版本可能会用其它名字)。

其它程序除了 PAUP 和 PHYLIP 以外,还有其它一些系统发育程序,这些程序有一些独到之处,但是程序在处理过程和可移植性方面通常都有很多限制。这些程序包括FastDNAml, MACCLADE, MEGA plus METREE, MOLPHY 和 PAML。FastDNAml

Page 278: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

FastDNAml(Olsen et al., 1994)是一个独立的最大似然建树程序。虽然它还没有成为当前版本的 PHYLIP 软件包中的一员,但是它的输入输出约定同PHYLIP 在很大程度上都是相同的,而且 FastDNAml 和 PHYLIP’s DNAML 的结果非常相似,甚至完全一样。FastDNAml 可以在并行处理机上运行,而且它还自带了大量有用的脚本(尤其是关于自引导以及打乱序列输入顺序的脚本)。要想充分利用这个程序,就必须有一定的 Unix知识。REP Web站点公布了Unix 和 VAX/VMS平台的程序源码,而通过 FTP 可以获得 Power Macintosh

版本的程序源码(见本章结尾的列表)。MACCLADE

MACCLADE(Maddison and Maddison, 1992)是一个交互式的Macintosh 程序,能够对进化树和数据进行操作,能够研究特征符的系统发育行为。程序使用的是NEXUS 格式,它也能够读取 PAUP 格式的数据和进化树文件。PAUP 文件中的一些信息会被MACCLADE忽略(比如,gapmode,空位模式),但是 PAUP“假定”块中的信息将会被 输入,其中包括特征符权重和特征符集以及分类群集。PAUP 和 MACCLADE 文件仍然存在着一些细微的差别;因此,用 MACCLADE 编辑 PAUP 文件或者用 PAUP 编辑MACCLADE 文件时,需要将文件保存为一个新文件,从而保留原文件,使之不被改动。MACCLADE

还可以读取 PHYLIP 文件、NBRF-PIR 文件以及文本文件(见上)。可以使用任何方法产生进化树,但是MACCLADE 的功能是严格地基于节约方法的。举个例子,程序允许使用者追踪任意进化树上的每一个单独特征符的进化轨迹。不管怎么说,MP 和 ML 重新构建的功能是不同的,而且ML 功能据称更加实际一些

Page 279: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

(Swofford et al., 1996a)。进化树的拓扑结构可以通过拖动树枝进行操作,而点击树枝则会在进化树的对称性上产生审美的修饰。

MACCLADE 包括如下一些同序列分析相关的附加的特色:

1. 能够方便地编辑模糊区域的数据编辑器,因为序列块可能会被转变为丢失的数据符号。

2. RNA 或者 DNA翻译成氨基酸数据。 3. 识别 IUPAC 核苷酸的模糊密码。 4. 以特征符数目和进化树上变化的数目为维度的图表,通过这张图,可以直观地观察

位点内部的速率差异性。 5. 一个 MP 进化树的各种碱基之间相互转变的总量的图表(“状态转变和统计”图表:其中有些数据可能是在文献中被错误地报告为取代“速率”,但是对于树枝长度或者位点内部的速率差异完全没有修正)。

6. 根据四种不同的规则将状态转变和统计数值转化为一个权重矩阵。 7. 计算密码子位点。 8. 为制图功能以及从数据集中切除位点选择密码子位置。 9. 一个基本的比对编辑器,允许拖拉被选的序列块。 10. 能够输出同 PRETTY 格式相似的数据,其中的序列块由空格分开,并且与第一个

序列相匹配的碱基标记为“.”。 11. 同 PAUP 相似的一个进化树图形编辑器,同样允许在每一个数值上对特征符变化作

出标记。 12. 为 PAUP 分析定义约束进化树的简单方法(仅仅是简单地瓦解那些非约束的节点,然后将进化树存储为一个文件)。

MEGA plus METREE

MEGA(Kumar et al., 1994)是一个关于序列分析以及比较统计的 DOS 程序的软件包,其中包括有距离建树方法和 MP 建树方法。对于 MP 建树方法,将执行分支定理和启发式算法;对于距离建树方法,MEGA提供了 PAUP 中的取代模型的一个子集,也提供了 NJ 建树算法。在其捆绑的 METREE 程序(Rzhetsky and Nei, 1994)中提供了一个 ME 搜索。现在还无法比较MEGA

和 PAUP 或者 PHYLIP 中的搜索算法的效率和可靠性。针对核苷酸数据建立进化

Page 280: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

树,MEGA 的效果不如 PAUP(Lewis and Lewis, 1995)或者 PHYLIP。举几个例子:其格式不允许在数据文件中存储假定,因此必须在每一次会话中手工指定这些假定;取代模型的范围和空位处理方法以及丢失的数据都是有限的,并且程序不能评估参数数值;似然方法不允许加权;不能 IUPAC 核苷酸的模糊密码;使用 MP 方法时不允许进行自引导分析;进化树图形很简单,并且不能保存进化树文件。虽然MEGA 可以通过密码子数据和氨基酸数据建立距离进化树,但是使用的取代模型太简单,对于绝大多数数据集而言,不能产生可靠的进化树。MEGA同其它程序一样,也没有包括一些有用的特点(Lewis and

Lewis, 1995):空位和空位大小频率,密码子的用法和氨基酸频率。MOLPHY

MOLPHY(Adachi and Hasegawa, 1996)是一个共享的软件包(见本章结尾的列表),可以进行 ML 分析以及核苷酸序列或者氨基酸序列的统计 。MOLPHY 在 Sun OS 和 HP9000/700 系统上经过测试。在实际使用时需要对Unix 文件操作有一定的了解。MOLPHY 的用途包括NEXUS, MEGA 和 PHYLIP

文件格式之间的数据文件的格式转换,还包括从 EMBL 或者 GeneBank 的核苷酸序列文件中提取编码区域。其中的 ML 程序同 PHYLIP 中的 ML 程序很相似,但是前者的氨基酸取代模型的范围很广,而且有很多选项能够进行快速的启发式的搜索,其中包括一个选项能够使用“本地自引导”分析(也就是说,进行一个子树的自引导分析,条件是假定这个进化树的剩余部分是正确的)以搜索更好的 ML 进化树。输出结果包括树枝长度评估以及标准偏差。分析分离的密码子位置是可能的。MOPHY 使用 PAUP 中提供的核苷酸取代模型的一个子集,尽

Page 281: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

管它允许使用者自行指定参数数值。现在使用的 MOLPHY缺少一个自引导选项,也不能包容位点内部的速率差异性。PAML

PAML(Yang et al., 1996)是一个共享软件包(见本章结尾的列表),能够进行 ML 模型的建立和进化树的建立,能够进行 Bayesian 进化树的建立,能够进行模拟实验,能够进行基于似然方法的进化树的分析,能够进行进化树评估以及数据和进化树的统计。这个软件包已经在 Macintosh 68K 和 PowerPC

计算机上编译通过,还有一个非编译的 Unix 版本(GNU gcc 或者 Sun ANSI

C)。对于密码子数据和氨基酸数据,这个程序提供了最详细的和最灵活的参数指定和评估方案。对于核苷酸数据(BASEML 和 BASEMLG),取代模型的范围同 PAUP 的一样广泛,可能包括了所有值得考虑的模型。PAML 执行不额外的模型:相邻位点的速率相关性(自动离散&#0;gamma 模型)和一个多基因模型,这个模型允许对每一个基因指定取代模型。后者对于分析来自于不同基因(在不同约束下进化)的混合数据非常有用。下列步骤可能很有用:受限用PAUP 进行 ML 进化树的建立,然后转向 PAML,评估是否加入这些参数以改善似然值。PAML还包括一个在非静态条件下(序列之间的碱基频率变化很大)建立进化树的似然方法,但是对于超过四个序列的系统,这个方法被认为是不实用的。CODONML 程序对于评估密码子频率、每一个密码子位置上的碱基频率以及每一个(非)同义位点上的(非)同义取代的数目非常有用。一个受到限制的PAML 特色是能够从数据集中把包含一个空位的所有位点或者丢失的数据分值(不允许存在 IUPAC 模糊密码)排除出去。当分类群数目增加时,一个给定位

Page 282: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

点至少要达到的似然分值也随之增加;因此这个限制要冒一定的风险,很可能会把很有用的数据也切除掉。同时,PAML 中的进化树搜索算法也受到MOLPHY 中采用的不严格的星型分解方法的限制。因此,必须采用多重搜索。

一些简单的实际的考虑1. 不管听起来多么荒谬,到目前为止,在进行系统发生的推断分析中,最

重要的因素不是进行系统发生推断所采用的方法,而是输入数据的质量。数据选择的重要行以及尤其是比对过程的重要性都不能过高估计。即使是最复杂的系统发生推断方法都不能校正输入数据的错误。

2. 从尽可能多的角度观察数据。使用三种主要方法(距离方法,最大节约方法,最大似然方法)中的每一个,然后比较它们所建立的进化树的一致性。同时,要清醒地意识到我们不能只是因为所有这三个方法产生了相同的进化树,就认为已经达到了相对于真实系统发育的一个较好的评估。不幸的是,由不同方法得到的结果的一致性并不能必然地意味着结果就是统计显著的(或者代表这真实的系统发生史),因为达到一致性的因素很多。

3. 选择外围的分类群同内在的分类群的选择对于分析的影响是相当的。尤其是当外围的分类群同一个或者几个内在的分类群拥有一个相同的不同寻常的属性(比方说,组成偏好或者始终频率)时,问题就会复杂化(Leipe et al., 1993)。因此合理的做法是用若干个外围的分类群计算每一个分析,检查内在分类群的拓扑结构的一致性

4. 要清醒地意识到程序可以给出不同的答案(进化树),仅仅是因为序列出现在输入文件的顺序不同。PHYLIP, PAUP 以及其它系统发育软件提供了一个“混乱”选项,可以按照不同的(混乱的)输入顺序重新运算。如果不管是什么原因,必须在一次运行中计算进化树,怀疑有问题的的序列应该放置在输入文件的结尾,以降低进化树重新排布方法受到一个较差的初始拓扑结构(这个拓扑结构来源于任意的有问题的序列)的负面影响的可能性。

第九章所涉及到的因特网资源:系统发育学的资源(PHYLOGENETIC RESOURCES):

Page 283: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

在加州大学伯克力分校的古生物学博物馆有一个因特网站点,组织得非常好,如果你对这个领域感兴趣,最好能够把这个地址保存在收藏夹里。这个站点所搜集的系统发育学的程序并不象其它站点那样多,但是它的页面里包含了许多与系统发育学有关的链接,其中包括出版物、介绍、新闻组、协会、会议通知以及大量的分子生物学和分类生物学数据库。http://www.ucmp.berkeley.edu/subway/phylogen.html

系统发育学的程序(PHYLOGENY PROGRAMS):通过这个网站浏览现有的系统发育学的软件是个非常好的选择。在这个站点中有大约一百个系统发育学的程序简单的描述,按照程序方法(长程方法,似然方法,节约方法等)和运行的计算机平台(Unix,Mac,Pc等)组织起来。另外,它还提供了这些软件的下载网址或者商业软件的出版网址。http://evolution.genetics.washington.edu/phylip/software.html

系统发育学计算机分析程序(PHYLOGENETIC ANALYSIS COMPUTER PROGRAMS):这是个关于生命树的网页。它所提供的系统发育学程序没有上一个网站那么多,但是程序的说明更加详尽,并且除了画树程序以外,它还提供了序列编辑器和其他一些分子生物学的软件工具。http://phylogeny.arizona.edu/tree/programs/programs.html

Page 284: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

节约算法分析软件(PARSIMONY ANALYSIS SOFTWARE):这个站点是由 IWHS(Iternational Willi Hennig Society)维护的,专门研究节约算法,其中许多程序同 PAUP 或者 Hennig86互相影响。http://www.vims.edu/~mes/hennig/software.html

生物目录分子进化(BIOCATALOG MOLECULAR EVOLUTION):欧洲生物信息学研究所提供了大量系统发育学软件的链接。这个站点提供的STATALIGN 程序似乎是独一无二的,其他站点都没有。http://www.ebi.ac.uk:/biocat/phylogeny.html

杆页(ROD PAGE’S HOME PAGE):这个主页提供了少量的系统发育学的分析软件,这些程序是基于苹果机或者视窗操作系统的,包括下面提到的 TreeView 程序。http://taxonomy.zoology.gla.ac.uk/rod/rod.html

读取序列(READSEQ):这里有一个文件格式转化程序,可以把一种格式的序列文件转化成另一种格式的序列文件。这个站点的页面上有一个拷贝—粘贴(copy—and—paste)窗口和一个下拉菜单,用户可以选择 14 种常用的序列文件格式中的一种作为输出格式。

Page 285: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

http://dot.imgen.bcm.tmc.edu:933/seq-util/Optiions/readseq.html

序列输入输出(SEQIO):这个站点有一个软件包,其中包括了 READSEQ 程序的可执行版本,还有其它许多的关于数据库搜索的软件和分子生物学家们可能会用到的计算机工具。这个软件包可比 READSEQ 程序复杂得多,必须下载后安装才能使用。如果只是想进行简单地序列文件格式转化,READSEQ要快得多。http://wwwcsif.cs.ucdavis.edu/~knight/seqio.html

PHYLIP:这是一个分析系统发育的免费软件,有关软件的简短介绍可以在线阅览,但是软件和完整手册需要下载。http://evolution.genetics.washington.edu/phylip.html

画树程序(TREEVIEW):这个站点的画树软件是基于苹果机和视窗操作系统的,它读取标准的 NEXUS

和 PHYLIP 格式的系统发育树文件。这个软件允许用户重新定义树根和其它一些简单的节点,系统发育树可以打印或者保存在一个文件中(在苹果机中是PICT,在视窗操作系统中是图元文件),以备日后处理。这个程序对于出版物中的系统发育树的描绘很有帮助。http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Page 286: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

在 RDP 树上进行系统发育定位(SUGGESTING A PHYLOGENETIC PLACEMENT ON THE RDP TREE):这项服务允许用户自行输入一段小的 RNA 序列,把这段序列用快速DNAml画树程序定位到已有的 RDP(Ribosomal Database Project)树上。这项服务快得令人惊奇,它可以在不到一分钟的时间里返回一个大约包含 20 个物种的系统发育树,但是它还不能进行彻底的分析。http://rdp.life.uiuc.edu/RDP/commands/sgtree.html

 致谢:非常感谢 Dave Swofford提供了 PAUP 4.0 的测试版本以及同Dave

Swofford 和 Jack Sullivan 进行的十分有益的讨论。M.A.H是作为国家生物工程信息中心的一名博士后参与这项工作的。感谢 NIH 和史密森学会。 图示:图 9.1、选定的植物、真菌和原生生物的 5.8s rDNA 序列的 CLUSTAL 引导树。分类和相应缩写字母所代表的序列在其它地方有描述(Hershkovitz and Lewis,

1996)。首先利用 CLUSTAL 的特定的(在这里使用的是默认值)空位罚分进

Page 287: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

行双重比对,然后根据双重比对得到序列两两之间的相似性,得到这个临近相连的(距离)进化树。计算相似性时依据的是双重比对中相同碱基的比例,不用考虑空位的位置。这个进化树既可以看作是一个最终结果,也可以作为一个多重比对中的预备步骤。不管怎样,这个进化树都会被存储为 PHILIP 格式的进化树文件。对于多重比对程序而言,这个进化树的拓扑结构将决定序列输入的顺序(最外面的集合最先比对),而树枝长度将决定序列的权重。这个进化树(见Hershkovitz and Lewis, 1996)中有几个分组,同已知证据不能吻合(比如,针叶树和红藻的多元性;厥类植物和苔藓的单一性),这些不正确因素都将误导多重比对。这个进化树是由 PAUP 的苹果机版本的画树程序制作和打印,之后经过了苹果机的图形程序加工而成的。PAUP 的进化树阅览和制作的常规协议如下:(1)、执行一个 PAUP 文件,其分类名称同进化树名称相同;(2)、用GETTREES命令引入进化树文件,指定选项以保留进化树文件中的树枝长度;(3)、用 PRINT TREES命令画出进化树,再次指定输入的树枝长度的用途;(4)、用弹出的打印进化树菜单(Print Trees)中的预览选项(Preview

option)将进化树存储为 PICT 文件。注意,对于 PAUP画树工具的使用,所执行的数据文件(序列和比对)的内容并不重要,只需要分类名相同就可以。在数据文件中可能会有额外的分类,只要用 DELETE TAXA命令将其忽略即可。

图 9.2、结构 RNA 序列比对的系统发育证据。(A)、假定的八个序列的比对,这个比对是根据二级结构相同的碱基对准得到的,中间有一段变长(由Z字形标记)的环形(loop)区域。(B)、假定的二级结构配对关系的说明。(C,

Page 288: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

D)、A&#0;T 序列和 G&#0;C 序列可供选择的系统发育关系。(C)中的比对同系统发生相一致,但是与之无关,因为A&#0;T 和 G&#0;C 的取代只发生了一次。因此,必须有生物化学或者统计学证据为比对提供支持。在(D)中,A&#0;T 和 G&#0;C 之间发生了多个独立的取代,因此系统发育证据支持这个比对。

图 9.3、系统发育的比对分析。(A)、图 9.1 中所显示的引导树分类群中,5.8s rDNA

序列比对的变长区域(框中所示)。1&#0;8 所示为被子植物;9&#0;10为gnetophytes;11&#0;13为松类植物;14&#0;15为蕨类植物;16为苔藓;17&#0;21为绿藻;22&#0;27为真菌类;28&#0;33为原生生物。这些序列比对已经公开出版(Hershkovitz and Lewis, 1996)。每个序列的阴影区域都是独一无二的。图 9.1 所示的引导树分类群中的序列同这里的序列一样,只是这里的序列为了简单起见,略去了一部分。注意引导树(基于完整序列)中的分类群似乎在变长区域形成了比对分组。按照双重原则,某些相关性较远的序列出现可供选择的比对形式似乎很合理。举个例子来说,如果向左移动两格,那么CLADO 序列中间的 TAC就会同一些被子植物中的 YAY 对准,而不是同绿藻类的 YYC 对准;但是足够的抽样显示 YAY 在被子植物中并不普遍,因此,引导树支持现行的比对,以使绿藻类中不会出现变长;如果没有足够的样本、引导树或者预知的系统发育证据,就不能做此结论。注意,绿色植物系统(1&#0;21)和真菌及原生生物并不能很好的对准。阴影部分的变化和引导树注明的分歧都表明在这些距离较远的组分之间不存在真正的比对,这里的比对

Page 289: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

相当武断,真实的碱基也不太象是同源的。(B)、同样的比对,为了进行系统发育分析进行如下的修正:(1)、真菌类和原生生物序列重新计分,忽略所有阴影区域内的位点,这些位点同绿色植物系统的比对很不确定;(2)、真菌类的变长区域附加到比对的末尾,因为这些区域在真菌类内部比对较好,而且包含了有用的系统发育变化;(3)、多位点空位按照一个空位计分,其余的忽略不计,因此在 MP 分析中,多位点空位不被看做多个独立的缺失位点。原生生物的变长区域不会被附加到比对末尾,因为比对结果和引导树都表明原先的比对相当武断。

图 9.4

特征符权重方阵及其在 MP 系统发育分析中的应用。(A)、图中的方阵表明颠换的代价是转换的代价的两倍。因为根据 MP 分析,两个序列共有的碱基是永远不会改变的,因此对角线元素将会被忽略。(B,C)、八个序列中,某个特殊的对准位点的碱基的假定的进化模式,在这里有两种系统发育的解决方案和构建模式。用不加权的 MP 方法进行分析,则这两种构建方法(相对于其它方法)拥有相同的代价值(分为三个步骤),因此是等价的;但是如果使用(A)中所示的加权方阵后,构建(B)需要四个步骤,而构建(C)则需要 5 个步骤,因此,应该选择构建方法(B)以及其它只需要四个步骤的构建方法。

图 9.5

在 ML 和距离系统发育分析中使用的简化的取代速率方阵。这个方阵同图 9.4 中所示的方阵类似,但是在对分歧进行实际计算时需要引入比较复杂的代数,而

Page 290: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

且并不取决于碱基之间的简单的步骤加和。非对角线元素 an 代表一个变化的瞬时速率,它是不同取代的相对速率以及目标碱基的频率。实际上,前进速率(上对角元素值)同反向速率(下对角元素值)被认为是相等的;而对角线元素值是非零值,这很有效地说明了一种可能性,即序列之间的分歧越大,越有可能在很偶然的情况下拥有相同的碱基。在序列进化的最简单的模型中(the

Jukes&#0;Cantor model),所有的 a值都相同,所有的取代类型和碱基频率都被认为是等价的。

图 9.6

双重序列比较。这张表比较了菠菜(Spinacia oleracea)和铁锈真菌(Sclerotinium sclerotiorum)的 18s rDNA 序列进行比对的 1361 个位点。行表示铁锈真菌中,同菠菜的特定碱基比对的碱基分布;列表示菠菜中,同铁锈真菌的特定碱基比对的碱基分布;对角线元素是两个序列中碱基位点相同的数目。注意铁锈真菌中有AT碱基偏向:铁锈真菌中有 83(10 + 36 +25 +

12)个位点是A 或者 T,它们对应的菠菜序列的位点是G 和 C;想比较而言,铁锈真菌中只有 47(6 + 22 + 13 + 6)个位点是G 和 C,其对应的菠菜序列的位点是A 和 T。因为这两个序列的绝大多数位点都相同,并且因为变异受到限制,所以对这两个序列(全序列)进行简单的碱基频率的比较时,这个偏向并不明显。注意,很明显,转换的数目(13 + 36 + 25 + 22 = 96)同颠换的数目(6 + 4 + 10 + 6 + 8 + 12 + 5 + 6 = 57)相比,极为巨大;而C&#0;T转换占到 58/153(153是总数)。这些数据可以通过 PAUP 或者MEGA 程序得到。

Page 291: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

图 9.7

用 PAUP 对一个核苷酸取代模型进行估值的策略。这里显示的是 PAUP 的输出结果,有些输出为了简单起见,被略去了。输入的命令由粗体特征符表示,并且被写在括号里。这个程序的命令行版本需要在命令行中输入命令,但是同样的命令还可以通过菜单界面给出。PAUP 程序执行后,并且执行了数据文件以后 [ paup>exe 18s.paup ],程序将会以较快的速度建立一个进化树&#0;&#0;在这种情况下,MP 搜索(PAUP 中默认的最优化标准)将会使用程序的默认设置。在输出结果中显示了全部的搜索设置(这里被截短了)。在这个情况下,一共找到了 36 个同等节约的进化树。最优化标准变为似然方法 [ paup> set cri=1 ],设置也改变了,开始使用六个取代类型,并且对位点内部的速率差异进行 gamma 和不变式的混合修正;对于取代速率方阵,gamma 形状参数和不变位点的比例将通过数据和进化树进行估值 [ paup>

lse nst=6 rma=est ra=ga sha=est pi=est ]。命令 lse ? 显示了当前的似然方法的设置(这里被截短了)。命令 set tcom 将会压缩输出的进化树,以节约空间。我们通过描述存储的进化树对似然方法的参数值进行估值,在这里使用的是 16号进化树(同样的拓扑结构出现在 Hershkovitz and Lewis,

1996)。一个选项把进化树的输出指向一个种族,这将显示树枝长度 [ paup>desc 16 /pl=ph ]。当然,也可以选择把进化树的输出屏蔽掉 [ paup>desc 16 /pl=no ]。输出结果还将显示似然方法的参数值、进化树的分值和其它一些信息,在这里这些信息没有被显示出来。R 方阵是图 9.5 中所示的一般形式的方阵的一个实例;它包括了似然方法的设置中要用到的相对的速率

Page 292: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

参数。可以输入命令,把似然方法的设置改变回较早时的数值(把这些数值设置为对刚才描述的进化树有效的数值 [ paup> lse rma=pre sha=pre

pi=pre ]),将会激活参数的估值。于是这些数值将会为ML 建树搜索服务。同样地,这些数值可以插入到相似的距离方法的参数设置中,为距离方法建树搜索服务。

图 9.8

星型分解图。本图显示了诸如相邻连接方法之类的建树算法的工作方式。最相近的两个终端被连接起来,并在它们和剩余的终端之间插入一个树枝。然后,这个新的树枝得到修整,使得这个树枝的数值是两个原始值的平均数,并产生一个只包含 n-1 个终端的星型图。这个过程将反复进行,直到最后只剩下一个终端为止。

图 9.9

测试数据中的系统发育信号的偏差实验:一个 PAUP 输出(命令行在括弧内用粗体字体显示)。这个程序的命令行版本需要在命令行中输入命令,但是同样的命令还可以通过菜单界面给出。这个实验使用的样本同图 9.7 中的一样,都是18S rDNA 数据集,并且假定优化标准是MP标准。对 MP而言不提供信息的特征符已经被删除,因为如果数据中这些特征符的比例较高的话,将会对结果产生误导。所有的进化树分值的全部输出会非常冗长;因此这个实验命令提供了一个选项,可以输出一个包含 20 个分类的柱状图(20是默认值)。默认的复制数目是 1000,在这里已经大大增加了。对 33 个分类群所作的 g1 统计非常重

Page 293: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

要:其数值比拥有 25 个分类群和 500 个特征符(Hillis and Huelsenbeck,

1992)的系统临界值(-0.09; p=0.01)还要小很多(负数);对于拥有更多的分类群和特征符的系统,还没有给出临界值,但是可想而知,这些值必将更加小(负数)。这个 MP 进化树的分值是 2315 分(比较图 9.7),比起 500 个随机进化树中的任何一个都要小得多。接下来会进行第二次实验,但是将从 18S

数据集中删除被子植物的数据。分类群可以根据名字或者编号被临时删除,而被子植物恰好是数据文件中的前 10 个分类群。在这种情况下,g 统计要比拥有500 个特征符和 10 个分类群的系统的临界值(-0.16; p=0.5)大得多(正数),显示出 18S 序列没有系统发育信号来解决这些样本的关系。用这些 18S

数据以及 10 个被子植物得到的 MP 分值是 312 分,这个分值只比最好的随机进化树分值稍微好一点。

图 9.10

用 PHYLIP 程序进行自引导分析的工作流程。SEQBOOT 接受一个 PHYLIP 格式的文件作为输入数据,然后按照用户指定的数目(比如 1000次)将其加倍。输出文件中的结果可以用来计算 1000 个距离矩阵:如果是DNA 数据,就用DNADIST;如果是蛋白质数据,就使用 PROTDIST。在这个步骤中,真书的数据(核苷酸,氨基酸)被屏蔽,由两个序列之间的分歧数量取代。然后,NEIGHBOR 程序将会为这些(1000 个)矩阵的每一个都建立一个进化树。然后,CONSENSE 程序将 1000 个进化树较少到 1 个,并且在树枝上标注自引导数值。存在于输出文件中的 CONSENSE 进化树的拓扑结构可以用任何文本编辑软件打开,而进化树文件可以为出版发行作进一步处理。Treetool 和

Page 294: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

TREEVIEW允许用户对进化树进行操作和处理(重新确定树根,重新排布树枝,将系统树图转化为家族图谱,等等),并且可以将文件存储为常用的图形格式(就像 PICT)。虽然这些程序不在 PHYLIP 软件包中(用虚线方框标注),他们都是免费可得的(见本章结尾的列表)。图示还显示了一些在自引导分析过程中进行数据处理时所用到的不同的文件格式。受篇幅限制,每个文件都截去了许多内容,这些截去的内容在框中处于右方和底部。 参考文献Adachi J.and Hasegama,M.(1996).MOLPHY Version2.3.Programs for Molecular phylogenetics based on maximum likelihood(Tokyo:Institute of Statustical Mathematics).

Avise J.C.(1994).Molecular Markers,Natural and Evolution(New York: Chapman & Hall).

Baldauf,S.L,Palmer,J.D.,and Doolittle,W.F.(1996).The root of the universal tree and the and the orugin Efron,B.(1979).Bootsrapping methods:Another look at the jackknife.Ann.Stat.7,1-26.

Dayhoff,M.O.,Schwarez,R.M.,and Orcutt,B.C.(1978).A model of evolutionary change in proteins.In Atlas of protein sequence and structure M.O.Dayhoff,ed.(washington,DC.,National Biomedical Research Foundation),pp 345-362.

Faith,D.P.,and Trueman,J.W.H.(1996).When the topology-depnsent permutation test(T-PTP)ing the null hypothesis of nonmonophyly,(b)rejecting the null hypothesis of "no structure,"(c)Felsenstein,J.(1985).Confidence intervals on phylogeies:An approach using the bootstrap.Evolution39,783-791.

Felsenstein,J.(1997).An alternative lesst-approsch to inferring phylogenies from pairwise distances.Syst.Biol.46,101-111.

228 PHYLOGENETIC ANALYSIS

Page 295: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Felsenstein,J.,and kishino,H.(1993)Is there something wrong with the bootstrap on phylogenies.

A reply to Hillis and Bull.Systematic biology42,193-200.

Feng,D.F.,and Doolittle,R.F.(1996).progressive alignment of amino acid sequences and con-struction of phylogenetic trees from them.Methods Enzymoi.266,368-382.

Gstesy,J.,Desalle,R.,and wheeler,w.(1993).Alignment-ambiguous nucleotide sites and the Gutell,R.R.,Lsrsen,N.,and woese,C.R.(1994).Lessons from an evolving rRNA:16S and 23S rRNA structures from a comparative perpective.Microbiol.Rev 58,10-26.

Harver,P.H.,and pagel,M.D.(1991).The comparative Method in Evolutionary Biology(Oxfrord:Oxford University press).

Hein,J.(1990).Unified approach to alignment and phylogenies.Methods Enzymol.183,626-645.

Hein,J.(1994).TreeAlin.Methods MOL.Bion 25,349-364.

Helbig,A.J.,and seibold,I.(1996).Deep-level diagnostic value of the rDNA-ITS region.Hershkovitz,M.A.,and Bull,J.J.(1996).Are storks and new world vultures paraphyletic?Mol.phyloenet.Evol 13,1276-1295.

Hershkovitz,M.A.,and Lewis,L.A.(1996).Deep-level diagnostic as a method for assessing confidence in phylogenenbeck,J.P.(1992)

Hillis,D.M.,Allsrd,M.W.,and miyamoto,M.M.(1993).Analysis of DNA sequence sara:phylo

Hillis,D.M.,Huelsenbeck,J.P.,and cunningham,C.W.(1994)Application and accuracy of molecular phylogenies.methods Enzymol.224,456-487.

Hillos,D,M.,Huelsenbeck,J,P(1995).perfromance of phlogenetoc methods in simulation.syst Biol,44,17-48.

Huelsenbeck,J.P.,Hillis,D,M.,and Grate,L.(1996b)SAM:sequence slinment and modelling software:University of california Baskin center for compuer Engineering and modelling software University of California,Baskin Center for Computer Enguneering and Information Sciences .

Page 296: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

http:\\www.cse.ucsc.edu\research\compbio\sam doc.html)

Kishino,H.,and Hasegawa,M,(1989).Evaluation of the maximum lielihood estimate of the evolutionary tree topologies.Comput.Appl.Biosci.10,189-191.

Lake,J,A(1994).Reconstructing evolutionary trees from DNA and protein seqences:paralinear distanece,C.E.,Altschul,S.F.,Bognals:A Gibbs sampling strategy for multiple alignments.science 262,208-214.

Lawson,F.S.,charlebois,R.L.,and Dillon,J.A.(1996).phylogenetic analysis of carbamoylphosphate synthetasa genes:Complex evolutionary history includes an internal duplication within a Lipe,D.D.,Gunderson,J.H.,Nerad,T.A.,and sogin, M. L (1993).Small suunit riosomal RNA of Hexamita inflata and the quest for the first branch in the eukaryotic tree. Mol. Biochem. Parasitol. 59, 41-48

Leipe, D. D., Wainright, P. O., Gunderson, J. H., Porter, D., Patterson, D. J., Valois, F., Himmerich, S., and Sogin, M. L. (1994). The Stramenopiles from a molecular perspective: 16S-like rRNA sequences from Labyrinthuloides minutum and Cafeteria ronbergensis. Phycologia 33, 369-377

Lewis, P., and Lewis, L. A. (1995). MEGA: Molecular Evolutionary Genetics Analysis, Version 1.02, by S. Kumar, K. Tamura, and M. Nei. Syst. Biol. 44, 576-577

Li, W.-H. (1997). Molecular Evolution (Sunderland, MA: Sinauer Associates).

Lockhart, P. J., Steel, M. A., Hendy, M. D., and Penny, D. (1994). Recovering evolutionary trees under a more realistic model of sequence evolution. Mol. Biol. Evol. 11, 605-612.

Maddison, W. P., and Maddison, D. R. (1992). MacClade: Analysis of phylogeny and Character Evolution. Version 3.0 (Sunderland, MA: Sinauer Associates).

Mindell, D. P. (1991). Aligning DNA sequences: Homology and phylogenetic weighting. In Phylo-genetic Analysis of DNA Sequences, M. M. Miyamoto and J. Cracraft, Eds. (New York: Oxford University Press), pp. 73-89

Page 297: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Morrison, D. A., and Ellis, J. T. (1997). Effects of nucleotide sequence alignment on phylogeny estimation: A case study of 18S rDNAs of Apicomplexa. Mol. Biol. Evol. 14, 428-441

Nixon, K. C., and Carpenter, J. M. (1993). On outgroups. Cladistics 9, 413-426

Olsen, G. J., Matsuda, H., Hagstrom, R., and Overbeed, R. (1994). FastDNAml: A tool for construction of phylogenetic trees of DNA sequences using maximum likelihood. Comput. Appl. Biosci. 10, 41

Penny, D., Lockhart, P. J., Steel, M. A., and Hendy, M. D. (1994). The role of models in reconstructing evolutionary trees. In Models in Phylogeny Reconstruction, Systematics Association Special Volume No. 52, R. W. Scotland, D. J. Siebert and D. M. Williams, Eds. (Oxford: Clarendon Press), pp. 211-230

Rzhetsky, A., and Nei, M. (1992). A simple method for estimating and testing minimum evolution trees. Mol. Biol. Evol. 9, 945-967

Rzhetsky, A., and Nei, M. (1994). METREE: A program package for inferring and testing minimun-evolution tress. Comput. Appl. Biosci. 10, 409-412

Saitou, N. (1996). Reconstruction of gene trees form sequence data. Methods Enzymol. 226, 427-449

Sanderson, M. J. (1989). Confidence limits on phylogenies: the bootstrap revisited. Cladistics 5, 113-129

Soltis, D. E., Soltis, P. S., Nickrent, D. L., Johnson, L. A., Hahn, W. A., Hoot, S. B., Sweere, J. A., Kuzoff, R. K., Kron, K. A., Chase, M. W., Swenson, S. M., Zimmer, A. A., Chaw, S.-M., Gillespie, L. J., Kress, W. J., and Sytsma, K. J. (1997). Angiosperm phylogeny inferred form 18S ribosomal DNA sequences. Ann. Missouri Bot. Garden 84, 1-49

Strimmer, K., and von Haeseler, A. (1996). Quartet puzzling: A quartet maximum likelihood method for reconstructing tree topologies. Mol. Biol. Evol. 13, 964-969

Sullivan, M. J., and Swofford, D. L. (1997) Are guinea pigs rodents? The importance of adequate models in molecular phylogenetics. J. Mammal. Evol. 4, 77-86

Page 298: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Swofford, D. L. (1990). PAUP. Phylogenetic Analysis Using Parsimony, Version 3.0. Computer program distributed by the Illinois Natural History Survey, Champaign, IL.

Swofford, D. L., (1997)

Swofford, D. L., and Olsen, G. J. (1990)

Swofford, D. L., Olsen, G. J., Waddell, P. J., and Hillis, D. M. (1996a). Phylogenetic inference. In Molecular Systematics, D. M. Hillis, C. Moritz and B. K. Mable, Eds. (Sunderland, MA: Sinauer Associates), pp. 407-514

Swofford, D. L., Thorne, J. L., Felsenstein, J., and Wiegmann, B. M. (1996b). The topology-dependent permutation test for monophyly does not test for monophyly. Syst. Biol. 45, 575-579

Thompson, J. D., Higgins, D. G., and Gibson, T. J. (1994). Clustal W: Improving the sensitivity of progressive multiple alignment through sequence weighting. Nucl. Acids Res 22, 4673-4680

Thorne, J. L., and Kishino, H. (1992). Freeing phylogenies form artifacts of alignment. Mol. Biol. Evol. 9, 118-1162

Weston, P. H. (1994). Methods for rooting cladistic trees. In Models in Phylogeny Reconstruction, R. W. Scotland, D. J. Siebert, and D. M. Williams, Eds. (Oxford: Systematics Association), pp. 125-155

Wheeler, W. C. (1994). Sources of ambiguity in nucleic acid sequence alignment. Exs 69, 323-352

Wheeler, W. C., and Gladstein, D. (1994). MALIGN: A multiple sequence alignment program. J. Hered. 85, 417

Yang, W. M., Inouye, C. J., Zeng, Y., Bearss, D., and Seto, E. (1996). Transcriptional repression by YYI is mediated by interaction with mammalian homolog of the yeast global regulator RPD3. Proc. Natl. Acad. Sci. U. S. A. 93, 12845-12850

Yang, Z., Goldman, N., and Friday, AA. (1995). Maximum likelihood trees form DNA sequences: A peculiar statistical problem. Syst. Biol. 44, 384-399

上一页 下一页 返回目录 返回茶庄

Page 299: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

  

10

利用核酸序列的预测方法James W. Fickett

SmithKline Beecham Pharmaceuticals

King of Prussia. Pennsylvania

这一章讨论的是解释 DNA 序列的方法,这些方法主要依赖于功能模式的检测,而不是与其它单个序列的比较。这些方法中的绝大部分意在先寻找并遮蔽重复的和低复杂性的序列,再寻找基因以及与其相关的调控区域。在针对单个序列的集中调查分析,以及为可能的基因、整个基因组或相应较大区域建立初步清单的快速扫描过程中,这些方法都发挥了主要作用。由于算法开发迅速,没有一种工具能完成全部有关的序列分析功能。因此,有必要将序列提呈给多个不同的软件包加以分析,以利用最佳的计算机技术。为使这一过程效率更高,本章为当前常用的工具提供了简明的使用指导。一些有用的资料还能从Wentian Li 编辑的在线书目(见本章末“书目…”中所列资源中的 URL地址)和参考文献中的相关综述中找到:Gelfand(1995),Claverie(1996),Fickett 和Guigó(1996),Snyder 和 Stormo(1996),以及 Guigó(1997)。

Page 300: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

这一章是这样安排的:首先,是对基本概念框架的描述,以将各不同工具安排在合适的位置上;然后,是对主要的计算工具的评述,对每种工具,既讨论了其内在逻辑思想,也给出程序应用的范例。当前的诸多工具虽很实用,但绝非完全可靠。例如,当前的发展中存在的一个缺陷是许多序列分析软件开发者对功能域原型的描述来自DDBJ/EMBL/GenBank等国际序列数据库中对相应功能域的描述,然而这些数据库中的描述本身的部分却可以来源于序列的分析,这样就导致了循环。在应用中,每种分析方法各自的优势和不足都该特别留意。一些最常用的和可以从互联网上获得的计算工具列于章末。

框架一个全面的基因搜寻方案,无论是由单个复合程序实现还是通过使用多个专门程序来实现,以下的基本信息都是适用的。首先,搜寻基因的证据由多处收集而来:

一张标出重复序列位置的图谱表明了该处调控区域和编码蛋白质的区域不太可能出现。

与其它基因或基因产物有序列相似性是外显子的强有力证据。 一段序列上存在着统计的规则性,表示为显著的“密码子偏好”是蛋白编码区最明

显的标志之一。 与模板模式相符可能指出 DNA上功能性位点的位置。这类分析可以基于很简单的

模式(例如,众所周知的“TATA box”和剪接点的保守序列)或基于相当复杂的推理(例如,在后面将提到的启动子搜寻算法中)。

然后,全部收集到的信息汇总整理成总体上尽可能连贯的谱图。用于汇总整理阶段的准则属于基本常识:例如,由“密码子偏好”分析出的外显子边界可能为

Page 301: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

了有一个更好的剪接位点而进行轻微调整;在存在与已知蛋白序列的相似性时,序列的“密码子偏好”性也会更受重视。

对于特定的质询,诸多基因辨识程序中仅有少数可能与之相关。在构建一个方案时,一些主要问题是值得注意的:(1)对真核生物序列,遮蔽重复序列应先于其它分析过程;(2)大多程序都有特定生物物种适用性;(3)许多程序只能特定适用于基因组 DNA 数据或者只适用于 cDNA 的数据;(4)序列的长度也是一个重要因素。例如,用鸟枪法测序得到的单个序列片段很少能用设计为在序列中搜寻整个基因的老式程序加以分析。

遮蔽重复序列在进行任何真核生物序列的基因辨识分析之前,最好把散布和简单的重复序列找出来并从序列中除去。虽然这些重复序列可能正好覆盖了由RNA聚合酶Ⅱ转录的部分区域,它们几乎不会覆盖启动子和外显子编码区。这样,这些重复序列的定位能为其它基因特征的定位提供重要的反面信息。重复序列还常常会搅乱其它分析,特别是在数据库搜索中。

对于偶尔分析一个序列而言,基于电子邮件或 Web 网页的服务器就足够了 。CENSOR(Jurka等,1996)与 RepertMasker(Smith,1996)就是这种能提供标识和遮蔽散布和简单重复序列的服务器。可以通过电子邮件,或用WWW界面实现(地址见章末列表)。图 10.1 显示的是一个有CENSOR 进行重复序列分析和遮蔽的例子。

Page 302: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

对于大量分析工作而言,在本地安装分析软件就更有效和必要。显然,本地分析也大大增强了保密性。从因特网上可以得到 XBLAST(Claverie,1996)(不要与 BLASTX混淆)的源程序。许多重复序列能从由 J.Juka收集的 Repbase

中得到。J.M.Claverie也在 XBLAST 软件中包含了一组收集整理的 Alu 序列。对本地安装软件,把克隆载体序列加入收集的重复序列中也很有用,以便使在进行分析时,把克隆载体也一并遮蔽。(a)

; HUMCKMM1

HUMCKMM1

ggatccttcctccttggcctcccaaagtgctgggattacaggtgtgagccactgcacctg

gcctattacccttctcaggctctggagtccatccttctgctctgtctccctcagttcaat

tgttttttgttttttgttttttttttagacacagtctcgctctgtcaccaaggctggagt

gcagcagtgcgatcacagctcaccgcagcctcacctcccaggctcaagtgatcctcccat

ctcggcctctgagtagctgagactataggtgtgtccacatgtccggctaatttttgtatt

tttagtagagacagggtttcaccgcgttggccagggtggtcttgaactcctgagctcaag

caatcctcctgcctcagcctccttgttttgatttttagatcccacaaataacttgtgatg

tttgtctttctatacctggttcatttaacattttctttttcttttcttttcttttttttt

ttttttgtgagactgagtcttgctctgtcactcaggctggagggcaatggtgcatctcag

ctcactgcaacctccacctcctaggttcaagcaattcttatgcctcagcctcctggctag

ctgggattacaggcgtgtgtcaccatgccaggctaatttttgtacttttagtagagatgg

ggtttcaccatgttggccaggctggtcttgaactcctggcctcaagtgatccacccgcct

ccgcctctgcctcccaaagtgctgggattacgggcctgagccactgtgcccggcccatct

Page 303: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

aacattttcactgtcaatcacaatgggattaaaactcctcccacagcccctagggacca1

(b)

humckmm1 2 63 Alu-Jb 1 62 c

humckmm1 67 119 L1MA2 697 751 c

humckmm1 138 382 Alu-Jb 42 290 c

humckmm1 383 449 L1MA2 623 696 c

humckmm1 451 480 (TTTTC) 5 33 d

humckmm1 481 775 Alu-Sz 1 290 c

(c)

; humckmm1

;humckmm1

humckmm1

GXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXTATXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXTTGTTTTTTGTTTTTTGTXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Page 304: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXCATCTAACATTTTCACTGTCAATCACAATGGGATTAAAACTCCTCCCACAGCCCCTAGGGACCA1

图 10.1由CENSOR 实现的重复序列分析:(a)输入序列,(b)由CENSOR产生的特征列表,以及(c)遮蔽了重复序列后的输出序列。

数据库搜索搜寻已知同源体可能是最古老和最为广泛认识的编码蛋白的新基因的辨识方法(例如,Doolittle,1986;Gish 和 States,1993;Robison等,1994;Claverie,1996;Gelfand等,1996),对于编码 snRNA 和 rRNA 的新基因也是这样。这类搜索仅依靠进化上的关系,因而广泛适用。数据库搜索技术已在第七章中有所详述。这一部分仅评述它们在基因搜寻中的应用。

完整的基因搜寻服务正开始把数据库搜索包含进来成为分析的一部分。然而,在某些情况下,数据库搜索这一步还需要用户分开完成。对编码蛋白的基因而言,将序列以六种可能的阅读框架翻译出来,并把结果分别作为氨基酸序列和功能性 Motif 数据库的搜索对象,这通常是获取重要匹配序列最佳的第一步。一旦一

Page 305: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

个同源序列被找到,Procrustes(Gelfand等,1996)可被用来找出已知基因产物与新基因之间最优的比对方式。

找到同源产物的一大好处显然在于该基因的一些生物学性质可以马上被弄明白,但这里有两点警告。首先,由相似性作出的注解可能会导致错误的传播(Bork,1996)。其次,新发现的蛋白中大约只有一半能在已有数据库中找到同源者,并且这一比例看起来增长极为缓慢。Green等(1993)发现:(1)全体蛋白质中的大多数古保留片段(或称 ACR,简单定义为蛋白序列中表现高度良好同源性的部分)都已经被发现并能在当前的数据库中找到;(2)大约新发现基因中的 20%-50%包含至少一个数据库中已有描述的 ACR;并且(3)很少表达的基因比中等或高度表达的基因更缺乏包含 ACR 序列的可能。

一种直接的核酸序列数据库搜索也很有用。在 EST(部分 cDNA 序列)数据库中可能包含着全部基因中大多数的碎片(Aaronson等,1996;Hillier等,1996)。因此它们是为多数基因部分定位的重要资源。但这在为基因结构定界时能起多大作用尚不清楚。众所周知,核酸库搜索是定位 rRNA 和 snRNA 的好方法(虽然假基因仍是个问题)。这种搜索在定位调控序列时也会有用(Duret

和 Bucher,1997)。

密码子偏好的检测大多数计算识别编码蛋白质的基因的方法都着重于识别由于密码子使用时的偏好而产生的有些弥散的编码区规则性。将密码子出现频率简单列表是所谓“编码测度”(coding measure)的一种,即指一种以计算出一个数或一个数列表

Page 306: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

用于总结这种规律性的规则。许多“编码测度”规则都已被提出。其中,大约最有信息提取价值的包括:双密码子计数(即指连续两个密码子对出现频率计数);一些直接量度周期性(这里的“周期性”指同一核苷酸在相距3,6,9,…,bp 位置上多次出现的趋势)的方法;均一性对复杂性的量测(如长同聚区段计数);以及开放可读框架的出现(Fickett 和Tung,1992)。

很多编码区检测程序主要是把一个或几个“编码测度”组合起来,(使用例如概率论原理,多变量统计中的判别分析技术,或者人工智能领域的神经网方法)构成一个数,称作一个判别式。例如,这种组合构成了有名的 GRAIL 程序(Xu等,1994)的基础。一般判别式在一个“滑动窗口”(即定长连续的子序列)中计算出来,并且将结果作成曲线(图 10.2)。

为从编码测度判别式中获得更显著信息,需要获得有关大量碱基构成顺序的规律。更具体而言,以下标准由 Fickett 和 Tung(1992)建立:(1)将GenBank 库分解成连续 108bp 的窗口片段;(2)只有那些完全是编码区或完全不是编码区的片段被保留下来;(3)一半的窗口片段用来设定如上所述四种测度线性组合成判别式所用的参数;(4)另一半用于检验判别式预测的准确性。研究得到了 88%的预测准确性。因而编码测度给出了一个较低分辨率的编码区边界的图谱。然而,编码测度还可以合理应用于不完整的序列(例如,由鸟枪测序工程获得的几百 bp长的一个序列),并且这是一个重要的优点。

Page 307: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

许多编码测度程序是适用专门物种的,所以使用者要仔细确定该服务开发和测试用的是各类物种中的哪一些。………………

图 10.2由GenMark(一个通过电子邮件服务的编码区识别工具)得到的部分输出样例。GenMark 包含七个 DNA 的概率模型,分别由编码区的六种阅读框和非编码区计数而来。该程序计算出 DNA上每个窗口是非编码区、或某种阅读框架的编码区的概率。

探查 DNA 中的功能性位点编码测度与细胞识别和表达基因的方法大概基本上不同(虽然见 Knudsen 和Brunak,1997)。如果我们能识别表达系统与核酸相互作用的位点,例如转录因子结合位点与内含子/外显子的接头位点,这将对基因识别大有启发(并可能提高精度)。

一种归纳出这些位点位置(一般,基因识别算法开发者称之为“信号”)的方法是给出所谓“共有序列”,它是由特定的结合位点比对后得到各位置最常出现的碱基构成。共有序列是很好的助记工具,但一般在用于从假位点中判别真正位点时还不太可靠,这部分是因为它没包含各位点上其它三种碱基出现的可能性。许多算法采用能给出更佳判别的复杂技术。其中一种根据物理化学原理的技术是位置权重矩阵(PWH)技术。信号的各位置上每种可能出现的核苷酸都分配一个分数。对一个特定序列,把它看作可能出现的信号,将各位置的相应分数加和后给出该序列作为潜在位点的得分。一些情况下,这些分数大约与控制蛋白

Page 308: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

(核糖核蛋白)的结合能成正比(见 Stormo,1990 与 Von Hippel,1994

的综述)。

有一些研究(例如,Barrick等,1994)表明 PWM 在估测单个特定结合位点时表现较好。然而不幸的是,单独用 PWM 来识别普通真核基因表达系统的复杂成分(例如,剪接位点和启动子序列)时进获得艰难而有限的成果。主要问题可能在于上下文特异的表达机制和复合结合分子之间的协作。

启动子直到最近才能确定真核基因组序列大到足以包含许多基因。数据成为基因搜寻程序的新问题:要从多基因中准确分割一组外显子。启动子是提供这一生物学功能的富含信息的信号序列。计算机识别启动子(近有 Fickett 和Hatzigeorgiou,1997 的综述)部分以其能推进基因识别而十分重要。很多复杂程序依赖于实验室提供的转录因子结合特性,和一些对启动子结构的描述。但这些描述看上去并未抓住转录起始中的一些重要特性,并且也许令人吃惊的是,主要依赖于简单寡核苷酸频率计数的程序表现也差不多。启动子识别仍是一个重大挑战,在前面引用的综述中,用包含 24 个新确认的转录起始点的 18 个序列测试了当前的程序。这些程序最多找出了一半的启动子,假阳性率约为每千个碱基中一个。

内含子剪接位点

Page 309: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

许多不同物种的研究小组汇集了剪接位点的 PWM(Senapathy等,1990),这些可能是多物种分析能得到的最重要资源。可惜 PWM 分析剪接位点时特异性很低,主要由于存在多剪接机制(一些对近期发现的回顾见Nilson,1996),以及调控下的交替剪接(NcKeown,1992)。(事实上,由于大多交替剪接在数据库中未被提及,完整评估算法精度很困难。)作为复合基因搜寻程序一部分的 GENSCAN,Burgen 和 Karlin(1997)将剪接位点归为不同的类,并使用判决树(例如,Breiman等,1984)将 PWM 应用于树的每一叶上。这种方法显著提高了精度。许多复合的基因识别服务程序(见下)提供分离的剪接点预测(例如,FGENEH/D/N/A 程序中的 H/D/N/ASPL 成分,Solovyev 和 Salamov,1997)。此外,Brunak等(1991)提供独立的剪接点预测程序 NetGene(见章末列表),将剪接点本身信息与对两侧编码的评估结合起来。

翻译起始位点对于真核生物,如果转录起始点已知,并且没有内含子打断 5'非翻译区的话,Kozak规则(Kozak,1996)可以在大多数情况下定位起始密码子。原核生物一般没有剪接过程,但在开放阅读框中找正确的起始密码子仍很困难。这种情况里,由于多顺反操纵子的存在,启动子定位虽有用,但不象在真核生物中起关键作用。对原核生物,关键是核糖体结合点的可靠定位。这一目的可以由多个程序提供解决,见GelFand(1995)综述。

终止信号

Page 310: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

多腺苷化和翻译终止信号看上去没有基因起始信号那么重要,但这些信号也能帮助划分基因的范围。例子可见 Kondrakhin等(1994),Wahle 和Keller(1996),Dalphin等(1997),以及 Solovyev 和Salamov(1997)等对此的陈述。

复合的基因语法分析第一代计算机辅助基因识别程序主要处理识别基因的分离特征――例如,单独识别剪接位点,或者只识别不涉及信号的编码区的规则性。但比方说如果一个剪接位点将一段编码区隔断,那它就能帮助检测时在一边寻找编码区,而在另一边找非编码区。这说明综合考虑待定特征的整体一致性能显著提高预测的精度。例如,60%的 50bp 以下长度的外显子在以前的 GRAIL 电子邮件服务程序中会被遗漏,但在加上一个简单的剪接和框架逻辑分析后就能够被检测出来(Einstein等,1992)。

复合的基因搜寻程序先搜索信号序列并作编码区分析(有时也作同源序列搜索)。然后,对相应打分函数进行优化,以确定外显子并给出与手头上所有数据看上去最一致的一些可能的基因结构。不断提高精度和使用的便利是推动这些程序不断发展的重要动力。

现在能得到许多这样的复合算法(表 10.1),至少在一些情况下它们能给出关于基因结构的一些好意见。图 10.3 显示了用 GENSCAN(遮蔽重复序列之后)分析人类磷酸丙酮酸水合酶基因(HSENO3;添加号X56832)的结果。

Page 311: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

在 Fickett 和 Guigó(1996)文献中能找到用其它一些程序分析这个基因的结果。为了对比,这里是GenBank 对这个基因的注解:CDS join (1579..1663, 2540..2635, 2796..2854, 3016..3085, 3455..3588, 4820..5042, 5153..5350, 5688..5889, 6318..6426, 6576..6634, 6723..6792)

表 10.2将结果列为更易于阅读的方式。

这些程序(在这一新技术领域的第一代中)的主要局限性在于:(1)复合的算法目前只适用少数物种;(2)所有的程序(除了 GENSCAN)在输入序列中包含多基因或者部分基因时,所预测的外显子仍可靠,但所预测的基因结构就不一定了;(3)由于尚不完全清楚的原因,预测精度可能比原先想象的低得多,尤其是对新发现的基因。(Burset 和 Guigó,1996,用百来个简单实例来标定了能得到的程序,结果无一能正确预测出多于一半的外显子);(4)大多复合算法都明显对测序错误十分敏感(Burset 和Guigó,1996);以及(5)象交替剪接、重叠基因和启动子结构这样的基因语法结构仍超出当前程序的处理能力。

既然这些程序中没有一个十全十美,它们都覆盖了一些不同算法,都在迅速进步,因此强烈建议分析每个序列时采用 3 到 4 个不同程序,并仔细对比其结果。如果某个工具会经常用到,就值得用大量已知结果的序列对其进行测试,以便对算法适用性有所了解。

表 10.1 因特网上的编码蛋白基因识别工具

Page 312: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Service Ref. Organism(s) E-Mail Address and/or Web Site

EcoParse Krogh et al.(1994) Escherichia coli e-mail:[email protected]

FGENEH/D/N/Y/A

Solovyev and Salamov(1997)

Mammalian,Drosophila. e-mail:[email protected]

CDSB (1997) nematode,yeast,plant,and bacteria http://defrag.bcm.tmc.edu:9503/ltp.html

GeneID Guigo et al.(1992) Vertebrate e-mail:[email protected]

GeneMark Borodovsky and Mclninch(1993)

Many individual speciese-mail:[email protected]

http://intron.biology.gatech.edu/~genmark

GeneParser Snyder and Stormo(1995)

Human http://beagle.colorado.edu/~eesnyder/GeneParser.html

Genie Kulp et al.(1996) Human http://www-hgc.lbl.gov/inf/genie.html

GenLang Dong and Searls(1994)

Dicotyledons,Drosophila,vertebratese-mail:[email protected]

http://cbil.humgen.upenn.edu/~sdong/genlang_home.html

GENSCAN Burge and Karlin(1997)

Vertebrate,Caenorhabditis,maize,Arabidopsis

e-mail:[email protected]

http://gnomic.stanford.edu/~chris/GENSCANW.html

GenView Milanesi et al.(1993) Human,mouse,Diptera http://www.itba.mi.cnr.it/webgene

GRAIL/GAP/ Xu et al.(1994) Human e-mail:[email protected]

XGRAIL   

http://avalon.epm.ornl.gov/gallery.html

Page 313: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

MZEF Zhang(1997) Human,mouse,Arabidopsis,fission yeast http://www.cshl.org/geneginder

Procrustes Gelfand et al.(1996) Any http://www-hto.usc.edu/software/procrustes

 Predicted genes/exons:

Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr..

----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------

1.01 Init + 1579 1663 85 0 1 114 54 131 0.741 13.24

1.02 Intr + 2540 2635 96 0 0 1 100 134 0.698 6.38

1.03 Intr + 3455 3588 134 0 2 101 81 136 0.999 15.07

1.04 Intr + 4820 5042 223 1 1 85 56 432 0.998 37.93

1.05 Intr + 5153 5350 198 0 0 73 81 371 0.999 34.74

1.06 Intr + 5688 5889 202 1 1 53 69 378 0.979 31.27

1.07 Intr + 6318 6426 109 0 1 62 80 20 0.843 -0.61

1.08 Intr + 6576 6634 59 2 2 105 77 51 0.888 3.87

1.09 Term + 6723 6792 70 0 1 63 54 98 0.785 1.61

1.10 PlyA + 6853 6858 6 1.05

Predicted peptide sequence(s):

>gi|GENSCAN_predicted_peptide_1|391_aa

MAMQKIFAREILDSRGNPTVEVDLHTAKGRFRAAVPSGASTGIYEALELRDGDKGRYLGK

AKFGANAILGVSLAVCKAGAAEKGVPLYRHIADLAGNPDLILPVPAFNVINGGSHAGNKL

Page 314: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

AMQEFMILPVGASSFKEAMRIGAEVYHHLKGVIKAKYGKDATNVGDEGGFAPNILENNEA

LELLKTAIQAAGYPDKVVIGMDVAASEFYRNGKYDLDFKSPDDPARHITGEKLGELYKSF

IKNYPVVSIEDPFDQDDWATWTSFLSGVNIQIVGDDLTVTNPKRIAQAVEKKACNCLLLK

VNQIGSVTESIQACKLAQSNGWGVMVSHRSGETEDTFIADLVVGLCTGQIKTGAPCRSER

LAKYNQLMRIEEALGDKAIFAGRKFRNPKAK

Column Description

------ -------------------------------------------------------------

Gn.Ex gene number, exon number (for reference)

Type Init = Initial exonIntr = Internal exon

Term = Terminal exonSngl = Single-exon gene

Prom = PromoterPlyA - poly-A signal

S DNA strand (* = input strand; - = opposite strand)

Begin beginning of exon or signal (numbered on input strand)

End end point of exon or signal (numbered on input strand)

Len length of exon or signal (bp)

Fr reading frame (a codon ending at x is in frame f x modulo 3)

Ph net phase of exon (exon length modulo 3)

I/Ac initiation signal or acceptor splice site score (x 10)

Do/T donor splice site or termination signal score (x 10)

CodRq coding region score (x 10)

P probability of exon (sum over all parses containing exon)

Page 315: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Tscr exon score (depends on length, B/Ac, Do/T and CodRg scores)

图 10.3 GENSCAN 分析样例的输出结果,详见正文。

表 10.2 对比预测结果和基因注解

Predicted Exons Annotated Exons

1579 1663 1579 1663

2540 26352540 2635

2796 2854

3016 3085

3455 3588 3455 3588

4820 5042 4820 5042

5153 5350 5153 5350

5688 5889 5688 5889

6318 6426 6318 6426

6576 6634 6576 6634

6723 6792 6723 6792

 搜寻 tRNA 基因

Page 316: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

对 tRNA 基因的识别要易于识别编码蛋白的基因,部分是由于 polⅢ启动子结构简单以及 tRNA 二级结构的保守性。在 tRNAscan-SE(Lowe 和Eddy,1997)中,结合了多个早期程序,基本上解决了 tRNA 基因识别的问题。Lowe 和 Eddy 发现,将依赖于二级结构检查和保守启动子元件的 PWM 检测的 tRNAscan(Fichant 和 Burks,1991)的预测结果,与依赖于转录控制元件分析的 Pavesi等(1994)的算法加以合并后,超过 99%的真 tRNA 基因都能被识别出来。这种混和的预测结果列表中还包含了超过 50%的假阳性。一种很好的选择性算法,COVELS(Eddy 和 Durbin,1994)发现能除去列表中几乎全部的错误。整个结果就是一种据报道称能识别 99%的真 tRNA 基因,并在每个基因组中少于一个假阳性的方法。tRNAscan-SE 的服务和软件均可得到(见章末列表)。图 10.4 给出了一个例子的输出结果。Sequence tRNA Bounds tRNA Anti Intron Bounds Cove

Name tRNA # Begin End Type Codon Begin End Score

-------- ------ ----- --- ---- ----- ----- ----- -----

Your-seq 1 2348 2420 Val TAC 0 0 76.52

Your-seq 2 2440 2512 Thr TGT 0 0 77.70

Your-seq 3 2522 2594 Lys TTT 0 0 84.24

Your-seq 4 2627 2698 Gly GCC 0 0 75.46

Your-seq 5 2709 2794 Leu TAA 0 0 62.99

Your-seq 6 2803 2876 Arg ACG 0 0 71.02

Your-seq 7 2900 2973 Pro TGG 0 0 79.67

Your-seq 8 2997 3069 Ala TGC 0 0 71.25

Page 317: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Your-seq 9 4841 4914 Ile GAT 0 0 84.04

图 10.4 tRNAscan-SE 对样例的输出结果。样例序列是 SA5SRR,添加号L36472,源于 Staphylococcus aureus。其 tRNA 基因预测结果与 DDBJ/EMBL/GenBank 中的注解完全一致。

未来的展望在不久前,普通用户很难得到最好的技术工具。随着大量因特网服务能方便得到以及通过一个单纯界面就能不断提供服务的 WWW 网页,这种情况得以好转。虽然如此,一个用户想使用一整套合适的算法,就得要愿意将数据提交给一大堆程序;此外,还要把数据通过因特网送出去(若涉及隐私则是个难题),或者只有请一个程序员来获取和安装相应程序。在大规模测序中,就必须发明出一种方法,自动将序列提交给各个程序,并将所有结果整理清楚后交给最终用户。如果有一种工具组合的体系框架,允许群体中任一个成员独立进行开发,又能让只受过相对简单编程训练的工作者能将这些程序组合成一组适用于专门实验室需要的解决方案,这将成为一个很有意义的进步。这种体系框架应基于电子邮件或 World Wide Web。

一个新的动人的发展是试图把当前对转录调节机制的知识融于软件,以通过计算分析为基因在特定上下文的表达提出意见。识别待定蛋白结合位点的方法在Frech等(1997)中有综述。转录上下文特异性看起来通常依靠比单个因子结合更为复杂的模式。为定义DNA上这种模式的功能联系的早期尝试有:Claverie 和 Sauvaget(1985),Fondrat 和

Page 318: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Kalogeropoulos(1994),Fickett(1996),Pedersen等(1996),以及Tronche等(1997)。虽然从DNA 序列中预测基因表达模式的实用工具目前还没有,但推测这种工具会在未来几年中出现却是不无道理的。

第 10 章中重复序列分析和其它内容的因特网资源一览

SERVICE ORGANISM(S) ADDRESS

Repeat Analysis   

CENSOR: annotates repeats in sequence and masks them out

Human or rodent

e-mail:[email protected]

see also http://www.girmst.org

Repbase: repeat collections

Human and several other collections

ftp ncbi.nlm.nih.gov; reposttory/repbase/REF;

also http://www.girinst.org

Repeat Masker: annotates repeats in sequence and masks them out

Several sub-groups of vertebrates

http://ftp.genome.washington.edu./index.html

Page 319: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

XBLAST: tools to mask repeat occurrencts

Any ftp ncbi.nlm.nih.gov; pub/jmc

Other Topics   

BCM Search Launcher (interface to multiple analysis tools)

Any http://gc.bcm.tmc.edu:8088/search-launcher/launcher.html

Bibiography for computational gene indentification

All http://linkage.rockefeller.edu/wli/gene/list.html

Netgene (splice site identification)

Human e-mail:[email protected]

Procrustes (gene delineation by alignment)

Any http://www-hto.usc.edu/software/procrustes

TRNAscan-SE (tRNA gene

Any http://genome.wustl.edu/eddy/

Page 320: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

identification)

 致谢这项工作是由 SmithKline Beecham Pharmaceuticals支持,并由National Human Genome Research Institute 的 Public Health Service

资助HG00981-01A1。

参考文献Aaronson, J., Eckman, B., Blevins, R. A., Borkowski, J., Imran, S. And Elliston, K. O. (1996). Toward the development of a gene index to the human genome: An assessment of the nature of high-throughput EST sequence data. Genome Res. 6, 829-845.

Barrick, D., Vilaneuba, K., Childs, J., Kalil, R., Schneider, T. D.,Lawrence, C. E., Gold, L., and Stormo, D. (1994). Quantitative analysis of ribosome bingding sites in E. coli. Nucl. Acids Res. 22, 1287-1295.

Bork, P. (196). Go hunting in sequence databases but watch out for the traps. Trends Genet. 12, 425-427.

Borodovsky, M., and Mclninch, J. (1993). Genmark: Parallel gene recognition for both DNA strands. Compu. Chem. 17,123-134.

Breiman, L., Friedman, J. H., Olshen, R. A., and Stone, C. J. (1984). Classification and Regression Tress (Pacific Grove, CA: Wadsworth and Brooks/Cole).

Brunak, S., Engelbrecht, J., and Knudsen, S. (1991). Prediction of humjan mRNA donor and acceptor sites from the DNA sequence. J. Mol. Biol. 220. 49-65.

Burge, C., and Karlin, S. (1997). Prediction of complete gene structures in human genomic DNA. J. Mol. Biol. 268, 78-94.

Page 321: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Burset, M., and Guigó, R. (1996). Evaluation of gene structure prediction programs. Genomics 34, 353-367.

Claverie, J.-M., (1996). Effective large-scale sequence similarity searches. Methods Enzymol. 266,212-227.

Claverie, J.-M., and Sauvaget, I. (1985). Assessing the biological significance of primary structure consensus patterns using sequence databanks. I. Heat-shock and glucocorticoild control elements in eukaryotic promoters. Comput. Appl. Biosci. 1, 95-104.

Dalphin, M. E., Brown, C. M., Stockwell, P. A., and Tate, W. P. (1997). The translational signal database, TransTerm: More organisms, complete genomes. Nucl. Acids Res. 25, 246-247.

Dong, S., and Searls, D. B. (1994). Gene structure prediction by linguistic methods. Genomics 23, 540-551.

Doolittle, R. F. (1986). Of URFs and ORFs (Mill Valley. CA: University Science Books).

Duret, L., and Bucher, P. (1997). Searching for regulatory elements in human noncoding squences. Curr. Opin. Struct. Biol. 7, 399-406.

Eddy, S. R., and Durbin, R. (1994). RNA sequence analysis using covariance models. Nucl. Acids Res. 22, 2079-2088.

Einstein, J. R., Mural, R. J., Guan, X., and Uberbacher, E. C. (1992). Computer-Based Construction of Gene Models Using the GRAIL Gene Assembly Program. Oak Ridge National Laboratory Report TM-12174 (Oak Ridge, TN-ORNL).

Fichant, G., and Burks, C. (1991). Identifying potential tRNA genes in genomic DNA sequences. J. Mol. Biol. 220, 659-671.

Fickett, J. W. (1996). Coordinate positioning of MEF2 and myogenin binding sites. Gene 172, GC19-GC32.

Fickett, J. W., and Guigó, R. (1996). Computational gene identification. In Internet for the Molecular Biologist, S. R. Swindell, R. R. Miller, and G. Myers, Eds. (Washington, DC: Horizon Scientific Press), pp. 73-100.

Fickett, J. W., and Hatzigeorgious, A. G. (1997). Eukaryotic promoter recognition. Genome Res. 7, 861-878.

Page 322: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Fickett, J. W., and Tung, C.-S. (1992). Assessment of protein coding measures. Nucl. Acids Res. 20, 6441-6450.

Fondrat, C., and Kalogeropoulos, A. (1994). Approaching th function of new genes by the detection of their potential upstream activation sequences in Saccharomyces cerevisiae: Application to chromosome Ⅲ. Curr. Genet. 25, 396-406.

Frech, K., Quandt, K., and Wemer, T. (1997). Finding protein-binding sites in DNA sequences: The next generation. Trends Biochem. Sci. 22, 103-104.

Gelfand, M. S. (1995). Prediction of function in DNA sequence analyis. J. Comput. Biol. 2, 87-115.

Gelfand, M. S., Mironov, A. A., and Pevzner, P. A. (1996). Gene recognition via spliced alignment. Proc. Natl. Acad. Sci. U.S.A. 93,9061-9066.

Gish, W., and States, D. J. (1993). Identification of protein coding regions by database similarity search. Nature Genet. 3, 266-272.

Green, P., Lipman, D., Hillier, L., Waterston, R., States, D., and Claverie, J.-M. (193). Ancient conserved regions in new gene sequences and the protein databases. Science 259,1711-1716.

Guigó, R. (1997). Computational gene identification. J. Mol. Med. 75, 389-393.

Guigó, R., Knudsen, S., Drake, N., and Smith, T. (1992). Prediction of gene structure. J. Mol. Biol. 226, 141-157.

Hillier, L., Lennon, G., Becker, M., Bonaldo, M. F., Chiapelli, B., Chissoe, S., Dietrich, N., DuBuque, T., Favello, A., Gish, W., Hawkins, M., Hultman, M., Kucaha, T., Lacy, M., Le, M., Le, N., Mardis, F., Moore, B., Morris, M., Parsons, J., Prange, C., Rifkin, L., Rohlfing, T., Schellenberge, K., Soares, M. B., Tan F., Thierry-Meg, J., Trevaskis, E., Underwood, K., Wohldman, P., Waterston, R., Wilson, R., and Marra, M. (1996). Generation and analysis of 280,000 human expressed sequence tags. Genome Res. 6,807-828.

Page 323: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Jurka, J., Klonowski, P., Dagman, V., and Pelton, P. (1996). CENSOR&#0;A program for identification and elimination of repetitive elements from DNA sequences. Comput. Chem. 20, 119-122.

Knudsen, S., and Brunak, S. (1997). Kissing loops hide premature termination codons in pre-mRNA of selenoprotein genes and in genes containing programmed ribosomal frameshifts. RNA 3, 697-701.

Kondrakhin, Y., Shamir, V., and Kolchanov, N. (1994). Construction of a generalized consensus matrix for recognition of vertebrate pre-mRNA 3' terminal processiong sites. Comput. Appl. Biosci. 10, 597-603.

Kozak, M. (1996). Interpreting Cdna SEQUENCES: Some insights from studies on translation. Mamm. Genome 7, 563-574.

Krogh, A., Mian, I. S., and Haussler, D. (1994). A hidden Markov model that finds genes in E. coli DNA. Nucl. Acids Res. 11, 4768-4778.

Kulp, D., Hausslet, D., Reese, M. G., and Eckman, F, H, (1996). A generalized hidden Markov model for the recognition of human genes in DNA, In Proceedings of the Fourth International Conference on Intelligent Systems in Molecular Biology. D. J. States, P. Agarwal, T. Gaasterland, L. Hunter, and R. Smith, Eds. (Menlo Park, CA: AAA1 Press), pp. 134-142.

Lowe, T. M. and Eddy, S. R. (1997). TRNAscan-SE: A program for improved detection of transfer RNA genes in genomic sequence. Nucl. Acids Res. 25, 955-964.

McKeown, M. (1992). Alternative mRNA splicing. Annu. Rev. Cell Biol. 8. 133-155.

Milanesi, L., Kolchanov, N. A., Rogozin, I. B., Ischenko, I. V., Kel, A. E., Orlov, Yu. L., Ponomarenko, M. P., and Vezzoni, P. (1993). GenView: A computing tool for protein-coding regions prediction in nucleotide sequences. In Proceedings of the Second International Conference on Bioinformatics. Supercomputing and Complex Genome Analysis. H. A. Lim, J.

Page 324: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

W. Fickett, C. R. Cantor, and R. J. Robbins, Eds. (Singapore: World Scientific Publishing), pp. 573-588.

Nilsen, T. W. (1996). A parallel spliceosome. Science 273, 1813.

Pavesi, A., Conterio, F., Boichi A., Dieci, G., and Ottonello, S. (1994). Identification of new eukaryotic tRNA genes in genomic DNA databases by a multistep weight matrix analysis of transcriptional control regions. Nucl. Acids Res. 2, 1247-1256.

Pedersen, A. G., Baldi, P., Brunak, S. And Chauvin, Y. (1996). Characterization of prokaryotic and eukaryotic promoters using hidden Markov models. In Fourth International Conference on Intelligent Systems in Molecular Biology. D. J. States, P. Agarwal, T. Gaasterland, L. Hunter, and R. Smith, eds. (Menlo Park, CA: AAA1 Press), pp. 182-191.

Robison, K., Gilbert, W. And Church, G. M. (1994). Large Scale Bacterial Gene Discovery by similarity search. Nature Genet. 7, 205-214.

Rosenblueth, D. A., Thieffry, D., Huerta, A. M., Salgado, H., and Collado-Vides, J. (1996). Syntactic recognition of regulatory regions in Escherichia coli. Comput. Appl. Biosci. 12, 415-422.

Senapathy, P., Shapiro, M. B., and Harris, N. L. (1990). Splice Junctions, branch point sites, and exons: Sequence statistics, Identification, and applications to genome project. Methods Enzymol. 183, 252-278.

Smit, A. F. A. (1996). Origin of interspersed repeats in the human genome. Curr. Opin. Genet. Devl. 6, 743-749.

Smith, R. F., Wiese, B. A., Wojzynski, M. K., Davison, D. B., and Worley, K. C. (1996). BCM search launcher--An integrated interface to molecular biology data base search and analysis services available on the World Wide Web. Genome Res. 6, 454-462.

Snyder, E. E., and Stormo, G. D. (1995). Identification of coding regions in genomic DNA. J. Mol. Biol. 248, 1-18.

Page 325: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Snyder, E. E., and Stormo, G. D. (1996). Identifying genes in genomic DNA sequences. In DNA and Protein Sequence Analysis: A Practical Approach. M. J. Bishop and C. J. Rawlings, Eds. (Oxford: 1RL Press), pp. 209-224.

Solovyev, V., and Salamov, A. (1997). The Gene-Finder computer tools for analysis of human and model organism genome sequences. In Proceedings of the Fifth International Conference on Intelligent Systems for Molecualr Biology. T. Gaasterland, P. Karp, K. Karplus, C. Ousounis, C. Sander, and A. Valencia, Eds. (Menlo Park, CA: AAA1 Press), pp. 294-302.

Stormo, G. D. (1990). Finding protein coding regions in genomic sequences. Methods Enzymol. 183, 211-220.

Tronche, F., Ringeisen, F., Blumenfeld, M., Yaniv, M., and Pontoglio, M. (1997). Analysis of the distribution of binding sites for a tissue-specific transcription factor in the vertebrate genome. J. Mol. Biol. 266, 231-245.

von Hippel, P. H. (1994). Protein-DNA recognition: New perspectives and underlying themes. Science 263, 769-770.

Wale, E., and Keller, W. (1996). The biochemistry of polyadenylation. Trends Biochem. Sci. 21, 247-250.

Xu, Y., Einstein, J. R., Mural, R. J., Shah, M., and Uberbacher, E. C. (1994). An improved system for exon recognition and gene modeling in human DNA sequences. In Proceedings of the Second International Conference on Interlligent Systems for Molecular Biology. R. Altman, D. Brutlag, P. Karp, R. Lathrop, and D. Seqrls, Eds. (Menlo Park, CA: AAA1 Press), pp. 376-383.

Zhang, M. Q. (1997). Idnetification of protein coding regions in the human genome based on quadratic discriminant analysis. Proc. Natl. Acad. Sci. U.S.A. 94, 565-568.

上一页 下一页 返回目录 返回茶庄 

Page 326: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

11

利用蛋白质序列的预测方法Andreas D. Baxevanis

Genome Technology Branch

National Human Genome Research Institute

National Institutes of Health

Bethesda. Mryland

David Landsman

National Center fro Biotechnology Informaiton

Computational Biology Branch

National Library of Medicine

National Institute of Health

Bethsda. Maryland

本书对数据库的讨论及前几章中提供的信息都说明,当前各种公共数据库中的序列信息的数量正急剧增加。与我们已知的核酸序列一样,所有蛋白质序列,无论是直接测得还是由核酸序列中的开放阅读框转换而来,都包含有决定其结构功能的内在信息。可惜用实验方法获取这些信息的速度远远赶不上单纯序列数据产生的速度。象圆二色谱、旋光色散、X光晶体衍射和核磁共振都是确定结构特

Page 327: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

征的强有力技术,但它们的实现需要大量时间,并对技术和技巧都有很高要求。对比蛋白质序列和结构数据库的容量可知两类信息之间差距已十分明显,到写这本书时,有 428,814 个条目在冗余的蛋白质序列库(nr),而 PDB 库中仅有 5017 个条目 1。为缩小这一差距所做的尝试都围绕于“预测的方法”。这些序列条目能在缺少生物化学数据的情况下提供关于蛋白质性质的见解。

本章的焦点是从序列本身中获取生物学发现的计算技术,与前几章中的技术不同之处于这些方法大多并不依赖于双序列或多序列的比对。核酸序列所包含的四种核苷酸在化学上性质相似(但不相同),与之不同的是,构成蛋白质的 20

种氨基酸残基由于化学构造上差别很大,因而在结构和功能上存在更大多样性。任一残基对蛋白质的整体物理性质都会产生影响,因为这些残基本身就是酸性或者碱性的。因而在蛋白质结构域中每种残基对构成不同类型结构都存在偏向。当然,这些属性就是生物化学的核心原理之一“序列决定构象”的基础(Anfinsen等,1961)。

在谈及这种或那种预测技术之前要预先说明的是,无论用哪种方法,这些结果都是预测。不同的方法,采用了不同的算法,可能产生相同或不同的结果。但有一点很重要:弄清楚某种方法的原理,而不是仅把算法当作一个“黑箱”。因为一种方法可能对特定实例很合适,而对另一个则完全不对。虽然如此,存在一种强大合作的潜力:正确应用这些预测技术,参照以主要的生化数据,就能提供有关蛋白质结构与功能的有价值信息。

Page 328: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

1. GenBank 发布编号 100.0,1997年 4月 15日;PDB为 1997年 3月13日之数据。

基于组成的蛋白质辨识人们早已熟知了 20 种氨基酸中每一个的物理和化学性质,并以此开发了许多有用的计算工具用于确认未知蛋白(或反过来分析已知蛋白)。其中的大部分可通过在 Geneva 大学医院和 Geneva 大学的 ExPASy 服务(Appel等,1994)来获得。ExPASy工具的应用有两个焦点:既分析和确认由二维凝胶电泳分离得到的未知蛋白,也预测已知蛋白的基本性质。这些工具利用了 SWISS-PROT 数据库中的有效注解来进行预测。既然这类计算对电泳分析有用,它们也能在其它实验领域中有所帮助,尤其是对色谱和沉降分析。在这里及以下内容中,包含在ExPASy 中的工具都会标明,但由此而来的讨论也包括了许多由其他小组开发提供的有用程序。本章末列出了与本章中所提及的工具有关的因特网资源。

AACompIdent 与 AACompSim(ExPASy) 与把氨基酸序列在 SWISS-PROT 库中搜索不同,AACompIdent工具利用未知蛋白的氨基酸组成去确认具有相同组成的已知蛋白(Wilkins等,1996)。对于输入部分,该程序需要蛋白质的氨基酸组成,等电点 pI 和分子量(如果知道),正确的物种分类及特别的关键词。此外,用户还需在六种氨基酸“组合”中作出选择,这影响到分析如何进行。例如,某种“组合”会把残基 Asp/

Asn(D/N)和 Gln/Glu(Q/E)组合成 Asx(B)和 Glx(Z);或者某种残基会在分析中被完全除去。

Page 329: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

对数据库中的每一个蛋白序列,算法会对其氨基酸组成与所查询的氨基酸组成的差异打分。由电子邮件返回的结果被组织成三级列表:第一张列表中的蛋白都基于特定的物种分类而不考虑 pI 和分子量;第二张列表包含了不考虑物种分类、pI 和分子量的全体蛋白;第三张列表中的蛋白不但基于特定物种分类,并且将pI 和分子量也考虑在内。虽然计算所得结果各不相同,但零分表明了该序列与提出的组成完全相符。

AACompIdent 的一个变种,AACompSim提供类似的分析,但与前者以实验所得的氨基酸组成为依据进行搜索不同,后者使用 SWISS-PROT 中的序列为依据(Wilkins等,1996)。利用 Compute pI/MW(见下)所得的不同数值可以计算出理论等电点和分子量。有报道称,氨基酸组成在物种之间是十分保守的(Cordwell等,1995),并且通过分析氨基酸的组成,研究者能从低于25%序列相似性的蛋白之间发现弱相似性(Hobohm 和 Sander,1995)。因此,在“传统的”数据库搜索基础上辅以组成分析,能为蛋白质之间关系提供更多见解。

PROPSEARCH

PROPSEARCH 与 AACompSim 一样,也利用蛋白的氨基酸组成来检测蛋白质之间的微弱联系。据该软件开发者称这一技术能轻易发现同一蛋白质家族的成员(Hobohm 和 Sander,1995)。但这一技术比 AACompSim更加强壮:它使用了 144 种不同的物化属性来进行分析,其中包括分子量、巨大残基的含量、平均疏水性和平均电荷等。这些属性的集合被称作“查询向量”,并将其与数据

Page 330: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

库(SWISS-PROT 和 PIR)中的每个序列预先计算好的向量进行比较。拥有这样一个预先计算好的“向量数据库”大大节约了每次查询所需的时间。

PROPSEARCH 的 Web 服务所需的输入是查询序列本身,其输出的一个实例为图 11.1。这里作为查询序列的是人自身抗原NOR-90 的序列。结果由距离分值分成几段,该分值代表了查询序列与由 PROPSEARCH找到的新序列之间的相似性程度,从而属于同一家族,因此通常表明具有相似的功能。10 分或更低表明两种蛋白相似的可能性大于 87%。低于 8.7 分将相似性可信度提高到94%,而低于 7.5 分则达到 99.6%。分析图 11.1 的结果可见,NOR-90 与一些核转录因子、蛋白激酶、一个 retinoblastoma 结合蛋白、肌动蛋白结合蛋白radixin 和推测是一种 GTP酶靶蛋白的 RalBP1等蛋白相似。既然这些蛋白的功能各自不同,它们并不都是想要的结果;然而,其中许多是DNA 的结合蛋白,这就暗示一种可能是在不同功能区中都采用了的十分相似的结构域。至少进行一次BLASTP 搜索对确认结果和识别关键性残基是十分必要的。Fragment search: OFF (POS1 and POS2 are begin and end of sequence)

Rank

ID DIST LEN2

POS1

POS2

pI DE

1 >p1;s18193 0.00 727 1 727 5.33 autoantigen NOR-90 – human

2 ubf1_human 1.36 764 1 764 5.62 NUCLEOLAR TRANSCRIPTION FACTOR 1 (UPSTREAM BINDING FACTOR 1) (UBF-1)

3 ubf1_mouse 1.40 765 1 765 5.55 NUCLEOLAR TRANSCRIPTION FACTOR 1 (UPSTREAM BINDING FACTOR 1)

Page 331: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

(UBF-1).

4 ubf1_rat 1.57 764 1 764 5.61 NUCLEOLAR TRANSCRIPTION FACTOR 1 (UPSTREAM BINDING FACTOR 1) (UBF-1).

5 ubf1_xenla 3.95 677 1 677 5.79 NUCLEOLAR TRANSCRIPTION FACTOR 1 (UPSTREAM BINDING FACTOR 1) (UBF-1).

6 ubf2_xenla 4.18 701 1 701 6.05 NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPSTREAM BINDING FACTOR 2) (UBF-2).

7 >p1;s57552 7.72 606 1 606 6.63 hypothetical protein YPR018w – yeast (Saccharomyces cerevisiae)

8 >p1;i50463 8.49 772 1 772 5.71 protein kinase – chicken

9 >p1;h54024 8.83 768 1 768 5.27 protein kinase (EC 2.7.1.37) cdc2-related PITSLRE alpha 2-3 – human

10 >p1;b54024 8.87 777 1 777 5.27 protein kinase (EC 2.7.1.37) cdc2-related PITSLRE alpha 2-3 – human

11 >p1;g54024 8.90 766 1 766 5.21 protein kinase (EC 2.7.1.37) cdc2-related PITSLRE beta 2-2 – human

12 >p1;a55817 9.00 783 1 783 5.19 cyclin-dependent kinase 130-PITSLRE – mouse

13 >p1;f54024 9.11 777 1 777 5.30 protein kinase (EC 2.7.1.37) cdc2-related PITSLRE beta 2-1 – human

14 >p1;e54024 9.11 779 1 779 5.42 protein kinase (EC 2.7.1.37) cdc2-related PITSLRE alpha 2-1 – human

15 yaa5_schpo 9.45 598 1 598 4.78 HYPOTHETICAL 69.5 KD PROTEIN C22G7.05 IN CHROMOSOME I.

16 >p1;s62449 9.45 598 1 598 4.78 hypothetical protein SPAC22G7.05 – fission yeast (Schizosaccharomyces pombe)

Page 332: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

17 >f1;i58390 9.45 920 1 920 5.00 retinoblastoma binding protein 1 isoform I – human (fragment)

18 >p1;s63193 9.58 590 1 590 6.15 hypothetical protein YNL227c – yeast (Saccharomyces cerevisiae)

19 ynw7_yeast 9.58 590 1 590 6.15 HYPOTHETICAL 68.8 KD PROTEIN IN URE2-SSU72 INTERGENIC REGION.

20 >p1;s49634 9.74 899 1 899 4.79 hypothetical protein YML093w – yeast (Saccharomyces cerevisiae)

21 ymj3_yeast 9.74 899 1 899 4.79 HYPOTHETICAL 103.0 KD PROTEIN IN RAD10-PRS4 INTERGENIC REGION.

22 radi_human 9.76 583 1 583 6.33 RADIXIN.

23 radi_pig 9.81 583 1 583 6.21 RADIXIN (MOESIN B).

24 >f1;i78883 9.83 866 1 866 4.77 retinoblastoma binding protein 1 isoform II – human (fragment)

25 >p1;b42997 9.87 754 1 754 5.17 retinoblastoma-associated protein 2 – human

26 >p1;a57467 9.91 647 1 647 5.74 Ra1BP1 – rat

图 11.1 基于氨基酸组成的 PROPSEARCH 数据搜索。输入序列是人自身抗原NOR-90。为简洁起见,除去了解释性材料和一张与整个目标数据库距离打分的直方图。表中的列给出的是根据距离得分排列的顺序、SWISS-PROT 或 PIR标识距离得分、查询序列与该序列重叠的长度、重叠的位置(从 POS1 到 POS2)、计算出的 pI,以及对该序列的描述。

MOWSE

Page 333: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

分子量搜索(Molecular Weight Search,MOWSE)算法利用了通过质谱(MS)技术获得的信息(Pappin等,1993)。利用完整蛋白质的分子量及其被特定蛋白酶消化后产物的分子量,一种未知蛋白质能被准确无误地确认,给出由若干实验才能决定的结果。由于未知蛋白无需再全部或部分测序,这一方法显著地减少了实验时间。

MOWSE 的输入是一个纯文本文件,包含一张实验测定的肽段列表,分子量范围在 0.7 到 4.0Kda 之间。计算过程基于在 OWL 非冗余蛋白质序列库(Akrigg

等,1988)中包含的信息。打分基于在一定分子量范围内蛋白中一个片段分子量出现的次数。输出的结果是得分最佳的 30 个蛋白的列表,包括它们在 OWL

中的条目名称,相符肽段序列,和其它统计信息。模拟研究得出在使用 5 个或更少输入肽段分子量时,准确率为 99%。该搜索服务可通过向[email protected] 发送电子邮件实现。为获得更多关于查询格式的细节信息,可以相该地址发送电子邮件,并在消息正文中写上“help”这个词。

基于序列的物理性质Compute pI/MW(ExPASy)Compute pI/MW是计算输入序列等电点和分子量的工具。对 pI 的确定基于早期研究中将蛋白质从由中性到酸性变性条件下迁移过程中所获得的 pK值(Bjellqvist等,1993)。因此,该作者警告用户,对于碱性蛋白质所得到的pI值可能不准确。分子量的计算是把序列中每个氨基酸的同位素平均分子量加在一起,再加上一个水分子的分子量。用户可以把序列整理为 FASTA 格式,或

Page 334: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

提供 SWISS-PROT标识,或者是可唯一确定的添加号。若用户提供了序列,该工具会自动计算全序列的 pI 和分子量;若用户提供的是 SWISS-PROT标识,程序会显示该条目的描述和物种记录;如果用户给出了一段序列片段范围则计算将在该片段上进行,而不是针对整个序列。

PeptideMass(ExPASy)PeptideMass工具针对肽段谱图分析实验,用于确定蛋白质在与特定蛋白酶或化学试剂作用下的内切产物(Wilkins等,1997)。通过 PeptideMass 可以预测水解结果的酶和试剂包括:胰蛋白酶(trypsin)、糜蛋白酶(chymotrypsin)、LysC、溴化氰、ArgC、AspN 和 GluC(双羧酯或磷酸酯)。半胱氨酸和甲硫氨酸可在计算产物肽段前加以修饰。若用户提供的是 SWISS-

PROT标识,而不单是一段序列,PeptideMass还能利用 SWISS-PROT 库中标注中的信息协助计算。例如,除去信号序列,后在剪切之前引入已知的翻译后修饰。输出结果会列成表格,其中将给出输入蛋白的 pI 和分子量,然后是SWISS-PROT 中关于变种的分子量、位点、修饰后变种的信息,最后是肽片段的序列。

TGREASE

TGREASE是沿蛋白质序列长度计算其疏水性的工具(Kyte 和Doolittle,1982)。“疏水性”是每种氨基酸所固有的特性,即氨基酸远离周围水分子,将自己包埋进蛋白质核心的相对趋势。这一趋势加上空间立体条件和其它一些因素决定了一个蛋白质最终折叠成的三维空间构象。因此,TGREASE

Page 335: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

对预测球状蛋白内埋区以及判断待定跨膜序列等方面都有应用。TGREASE 属于FASTA 系列程序之一,可以从Virginia 大学得到,并可以作为独立程序在Mac 或 Dos 系统下运行。

疏水性预测的方法依赖于疏水性的衡量尺度,这里每个氨基酸根据其一系列的物理特性(例如,溶解性、跨越水-汽相时产生的自由能等),被赋予一个数值以代表其疏水性。具有更高正值的氨基酸具有更大的疏水性;而具有更低负值的氨基酸则更加亲水。然后,沿蛋白质序列的疏水性的移动平均值,或者称为亲/

疏水性索引被计算出来。窗口的宽度是可以调整的,这里推荐 7-11残基的窗口宽度以获得更多的信息和更少的噪声干扰。最后把结果绘制成亲/疏水性-残基序号的线形图。图 11.2是用人的白介素 8受体 B 作的 TGREASE 图。图中的峰与实际跨膜区段的位置虽然不完全一致,但二者的相关性已经相当明显。要注意的是这种方法不仅仅预测跨膜区段,还预测所有的疏水区。专门用来检测跨膜区段的方法将在后面专门讨论。………………

图 11.2 TGREASE 所作 Kytt-Doolittle疏水性分析结果。输入序列是人高亲和白介素 8受体 B,使用了缺省的窗口长度。图中底部的粗横线是手工加上的,代表了 SWISS-PROT 中标注的该蛋白 1L-8R-B(P25025)中的七个跨膜区段的位置。

SAPS

Page 336: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

蛋白质序列统计分析方法(Statistical Analysis of Protein

Sequences,SAPS)用于给出关于查询序列的广泛的统计信息(Brendel等,1992)。当一个蛋白序列通过 Web界面提交给 SAPS,服务器会返回一大堆关于该蛋白的物理和化学性质的信息,这些都是仅仅通过序列本身就可以分析出来的。输出的结果最先是按种类对氨基酸的统计计数;随后是电荷分布分析,包括正/负电荷聚集区的位置,高度带电和不带电区段,以及电荷的传播和模式等;最后的部分给出了高疏水性和跨膜区段、重复结构和多重态、以及周期性分析。

二级结构和折叠类分析新发现的蛋白质或未知功能的基因产物的第一步是用 BLAST 或其它工具在公共数据库中进行相似性搜索。然而,这种搜索可能无法找到一个已知相符蛋白质;即使能得到一个统计显著的相符蛋白质,也很可能在序列记录中没有任何关于其二级结构的信息,而这些信息对设计合理的生物化学实验十分重要。虽然没有“已知”的信息,但仍然有办法预测出序列折叠成 螺旋或 叠片的性能。这些方法依赖于对大量实验测定三维结构的蛋白质的观察和分析。

在讨论技术本身之前,有必要简要回顾一下二级结构和折叠类。前面已经提及,许多氨基酸具有疏水性的侧链,而主链或称骨架是亲水性的。肽链通过构成离散的二级结构元件来平衡这两种相反的作用力。这在 1951年由 Linus Pauling 及其合作者提出(Pauling 和 Corey,1951)。 螺旋是一种用来起瓶塞的钻头一样的螺旋结构,由主链构成螺旋的骨架,侧链从螺旋向外伸出。骨架是通过各个氨基酸上的 CO 基团与 C末端方向+4 个氨基酸(n+4)的 NH 基团形成的

Page 337: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

氢键来保持稳定的,这样就形成了结实的棒状结构。一些残基比其它残基更易形成 螺旋:丙氨酸、谷氨酸、亮氨酸和甲硫氨酸经常在 螺旋中出现;而脯氨酸、甘氨酸、酪氨酸和丝氨酸一般不会在 螺旋中出现。通常认为,脯氨酸是螺旋破坏者,这是由于它的环状结构中断了 n+4氢键的形成。

与 螺旋相比, 链是一种更舒展的结构。与 螺旋在二级结构单元内部形成氢键不同,氢键形成于两条或多条相邻的 链之间。多条 链间通过这种氢键作用使整个结构形成 折叠片。这些折叠片可以是平行的,也可以是反平行的,这取决于各 链中 N末端和 C末端的取向。一个 折叠片的变种是 拐角,多肽链构成发卡状的急转弯,并形成反平行 叠片。

1976年 Levitt 和 Chothia 根据蛋白质中二级结构元件的排列顺序提出了一个分类系统(Levitt 和 Chothia,1976)。非常简单,一个 结构基本由 螺旋构成;一个 结构主要由 链构成。肌红蛋白是典型的全由 螺旋构成的蛋白质,因而属于 结构类(Takano,1977)。质体蓝素是 类的好例子,其中 8 条 链间的氢键的模式形成了一个紧密的桶状结构(Guss 和Freeman,1983)。组合折叠类 / 是由交替出现的 链和 螺旋构成的。黄素氧还蛋白是 / 蛋白的一个好例子,其中 链构成中心的 折叠,周围由 螺旋包围(Burnett等,1974)。

在以下讨论中,有一个术语会经常出现:神经网络。它赋予了计算过程“学习”的能力以模仿人类的学习,而大多数计算程序都延着固有的顺序盲目地执行指令。神经网络技术在如二级结构预测这种分析模式和趋势的问题中有广泛的应用

Page 338: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

每个神经网络都包含一个输入层和一个输出层。在二级结构预测的应用中,输入层是序列带来的信息,输出层是每个特定氨基酸形成特定二级结构的几率。实际的学习过程发生在位于输入层和输出层之间的一个或多个隐含层中。学习的实现需要向网络提供一组训练数据集。这里,一组合适的训练集是已测出结构的蛋白质数据库。网络会加工这些信息去寻找氨基酸序列与之以特定上下文关系所形成结构之间的微弱联系。神经网络在二级结构预测中的应用更具体的讨论可见Kneller等(1990)的文献。

nnpredict

nnpredict 算法使用了一个双层、前馈神经网络去给每个氨基酸分配预测的类型(Kneller等,1990)。在预测时,服务器使用 FASTA 格式的文件,其中有单字符或三字符的序列以及蛋白质的折叠类( 、 或 / )。残基被分为几类如 螺旋(H)、 链(E)或其它(-)。若对给定残基未给出预测,则会标上问号(?),这说明无法作出可信的分配。若没有关于折叠类的信息,预测也能在不定折叠类的情况下进行,而且这是缺省的工作方式。据报道,对于最佳实例的预测,nnpredict 的准确率超过了 65%。

序列通过向 [email protected] 发送电子邮件提交给 nnpredict。以黄素氧还蛋白为例,电子邮件的格式为:option: a/b

>flavodoxin - Anacystis nidulans

AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASKLNAYDYLIIGCPTWNVGELQSDWEGIY

Page 339: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG

LAIDEDNQPDLTKNRIKTWVSQLKSEFGL

Option 行标明蛋白质的折叠类:n 用于无折叠类,a为 ,b为 ,a/b为 / 。每个电子邮件只能提交一个序列,服务器返回的结果经整理见图 11.3。

PredictProtein

PredictProtein(Rost等,1994)在预测中应用了略为不同的方法。首先,蛋白质序列被作为查询序列在 SWISS-PROT 库中搜索相似的序列。当相似的序列被找到后,一个名为MaxHom 的算法被用来进行一次基于特征简图的多序列比对(Sander 和 Schneider,1991)。MaxHom 用迭代的方法来构造比对:当第一次搜索 SWISS-PROT后,所有找到的序列与查询序列进行比对,并构造出一个比对后的特征简图。然后,这个简图又被用来在 SWISS-PROT 中搜索新的相似序列。由MaxHom产生的多序列比对随后被置入一个神经网络,用一套称为 PHD(Rost,1996)的方法进行预测。PHD这一套二级结构预测方法不仅仅给每个残基分配一个二级结构类型,它还对序列上每个位点的预测可信度给予统计分析。该方法的平均准确率超过 72%:最佳残基预测准确率达 90%以上。

[email protected] 发送的输入序列电子邮件为以下格式:Joe Buzzcut

National Human Genome Research Institute, NIH

Page 340: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

[email protected]

# flavodoxin - Anacystis nidulans

AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY

DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG

LAIDEDNQPDLTKNRIKTWVSQLKSEFGL

在名字、从属关系和地址行之后,#号向服务器表明随后是一个单字符序列。序列基本上是 FASTA 格式,但其中不允许有空格,传统的>号由#号代替,序列之后也不许有其它东西。

输出结果内容很多并包含大量有关信息。其中有MaxHom 搜索结果,并包括多序列比对的结果,它可以用于例如基于特征简图的搜索或物种谱系分析等 进一步研究。如果 提交的序列在 PDB 库中有已知同源蛋白,则其 PDB标识号也会输出返回。随后是方法本身信息,最后是实际预测结果。与 nnpredict不同,PredictProtein还返回每个位点的“预测可信度索引”,范围从 0 到 9,9具有最高的可信度,也就是说该位点所分配的二级结构类型是正确的。对特定例子该程序返回的预测结果,以及与其它预测方法的比较整理后见图 11.3。

SSPRED

与 PredictProtein 相似,EMBL 的二级结构预测方法(Mehta等,1995)先在数据库中搜索序列的相似蛋白,构建多序列比对,然后进行预测。该方法在比对时,特别注意非保守位点的替换,并利用比对结果作为初始预测结果。初始预

Page 341: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

测结果经过滤除去那些简单不合理的结果单元,这些包括长度不合理的单元或是一种结构类型打断了一串另一种类型(例如,预测为HHHEHH,就应变成HHHHHH)。所有的 螺旋应至少 4 个残基长,所有的 链应至少 3 个残基长。

同样以黄素氧还蛋白为例,以下是提交给 [email protected] 的作SSPRED 搜索邮件格式:SEQUENCE

TITLE flavodoxin - Anacystis nidulans

BLOSUM 62

ALIGN 50

INDEL 10

Z_SCORE 7.0

SEQ

AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY

DDLDSVNFQGEKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG

LAIDEDNQPDLTKNRIKTWVSQLKSEFGL

END

关键词 SEQUENCE提示服务器有一个单序列被提交上来。TITLE 行允许包含关于输入序列的一些评语,并会在返回结果中出现。BLOSUM 62命令指示SSPRED 在作比对打分时使用该矩阵。PAM矩阵和 BLOSUM矩阵都是可以选

Page 342: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

用的,而缺省的设置是 PAM 120。INDEL 10是空位罚分值。用户可以不管这一行而让 SSPRED 基于所用的打分矩阵预测合适的缺省值。降低 INDEL值使空位插入更可接受。ALIGN 50指示服务器用 50 个最佳比对进行二级结构预测 。Z_SCORE 7.0 行允许用户提高或降低 BLITZ 搜索的敏感度。最后,序列要加上特定起始关键字 SEQ 和结束关键字 END。

在分析结束后,用户将得到包含一系列输出文件的电子邮件。其中包括在预测中用到的 BLITZ产生的多序列比对的结果,以及最终预测的结果。电子邮件中还包括最初预测结果及过滤后的结果。前面的序列实例的 SSPRED 最终预测结果与其它方法的比较见图 11.3。

SOPMA

位于法国里昂的 CNRS(Centre National de la Recherche Scientifique)使用独特的方法进行蛋白质二级结构预测。它不是用一种,而是 5 种相互独立的方法进行预测,并将结果汇集整理成一个“一致预测结果”。这 5 种方法包括:Garnier-Gibrat-Robson(GOR)方法(Garnier等,1996)、Levin同源预测方法(Levin等,1986)、双重预测方法(Deléage 和Roux,1987)、作为前面 PredictProtein 一部分的 PHD 方法和 CNRS自己的 SOPMA 方法(Geourjon 和 Déleage,1995)。简单的说,SOPMA这种自优化的预测方法建立了已知二级结构序列的次级数据库,库中的每个蛋白质都经过基于相似性的二级结构预测。然后用次级库中得到的信息去对查询序列进行二级结构预测。

Page 343: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

使用这种方法可以将序列本身作为电子邮件提交给 [email protected],用SOPMA 作为邮件主题,或使用 SOPMA 的 Web界面。各种作为一部分的预测结果以及“一致预测结果”都见图 11.3。

各种方法的比较根据图 11.3,可以明显看出所有的方法在预测二级结构方面完成得相对较好,但都不完美。选黄素氧还蛋白作为测试的实例是因为它具有相对复杂的结构:它有 6 个 螺旋和 5 个 叠片,属于 / 折叠类。有一些分配结果在各种方法中是一致的:如各种方法都很好地找到了 1、 3、 4 和 5。但有些方法把某些二级结构单元彻底漏掉了(如 nnpredict漏掉了 2、 3 和 4),而有些预测方法所得的结果缺乏生物学意义(如双重预测方法在 4,认为螺旋、叠片和拐角一个接一个交替出现)。PredictProtein 方法正确找到了所有的二级结构单元,并在多处准确识别了二级结构元件的长度,在整体上预测表现最佳。但并非说明其它方法没用或不够好,因为在其它某些实例中无疑会有某种方法表现更好。由于没有更多信息可用来判断哪种方法最好,最好是把序列提交给多个服务器,将结果汇集整理,通过人为的比较来判断哪些预测结果成立或不成立。(在图 11.3 中显示的 CNRS 一致序列就属于这一类尝试,但一致序列也不是完全正确的。)虽然这一方法中并未包含某种对预测方法失败保险的预测,但由这些预测的确增强了结果了可信度。………………

Page 344: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

图 11.3各种二级结构预测方法的比较。作为查询序列的黄素氧还蛋白(flavodoxin)是一种 / 蛋白,其序列排在第一行。对每个预测,H 代表 螺旋,E 代表 链,T 代表 拐角,其它位点都认为是无规卷曲。所采用的各预测方法列在其结果的左侧,其详细描述见正文。图的最下一行是由 PDB 文件中的黄素氧还蛋白(1OFV,Smith等,1983)所得的二级结构分布。

特殊结构或结构特征就象 螺旋和 叠片的位置可以较为准确地预测出来,其它特定的结构或结构特征,如卷曲螺旋和跨膜区也可以预测出来。但这类预测的方法没有二级结构预测方法多,主要是由于这些结构或结构特征的折叠规律尚不十分清楚。尽管如此若查询序列在已知结构数据库中能搜索到相似蛋白,则预测的准确度可能很高。

卷曲螺旋COILS 算法将查询序列在一个由已知包含卷曲螺旋蛋白结构的数据库中进行搜索(Lupas等,1991)。程序也将查询序列与包含球状蛋白序列的 PDB次级库进行比较,并根据两个库搜索得分的不同决定输入序列形成卷曲螺旋的概率 。COILS 可以下载到 VAX/VMS 系统上使用,通过简单的 Web界面使用则更方便。

程序要求序列数据为GCG 或 FASTA 格式,一次可以提交一条或多条序列。除了序列,用户还能在两种打分矩阵中选择一种:MTK是根据肌球蛋白、原肌球蛋白和角蛋白序列得到的打分矩阵;或 MTIDK,是根据肌球蛋白、原肌球蛋白、

Page 345: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

中间纤维类蛋白Ⅰ-Ⅴ、桥粒蛋白和角蛋白得到的打分矩阵。程序作者引述了两种矩阵的适用特点:MTK更适合检测双链结构,而MTIDK适合其它情形。用户还能启动一个选项给予每个卷曲 a 和 d 位置上残基(通常为亲水性)相同的权重。如果COILS 在无权重和有权重情况下得到的结果相差很大,则可能表明存在正错误。程序的作者警告说COILS是用来检测与溶液接触的左手性卷曲螺旋的,对于包埋的或右手性卷曲螺旋则可能检测不到。若一个序列被提交到服务器,程序会整理出一张预测结果图,显示沿着序列各个部分形成卷曲螺旋的倾向性。

一个基于 Macintoshi 系统的应用程序――MacStripe 使用了 Lupas 的 COILS

的预测方法,能输出较简单的预测结果(Knight,1994)。MacStripe要求输入文件为 FASTA、PIR 或其它普遍文件格式,并象COILS 一样产生一个图形文件,包含形成卷曲螺旋的概率,以及用柱状图显示七连体重复模式的连续性。下面是以 GCN4为例,由MacStripe得到的统计结果文件的一部分。89 89 L 5 a 0.760448 0.000047

90 90 D 5 b 0.760448 0.000047

91 91 D 5 c 0.760448 0.000047

92 92 A 5 d 0.760448 0.000047

93. 93 V 5 e 0.760448 0.000047

94 94 V 5 f 0.760448 0.000047

95 95 E 5 g 0.760448 0.000047

96 96 S 5 a 0.760448 0.000047

97 97 F 5 b 0.760448 0.000047

98 98 F 5 c 0.774300 0.000058

Page 346: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

99 99 S 5 d 0.812161 0.000101

100 100 S 5 e 0.812161 0.000101

101 101 S 5 f 0.812161 0.000101

102 102 T 5 g 0.812161 0.000101

从左到右各列分别代表残基序号(显示两次)、氨基酸种类、七连体框架和残基在七连体中的位置(a-b-c-d-e-f-g)、Lupas得分和 Lupas概率。在这个例子中,注意到第五列,我们能清楚看出七连体重复模式。分析整个 GCN4 序列结果表明七连体重复模式得到良好维持,只在某些区域有所分离。既然统计结果不能忽略不计,其结果能更容易地说明七连体重复模式是否明显存在。也可以从COILS得到类似的输出,但不是通过 Web 服务器,而是在合适的 Unix 计算机上安装一个 C 语言编写的程序,这一步对许多用户而言是做不到的。

跨膜区域前面曾讨论过的 Kyte-Doolittle 的 TGREASE 算法能有效地检测高疏水性的区域,但它并不是专门用来预测跨膜区域的,因为水溶性球状蛋白的内埋区也是基本为疏水性的。我们先来看一种专门预测跨膜区的方法:TMpred,它依靠一个跨膜蛋白数据库 Tmbase(Hofmann 和 Stoffel,1993)。Tmbase 来源与 Swiss-Prot 库,并包含了每个序列的一些附加信息:跨膜结构区域的数量、跨膜结构域的位置及其侧翼序列的情况。Tmpred 利用这些信息并与若干加权矩阵结合来进行预测。

Page 347: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Tmpred 的 Web界面十分简明。用户将单字符序列输入查询序列文本框,并可以指定预测时采用的跨膜螺旋疏水区的最小长度和最大长度。输出结果包含四个部分:可能的跨膜螺旋区、相关性列表、建议的跨膜拓扑模型以及代表相同结果的图。如果用 G 蛋白耦联受体(P51684)作查询序列,将会得到下面的模型:2 possible models considered, only significant TM segments used

-----> STRONGLY prefered model: N-terminus outside

7 strong transmembrane helices, total score : 14196

# from to length score orientation

1 55 74 (20) 2707 o-i

2 83 104 (22) 1914 i-o

3 120 141 (22) 1451 o-i

4 166 184 (19) 2155 i-o

5 212 235 (24) 2530 o-i

6 255 276 (22) 2140 i-o

7 299 319 (21) 1299 o-i

------> alternative model

7 strong transmembrane helices, total score : 11974

# from to length score orientation

1 47 69 (23) 2494 i-o

2 84 104 (21) 1407 o-i

3 123 141 (19) 1352 i-o

4 166 185 (20) 1904 o-i

Page 348: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

5 219 236 (18) 2453 i-o

6 252 274 (23) 1386 o-i

7 300 319 (20) 915 i-o

每种建议的模型都指出格区段起始和终止位点,及其相对膜的取向(由内到外inside-to-outside,或由外到内 outside-to-inside)。算法作者恰当地指出这些模型基于假设全部跨膜区在预测中都被找到。因而这些模型应被看作是从该方法所得数据的角度出发所的结果。

第二种预测方法是 TMAP,它类似于 SSPRED采用了多序列比对来提高预测的准确性(Persson 和 Argos,1994)。同样一 G 蛋白耦合受体为例,提交给[email protected] 的查询序列的格式如下所示:SEQUENCE

TITLE G protein-coupled receptor

BLOSUM 62

INDEL 10

ALIGN 50

Z_SCORE 4

SEQ

MSGESMNFSDVFDSSEDYFVSVNTSYYSVDSEMLLCSLQEVRQFSRLFVPIAYSLICVFGLLGNILVVIT

FAFYKKARSMTLVYLLNMAIADLLFVLTLPFWAVSHATGAWVFSNATCKLLKGIYAINFNCGMLLLTCIS

  

Page 349: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

 END

TITLE 行使返回给用户的结果易于辨认。BLOSUM 62命令指定用 BLITZ 在Swiss-Prot 中搜索是采用的得分矩阵,这里可以采用任一可得的 BLOSUM 或PAM矩阵;INDEL、ALIGN 和 Z_SCORE等命令与前面在 SSPRED 服务中所述含义完全一样。序列本身前面标上起始关键字 SEQ,最后标上 END关键字。无论用电子邮件还是用 Web界面,结果都由电子邮件返回。返回的内容包括BLITZ为查询序列所作的多序列比对结果,关于各跨膜区位置的预测,以及给出结果图示的 PostScript 文件。对 G 蛋白耦合受体的 TMAP 预测结果如下:PREDICTED TRANSMEMBRANE SEGMENTS FOR PROTEIN G protein-coupled receptor

TM 1: 46 - 74 (29)

TM 2: 82 - 108 (27)

TM 3: 117 - 145 (29)

TM 4: 159 - 187 (29)

TM 5: 212 - 240 (29)

TM 6: 251 - 276 (26)

输出结果格式很简单,给出了跨膜区段序号、各区段起始和终止位置,括号中是区段长度。显然,对于同一个蛋白两个不同的方法给出了有显著不同的预测结果Tmpred 预测了七个跨膜区段,而 TMAP 的预测是六个,并且两组区段边缘相互重叠。在 Swiss_Prot 中,这个序列条目中注明了七个跨膜区段(43-69、79-

99、115-136、155-175、206-233、250-274 以及 299-316)。相比之下,

Page 350: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Tmpred 的结果更符合这些位置,在多数情况下,Tmpred 的预测比实际情况会稍微长一些和偏一些。对 TMAP也是一样,只是 TMAP把最后一个区段整个漏掉了。用户可能设想 TMAP 预测比 Tmpred 好,但这里同样要强调利用多种方法进行预测这一惯用策略,然后再手工审查其结果。

信号肽丹麦技术大学的生物序列分析中心开发了 SignalP这个强大的信号肽及其剪切位点检测工具(Nielsen等,1997)。该算法基于神经网络方法,用已知信号序列的革兰氏阴性原核生物、革兰氏阳性原核生物及真核生物的序列分别作为训练集。SignalP 预测的是分泌型信号肽,而不是那些参与细胞内信号传递的蛋白

人类胰岛素样生长因子 IB前体(生长调节素C,P05019),具有已知剪切位点,通过 Web界面提交给 SignalP 加以分析。预测采用的是真核训练集,分析结果如下:************************* SignalP predictions *************************

Using networks trained on euk data

>IGF-IB length = 195

# pos aa C S Y

 46 A 0.365 0.823 0.495

47 T 0.450 0.654 0.577

48 A 0.176 0.564 0.369

Page 351: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

49 G 0.925 0.205 0.855

50 P 0.815 0.163 0.376

 < Is the sequence a signal peptide?

# Measure Position Value Cutoff Conclusion

max. C 49 0.925 0.37 Yes

max. Y 49 0.855 0.34 Yes

max. S 37 0.973 0.88 Yes

mean S 1-48 0.550 0.48 Yes

# Most likely cleavage site between pos. 48 and 49: ATA-GP

输出结果的第一部分中,标记为C 的列是剪切位点打分。在剪切点的 C末端位点上得分最高。标记为 S 的列是信号肽打分,位于剪切点之前的位点得分高而剪切点之后的位点得分低。非分泌型蛋白的 N末端的 S得分也较低。最后的 Y 列给出综合剪切点打分,这个几何平均分值指出哪个位点具有高C 分值同时又是S 分值由高转低。输出文件的结尾提出问题“这个序列是信号肽吗?”,然后根据统计推断出最可能的剪切点。在 Swiss_Prot 中对该蛋白的注解是:成熟肽链起始与 49 位,正是 SignalP 预测的最可能的剪切点。

非球形区域第七章中已经讨论过用 SEG 程序在进行数据库搜索前遮盖低复杂性区段。用同样的算法,通过调节触发窗口长度、触发复杂性 K1 和延伸复杂性 K2,可以用来检测待定的非球形区域。受到命令“seq sequence.txt 45 3.4 3.75”后,

Page 352: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

SEG将使用长于缺省值 12 的窗口,因而能检测到长非球形结构域。一个用SEG 检测非球形区域的例子见图 11.4。 

1-307MAGAIASRMSFSSLKRKQPKTFTVRIVTMD

AEMEFNCEMKWKGKDLFDLVCRTLGLRETW

FEGLQYTIKDTVAWLKMDKKVLDHDVSKEE

PVTFHFLAKFYPENAEEELVQEITQHLFFL

QVKKQILDEKIYCPPEASVLLASYAVQAKY

GDYDPSVHKRGFLAQEELLPKRVINLYQMT

PEMWEERITAWYAEHRGRARDEAEMEYLKI

AQDLEMYGVNYFAIRNKKGTELLLGVDALG

LHIYDPENRLTPKISFPWNEIRNISYSDKE

FTIKPLDKKIDVFKFNSSKLRVNKLTLQLC

IGNHDLF

mrrrkadslevqqmkaqareekarkqmerq

rlarekqmreeaertrdelerrllqmkeea

tmanealmrseetadllaekaqiteeea

308-478

 

Page 353: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

kl

laqkaaeaeqemqrikatairteeekrlme

qkvleaevlalkmaeeserrakeadqlkqd

lqeareaerrakqklleiatk

 479-496

PTYPPMNPIPAPLPPDIP

sfnligdslsfdfkdtdmkrlsmeiekekv

eymekskhlqeqlnelkteiealklkeret

aldihnensdrggsskhntikkltlqsak

s

497-587

 

 588-595

RVAFFEEL

图 11.4 SEG 预测的 neurofibromatosis type 2 基因(L11353)产物蛋白的非球形区域。非球形区以小写列于左边。数字标出每一块的残基位置。

三级结构结构预测大概是基于蛋白质序列数据的预测方法中最复杂和技术上最困难的。从序列充分和准确地预测蛋白质结构的重要性扎根于这样的认识:既然序列可以决定构象,那么多个序列就可能决定同一个构象。根据结构比序列更加保守,以及蛋白质骨架 motif 数量有限的想法(Chothia 和 Lesk,1986;

Page 354: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Chothia,1992)说明,没必要仅仅从传统的基于序列比对的方法去寻找蛋白之间的相似性。序列与结构的关系问题的根源在于“蛋白质折叠过程”的问题,这是近来一些综述的讨论的焦点(Bryant 和 Altschul,1995;Eisenhaber

等,1995;Lemer等,1995)。

当前最健壮的结构预测方法是同源建模,或称“threading”方法(Bryant 和Lawrence,1993;Fetrow 和 Bryant,1993;Jones 和Thornton,1996)。这种方法将未知结构的蛋白质序列“穿过”由X光晶体衍射或 NMR 核磁共振得到的已知结构靶蛋白的结构坐标。对于序列-结构的每次定位,算出残基间相互作用力和疏水作用大小。这些热力学计算的目的是找出未知结构序列在目标结构上的能量最优和构象最稳固的比对位置。这样的程序要作密集的计算,要求计算机硬件至少是一台强大的 UNIX工作站,以及要有特定计算机语言的知识。

虽然 threading这样的技术很强大,但是它对硬件和专门知识的要求可能仍是大多生物学家应用的障碍。为了降低应用的障碍,一些易于使用的程序被开发出来为大多生物学家提供了比较蛋白建模的良好初步近似。(许多商业蛋白结构分析工具,如WHAT-IF 和 LOOK都提供了更深入功能,但这里只限于讨论基于Web 的免费软件)。

一个序列结构自动比较程序 SWISS-MODEL(Peitsch,1996)是一个两步过程。“First Approach”模式,先用来决定序列能否被建模:当序列提交到程序SWISS-MODEL将其与晶体图像数据库(ExPdb)比较,只有当 ExPdb 中存

Page 355: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

在与序列充分相似的同源序列时才被接受建模。如果这一步在 ExPdb 中找到了一个或多个合适的同源物,则会建立一个原子模型,并将结果由电子邮件返回。这些结果能再提交给 SWISS-MODEL 的“Optimize”模式,利用其它知识如生物化学信息,来修正提出的结构模型。

第二种方法是将结构与结构相对比,与第七章中讨论的向量比对搜索工具(VAST)原理类似。DALI 算法在两个蛋白之间寻找相似的接触模式,并进行优化后返回最佳的结构比对方案(Holm 和 Sander,1993)。这种方法允许任意长度的空隙,并允许比对片段间互相交替连接,这样就帮助了在整体上不相似的不同蛋白之间寻找相似的特定结构域。DALI 的 Web界面能对 PDB 中已有的两组坐标进行分析,也可由用户提交一组 PDB 格式的坐标。其中,若两个目标蛋白都在 PDB 库中,则可以在一个“全对全”的 PDB 比较数据库 FSSP

蛋白折叠类家族结构比对库(Holm 和 Sander,1994)中找到已经算好的结构近邻。

最后一种方法是对前面的 PHD 二级结构预测方法的补充。TOPITS 方法(Rost,1995)中,PDB 库里的蛋白质三维结构被翻译成二级结构的一维“字符串”,构成搜索的数据库。然后,查询序列的二级结构和溶液可及性通过PHD 方法被确定,结果也存成一维字符串。查询和目标字符串再以动态规划方法进行比对,并以此作出结构预测。返回的结果是分级列表,给出查询序列与目标结构的最优比对,以及对预测准确性概率的评估(Z score)。

Page 356: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

这里讨论的三种方法都是相当基本的方法,因此它们能较快返回结果并可以使用 Web 类界面。但它们在检测结构间弱相似性中所表现出的水平令人信服。“threading”方法的最终潜力可以通过最近的 Aslomar会议来说明,许多工作小组应邀参与了一个“结构预测竞赛”(Lemer等,1995)。这个为前面提到的更复杂技术开设的实验场表明,虽然蛋白质折叠问题还远未得到解决,大量蛋白质折叠类还是能得到可靠的辨识。尽管不同方法在竞赛中各有所长,竞赛主持人还是建议采用“一致相似方法”的结构,就象前面二级结构预测中给出例子的方法一样。这些发展成果所处时代时机十分令人振奋,紧随着人类基因组计划的同时发展,为研究者在辨识出假定基因产物后能预测结构与功能的关系提供了强有力的工具。

第 11 章中涉及内容的因特网资源

PREDICTION OF PHYSICAL PROPERTIES

Compute pI/MW

http://expasy.hcuge.ch/ch2d/pi.tool.thml

PeptideMass http://expasy.hcuge.ch/sprot/peptide-mass.html

TGREASE ftp://ftp.vrgnia.edu/pub/fasta/

SAPS http://ulrec2.unil.ch/software/SAPS_form.html

PREDICTION OF PROTEIN IDENTITY BASED ON COMPOSITION

Page 357: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

AACompIdent http://expasy.hcuge.ch/ch2d/aacompi.html

AACompSim http://expasy.hcuge.ch/ch2d/aacsim.html

PROPSEARCH http://www.embl-heidelerg.de/prs.html

PREDICTION OF SECONDARY STRUCTURE AND FOLDING CLASS

nnpredict http://www.cmpharm.ucsf.edu/~nomi/nnpredict.html

PredictProtein http://www.embl-heidelerg.de/predictprotein/

SOPMA http://www.ibcp.fr/predict.html

SSPRED http://www.embl-heidelberg.de/sspred/sspred_info.html

PREDICTION OF SPECIALIZED STRUCTURES OR FEATURES

COILS http://ulrec3.unil.ch/software/COILS_form.html

MacStrip http://www.wi.mit.edu/matsudaira/macstripe.html

SignalP http://www.cbs.dtu.dk/services/SignalP/

TMAP http://ww.embl-heidelberg.de/tmap/tmap_sin.html

TMpred http://ulrec3.unil.ch/software/TMPRED_form.htm

Page 358: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

STRUCTURE PREDICTION

Bryant-Lawrence

ftp://ncbi.nlm.nih.gov/pub/pkb

DALI http://www.embl-heidelberg.de/dali/dali.html

FSSP http://www.embl-heidelberg.de/dali/fssp/fssp.html

SWISS-MODEL http://expasy.hcuge.ch/swissmod/SWISS-MODEL.html

TOPITS http://www.embl-heidelberg.de/predictprotein/phd_help.html

参考文献Akrigg, D., Bleasby, A. J., Dix, N. I. M., Findlay, J. B. C., North, A. C. T., Parry-Smith, D., Wootton, J. C., Blundell, T. I., Gardner, S. P., Hayes, F., Stemberg, M. J. E., Thornton, J. M., Tickle, I. J., and Murray-Rust, P. (1988). A protein sequence/structure database. Nature 335, 745-746.

Anfinsen, C. B., Haber, E., Sela, M., and White, F. H. (1961). The kinetics of the formation of native ribonuclease during oxidation of the reduced poly peptide chain. Proc. Natl. Acad. Sci. U.S.A. 47, 1309-1314.

Appel, R. D., Bairoch, A., and Hochstrasser, D. F. (1994). A new generation of information retrieval tools for biologists: The example of the ExPASy WWW server. Trends Biochem. Sci. 19, 258-260.

Bjellqvist, B., Hughes, G., Pasquali, C., Paquet, N., Ravier, F., Sanchez, J.-C., Frutiger, S., and Hochstrasser, D. F. (1993). The focusing positions of polypeptides in immobilized pH gradients

Page 359: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

can be predicted from their amino acid sequence. Electrophoresis 14, 1023-1031.

Brendel, V., Bucher, P., Nourbakhsh, I., Blasidell, B. E., and Karlin, S. (1992). Methods and algorithms for statistical analysis of protein sequences. Proc. Natl. Acad. Sci. U.S.A. 89, 2001-2006.

Bryant, S. H., and Altschul, S. F. (1995). Statistics of sequence-structure threading. Curr. Opin. Struct. Biol. 5, 236-244.

Bryant, S. H., and Lawrence, C. E. (1993). An empircal energy function for threading protein sequence through the folding motif. Proteins 16, 92-112.

Burnett, R. M., Darling, G. D., Kendall, D. S., LeQuesne, M. E., Mayhew, S. G., Smith, W. W., and Ludwig, M. L. (1974). The structure of the oxidized form of clostridial favodoxin at 1.9 Å resolution. J. Biol. Chem. 249, 4383-4392.

Chothia, C. (1992). One thousand families for the molecular biologist. Nature 357, 543-544.

Chothia, C., and Lesk, A. M. (1986). The relation between the divergence of sequence and structure in proteins. EMBO J. 5, 823-826.

Cordwell, S. J., Wilkins, M. R., Cerpa-Poljak, A., Gooley, A. A., Duncan, M., Williams, K. L., and Humphery-Smith, I. (1995). Cross-species identification of proteins separated by two-dimensional eletrophoresis using matrix-assisted laser desorption ionization/time-of-flight mass spectrometry and amino acid compsition. Electrophoresis 16, 438-443.

Deléage, G., and Roux, B. (1987). An algorithm for protein secondary structure based on class prediction. Protein Eng. 1, 289-294.

Eisenhaber, F., Persson, B., and Argos, P. (1995). Protein structure prediction: Recognition of primary, secondary, and tertiary structural features from amino acid sequence. Crit. Rev. Biochem. Mol. Biol. 30, 1-94.

Page 360: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Fetrow, J. S, and Bryant, S. H. (1993). New programs for protein tertiary structure prediction. Bio/Technology 11, 479-484.

Garnier, J., Gibrat, J.-F., and Robson, B (1996). GOR method for predicting protein secondary structure from amino acid sequence. Methods Enzymol. 266, 540-553.

Geourjon, C., and Déleage, G. (1995). SOPMA: Significant improvements in protein secondary structure prediction by consensus prediction from multiple alignments. CABIOS 11, 681-684.

Guss, J. M., and Freeman, H. C. (1983). Structure of oxidezd poplar plastocyanin at 1.6 Å resolution. J. Mol. Biol. 169, 521-563.

Hobohm, U., and Sander, C. (1995). A sequence property approach to searching protein databases. J. Mol. Biol. 251, 390-399.

Hofmann, K., and Stoffel, W. (1993). TMbase: A database of membrane-spanning protein segments. Biol. Chem. Hoppe-Scyler 347, 166.

Holm, L., and Sander, C. (1993). Protein structure comparison by alignment of distance matrices. J. Mol. Biol. 233, 123-138.

Holm, L., and Sander, C. (1994). The FSSP database of structurally-aligned protein fold families. Nucl. Acids Res. 22, 3600-3609.

Jones, D. T., and Thornton, J. M. (1996). Poteintial energy functions for threading. Curr. Opin. Struct. Biol. 6, 210-216.

Kneller, D. G., Cohen, F. E., and Langridge, R. (1990). Improvemnets in protein secondary structure prediction by and enhanced neural network. J. Mol. Biol. 214, 171-182.

Knight, A. E. (1994). The Diversity of Myosin-like Proteins (Cambridge: Cambridge University Press).

Kyte, J., and Doolittle, R. F. (1982). A simple method for displaying the hydropathic charactor of a protein. J. Mol. Biol. 157, 105-132.

Page 361: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Lemer, C. M., Rooman, M. J., and Wodak, S. J. (1995). Protein structure prediction by threading methods: Evaluation of current techniques. Protein 23, 337-355.

Levin, J. M., Robson, B., and Garnier, J. (1986). An algorithm for secondary structure determination in proteins based on sequence similarity. FEBS Lett. 205, 303-308.

Levitt, M., and Chothia, C. (1976). Structural patterns in globular proteins. Nature 261, 552-558.

Lupas, A., Van Dyke, M., and Stock, J. (1991). Predicting coiled coils from protein sequences. Science 252, 1162-1164.

Mehta, P. K., Heringa, J., and Argos, P. (1995). A simple and fast approach to prediction of protein secondary structure from multiply aligned sequences with accuracy above 70%. Protein Sci. 4, 2517-2525.

Nielsen, H., Engelbrecht, J., Brunak, S., and von Heijne, G. (1997). Identification of prokaryotic and eukaryotic signal peptides and prediction of their cleavage sites. Protein Eng. 10, 1-6.

Papin, D. J. C., Hojrup, P., and Bleasby, A. J. (1993). Rapid identification of proteins by peptide-mass fingeprinting. Curr. Biol. 3, 327-332.

Pauling, L., and Corey, R. B. (1951). The structure of proteins: Tow hydrogen-bonded helical configurations of the polypeptide chain. Proc. Natl. Acad. Sci. U.S.A. 37, 205-211.

Peitsch, M. C. (1996). ProMod and SWISS-MODEL: Internet-based tools for automated comparative protein modelling. Biochem. Soc. Trans. 24, 274-279.

Person, B., and Argos, P. (1994). Prediction of transmembrane segments in proteins utilising multiple sequence alignments. J. Mol. Biol. 237, 182-192.

Rost, B. (1995). TOPITS: Threading one-dimensional predictions into three-dimensional structures. In Third International Conference on Intelligent Systems for Molecular Biology. C. Rawlings, D. Clark, R. Altman, L. Hunter, T.

Page 362: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Lengauer, and S. Wodak, Eds. (Cambridge: AAA1 Press), pp. 314-321.

Rost, B. (1996). PHD: Predicting one-dimensional protein structure by profile-based neural networks. Methods Enzymol. 266, 525-539.

Rost, B., Sander, C., and Schneider, R. (1994). PHD: A mail server for protein secondary structure prediction. CABIOS 10, 53-60.

Sander, C., and Schneider, R. (1991). Proteins 9, 56-68.

Smith, W. W., Pattridge, K. A., Ludwig, M. L., Petsko, G. A., Tsernoglou, D., Tanaka, M., and Yasunobu, K. T. (1983). Structure of oxidized flavodoxin from Anacystis nidulans. J. Mol. Biol. 165, 737-755.

Takano, T. (1977). Structure of myoglobin refined at 2.0 ?. J. Mol. Biol. 110, 537-584.

Wilkins, M. R., Pasquali, C., Appel, R. D., Ou, K., Golaz, O., Sanchez, J.-C., Yan, J. X., Gooley, A. A., Hughes, G., Humphery-Smith, I., Williams, K. L., and Hochstrasser, D. F. (1996). From proteins to proteomes: Large-scale protein identification by two-dimensional electrophoresis and amino acid analysis. Bio/Techniques 14, 61-65.

Wilkins, M. R., Lindskog, I., Gasteiger, E., Bairoch, A., Sanchez, J.-C., Hochstrasser, D. F., and Appel, R. D. (1997). Detailed peptide characterization using PeptideMass, a World Wide Web accessible tool. Electrophoresis 18, 403-408.

上一页 下一页 返回目录 返回茶庄 

第十二章 鼠类和人类公用物理图谱数据库的使用

Page 363: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Lincoln D. Stein

Cold Spring Harbor Laboratory

Cold Spring Harbor, New York

 几年前,几张已经制成的人类基因组图谱还只是在小面积上的低分辨率图。生物医学研究者如果希望定位和克隆一个致病基因,总的说来就不得不对目的区域制图,而这是一个费时费力的过程。这种情况在近几年发生了巨大的变化。现在已经有了高质量的人类基因组基因图谱,它以单一序列重复多态性(Murray

et al.,1994; Dib et al., 1996)为基础,提供分辨率达 1-5Mb 的图谱信息。此外,还有许多物理图谱分辨率在亚兆(sub-Mb)范围(参见Hudson et

al.,1995; O’Connell et al.,1996,及其它)。长约 16000 的表达序列的图谱现在也可以得到。利用这些图,一个研究者,在很多情况下,可以只集中研究一个选定区域,用几个小时来搜索公用图谱数据库,而不是用几个月时间做实验了。

令人啼笑皆非的是,研究者的困难现在已经从基因组制图转到了使用一个巨大的未知领域。它包括www站点,FTP(文件传输协议 File Transfer

Protocol)服务器和数据库。其中有大型数据库,如NCBI Entrez 和 GDB。也有小型数据库,可以提供由基因组中心发表的初级图谱、由个体染色体委员会赞助的网址和由小型实验室使用,以发表特定区域详图的网址。每种来源中的信息即使与另一种中的相重复,也有其自身的价值。使用这个信息网并不容易。最近一项在 Alta Vist Web 搜索器上做的对“基因组”一词的搜索就找到了超过

Page 364: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

80000 个的潜在的相关文件。本章作为这些图谱的一个“简图”,用来引导读者穿过物理图谱数据库的迷宫。

本章先对物理图谱制图方法作一简要回顾,然后讨论大型公用数据库 NCBI

Entrez 和 GDB,这些库提供了查找许多不同来源图谱的简捷途径,并能在这些来源中进行比较。接着,本章再讨论一下由个体制图实验室所出版的资料,从在基因组范围做出制图努力的某些中心,一直到对个体染色体做出制图努力的。因为作者的专业领域所限,本章集中讨论人类和鼠类的图谱。

物理图谱的类型

物理图谱有许多结构和形式。一个极端是限制性图谱(restriction map),用于对小区域、如 kb量级做精细结构制图,另一个极端是细胞遗传学图(cytogenetic map),用于对以 104 kb为长度量级的区域制图。但是,最常用的两种类型还是 STS 含量图(STS content map)和放射性杂交图(radiation hybrid map),它们的分辨区域都大于 1Mb,并且有能使用简易 PCR 中的定位标记物的优点。

在 STS 含量图(图 12.1)中,STS标记物通过多聚酶链反应所监测,在反应中它与一个大的插入克隆基因库反应,如酵母人工染色体(TACs),细菌人工染色体(BACs)和粘粒等。如果两个或多个 STS被发现是存在于同一个克隆之中,那么这些标记位点紧密相邻的机会就很高(不是 100%,因为在制图过程中存在一些假象,如出现嵌合克隆体)。一段时期以来,根据 STS 含量图已经建立起一系列重叠群,如含有 STS 的重叠簇克隆。这样一张图的分辨率和覆盖

Page 365: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

度由一些因子决定,如 STS 的密度、克隆群体的大小、以及克隆文库的深度。通常 STS 含量图以长 1Mb 的插入 YAC 库为基础,分辨率为几百个 bp。如果使用插入部分较小的克隆载体,图谱就会有一个更高的理论分辨率,但是覆盖基因组同样大小面积就需要更多的 STS。虽然一般有可能从 STS 含量图上得到标记物的相对顺序,但是相邻标记物之间的距离还是无法精确测得。尽管如此,STS

含量图还是有与克隆原相关的优点,并且可将其用于更进一步的研究,如次级克隆或 DNA 测序。到目前为止,STS 含量图制图简单而使用最多的来源是巴黎的 CEPH(centre d’Etudes du Polymorphisme Humain)中的 YAC 库。它是一个 10×覆盖率的文库,平均插入长度为~1Mb。

放射性杂交图(图 12.2;Cox,1992)对片段DNA 的断点作图。在此技术中,一个人体细胞系被致死性的 gamma射线照射,染色体 DNA 分成片段。然后该细胞系与一个仓鼠细胞系融合而被救,并能繁殖几代。在这期间,人类细胞和仓鼠细胞的杂合体随机丢失其人类染色体片段。这样一百个或更多的杂合细胞系克隆体中,每一个都有不同数量的染色体片段,筛选生长后,就可以形成一套杂合组,供接下来的制图实验用了。

如果要在一个放射性杂交组中对一个 STS 作图,那就要将每种杂交组细胞系中的 DNA 进行 STS 的 PCR 操作。细胞系中如果含有该 STS 的染色体片段,那么就能得到一个正的 PCR 信号。在基因组中相邻很近的 STS有相似的固位模式(retention pattern),因为放射性引起的断点落在它们中间的几率很小。相邻较远的 STS固位模式相似性降低,相邻很远的 STS 的固位模式将会截然不同。与基因图谱所用方法类似,算法类的软件也能推出 STS 在放射性杂交图上的相

Page 366: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

对顺序,并通过断点落在其中间的可能性,用某一距离系统计算相邻标记物之间的距离。放射性杂交图还能提供一个标记物位于某一个特殊位点的可能值(优势对数值)。一个放射性杂交图的分辨率依赖于杂交体片断的大小,而这又依赖于人体细胞系所受的辐射量。一般对基因组大小作图的细胞系分辨率为~1M。

除 STS 含量图和放射性杂交图外还有几个方法可用于制作人类物理图谱。克隆图谱使用与 STS 含量图不同的技术来决定克隆体的接近程度。例如,CEPH

YAC 图谱法(Chumakov et al., 1995)综合利用指纹法(fingerprinting)、间-Alu产物杂交法(inter-Alu product

hybridization)和 STS 含量图法来制作一张重叠的 YAC克隆体图谱。缺失和体细胞杂交图依赖于大型基因组重组(可以人工引进或由实验本身引起),从而将标记物放在由染色体断点所限定的 bin?中(Vollrath et al.,

1992)。FISH 图谱(Licher et al., 1990)使用一个荧光信号来探测克隆体的间期DNA 扩散时的杂交情况,从而以细胞遗传学图中一条带的位置定出克隆体的位置。

研究者捕捉致病基因时对转录序列图谱有特别的兴趣。这些序列是由已表达序列和那些从已转化成 STS 并置于传统物理图谱的已知基因衍生而来的。近来一些制作大量 EST(Adams et al., 1991; Houlgatte et al., 1995; Hillier et

al., 1996)的工程已经使制图实验室能够得到数以万计的单一表达序列。一旦一个致病位点被鉴定出来后,这些转录序列图谱就能明显加快对目标基因的研究速度。

Page 367: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

YAC 库可用于 STS 的排序,但其克隆体中的高嵌合率和高删除率使它们不能用于 DNA 测序。去年高分辨率、可用于测序的质粒和 BAC 图谱则发展很快。因为它们所需的克隆工艺水平很低。除了几个特例,如染色体 19 的 Lawrence

Livemore 实验室质粒图外,其它图谱都还只处在初级阶段。

大型公用数据库中的基因组范围图谱

人类基因组物理图谱信息的主要来源是由NCBI(National Center for

Biotechnology Information 国家生物技术信息中心)和 GDB(Genome

Data Base 基因组数据基地,见注释)提供的大型公用数据库。这些数据库提供各种图谱的来源,使研究者能够用一个多用户界面交互系统在图谱中进行比较。在一定程度下,这些数据库还能进行图谱的综合及分析。NCBI Entrez 和GDB将在本节介绍。由个体中心维持的数据库可提供更为详尽的信息,并将在下一节“从个体来源的基因组范围的图谱”中介绍。

NCBI Entrez 中染色体图谱的使用

Entrez 的基因组部分是最容易获得物理图谱信息的来源之一。此服务由NCBI

所提供。Entrez试图以一种可理解的方式将几种遗传学图谱和物理图谱、DNA

和蛋白序列信息、以及一个目录型引用数据库和三维晶体结构信息融合起来。因为它的内部连接多,而且界面简单,Entrez 可作为搜索图谱的一个起始点 。Entrez 信息补救系统在第 5 章详细介绍。

Page 368: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

任何支持网络浏览器,如Netscape、Mosaic 或 Microsoft Internet

Explorer 的计算机系统都可以使用 Entrez。与 Internet 的连接应支持 TCP/IP

,通过一个 Internet 服务提供器就会形成一个有用的网络连接或是一个拨号连接。因为图谱信息中图形很多,所以应能连接 28800bp 或更多信息。

首先,将浏览器连到 Entrez 的主页所在的 URL(UNIFORM RESOURCE

LOCATOR 统一资源定位器),这样就会下载一页,包含一系列与 Entrez 中核酸、蛋白质、目录、基因组和三维结构数据库的链接,以及一些文档和帮助。选择标有“搜索基因组数据库”的链接,这样就会弹出来一个窗口,提供搜索的范围(如图 12.3)和在其它范围中一系列生物种类的名称。每一个生物体名称旁边都有一个数字,说明在数据库中其图谱的数目。得到人类图谱列表最简单的办法就是点击标有“Homo Sapiens”的链接,这样就会得到一个含 25 个染色体图的列表(染色体Ⅰ至Ⅹ再加上线粒体染色体组的两个词条,Y 型图谱现仍没有)。

现在再在感兴趣的染色体下选择标有“图示”(Graphical View)的链接。这就会得到与图 12.4 中所示相似的一个图谱。它是由几个图组成的一张复合图。这类图对于各个染色体来说并不同,但至少它们都含有Genethon 和CHLC(Cooperative Human Linkage Center 合作性人类链接中心)基因图谱(Murray et al.,1994; Dib et al.,1996)、Whitehead Institute放射性杂交图谱和 STS 含量图(Hudson et al.,1995)、斯坦福大学放射性杂交图谱、细胞遗传学图、和一个序列图。序列图基本上是一个定位器,即将已制成图的片段定位。对于这些片段,序列分析中心希望能在十年内将其制造出来。存在

Page 369: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

于多个图谱中的标记物用绿线连接了起来,好让读者能够互相比较并在从一个图谱转向另一个时保持正确的方位。出于比较和图示的目的,每一个图谱均由一个公用坐标系统校正,该系统以物理距离(DNA碱基对)的值为基础。稍一检查就会发现它们只是笼统地排成一条线,如在标记物的顺序上就有很多矛盾,在图上表现为绿线有交叉点。

这些图可以用鼠标浏览,一对标有“Action”和“Zoom”的选项按钮(radio

button)能控制图的大小。要想对图的一部分作更详细的观察,可选择Zoom

按钮,并点中需放大的区域。如果选Zoom后直接点击图上的区域,一般默认为放大 10%。另外也可以用图形上方的 pop-up(复选框)菜单来改变放大率的值。在高放大率下,诸如单个标记物的名称、图示基因、YAC 序列群和图示克隆等特征都可以很容易地分辨。进而也可以选择“左、右、校正”(Left、Right、Align)等按钮来调整图象至合适的尺寸(左右按钮在点击Zoom 一次后将会出现),Overview(全览)命令将显示图象返回其初始大小。

为得到一个具体标记的图中元素的信息,可选择标有“Action”的选项按钮,然后再点击该元素。注意该按钮非要使用一次Zoom才会出现,例如,单击一个 STS 的名称将会显示其在 Genebank 中的词条,而此词条又包含着与其它部分,如 Entrez词条、核酸、蛋白质和三维结构数据库等的链接。

Entrez 网同时也提供了一条简单的在图上定位一个特定标记物的途径。在标有Search by gene(基因查询)的两个小框中选一个,输入标记物的名称或GenBank 中的通道号,然后按旁边的按钮。这样就会产生另外一张图,其中标

Page 370: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

记物以黄色着重标记。如果输入两个名称,则它们之间的区域将会着重显示。在此功能中,除了名称,物理图谱上很少有元素对应着实际的基因,大多数标记物都只是重名的序列或是基因多样性中简单的序列重复(在 STS 中有很多例子)。

要想将一张 Entrez 图存在用户盘上,可单击鼠标右键(或 Machintoch上的Shift-Click键),弹出窗口上方的 Cursor,然后会产生一个 pop-up菜单,选择 Save Image As(将图形存为)并输入一个名称作为该图形文件的文件名。该图形以 GIF 形式保存,可以在很多图形程序中加以显示、打印和操作。这个过程在不同的网络浏览器中略有不同,有的要求在点击图片前选择 File(文件)菜单中标有 Save next Link to Disk(将下一个链接存盘)一项。

除人类基因组,Entrez还提供关于鼠类、果蝇、C.elegans、酵母以及一些原生动物的图谱。尽管可比较的(同线性)图仍不可获得,但它代表了现在最大和最完整的一套多生物体的图谱信息。

尽管以网络浏览 Entrez 对一般的使用已经足够,此来源使用频率高的人还是想建立一个 Entrez 网站,即NCBI“站柜台”,以顾客--服务员的形式使用软件。这种形式与网络版特征一致,但从实质上可以更好地应用,而且界面美观。它适用于 Windows、Macintosh 和 Unix等系统,并可在 Entrez

Overview(全览)页上下载。

Entrez也有一定的限制。最严重的是由几种方法构建的图谱不得不使用同一坐标系统。这种简化,满足了将所有表示同一区域的图形同时显示的需要,但有时

Page 371: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

也掩饰了其图谱信息模棱两可和存在矛盾的特点,制造出并不存在的确定性的假象,特别是细胞遗传学图和物理图片、基因图谱的整合关系并不紧密,必须小心使用。当然,Entrez也和一些实验室制作的网页相连,它们提供图谱来源,这就使图谱能够保持实验室最常用的最新的形式。这些个体中心的图谱将在后面作更详细的介绍。

在 GDB 中浏览染色体图

另一种常见的人类物理图谱数据的来源是GDB。尽管GDB是基于当时基因图谱的重要性才构建起来的,但是最近几年来,GDB也已经进行了扩建重组,现在同样可以算是物理图谱数据的仓库。不象NCBI,GDB只限于人类图谱数据。它不含序列数据,也没有其它种类生物的信息。

同NCBI 一样,GDB 可以由WWW上得到。GDB提供了一种全功能的对其数据库的查询式界面,这一点,尽管很有用,对新手来说可能还是会很头疼。限制性更强的查询界面,包括一种“按址查图”的功能,能帮助你更直接进入GDB,特别是在 1996年 12月引入的 GDB 的视图-2 程序(Mapview 2

program),它利用新的 Java微程序(applet)技术提供了一个与 GDB 中的基因图谱和物理图谱相连的图形界面,并使网页能够合并“活性内容”(active content)(Anuff, 1995)。一个能使用 Java微程序的网络浏览器应服从以下规则:它们应含有Microsoft Internet Explorer(3.0 版本或更高)和 Netscape Navigator(2.0 版本或更高)。

Page 372: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

首先,要连上GDB,需连到 GDB主页上的浏览器。从这个网址上,再找到并选择标有Advanced Search(高级搜索)的链接,从而得到一个含有几种查询方式的页面。

最简单的查询方式名为按址搜索(Search Maps by Location)。如图 12.5,选择这一项后会出现一个表。要使用这个表,得先选择要演示的染色体或亚染色体区域。如果要看整条染色体,可从 pop-up菜单中直接选择。而要看一个染色体区域的话,就要在输入栏 From 和 To(从...到...)中输入两个细胞遗传学带或基因标记物的名称。

搜索窗口下方的两个滚动式列表允许用户自己限制所搜索的图和标记物的种类。例如,可以限制 STSs(在 GDB 用语中为“扩增引物”amplimer)只用于放射性杂交图中的情况。

让我们从标有 Submit(提交)的按钮开始。在短时间等待后,将出现一个滚动列表,包括所有符合要求的图谱。一般都会有基因型、细胞遗传型和物理型图谱

现在对感兴趣的图再按 Submit。因为每个图都要花时间来获取和演示,所以除非使用速度很快的网络连接,最好将同时浏览的图谱的数目限制在 3 个以内。

图谱被整理后,将会打开一个新的窗口,以肩并肩的方式演示被选中的图(如图 12.6),两个或多个图中均用到的标记物用线相连,应注意有时也存在矛盾现象。

Page 373: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

要得到演示图谱中一个标记物的其它信息,可双击它的名称。浏览器窗口将会返回前一页并演示所选标记物在 GDB 中的词条。这个词条将会包括与 GDB 中其它信息的超链接(hyperlink)(如目录词条)和一些其它的生物数据库。

要得到制图方法的信息或关于一张特定图的其它信息,双击其垂直的主干,得到一张网页,描述图谱并给出详尽的信息。(警告:不要关掉Mapview后的浏览器窗口,由于 Java安全性的一个特点,微程序只有当浏览器窗口开着时才能演示关于所选标记物的信息)。

Mapview(图片演示)中的演示可通过选择View(演示)菜单中的 Marker

Names(标记物名称)或 Display Options(演示选项)来调整。这些选项可以让用户开或者关某些图的演示、改变图谱的相对摆放顺序、并熟练选择标记物的名称。标记物被演示时默认为使用其基因座D-片断名。但有时候如果使用最初实验室里的命名,信息量将会更大,因为这会对标记物的本质提供一些线索(例如,它是微卫星重复片断,还是一段表达序列)。

要在图上搜索一个特定的标记物,应从 Edit(编辑)菜单中选择 Find(寻找)一项。输入一个或多个标记物的名称再按OK按钮。标记物的任何别名都能使用,也可用一个单*号,被选中的标记物高亮度显示并滚动到视野内。

来自个体来源的基因组范围图谱

尽管一级数据库,如 Entrez 和 GDB是已发表的图谱的重要来源,但是它们还没有能替代原始数据的东西。有能力制作自己的物理图谱的实验室一般都有自己

Page 374: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

的网址,连向它们的图谱数据库。通过从这一渠道直接获取资料,我们可以看到制图实验室所使用的图的形式、下载原始数据、并且了解实验室制图时的协议。另外,一些图在出现于 Entrez 和 GDB前经常被丢掉。Entrez 和 GDB 数据库选择的表达方式,对那些希望将新的标记物定位于已知物理图谱上的研究者来说,只提供了最小的帮助。

基因组的基因图谱

尽管本章讨论的是物理图谱的来源,但若不涉及基因图谱,这些讨论就不能算全面,因为后者是制作许多物理图谱时工作的基本骨架,也是许多制图项目的起点。有两种基因组范围的基因图谱可供选择。Genethon 图(Dib et al.,

1996)含 5264 个多样性微卫星重复片断,间隔 1.6cM。完整的数据库文件,以及图谱的 PostScript 方式图形表示,在 Genethon 的 FTP站点上均可获得,这些图通过 GDB也可以获得。

第二大基因图谱由Cooperative Human Linkage Center(公用人类链接中心)(Murray et al., 1994)制造,CHLC 图由 10775 个标记物组成,大多数为微卫星重复片断,间隔 3.7cM。

人类基因组的转录物图

在 1996年 10月,Horno sapiens 的一个全基因组转录物图由一个国际合作的研究实验室发表于 Science上(Schuler et al., 1996)。这个图由~15000 个不同的表达序列组成,由放射性杂交法定位,与 Genethon 基因图

Page 375: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

谱衍生的框架相近。通过对酵母人工染色体作 STS 含量法又增添了 1000 个表达序列。在这张图中,大约 1/5 的标记物有已知的或是假定的功能,而余下的代表了未知功能的表达序列。制成图的序列一般由UniGeneset衍生而来,它是一个由NCBI管理的公用重复 ESTs 数据库。

转录物图是通过将八家不同实验室的图谱数据综合而得到的。为协调制图方法的些微不同,表达序列被放在由Genethon 基因图谱衍生的框架上。结果,该图的最大分辨率为~2cM。很多情况下,可以从各个实验室的数据库里得到针对某一部分数据更好的制图信息,特别是 the Whitehead Institute 和Stanford University 的。

浏览 NCBI转录物图

转录物图可在两个网址上得到。数据的“亲本”站点为NCBI。在那儿可以找到含有全基因组转录物图的 Science 文章的全文,以及彩色的图象,但一般都只有装饰性的墙面图案。另外,也有搜索页可以让浏览者对特别感兴趣的基因进行查询,或是通过对功能未知,但其读码框与某已知功能的蛋白质相近的表达序列图谱进行搜索。

NCBI 网址的一个限制就是它不能在低分辨率标记物分布柱形图上提供转录物图的图形。但是通过 Mapview微程序就可以得到其图形显示。从GDB 的首页,沿着What’s New 的链接,可找到全基因组转录物图(到本书出版时链接形式可能已有所不同)。同样,可以认为转录物图也是 Entrez 网将要制作的一部分。

Page 376: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

任何支持网络浏览器的计算机系统都可用来浏览 NCBI转录物图,要求是应连向 Internet 并支持 TCP/IP。通过 Internet 服务器可能形成一个 dedicated 网络连接或是一个拨号连接。因为这个网址图形不多,所以连接速度不要求很快。

首先,点击 Science转录物图网页所在的浏览器,得到转录物图的主页,通过其鲜快的桃红背景很容易认出它。现在,寻找并点击标有Reasearch Tools

Page(研究工具页)的链接。一般这个链接很不起眼(它在该页的右方,图的下方),这个链接会引向一个有几种搜索方式的窗口,你可以按址、按假定功能或只按序列进行搜索。

要想搜索基因组的一个特定区域中特殊目的基因的图谱,可选择标有Map

Search(搜索图谱)的链接,得到含有一列染色体的页面。选择感兴趣的染色体,得到与图 12.7 相似的页面。现在,在标有 Interval(间隔)栏中,输入两个 Genethon 基因标记物来定义你感兴趣的区域。

Genethon 图可从GDB得到,或直接在上面所给的 URL上的 Genethon 中得到。例如,如图 12.7 所示,要搜索位于染色体 18 的 Genethon 图上 32cM 和34cM 中的表达序列,可输入 D18S464-D18S1153,再按 Select

Markers(选择标记物)键开始搜索,得到列有目标区域中表达序列的页面(图 12.7),其中每个 EST 位于不同列,并有简短说明。附言“Highly

similar to”或“Similar to”说明它不对应已知基因,但与 Swiss-Prot 中的某个基因相似。

Page 377: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

每个转录物的名称都是一个超文字链接。选择此链接会产生一个页面,对转录物进行详细说明。在可获得信息中有重叠基因表、形成转录物群的 ESTs、cDNA 的准备原始材料,转录物的克隆 ID(在 I.M.A.G.E Consortium 的网页可得到大多数 ESTs 的克隆号)、Swiss-Prot 相似性搜索结果,以及 Entrez 中关于其序列和词条信息的链接。

要想根据名称或假定功能搜索一个图中的转录物,应回到搜索页并选择 Text

Search(主题搜索)。接着会弹出一页,上面有一个或多个搜索项。你可以搜索以下类型的内容,GenBank 中的一个通道号、一个标记物或地点名称、在转录物 GenBank词条的说明区内找到的一个说明性词语、或是在 Swiss-Prot词条的说明区内找到的说明性词语,转录物与之很相似。你可以同时限定很多搜索项,这样搜索系统会挑出含所有项的那些词条。

按 Search 搜索键提交搜索,将会出现一列符合条件的转录物,其形式与前所述搜索的图谱相似。例如搜索 kerabin(角蛋白)通常会得到 17 种 keratin 和与 keratin 相似的转录物,并指出它们在图中的位置。

搜索的最终类型取决于 BLAST 相似性,如要搜索与一段DNA 序列相似的转录物图,在搜索页上选择“序列搜索”,弹出一个很大的输入区。用 FASTA 模式将目的序列剪切后粘贴在输入区;先在>后加上序列名称(任意标记物均可),再加入该序列,如下:>blunderglobin 3’end

CTTGCATGCCTGCAGGTCGACTCTAGAGGATCCCCCTGTGCAGCATTCCATAAT

Page 378: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

GTGAATATATAACACTTTATTCAAAATTTGGGGAAATAGTACCTTGTACATACA

TAATTTCACATGTTTGCCAGTGTGTGTTTTAGATACATGCCTGGA

如该序列在 GenBank 中已有一词条,那么只要输入其通道号就可以了。按下Submit Query(提交要求)键。在被查询序列对照转录物序列进行一次BLAST 搜索后,NCBI 服务器将会给出一页结果,总结所有相似转录物的身份和图中位置。

White head Institute提供的人类物理图谱

The Whitehead Intitute/MIT Center for Genome Research是两张基因组范围物理图谱的最初来源。其中一张是 STS 含量图,内含指定为 YAC 的10000 多个标记物,以及一张含 12000 个左右标记物的放射性杂交图 。Whitehead 所用的 G4 杂交板(Genebridge 4 radiation hybrid panel)分辨率为~1Mbp,而以 YAC为基础作的图分辨率大约为 200kbp。这些图已经和 Genethon 基因图相结合,产生了一张合图,在平均 150kb 范围内有20000 个 STSs。Whitehead 图上大约有一半的标记物是表达序列,它们在人类转录物图上也会出现。

WI(Whitehead Institute)图可通过网络从Whitehead Center for

Genome Research 的主页上得到。沿着“人类物理图项目”(Human

Physical Mapping Project)的链接就可以得到感兴趣的图,这些图可通过几种方法浏览。选择一系列 pop-up菜单可以产生所选染色体的图,选择选项按钮可以综合放射性杂交图、STS 含量图和基因图。与 Entrez 一样,这些图不是固

Page 379: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

定不变的。点击一个 STS 或是重叠群,会弹出关于该图素详细信息的页面。图形式图谱在网址上可按GIF 或 Macintosh 最初模式(PICT)下载。最近引入的一个多图浏览器,有一个望文生义的名称 Multimap(多图)可以为 Java 型浏览器(如图 12.8)提供这些图详尽的信息。这些图的后转录形式在 Whitehead

FTP站点上也可得到。但应注意,这些后转录图是一些长几英尺,与墙壁差不多尺寸的怪物。这就需要一个有足够内存(至少 8M)的激光打印机或标绘器才能进行硬拷贝。

Whitehead 网址上还提供了对图谱数据库进行查询的搜索页。这些搜索数据的链接可按名称、GenBank通道号、STS 型号、染色体分配进行搜索。另外,Whitehead 网页也可根据功能关键字搜索制图转录序列,并提供与 NCBI 中的主转录物图的链接。

Whitehead也为那些希望建立他们自己的 STS 的研究者提供服务,并将之放在一个或多个图上,这些服务包括:

一个在线的引物选择程序,引物 3

将一个 STS放在 STS/YAC 含量图上的服务

将一个 STS放在放射性杂交图上的服务

Whitehead 图远未完善,对合图进行监督性测试就能显示出在基因图、放射性杂交图和 STS/YAC 图上的 STSs 位置间存在矛盾。这些矛盾表现在合图上仍存在交叉线。解释这些图的一个关键点在于理解这些图在可靠性与分辨率水平不一

Page 380: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

基因图骨架在数十兆时能可靠地连接标记物,但在低于约 2兆时就无法准确解决两个 STS 的顺序问题了。放射性杂交图能够测知约 10Mb 的连接,有效分辨率达~1Mb(更小的间隔也能排序,但是不可靠性逐步增加)。STS/YAC 图可以测知两个相互间隔 1Mb 的 STS 的连接,估计分辨力达 100~300kb。理解图谱时头脑中应有这些尺度上的差异。一般在 1Mb 的范围以下,STS/YAC 图是说明顺序的图谱中最可靠的一种。

在 STS 含量图中,由于 STS 和 YAC 的不等分布,可靠性也会有地域差异。在YAC 密集的区域(每一个 STS有 5 个或更多的 YAC),在排序信息的重要性上,图谱结果是相对更可靠的。在低密度区,图谱结果中就会有几种同时可能替代的 STS顺序,并会附上数据。假定的错误的反面情况,如图 12.8 中,表示为图中的空白框。这一点也会严重降低图谱的准确性。最后,因为在所有 YAC 库中都存在嵌合现象的问题,双键(例如,一对 STS同时与 2 个或更多 YAC 连接)比单键(STS只由 1 个 YAC 连接)更能可靠说明相邻关系。尽管只有在基因图或放射性杂交图中存在支持性数据时,图上才能构建单键信息,但单由两个 STS 相连形成的连接仍保留怀疑。这些元素在任何制图区域被详细检查的时候都应考虑在内。

下面的部分介绍如何在 Whitehead 图上,通过 Whitehead 网址安置新的STS。从 STS设计和针对 Whitehead 和放射性杂交图进行制图开始。

设计一个 STS,置于 Whitehead上

Page 381: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

设计一个 STS需要一个高质量的 DNA 序列,至少长达所需的 PCR产物。为得到最好的结果,这些序列应不含重复元素和载体序列,并且质量相对高些。任何支持一个 WWW 浏览器的计算机系统都可以使用该程序,支持 TCP/IP 的网络连接也是必须的。

首先,将浏览器连到 Whitehead Genome Center 的主页。寻找并点击指向WWW Primer Picking 的链接。接着出现一页,在其上方有一个很大的输入框剪切原始序列并粘贴到该处,只用粘贴原始序列,不需用名称或其它标记词。这些碱基可以小写或大写,而白色空格可以忽略。

现在,向下滚动窗口,将 PCR 的条件调至需要值。那些关于盐浓度、温度和产物大小范围等的默认值均是WI 所设定的。如果有必要的改变需输入时,按标有Pick Primers键返回一套引物处进行特定设定。这些引物现在在对感兴趣的序列的审查实验中用得上。通过放大基因组 DNA 中的一条特定带,可以对这些引物的能力进行经验性鉴定。引物的失败主要与引物扫描区域中的重复元素有关。相反,通过进行 BLAST 或 FASTA 搜索,再选择引物对,来对输入序列中的重复序列进行筛选则是比较明智的,如果 STS 成功地放大了一条特定带,它就可以与 Whitehead STS/TAC 含量图或放射性杂交图相联系,被制成图。

与 Whitehead STS/YAC 含量图联系对 STS制图

一旦被制出后,一个 STS就可以通过对 CEPT mega-YAC 库的扫描确定在STS/YAC 含量图上的位置。而对含有超过 30000 个克隆,其中又有 1200 个排列、板块和柱池(row、plate 和 column pool)的 YAC 库进行搜索,实在是一

Page 382: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

件头疼的任务。可喜的是,几个生物技术公司已经提供了 CEPH YAC 的复本和(或)筛选系统,包括Research Genetics Corporation。Whitehead 图就是仅从 YAC 库的后一部分构建起来的。这意味着库模块中位于 709-972 的范围仍需筛选。STS 接着就可以用以下步骤放在图上了。

使浏览器连向Whitehead 的主页,并点击标有Human Physical Mapping

Project 的链接以跳到该组织的物理制图页。从这儿,再找到并选择“Search

for a YAC to its address”,接着出现一页,内有一系列 pop-up菜单,能用于输入单个 YAC 的地址、或一个输入单个 YAC 名称的主题栏、或一个能粘贴一列 YAC地址的大型区域。后者适用于将多个 YAC 用于研究的时候。在这个地方输入 YAC 列表,再使用“plate_row_column”形式,这里是用“_”号分离板块、排和列这三维(如 709_A_1),也可输入多个 YAC地址,用空格或carriage回车隔开。搜索过程输入格式并不固定,它也可识别多个 YAC 模式(包括 709_a_1 和 709a1)。

当 YAC表完成后,按 Search键,得到一个表,列有各个 YAC,其重叠群位置和染色体分配,以及附近 STS 的位置。这些 STS 位于放射性杂交图和(或)基因图上(见例 1)。

要理解该搜索结果,应该知道CEPH 库中相当数量(40-50%)的克隆都是嵌合体,这意味着单个 YAC 可能存在于位于基因组不同部分的重叠群中。由于这个原因,需要找到多个 YAC 来证明单个 STS 分配到了某一特定重叠群中,

Page 383: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

或是从其它方法来证明(比如 FISH,体细胞杂交制图,放射性杂交图制图数据)。

1. 将一个 STS置于 Whitehead STS/YAC 含量图中

作为一个具体的例子,让我们考虑在 YAC 库中筛选的位于 3 个 YAC 中的一个STS:945_B_6,743_G_12 和 765_D_8,将它们的地址输入网页后,按Search键,回到以下页面(为清晰起见这儿有几处缩写)。945_B_6

     Map Positioin Contig

 STS Chrom Genetic RH Single Double

1 D18S59 Chr18 - - WC18.0 WC-1465

2 D18S1140 Chr18 - - WC18.0 WC-1465

3 CHLC.GGAT2G04.1217

Chr18 - - WC18.0 WC-1465

4 CHLC.GGAT2G04 Chr18 - - WC18.0 WC-1465

5 WI-9527 Chr18 - - WC18.0 WC-1465

6 WI-7796 Chr18 - 15cR WC18.0 -

Page 384: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

743_G_12

     Map Positioin Contig

 STS Chrom Genetic RH Single Double

1 D18S1140 Chr18 - - WC18.0 WC-1465

2 CHLC.GGAT2G04 Chr18 - - WC18.0 WC-1465

3 WI-9527 Chr18 - - WC18.0 WC-1465

4 D18S59 Chr18 - - WC18.0 WC-1465

5 CHLC.GGAT2G04.1217

Chr18 - - WC18.0 WC-1465

6 WI-7796 Chr18 - 15cR WC18.0 -

8 D6S1634 Chr6 96cM - WC6.12 WC-1197

9 WI-3308 Chr6 - 584cR WC6.12 WC-1197

10

FB10A2 Chr17 - 424cR WC17.8 WC-1673

11

AFM198YB2 Chr5 - 32cR WC5.0 WC-596

Page 385: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

12

CHLC.GATA82H02 Chr5 - - WC5.0 WC-596

13

D5S406 Chr5 12cM - WC5.0 WC-596

765_D_8

     Map Positioin Contig

 STS Chrom 39cM RH Single Double

1 D14S69 Chr14 - - WC14.0 WC-1651

2 AFMA133WF1 Chr14 1cM - WC14.0 WC-1651

3 D18S1105 Chr18 - - WC18.0 WC-909

4 WI-5528 Chr18 - 4cR WC18.0 -

5 WI-3058 Chr11 - 5cR WC18.0 WC-909

6 WI-5872 Chr11 - 145cR WC11.4 -

7 WI-6096 Chr11 - 143cR WC11.4 -

每张图对应输入的一个 YAC地址,每个表包括已知 YAC 中的 STS表,以及STS制图信息。对于每个 STS,染色体分配、基因图位置和放射性杂交图位置只要已知就会给出。另外,STS 所属的已命名的重叠群也列成表,这些表中大多数元素是超文字链接,选择合适的链接可以获得关于一个 STS 或一个重叠群更多的信息。由于历史原因,许多 STS有两个重叠群。双链接重叠群(例如由成对

Page 386: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

YAC共有的重叠群)短一些,在构图的起始阶段中是可创造的更可靠的重叠群,它们可以被放心地忽略。单个重叠群长一些,在不同方式下也应承认其合理性。

在此例中,三个 YAC 中有两个似乎有嵌合性,因为它们散布于几个不同的染色体的重叠群中,很显然这三个 YAC都有WC18.0 重叠群,这就使尝试性的将STS 分配至这个重叠群成为可能,因为从重叠群的其它 STS 的基因图和放射性杂交图位置我们知道WC18.0 位于染色体 18上,并靠近 P端。

Whitehead放射性杂交图

STS也能被置于 Whitehead放射性杂交图中,这比 STS/YAC 含量图的问题简单很多,因为在放射性杂交图上搜索一个 STS只用 93次 PCR,而不是 1000

次。Whitehead放射性杂交图使用 Genebridge 4 radiation hybrid panel。与 CEPH YAC 库一样,这些细胞谱系的 DNA也可以从一些生物技术公司那儿得到。而有些公司还提供搜索服务。为得到最好的结果,PCR必须在与制作Whitehead 图的相同条件下进行(见Hudson et al., 1995),并应在复制时进行。复制 PCR间出现的不同结果说明应继续重复或以未知物对待。

首先,将杂交模板筛选结果重定为“rhv”格式,看上去如下:sts_name1 001001011000001000000011010001101110011100101001211001110101010100101000

sts_name2 000001111000001000000011010000001110011100101001211001110101010100100000

。。。

Page 387: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

每个数字代表每个放射性杂交细胞系的 PCR 结果:0说明 PCR 结果为负(无反应产物),1说明为正,2说明为“未知”或“未完成”。载体上数字的顺序是很重要的,必须与 G4rhp 中的正式顺序相对应。为找到该顺序,可沿(Whitehead 物理图页上)标有“How the radiation hybrid maps were

constructed”(如何构建放射性杂交图)的链接,再按下标有“G40”的链接。该顺序与它们由Research Genetics运输时包装的 DNA顺序相同,所以它一般还不是结果。要增加可读性,可在载体内加入空格,用一个或多个空格、或Tab键就可以将 STS 名称与扫描数据分离开了。

从Whitehead 物理图页上,按下标有“Place your own STSs on the

genome framework map”(将你自己的 STS放入基因组框架图中)的链接,再输入提示的合适的 Email地址,并将 PCR值粘贴至位于该页上的大型主题框。输入正确的 Email地址很重要,否则制图结果将有可能被误解。

默认时,制图数据会以正文形式返回。为产生放在 Whitehead 图上的 STS 的图形,选择一个标有Mac PICT(针对 Macintosh 系统)或 GIF(针对Windows 和 Uinx 系统)的选项按钮。

当设置完成时,按下“提交”键。当数据已被转交或正在制图时,你会得到一个证明,在一小时内结果将会通过 Email回执给你。

对于大量的筛选数据,如果用剪切和粘贴来向服务器提交这些文件就不太方便了。这时可以将数据以纯文本形式存在用户盘上,然后用 RH制图页中的浏览键来定义并提交此文件给服务器,同样,Email地址也要手工输入。

Page 388: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

对于~98%的提交的标记物,Whitehead放射性杂交图制图服务器都会找到特定的位置。如果安置成功,软件将会给一回执,包括该标记物的染色体分布和在染色体连接群中的位置、对标记物的表格式说明、和在 Whitehead放射性杂交图上两侧标记物的存在时其数据情况。按要求将会得到一张Macintosh 图或GIF 格式图。这些图由Whitehead 框架图组成,所提交 STS 的位置以红色标明

如果发现标记物连接的染色体多于一个或是根本就没有连接,制图过程也可能失败。在前一种情况中,可以重新提交并设置高优势对数值,这样服务器将会认为其连接一个染色体,在后一种情况中,你可以试着利用放射性杂交图页上的一个 pop-up菜单将限制性降低。如果一个标记物确实连向多个染色体,那么有可能用 STS 探测出重复序列。

Stanford University放射性杂交图

Stanford Human Genome Center已经用 G3制图板发展了一张基因组放射性杂交图。由于比 G4板所用放射量更高,G3板的分辨率更高,但是代价是在探测长距离连接时限制很大。Stanford 图一般在平均 375kb 的范围内存在~8000 个 STS,这些标记物中,3700 个左右是表达序列,存在于 NCBI转录物图中。同以往一样,在基因组很多部分中,Stanford 图中的表达序列比“全包容”NCBI 图中的准确性更高。

Stanford 图可用 WWW 接通。在主页中点击Mapping再点击RH Mapping,这样就可以得到基因组放射性杂交图。在这儿,标有Maps 的链接可以引向一页,帮助用户选择所要演示的染色体。这个网址接着就会演示所选染色体的一个

Page 389: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

表意符号、一个密度图,指明每个制图标记物的位置、和一列用于构建该图框架的 Genethon 基因标记物(图 12.9)。点击一个基因框架标记物的名称将会得到该地区标记物的一个详表。选择一个标记物的名称又会得到该标记物和其制图数据的更详细的信息页,通过搜索页可以得到特定标记物的位置。允许的搜索项包括:标记物名称、GB通道号、GDB 位置鉴定和 dbSTS 数量。

Stanford提供一个放射性杂交图制图服务器。如同Whitehead 服务,这个服务器允许对从Research Genetics 和其它业主处得到的 G3板进行 STS扫描。输入数据,服务器将会尝试将 STS 与 Stanford 图相连,并用 Email返回结果。因为G3板不能探测长距离连接,在无其它图谱信息时,Stanford 服务器只能将 75%的 STS 定位在一条染色体上。但是如果要在可选区域内提供标记物的染色体分布。服务器就能够在一个低优势对数连接值时进行分析,并可对 90%的情况作出分布图谱。

当使用 PCR时,STS 应对 83G3板DNA扫描。为得到最好的结果,可使用Stanford 的 RH Protocol主页给出的 PCR 协议,每次分析结果都应该复制,并且复制品间有分析差异就应该重复或标为未知。

Stanford 服务器返回的制图结果由一系列相应的标记物分布组成。对于每一个STS,服务器都会报告离其最近的基因标记物、染色体、和标记物到 STS 的距离以 centiray(cR)为单位。尽管对于制图结果并不提供图形显示,图谱信息还是可以用来与以上讨论的浏览图形结合来说明所提交 STS 相对于 Stanford 图上其它 STS 的位置。

Page 390: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

首先,将筛选结果重置为“radiation hybrid载体”格式:sts_name1 100000000000000010000000000010000000100110010000011000000100000R1100000

sts_name2 0000000000000000R0000011110000000000100110010000001100000100000R1100000

...

每个数字代表每个放射性杂交细胞系的 PCR 结果:0说明 PCR 结果为负(无反应产物),1说明为正,2说明为“未知”或“未完成”,R 用于说明“未知”或“模棱两可”(这不同于 Whitehead 形式,尽管Whitehead也可识别“R”),载体中数字的顺序很重要,必须对应于 G3 radiation hybrid板上的正文顺序,这与 Research Genetics运输的 DNAs板顺序相同,用单个Tab(不能是空格)将 STS 名称与扫描数据分开,空白区域在载体中不允许存在(又一个与 Whitehead 的形式不同之处)。

要提交这一数据,连接 Stanford 的主页,并按下RH 服务器的链接,然后是RH Server Web Submission。输入 Email地址和提交号的区域已被说明 。Email地址对于保证收到制图结果是很重要的。提交号是一个可选择栏,它会同结果一起回执给用户,并且用于帮助工作人员使结果组织化。如果 STS 的染色体分布已知,那么应输入到标有Chromosome Number 的区域。这个信息会增加制图软件测出一个正确连接的能力。

现在,将筛选数据粘到大型正文栏中,并按提交键。制图结果一般在几分钟内通过 Email回执。Stanford 服务器以一系列相对基因标记物的位置返回制图结果对于每个 STS,服务器会报告离其最近的基因标记物、其所在染色体和 STS 到

Page 391: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

标记物的距离(以 centirays为单位)。尽管并不提供制图结果的图形显示,制图信息仍可用于和以上标出了用户的 STS 相对 Stanford 图谱上的其它 STS 的位置的可浏览型图谱相结合。

CEPH YAC 图

1993年,巴黎的 CEPH(Centre d’Études du Polymorphisme

Humain),与 Genethon 合作,发表了人类基因组的第一张物理图谱(Cohen et al., 1993)。这张图由几套重叠 YAC 组成,形成连接邻近基因标记物的途径。YAC 重叠可由几种技术鉴定,包括 YAC指纹印迹法(YAC

fingerprinting)、与 inter-Alu PCR 结果杂交法、荧光原位杂交(FISH)和STS 含量图。尽管 YAC克隆图大部分已被更方便的以 STS为基础的图谱替代,对于要包括CEPH YAC 库或以克隆为基础的反应物的制图项目还是有用的。

由于 YAC 库中的高嵌合率,在两个通过指纹法或 inter-Alu PCR 杂交法确定相互重叠的 YAC 之间,每一小步可能都很可能跨过基因组的一个物理距离。基于这一点,短距离比长距离更可靠,这一概念已植入 CEPH 的词条“level”中。一个 1 级(level)途径,由两个锚定 STS 组成,它们应至少有一个 YAC直接连接。这类途径,与平面 STS 含量图中用于确定相邻关系的键或单键相类同。可以让研究者从一个 STS跳到另一个,而无需跳过任何 YAC/YAC 连接点。相反,一个 2 级途径,由两个锚定 STS 组成,不直接由单个 YAC 连接,而是由 inter-

Alu PCR 或指纹法确定在包含它们的两个或多个 YAC间有一个重叠,所以 2 级途径需要跳过一个 YAC/YAC 连接点。3 级途径需跳过 2 个。4 级需跳过 3 个,

Page 392: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

等等。尽管每一种的可靠性尚未经验性证明,通过对一套CEPH 数据的分析(J.

Orlin, personal communication)暗示 4 级或更高时可能不精确。而幸好CEPH途径中近 90%的基于间距为 3 级的或更低。

从CEPH 服务器得到 YAC 重叠

CEPH 图可以在其单位的网址上在线获得。这里可找到的链接有 YAC 库信息,也有一系列图谱的后转录文件,用于制图的 QuickMap 软件,以及含原始图谱数据的文件。浏览 CEPH 图最好的作用方法为下载QuickMap 文件,安装并利用它来观看数据文件。然而,由于 QuickMap只对 Sun workstations工作,这种方法已经不可行。CEPH也提供针对 QuickMap 的一种在线界面,在通过标有 Infoclone 的链接处可以获得。这时会弹出一页,可以提交一个 STS、或一个基因标记物或一个 YAC 的名称。提交名称后会回执所有关于它的原始图谱数据。该文本是超链接,可以从一个 YAC 的单一 inter-Alu PCR 杂交跳至另一个。

要得到数据,将浏览器连到 CEPH 的网址上。这会弹出 ECPH Genethon 网页。现在找到并选择 I链接,接下来的一页会要你在一个小文本栏中输入一个 YAC

或一个 STS 的名称。YAC 应遵循简便的 plate_row_column(板块_排_列)格式,如 923_f_6。对于 STS,可以用 GDB 分配的 D-片断名(如果可得的话)或是实验室分配的研究名称。该文件只针对特定事例,所以输入 AFM20ZE3不会得到正确的名为AFM220ZE3 的 STS。也应注意 YAC地址中排的名称应小写

按下Query(查询)键,如果该名称存在于 CEPH 数据库中,那么在短例例 2

中含相似信息的页面将会出现。第一部分包括一些关于 STS 的总体信息,如引

Page 393: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

物序列和基因图谱信息。第二部分给出 STS 的 YAC 搜索数据。该部分列表中的所有 YAC通过直接 PAC扫描均发现含有该 STS,注释 Alu-PCR probe(探针)说明这个 YAC 在 inter-Alu PCR 杂交实验中被选用为探针。第三部分包含与 STS 相邻的 YAC 的信息,它们与 STS 相隔一个 inter-Alu PCR 的距离。

为得到一个 YAC上的制图信息,可在文本栏输入其名称并按下Query键,出现的界面将会给出 YAC、FISH 和 STS 含量图数据的尺寸信息,以及 inter-Alu

PCR 和指纹印迹实验中衍生出的重叠信息。

例 2 G 基因型信息Genotyping information from Genethon 1994 genetic map:

Number of alleles: 7

Heterozygosity: 0.78

Reference alleles: 1-4

Size range: 204,206,208,210,212,214,218

Primer sequences:

(ca) TGTACCTAAGCCCACCCTTTAGAGC

(gt) TGGCCTCCAGAAACCTCCAA

YACs specific for STS AFM220ze3:

678_g_3 CE 

(1730 kb)

Page 394: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

746_e_4 CE 

(1080

kb,1350kb,1500kb)

756_e_8 IE Alu-PCR probe (1380 kb)

765_d_4 IE 

(1060 kb)

765_e_4 IE Alu-PCR probe (880 kb)

826_e_6 IE Alu-PCR probe (820 kb)YACs neighbouring STS AFM220ze3:

56_c_5 a Alu-PCR probe (no size)

154_d_3 a Alu-PCR probe (no size)

261_c_12 a Alu-PCR probe (no size)

309_c_11 a Alu-PCR probe (no size)

340_g_10 a Alu-PCR probe (no size)

Page 395: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

366_f_1 a Alu-PCR probe (no size)

682_a_11 f 

(no size)

每个 YAC词条有几个编码与之相关。例如,在直接 PCR扫描表中,c说明CEPH 进行实验的无分歧结果,而 E说明为单个已证明的 YAC,来源于外在(非 CEPH)实验室。在 YAC/YAC 重叠表中,a说明为一个 A-PCR关系,而f说明为一个指纹印迹关系。完整的编码表从位于该页上的不同帮助链接中而得到。

CEPH YAC 库的一个子集已由脉冲区凝胶电泳法限定了大小。如果可以得到它,就能得到 YAC 的大小。在某些情况下,可以找到多带,这是污染的结果,或是因为在 YAC插入区和克隆生长时DNA 的随机删除所造成的。这种情况下,多YAC 的大小也会演示出来。

特定人类染色体图谱

除基因组范围图谱外,许多个体染色体物理图谱也由研究实验室和基因组中心构建起来了。在很多情况下,这些图谱能比相应基因组范围图谱提供更详尽的信息。表 12.1 列出了这些图和从网上何处可找到表。除这里所示的 URL,在 GDB

的来源页面上也可得到一个最新的表。另一张表由NHGRI 的网址保存。下面所讨论的所有网址列于表 12.1 中。

Page 396: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

染色体 3 图可在 2 个中心得到。The University of Texas Health Center at

San Antonio提供基于 YAC 的一张 STS 含量图,以及一个放射性杂交图。这个网址还提供关于制图数据的一个图形式操作型界面,以及一个基于查询式的机制。The University of Texas也有一张染色体 8 的放射性杂交图,在同一网址中可以得到。

染色体 4 的 STS 含量图,含 1280 个 STS 和 3300 个 YAC,可从 Stanford

Human Genome Center 网址上得到。这张图只是一系列后转录文件。原始扫描数据还不能在线获得。

在 Sanger Centre也可得到一套网页,进而得到该组织的放射性杂交图和测序项目的进展。你可以得到以点击式图形存在的图谱数据。测序数据也可以 Unix

Tape夹形式下载(tar 文件)。

染色体 7 的图谱数据的最初所在网址为位于 NHGRI 中的 Eric Green 实验室。主图是一张 STS/YAC 含量图,附加以 EST、BAC 和 cosmid 重叠群数据。该数据与 Washington University 的染色体 7 测序计 划相交联。在 The Hospital

for Sick Children 的遗传学系也可以得到一些染色体 7 的物理图谱。主页通过重叠染色体 7 特有的 YAC 组装而成。这些重叠可以综合使用 inter-Alu PCR 杂交图、指纹印迹法和 STS 含量图制图的方法来证明。大约 90%的 7q 可认为由重叠群所覆盖。

Page 397: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Genome Therapeutics Corporation of Waltham, Massachusets已经制作了覆盖染色体 10 的几个部分的 STS 含量图。这些图的文献摘要和列表从该公司的网址上可以得到,但是这些图本身只能通过 GDB得到。

染色体 11 图谱在 University of Texas/Southwestern Medical Center’s

Genome Center那里可以得到。其中最大的图是一张针对 CEPH YAC 库和roswell Park 染色体 11 特有 YAC 库的一个 STS 含量图,包括~1200 个STS。你可以 flatfile 形式或是GIF 图片形式得到这些数据。FISH制图结果和YAC 与一个特定染色体质粒库的杂交结果也可以在这个网址上找到。

Yale University 和 Albert Einstein Medical Center已经发表了一张染色体12 的 STS 含量图(Marynen 和 Kucherlapati, 1995)。该图主要以 CEPH

YAC 库为基础,但也包括质粒和其它类型的克隆。

在 Columbia University 可得一系列染色体 13 的图谱。这些图由CEPH YAC

克隆体组成,这些克隆体通过使用 inter-Alu PCR 杂交技术在一个染色体 13

特定质粒库中被检测出来。在这些以克隆为基础的图谱上方也放置了基因、STS

和 cDNA。这些图谱和原始数据在 Columbia 的网址上可以得到,它们以超链接表和 flatfile 的形式传送。

染色体 16 的 Los Alamos National Laboratory 图谱(Doggett et al.,

1995)是一张相对 CEPH YAC 库和一系列质粒和其它克隆体制出的,含有500 多个 STS 的 STS 含量图。Los Alamos 网址上有一个完全查询式的染色体10制图数据的数据库,以及一系列图形画面和含有制图数据的 flatfile。常用的

Page 398: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Sigma 图构建项目也由 Los Alamos 进行,所以这张图也可以 Sigma 数据文件形式传送。

另一个国家实验室,Lawrence Livermore,负责染色体 19。一张高分辨率、以质粒为基础的图谱已经通过限制性分析和 FISH制图构建起来,它含有~400

个 STS 和许多基因。这张图可从 Livermore 的网址得到,形式为一系列大型的图片。原始制图数据好象还不能在 Internet上得到。

人类染色体 22由两个中心负责。The University of Pennsylvania 的图片由200 多个排在 CEPH YAC 库上的 STS 组成(Bell et al., 1995)。在其网址上可以得到完整的一套数据,以及可供查询的搜索页。另外,the Sanger

Centre in Cambridge, England也积极参加了这条染色体的制图过程,为大规模测序作准备。在 Sanger 的网址上可以得到一张以 CEPH YAC为基础的STS 含量图。它能够以一系列 PostScript 图片形式或者 ACEDB 数据库所使用的一种格式(见本章后的列表)被下载。另外,Sanger正在用许多质粒 、fosmids、BAC 和 PAC 进行染色体克隆体图片的构建。此数据现在还不能从Internet上得到。

The Baylor College of Medicine 以 CEPH YAC 库为基础,正在制作一张染色体 X 的 STS 含量图。STS筛选数据可从一系列位于 Baylor 网址上的网页中搜索到。另外,Baylor还提供了一个界面,用于搜索由一些其它来源发表的STS筛选信息。

Page 399: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

最后,基于完整人类线粒体序列的图谱可从 the Department of Genetics

and Molecular Medicine,Emory University 处得到,它是MITOMAP 数据库的一部分(Kogelnik et al., 1996)。这个网址可以提供一系列点击式图形图片,显示线粒体的基因、变异和重组,以及完整的核酸序列。

鼠类图谱来源

现在对鼠类作物理图活动最多的地点是Whitehead Institute/MIT Center for

Genome Research,而且一张murine STS/YAC 含量图已经被构建起来了。这张图,最终将在 24000 个 YAC上含有 10000 个 STS。现在已完成四分之三在 1997年 5月时达到了 7500 个 STS。

MIT 的物理图谱可以在 Whitehead 的主页上在线浏览。先按下Mouse

Genetic and Physical Mapping Project(鼠类基因图和物理图制图项目)的链接,然后向下滚动到标有鼠类 STS 物理图谱的部分。这一部分与Whitehead 人类物理图谱有相同的搜索项和用户界面,但是放射性杂交图数据还不可得。

在 Whitehead 网址上还可以得到基于 6331 个简单相邻长度多态性的鼠类物理图谱,以及这张图与 Copeland/Jenkins限制性片断长度多态性图的整合。这些 RFLP 图,在 Dietrich et al.(1996)中所描述,分辨率为 1.1cM。分辨率更高的鼠类基因图正由 European Collaborative Interspecific Mouse

BackCros项目得到。该图最大的理论分辨率将会达 0.3cM,并且可以在ECJMBC 的主页上在线得到。到 1997年 5月已完成 5 条染色体。

Page 400: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

The Mouse Genome Database(MGD)是由Bar Harbor 的 Jackson

Laboratory 维持的一个大型鼠类基因信息的公用数据库。尽管它基本上还是一个基因图库,MGD还是保留了很多物理图谱信息,包括细胞遗传图谱和synteny 图,将来一旦得到数据就会加进去。MGD 可在 Jackson Laboratory

的主页上得到。按下标有Mouse Genome Informatics 的链接,然后是标有Mouse Genome Database 的链接,可得到用于不同研究的一个起始网页。在所列选项中包括目录检索、基因和标记物符号检索、以及多态性检索。

两个与制图数据的链接很令人感兴趣。一个是标有Maps 和 Mapping Data 的链接,可以打开一页,通往大量的鼠类基因图谱,也可以得到这张细胞遗传图。第二个链接,标有Mammalian Homology,提供与 MGD 的 Synteny 图的界面。这些图,基于已知基因的位置,可提供 2 个或多个哺乳类生物染色体的低分辨率比较。当选择这个链接后,就出现如图 12.10 所示的很长的一页。该页上有两个滚动列表:Primary Species 和 Comparison Species(后者在图12.10 中位于视野之外)。每个列表含有一系列哺乳类生物的名称。另外,有很多区域可供用户来限定搜索条件,通过染色体、细胞遗传学带、或是一些几乎不相关的其它数据库区域(如作者名)等等。

要用这个表,只用简单地选择两个待比较的生物的名称。为限定搜索次数,最好在被比较生物或是比较生物中选择一个染色体或是细胞遗传学带。按下Retrieve(取)。在一分多钟后,将会出现一列两种生物共有的基因的表和它们相对的图谱位置。在图 12.11 中所示的输出例中,比较搜索鼠类染色体 1 和人类染色体 2(第三列)就得到了很大的一个同源区域。

Page 401: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

第 12 章提到的有关话题的 Internet 来源

CEPH YAC图

http://www.cephb.fr/ceph-genethon-map.html

CHLC 图 http://www.chlc.org

ECIMBC主页

http://www.hgmp.mrc.ac.uk/MBx/MbxHomepage.html

Entrez主页

http://www.ncbi.nlm.nih.gov/Entrez/

Entrez全览页

http://www.ncbi.nlm.nih.gov/Entrez/nentrez.overview.html

GDB主页 http://gdbwww.gdb.org/

GDB 来源页

http://gdbwww.gdb.org/gdb/hgp_resources.html

Genethon FTP站点

ftp://ftp.genethon.fr/pub/Gmap/Nature-1995

Page 402: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

I.M.A.G.E. Consortium

http://www.bio.llnl.gov/bbrp/image/iresources.html

Jackson 实验室

http://www.jax.org/

NHGRI 来源页

http://www.nhgri.nih.gov/Data/

Science转录物图谱

http://www.ncbi.nlm.nih.gov/Science96/

Stanford主页

http://shgc.stanford.edu/

Stanford RH 协议

http://shgc.stanford.edu/Mapping/rh/procedure/

Whitehead主页

http://www.genome.wi.mit.edu/

Whitehead FTP站点

ftp://www.genome.wi.mit.edu/pub/human_STS_releases

C.elegans ACEDB http://probe.nalusda.gov:8300/other/

Page 403: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

E.coli University of Wisonsin

http://www.genetics.wisc.edu/

D.melanogaster

FlyBase http://flybase.indiana.edu:82/

S.cerevisiae SGD,Stanford

http://genome-www.stanford.edu/Saccharomyces

上一页 下一页 返回目录 返回茶庄 

第十三章 ACEDB 一个基因组信息的数据库ACEDB 的一般特点

背景

ACEDB(一种线虫C.elegans 数据库)是一种被广泛应用的管理和提供基因组数据的工具组。它是在 1991年由Richard Durbin 和 Jean Thierry-Mieg首先提供的,他们发展它来支持和整理 C.elegans领域中的大范围序列和物理图谱的工作。在本章结尾所列出的因特网资源和资料中可见 1 和 2 条。后续的程序由Durbin 和 Thierry-Mieg 编制和完善,还有许多其他人参与了代码的编制。这一时期,ACEDB适用于许多动物和植物的基因组计划[3]。软件对于“非基因组”信息的计划仍然有效,诸如,民族植物学的数据、基因命名法、具体的文献

Page 404: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

等[4,5]。准确估计基于 ACEDB 资源的出版物很困难,1997年春的保守估计[3]是 25-30 种。

ACEDB由于它的一些特性而流行起来。该软件是免费的,并且可运行在 Unix

和 Macintosh OS 系统下,Windows 版本马上就会推出。数据库以丰富的图形界面提供信息,包括有具体显示的基因图谱,物理图谱,新陈代谢的途径和序列等。界面依靠相关信息的超级文本连接,并可由鼠标方便的完成操作。数据用流行的对象的形式进行组织,使用大家熟悉的类别如,相关的文献,基因,描述,和克隆的 DNA等。也许最重要的是,ACEDB 能很容易的由于新信息而被重新设定.简单的图解语言和快速数据装载的周期使 ACEDB适合一个”废弃(throwaway)”数据库的建立,他可用于专用的数据分析,还可用于许多永久性数据的采集,而且使用者不需要经过专门的计算机和数据库的训练就可以使用ACEDB。对于资源有限的计划,这往往是决定使用 ACEDB 的关键因素。

本章主要把ACEDB 作为序列数据的管理工具来介绍,而不是当作一种提供数据的方法。这里并不是把ACEDB 的每一部分都专门的介绍,而是主要集中在:ACEDB 的早期的数据采集的作用,和主要面向内部使用者的注释的过程。现在使用 ACEDB 来管理序列数据和用于其他计划的有:剑桥大学的 Sanger(英国),华盛顿大学的基因组中心,克罗拉多大学(Colorado State University)

的 Aedes aegypti 基因组计划, Massachusetts General 医院的Arabidopsis 物理图谱计划,和 Walter 和 Eliza Hall研究院(WEHL)的疟疾基因组计划。

Page 405: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

读者肯定会对有感于管理和提供生物学数据的软件的高速的发展速度。ACEDB

本身是基于 Unix 系统开发的,并当作 X-window 的应用程序被首次展示出来的。现在,许多用户可通过万维网(World Wide Web)登陆到公共数据服务器上来使用它。将来,很可能由 Java 语言或其他网络语言编写的有人们更熟悉界面的 ACEDB将出现。但本章主要介绍X-window 版本(Xace 4,3)及与它相关的特性。

界面

以下简写代表鼠标操作。

LM:鼠标左键

MM:鼠标中键

RM:鼠标右键

一般的 ACEDB 用户通过浏览超文本连接的文件来交互的操作 ACEDB。这种浏览方式的界面如图 13.1。这是从Grain Gene(一个用于 Triticeae 的数据库)吸取来的包含有多个 ACEDB窗口的阻合窗口。这些窗口是一系列鼠标操作产生的,如用户定位两种不同的信息内容。ACEDB 的主窗口是位于图中左上的窗口,它在软件开始时就显示出来。其中列有数据类型用于查阅。点击Reference 类型(双击 LM)打开一个 KeySet窗口,其中列出了许多Reference 类型的成员,这些成员被称为对象。点击一个 reference 对象,如

Page 406: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

BCG-28-487,则打开了第三个窗口(右下窗口)显示文献的细节,如作者,题目等。点击任何粗体字都可打开相应的窗口。

图 13.1

图 13.1还包括一个遗传图谱(左下)。这是在 reference窗口下,点击 locus

下的 iBgl弹出的。这是众多的用图形形式描述数据的方式中的一种。图中的locus标记也是超文本连接的,可通过点击(LM)把它击活。文本窗口中遗传图谱下的数据是可视的,就象在 reference窗口中一样。在这种情况下,如果有适当的数据和图形,数据库管理员就把 locus标记设置成缺省值,使它显示遗传图谱。

关于 ACEDB还有一些在线的教育。这里特别推荐在 Sydney 的澳大利亚遗传信息中心的 Bruno Gaeta提供的一个[7]。Cornell 大学的 Dave.Matthecos正准备提供一个关于遗传图谱显示的教育内容[8]。后文还将更详细的介绍序列显示的特点。

数据模型

ACEDB 的核心部分是“数据模型”(或图形),这将决定数据库中的数据是如何组织的。各个模型可由简练的语言加以解释,这由数据库管理员来定义。各类数据可由如 sequence,gene,reference等类型来表示。各模型以如图13.2 的形式保存在名为models.wrm 的文本文件中,它存在数据库的 wspec

目录下。在文本框中,设定显示数据的模型有很强的灵活性,但在其它的

Page 407: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

ACEDB 的显示中[9],需要各模型中包括有预先定义好的结构。这一内容将在后文的“序列显示”中加以讨论。注意,更详细的模型介绍和 ACEDB 中模型的问题可见[10]。读者可查阅不同的数据库来了解模型的适用范围。//this shows partial models for the Sequence,

//Locus and Paper class

?Sequence DNA UNIQUE ?DNA UNIQUE Int

Structure Length UNIQUE Int

Properties Pseudogene

CDS

Genomic_canonical

Locus ?Locus XREF Sequence

Paper ?Paper

Remark Text

?Locus Sequence ?Sequence XREF Locus

Paper ?Paper

?paper Title Text

图 13.2 modles.wrm

为了展示一些模型的特点,我们先看为 sequence,locus,和 paper

information这三种信息的模型。这些例子并不能展示这种模型语言的全部功能但能展示一些重要的特点。

Page 408: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

模型有一个等级树的结构,就象概要图一样,数据开始于总括,然后沿许多支路进行处理,越分越细。从树的根开始,每一个支点都代表一类(阶层)数据的一个子分裂。每一支路开始于一个标示符,或就此终结或带有许多字段,这里可填入数据,Structure,CDS,和 Paper就是标示符的例子,Int,和?Paper

是字段。

从左上开始,向下处理。透过 Sequence 模型的例子(图 13.2),我们可以看出,这种模型可让DNA 序列的内容同一个 DNA 对象,它的长度,及序列性质的类型(这里的 Properities 分支分为三支)联系起来。还可知道序列的那一部分已被发布了,是否有一个位点与它对应,是否要对它进行什麽特别的说明。

这一类的第一个字段(?Sequence)被存为一个对象名的存储器。对象名要能被唯一识别,许多与序列相关的其他信息要通过对象名附加给对象的。其他类型的字段有:Text(接受自由格式的文本),Float(用于浮点型数据),Date(用于日期),Int(用于整型数据)。一种字段类型限制填入其中的数据类型。例如,一个长度型(length)中能填入 100,但不能填 one hundred。作为缺省,一个字段可复制本身来接受多重数据的输入。这通常是有用的,一个序列会涉及到多重的论文(Paper),位点(loci),评论(remarks)。但是UNIQUE限制一个字段对每一个对象只能有一种输入类型。在本例中,一个sequence 对象只能有一个长度,字段还有别的更复杂的限制,这里就不在涉及。

Page 409: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

通过使用字段,它们接受对象名,把信息在 ACEDB 内互连起来。“?”前缀识别这些字段。考虑 sequence 模型中的分支,它们把一个序列和一个出版物联系起来。Paper ?paper

当为一个特定的序列把数据输入到?Paper字段后,Sequence 对象和已命名的 Paper 对象就会建立起链接,该链接通过在用户界面中点击 Link 来操作。如图 13.1 所示。但是,这种链接是单向的。虽然浏览者在 Sequence 对象中能见可点击的粗体的 Paper字段,但相应的 Paper 对象却不能回联到 Sequence

中。不过,许多数据库管理员都愿向用户提供双向的链接。可通过使用XREF(cross-reference)来自动建立。一个 Sequence 模型中的 XREF 的例子是:Locus ?Locus XREF Sequence

一个 XREF字段有两个部分,XREF前面的部分是“目标类(class)”,这里是?Locus,这里它必须是 class-XREFs而不能是 Int,Text,Float,或DateType 类型。XREF后面的是“目标标识符(target tag)”,这个标识符说明在目标类中哪些字段可用于建立交互式的链接。为了运行 XREF,Locus 类必须支持这种链接,这意味着在?Locus字段中,一个支路必须包括Sequence 目标标识符和有确定 seqence 对象的字段。这支路是:Sequence ?Sequence

Page 410: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

为满足这个要求,当 Sequence 对象中的?Locus字段一填入数据,XREF就建立交互式的链接,对于数据库的管理员,这将大大简化双向链接的管理。更进一步的是建立全双向链接,使输入任何字段的数据都能建立双向链接,要作到这一点,我们应如下修改 Locus 模型:Sequence ?Sequence XREF Locus

可用标准形式//对模型进行注解,(当models.wrm 文件被读入时,一行中//

右侧的内容将被忽略)。注解在编写models.wrm 文件和数据文件时非常有用。

数据输入

数据是以模型做为模板输入到 ACEDB 中的。数据文件可通过 X-windows界面或直接通过数据库中的命令行把数据输入给数据库的[12]。这个命令行界面,这里虽然不介绍,但在从其他处理过程的自动收集数据操作中却很重要。还可在运行数据库时,直接建立个人的对象。选用什麽方法取决于数据库管理员参数的选择,数据量的多少和数据的性质。要把大量数据从文件中高效的输入,就很少会使用交互式的方法。当文件被调用时,直接使数据格式化,还有一个“段落”来描述这个对象(用空行来分开每一个段落),每段的第一行总是类名,接下来是对象名,所以字段通过先于它们的标识符立刻被识别。为加入 sequence

和 paper 对象,我们应如图 13.3 输入数据。

注意,我们不用填写每一个字段,标识符也不用同模型中显示的顺序一样。但是标识符-字段的组合必须符合模型,如果不符合,数据库就会认为是出错。所以,Genomic_Canonical 模型后不能跟有字段。那些在同一行中标识符后跟有其

Page 411: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

他信息的输入数据也是错误的。更细致的关于数据装载过程的讨论见[13],它包括有:大型数据文件的准备,数据的删除,及对象更名等内容。

查询和表格

ACEDB 用查询的语言来应用对象的性质和不同数据间的链接。有几个查询的界面:纯文本的形式(这里不涉及),一个“原始”的查询工具,用户在查询时直接输入命令;“query be exmple(范例式查询)”工具,它实现功能就象填表一样;“query builder(查询创建器)”,它帮助用户确切的建立复杂的查询。查询的响应是一系列符合具体标准的对象名(技术上如图 13.1 中的 KeySet),查询的语法是固定的,合法的查询必须和模型的结构兼容,因此Find Sequence ATHFOO1; Follow Locus

是一个合法的查询。如前所述,它对应于模型和数据,这个查询的回应将列出联系这一序列的位点,但是查询,Find Sequence AGE>10

虽然符合语法,但是错误的,因为 Sequence 类中没有Age标识符或相关的字段。如果,一定要这样查询,可由数据库管理员修改模型,添加相应的字段。

ACEDB 中还包括有 TableMaker,一个用于创建相关表格的工具。它的界面很复杂,但功能很强,它可让用户从内联的各类中引用和关联信息。相对于前述的查询,TableMaker 能显示和检索对象中的信息,而不只是列出对象名。关于查询和 TableMaker 的教学内容见[14-16]。

Page 412: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Sequence"ATHFOOI"

Length 3879

Remark " a very strange Arabidopsis thaliana DNA."

Locus "FOOI"

Genomic_canonical

Remark " a second remark"

Locus "FOOI"

Paper "smith_1997_aahmt"

图 13.3 ACEDB 的数据文件

使用性和安装

ACEDB 可从许多免费访问的 FTP站点获得。在标准发布中带有为Unix 系统的安装说明。还可为那些需要重新编辑的用户提供资源代码。关于 FTP 与平台的详细内容可从前面已提到的 FAQ 中找到[3]。本章的内容是关于版本 4.3 的ACEDB,也是写作本书时的流行版本。新的内容会定期的出版在 ACEDB 的新闻组中[17]。

ACEDB 中的序列分析

引论

Page 413: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

图形格式的显示可让用户在 ACEDB 中快速收集和分析遗传数据。虽然Map 和Clone Gird 显示,它们支持遗传图谱和物理图谱项目,并且可用图形显示来代表生物化学的途径,但我们的重点在序列分析。

序列的显示是一种特征图谱(Feature Map,Fmap),它链接有许多工具,其中包括Gene Finder[18];Blixem,一种 BLAST[19]多重比对观察器[20];DOTTER,一种点-图程序[21]。综合这些工具,为序列分析提供了丰富的图形环境。

虽然设计的一般性允许来自于主要模型系统,病原体,和人类的的序列用类似的方法进行分析,但 Fmap 最初是为支持线虫(C.elegans)基因组序列计划而开发的。

特征图谱

特征图谱是一种高度可配置的显示格式,图 13.4 显示了一张来自于Schizosaccharomyces pombe 的 rhp6 的已配置的显示样式。该图展现了这种显示形式的一般结构。顶部是按钮和文字,下面是若干列,这些列从左到右用红色数字记数,下面从左到右加以解释:

1. Locator: 绿色的框显示完整序列的蛋白质(黑色条)。移动操作通过:a)Zoom In,Zoom Out,和 Whole按钮;b)点击绿色框并滑动(LM);c)点击定位条中心的右侧(MM),点击定位条的左侧(LM)可滚动和放缩。

2. Sequence and ends: 全白色框和序列对象名(EM:250728),全白框表示几个

Page 414: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

sequence(序列)对象重叠群的交叠部分(本例中没有交叠)。 3. Summary: 黄框中其他颜色条强调某些特性。兰色条界定了“活性区”。 4. Scale: 用顶部的 Origin 文本输入框,重定记数从序列中的强制点开始。 5. Genes:“Genes”这里表示完整的和部分的转录序列[如mRNA 或编码序列(CDS:从转译起始密码子到终止密码子),它决定着外显子结构]。外显子(兰色轮廓框)和内涵子(线条联着外显子)被显示出。

6. Features: 暗红色框与除了能从 EMBL 特征表和 GeneBank 记录中找到的基因以外的特征相联系。

7. ATG: 小黄色框代表着每个阅读框中的潜在的甲硫氨酸转译起始密码子,通过配置GeneFinder表,可建造其他的密码子。

8. ORFs: 黑色水平线代表每个开放阅读框中的终止密码子。第二阅读框这里也被显示。

9. Gene Finder Coding Sequence: 灰色框表示高概率蛋白编码的区域。

10. Coding Frame: 兰色轮廓框表示阅读框,从中可得到每个外显子。

11. Pssearch: 青色框表示相对 PROSITE 数据库中一个基元的匹配。

12. BLASTX: 兰色框代表局部最大成对节段(maximal segment

pairs,MSPs)(在 BLAST 中称 HSPs,见第七章)。它来自蛋白质序列中的BLASTX 查找。

13. Gene Translation: 通过点击(RM)基因可动态转录和染色,这将击活一个菜单,选取选项 Show Translation 和 Color Exons。

14. BLASTN: 黄色框代表从核苷数据库的 BLASTN 查找中查出的 MSPs。

15. INTRON_HMM: 浅橘黄色框代表了一个内涵子预测程序的预测结果。

16. Gene Finder Splice Site: 向上指的点线代表剪接受体,下指点线是剪接供体。(染色的位点是在同一区段内),在基因预测时将用到绿色的特征(剪接位点,ATG 密码子,和中止密码子)。

Page 415: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

17. DNA Sequence: 核苷序列和其同等物。碱基(Base)1被设置为转译起始密码子 A(甲硫氨酸,ATG)。通过选择点击基因(RM)产生的菜单中的Color Exon选项,外显子高亮成黄色,剪接的密码子成紫色,终止密码子成红色。序列从 5’到 3’端,点击Rev-Comp按钮(LM)可显示相应的一列。Rev-

Comp菜单(RM)中有选项来单独反转和补充序列。

图 13.4

Sequence(序列)对象的显示主要通过点击Column按钮来配置,其中有很多触发器来打开或关闭各列。图 13.4 中并没有显示全部序列,显示那些列由数据库的设置来决定。一些列是通用的(ATG,ORFs,和 DNA),一些取决于GeneFinder 的安装(如GeneFinder Coding Segments 和 GeneFinder

Splice Site),其他取决于特定数据库的监护(curation)。管理员还能加入代表外部程序分析序列结果的列(如BLASTX,BLASTN,INTRON,HMM

等)。

选取一个特征可把相应的序列高亮成粉色,相应特征的信息显示在顶部的兰色拦中。图 13.4 中,CES 的最后一个外显子被选种。如果所选的特征是一个数据库的对象的话,双击可产生一个文本窗口,可浏览 Fmap 显示下的数据。

Efetch 和 Blixem

选择一个代表BLASTN 和 BLASTX 数据库查找结果的框,将击活一个带有两个选项 Efetch 和 Analyse in Blixem 的菜单。Efetch[22]是一个 ACEDB 的外部

Page 416: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

程序,当需要数据库(如BMBL 或 GeneBank)中的数据时,它开始检索,它还可以存储ACEDB 中是所有序列的记录。如果序列的数量很大,大量的同源物会影响该选项在分配ACEDB 数据库时是灵敏性。如果,主序列数据库已被使用那取回的(Fetching)记录也要去除用户系统中的多余数据。如果,序列数据库同其他程序同被索引,诸如 Sequence Retrieval System(见第五章)。用简单的脚本,Efetch就能被仿效,如同程序文献资料提到的那样。

菜单中的第二个选项可运行 Blixm[20],一个用来显示 BLAST 比对的程序。图13.5也是以部分的 S.pombe rhp6 基因为例,来说明从BLASTX 框中击活的BLIXEM窗口。在顶部,是以序列 MSPs 的识别率的百分比来显示序列位置的,用若干平行的线条来代表MSPs,用高亮的框来限制比对的区域,这些可被详细的显示在下面的扩展显示区中,来说明序列中 MSPs 比对的具体情况。在缺省情况下,片段显示出全同区(暗蓝),保守的替代区(明蓝),差别区(无染色)。从图形或扩展区中选取(LM)一个 MSPs,可高亮所选序列中所有其他的 MSPs。这一功能可帮助判断匹配的性质,因为沿基因的 MSPs 分配可很容易的被估计出。这种匹配可放到任何一个数据库记录中的功能信息的环境中进行检测;双击(LM)扩展显示区中的一个序列可检索序列的记录。Bliexm窗可被设置成显示 Fmap 序列的双链,高亮片段中的差别区,合并同一序列中的MSPs 到同一行上,修改颜色或显示低复杂度区域的图形。

DOTTER(点标器)

Page 417: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

通过 BLIXEM窗口可进入到点标器 DOTTER(右键点击背景),点标器是一个点绘图程序,用来比较两个序列的细节。点标器和 BLIXEM都可单独使用[20,21]。图 13.6 展示了 S.pombe假想蛋白质 C8A4.02C 的自比较,其中带有一个基因组序列的三读框转译因子,并包括相应的位点,SPA C8A4.02C。蛋白质序列沿 y轴绘制,转译的基因组序列和代表这个单独外显子基因的框沿x轴。最长的对角线是一个很好的自匹配,而其他的以最长对角线对称分布的对角线表示了六种不太完美的 36氨基酸重复单位。移动十字准线(LM,鼠标左键和按键)超过一条对角线则在另一窗口中显示相应的队列。

为能绘图,点标器的算法首先计算一个二维矩阵,它存储了所有成对比较的残基的分值,就是说,每一水平序列的残基与每一竖直序列的残基相对应。为提高绘图的信噪比,一个窗口(缺省 25 个残基)沿对角线步进,新的分值是窗口内的所有点的平均值。矩阵中每一点的值在 0至 255 之间(每一点一个字节)。每一项都有一与之分值成比例的灰色亮点。Greyramp工具(见图 13.6)给出两个域值,其可由鼠标来设置。数值低于最小值显示成白色,高于最大值的显示成黑色,数值只有在两域值之间的显示成灰色。这一工具可让点绘图的域值动态变化,这有助于探测相关的对角线。

从ACEDB调用的点标器 DOTTER即可对比 BLIXEM 中的 DNA 序列,又可比较BLIXEM 中的蛋白质序列,或是进行自比较(DNA/DNA)。各选择也可用来对比 BLAST HSPs,或相对于全部比较加亮HSPs。这些后面的选择用来探测那些 BLAST 可能忽视的非常弱的相似体,例子参见相关文献[21]的图 2。GeneFinder

Page 418: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

GeneFinder[18]是ACEDB 系统中的一个应用程序。单独使用还是ACEDB 的版本中基本上都使用相同的算法(关于这个问题见第十章)。这里我们着重讨论ACEDB 中的 GeneFinder 的图形界面。

GeneFinder只有依靠一系列明确且有机结合的配置文件才能正常的运行。这些文件储存在数据库的 wpf 目录下。带有独立版本GeneFinder 的一些应用程序可用来建立各种表格。GeneFinder 分配中就提供这些制作表格的指令。

Fmap 中的 GeneFinder按钮可击活(RM)一个菜单,选择GeneFinder

Features选项将在 Fmap 中标记出剪接位点、可能的编码区、转译的起始密码子。这些特性是根据 wpf 目录下的表格计算得出的,并且每一特性都分配一个分值。点选Autofind One Gene 可在 Fmap 中标出一个预测的基因,命名为temp_gene。创建基因的位点标为绿色的高亮区。

AutoFind One Gene 一经被选种,GeneFinder 的算法就产生一系列的待选外显子。这些外显子有三种:引导外显子,它们开始于转译起始密码子,结束于剪接供体或终止密码子;中部外显子,它们开始于剪接受体,结束于剪接供体;尾部外显子,它们开始于剪接受体,结束于终止密码子。注意GeneFinder 不能预测基因的 3’或 5’的非转译区域;本文中的预测“基因”就是指编码部分。外显子的分值是通过综合单个有限位点及可能被其包围的编码段的分值得出的。内涵子是根据长度来赋值的。外显子和内涵子最高分值的有效结合的区域既是预测的基因。

Page 419: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

要查看基因的分值,先点种该基因,然后选Gene->Selected选项。这使基因的各特性高亮成绿色。选 Show Selected 则显示一个关于各分值的表格。(见表格 13.1 的例示)

参数的变化可调整基因的预测。菜单选项 Parameter 显示了两组变量 。Assembly变量,它们与从外显子和内涵子中组建基因有关;GeneFinder变量,它们决定着组建外显子的起始点和各特性的范围。这些参数列于表 13.2 中

这些参数可被存储成 Method(方法)项目,可让数据库的管理员设定一套最佳的参数,这可通过修改一组已知结构的调试基因的参数,直到预测的最大值与调试组相一致为止。在调试过程中,检测分值的表格有助于决定众多序列中那些更有可能是预测的基因,并有助于参数的修改。不过实际过程中,GeneFinder 的预计序列也会与 Fmap 列中的有矛盾。Fmap提供一种机制来修改那些有明显不当之处的预测基因。选取(RM)GeneFinder 的一种特性(如,转译的起始编码,结合位点,或结束编码)可击活带选项的菜单来选定、取消一个特性。用这些选项,可使一基因被完全确定,或使基因包括或排除某一具体的特性。设定活动区是另一种机制来排除特定区域(以外,中?)的所有GeneFinder 特性;那些排除区域在 Summary Bar(见图 13.4)上标记成兰色。作为最后的措施,预测基因可被手动修改,是通过在文本框中显示temp_gene项目并在从下拉菜单中选取(RM)Update。在这种情况下,建议设定 Origin(见图 13.4),以确定一个基本的转译起始编码。编辑后,有必要从下拉菜单(RM 点击 Fmap 的白色背景)中选取 Recalculate 来刷新显示。可选GeneFinder菜单中的选项来在数据库中把预测基因存储成

Page 420: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Sequence(序列)项目。但是,无论保存还是编辑项目都要写入(write access

to)到数据库中。

表格 13.1 S.pombe rhp6 的 Genefinder 分值

表格 13.2 Genefinder 参数

Importing Sequence 和 Magic Tags

Fmap 中显示的 Import Sequence选项(RM 背景活动窗口)可用来向Fmap 输入序列而不用直接写入到数据库中。但,要分析序列基本上还是需要写入到数据库中,且输入的序列是作为一个 ace 文件,如下例所示。Sequence "MysortSeq"

DNA "MyShortSeq"

Dna "MyShortSeq"

cacacacaccacacccacaccacaccacaccacacccacacccacacacaccacacccac

acaccacacccacaccaactctctctcatctacctttactcgcgctgtcacaccttaccc

ggctttctgaccgaaattaaaaaaaatgaaaatgaaatcctgttctttagccctacaaca

这个文件创建一个 Sequence(序列)对象和一个 DNA 对象。选择Sequence(序列)对象MyShirSeq 会在 Fmap 中既显示 Sequence(序列)对象和又显示 DNA 对象。虽然,这是一种非常不引人注意的操作,但非常重要的是要注意到数据库总会知道要创建一个 Sequence(序列)对象,并且核酸序列必需和 Sequence(序列)对象一道显示。如果序列对象MyShirSeq 以文本格式显示,则格式如下:

Page 421: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

MyShortSeq

DNA MyShortSeq 180

序列的长度被计算出,并被自动插入到对象中跟在 DNA标识符后的整型字段(Int field)里。这里的 DNA是指“Magic Tag”。这些特殊的识别标记被写入到数据库引擎中,主要用来显示目的。一种 Magic Tag 含义是数据库的开发者和序列分析者需要知道哪些标识被用来产生 ACEDB 显示元素的。Magic Tag

怎样被使用的说明见[9]。

程序使用于把GeneBank 和 EMBL 记录改变为 ace 格式[23]。如果是公共的,这些程序大大降低了输入序列的工作量。从GeneBank-到-ace 的语法分析程序产生的一个 ace 文件显示于图 13.7。这个例子表明了 ACEDB 中序列建模的一些表现形式。核酸序列与转录子(如CDS 和 mRNA)与序列对象GB:ATABIIG

相链接。虽然,转录子本身应是 Sequence(序列)对象,但它们被作为GB:ATABIIG 的子序列的模型。这序列/子序列的建模可通过在另一sequence(序列)对象中确定两序列的交叠部分来建造序列的重叠群。这一假想的例子加入到两列有 81 个重叠单元的序列。Sequence "LINK_MySeqs"

Subsequence "MyShortSeq" 1 180

Subsequence "MyShortSeq" 100 20000

BLAST 分析和 MSPcrunch

Page 422: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Fmap, BLAST,和 DOTTER都能显示 BLAST 系列程序的结果(见 7 章)。使用 ACEDB 的方案,将运行如下的典型的数据库搜索,来获取最大同源物的信息(X 代表有序的有机体)。

BLASTX 对所有蛋白序列的核苷转译因子的查询。

BLASTN 对 x有机体中的 ESTs 的核苷查询。

TBLASTX 对非 x有机体中的 ESTs 的核苷转译因子的查询。

BLASTN 对除 ESTs 以外的所有核苷序列的核苷查询。

实际的数据库搜索依靠一系列的因素(见第二章中讨论的公共的序列数据库) 。BLAST 搜索的结果是通过 BLAST 的事后处理程序 MSPcrunch被筛选的 。MSPcrunch有很多有用的功能:

1. 偏离成分的区域被BLAST勿赋予高分值,MSPcrunch适当的降低这些分值。

2. 类似大蛋白质类型和有高频率出现的氨基酸的区域会产生很多 MSPs,MSPcrunch可消除这些拥挤区域多余的 MSPs。

3. MSPcrunch 从相同的 数 据 库 序 列 中 检 测 接近的 MSPs ,这检 测 保留低 分值的MSPs,它们与一个带缺口的列相一致。

4. MSPcrunch 分析 BLAST 的输出,并产生 ace 文件。

运行 1-3 使 BLAST 非常灵敏,但是,如果要求一个数据库中的所有MSPs 查询,MSPcrunch 可被用作带有w开关的 ace 文件生成器。

Page 423: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

在公共区域的全序列的 BLAST 内部查询,需要对计算资源有大量的投入,因序列数据库的规模;需要长的时间来查找;还需要维持日易增大的数据库。不过,少量的序列可通过网页提供的 BLAST 服务来得到分析。BLAST 的输出可被 E-

MAIL 引用,且MSPcrunch 可用作产生 ace 文件。

图 13.7 GeneBank-到-ace 的语法分析程序的输出

加入结果列

在序列的分析中,非常必要的是从众多的查找和预测程序中确认结果。任何可确认核苷序列区域的结果都可被输入到 ACEDB 中,并可显示为是 Fmap 文件上的一个有染色框的列。

当 Fmap 的序列对象被显示时,为各个单独的涉及 Sequence(序列)对象的“Method(方法)”绘制一个结果列。Methods(方法)是决定一结果列怎样被显示和怎样被Blixem 处理的对象。这里有一个 BLASTN 方法对象的例子:

Method BLASTN

Colour LIGHTBLUE

Score_by_width Score_bounds 100 400

Right_priority 5.2

Blastn

Blixem N

Mothed(方法)对象用一个 Magic Tag(标签)变量,如在其他地方[9]描述的。

Page 424: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

涉及方法的序列模型的部分如下:Homol DNA Homol ?Sequence XREF DNA_homol ?Method Float Int UNIQUE Int Int UNIQUE int

Pop Homol ?Protein XREF DNA_homol ?Method Float Int UNIQUE Int Int UNIQUE int

Motif Homol ?Motif XREF DNA_homol ?Method Float Int UNIQUE Int Int UNIQUE int

Feature Method Int Int UNIQUE Float UNIQUE Text

Homol是用来定位数据的 Magic Tag(标签),目的是绘制数据库查询查出的结果列。方法顾及到 DNA、蛋白质、和基元(如 PROSITE 基元,见 13.4 图,11

列)等诸方面的同源物。

这里有一个从BLAST 查询中查出的由MSPcrunch产生的 ace 文件的例子。Sequence MyShortSeq

DNA_homol Z47047 BLASTN 900 1 180 1 180

DNA_homol 行定义一个 BLAST MSP:用 BLAST 方法,MyShortSeq 的碱基1-180 的和分值为 900 的 Z47047碱基 1-180 相似。

来自于预测程序的结果(它们不会导致来自另一序列的同等物,例如,图 13.4

中 Hidden Markov Model 内涵子预测,15 列)在“Feature”Magic Tag(标记)下被储存。一个 ace 文件的例子如下:Sequence MyShortSeq

Feature INTRON_HMM 100 120 10.12

多种(混合)分析功能

Page 425: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

点选Analysis按钮可击活(LM) DNA Analysis (DNA 分析)窗口,该窗口提供众多的有用的功能,这些功能可应用于 DNA窗口和对象的 KeySet(窗口),这里介绍一些常用的功能。

查找基元和人造凝胶

基元可通过在 DNA 分析窗口的文本框中进入查找队列和选择DNA(为查找核苷序列)或 AA(为查找转译核苷序列)在序列中定位。按 ENTER键开始查找。在 KeySet上查找,转到新的包含有基元的序列的 KeySet,用于 DNA窗口中的查找把 Fmap上的基元变为彩色。在两种情况中,查找的结果都加载到 DNA

分析窗口中。

基元查找队列可包括核苷碱基的多义密码子。在线帮助文件“DNA and amino

acid nomenclature”列有DNA 和氨基酸的多义密码子。基元可被存储成Motif 对象的类型,而后,按名写入到地址。这是一个 ace 文件的例子。Motif "Branch"

Match_sequence yTrAy

Remark "Splice branch site consensus"

Remark "Y is pYrimidine, R is puRine"

DNA

Motif "HaeI"

March_sequence "wGGCCw"

Offset 3

Cleavage "wGG'CCw"

Page 426: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Overhang 0

Remark "unpublished observations"

DNA

注意Match_sequence是一个 Motif 模型的 Magic Tag(标记),一旦文件被加载,两个基元都可被查到,通过同时使用查询:Branch:Hael

还有可能产生一个基元的 KeySet,同时查找每一个相匹配的序列,通过触发Motif KeySet按钮,并可在文本框中没有输入的情况下开始查找。

用 Max MisMatch按钮指定一些允许的不匹配量可实施模糊查找。

从分析菜单中可运行(RM)琼脂糖凝胶模拟器。基元被用来切断的序列,一个凝胶的图象也被显示出来。这功能有一名为Agarose-gel 的在线帮助页。

其它支持序列和软件

Dump sequence: 用户可以用 FASTA 格式转存 Fmap Active

Zone(Fmap活动区)序列或是所有 KeySet(窗口)中的序列。

BLAST Submission: 执行 blast_mail 文本,传递参数__________________

____和核苷序列。

Fastamail Submission: 执行 fastamail_mail 文本,传递参数_________

_____________和核苷序列。

Page 427: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Splice Consensus:从 3’到 5’的剪接位点计算权重基元。结果显示在 DNA

分析窗口中(DNA Analysis)。

Codon Usage: 估计 KeySet 中的所有序列中密码子的用途。

Sequence Lengths: 产生一个 KeySet 中的序列长度的直方图,并在Analysis窗口中报告全序列长度。

Data Export: Fmap下拉菜单(RM 白色背景上)提供一系列数据输出工具,它们编写一个关于特性(包括:外显子,剪接位点,等),序列和 CDS转译因子(FASTA 格式化的)文件。输出位置相应于活动区(Active Zone)。

EMBL Dump: 用能提供给 EMBL 数据库的格式把序列和特性写入文件。

Acembly:虽然本章着重于序列分析。ACEDB也为原始序列数据提供管理 。Acembly是一个基于 ACEDB 的程序,它可显示和分析从ABI 测序仪中读取的序列。它是由Uirich Savauge, Danielle, 和 Jean Thierry-Mieg开发的。软件是为显示和解释来自于测序梯中的痕量数据和通过排列单个的测序梯来收集重叠群而设计的。多种编辑功能允许用户去识别有问题的区域,建立和改变基本调用,注释数据等等。Acembly 软件包(Unix 系统)是和 ACEDB 一道分配的,有相似的界面,Axembly 中的数据可很容易的移动到其它的 ACEDB 数据库中。

上一页 下一页 返回目录 返回茶庄 

Page 428: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

第十四章 提交 DNA 序列到数据库序言:

要在分子生物学领域进行计算分析,从公共数据库(DDBJ/EMBL/GenBank)中获得DNA 序列记录是其必需条件。借助于和一个已了解其生物学功能而被分离出来并测序的基因比较相似性的方法,我们可以尝试确定某疾病基因的功能,这种方法要求序列记录有精确并且富于信息的生物学注解。对于将其作为BLAST 或 Entrez 的检索结果来研究的科学家来说,编码的蛋白质产物的名称或功能、基因座位的名称以及和该序列最初的公布之间的联系(它因何被测序?)构成了序列记录的直接的确切涵义。

本章的内容是提交DNA 序列及其注解到公共数据库,重点介绍了与国际核苷酸序列协作数据库:DDBJ、EMBL 和 GenBank 密切相关的核苷酸序列数据库。我们描述了提交序列到这些数据库的两种不同的方法,一种方法基于互联网,(例如,使用 Bankit),另一种方法使用 Sequin,这是一个多平台程序,若同时具有网络连接有很大益处,不过这不是必需的。Sequin也是一种很好的利用了 NCBI 数据模型(参见第六章)的 ASN.1 编辑工具,而且在不久的将来会成为许多采用 NCBI 的序列分析工具的平台,因此,Sequin是可供选择的升级工具。

大多数期刊不再刊登完整的序列数据,并且现在公开发表文章时向公共数据库提交序列数据已成为一条准则。基因组测序时期(ESTs 和基因组序列的数量以

Page 429: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

很快的速度增加的时期,在历史上以 1992年底 EST 计划的开始为标志)已经通过很多方式影响了科学界。例如,许多科学家公布他们发现的序列先于发表对其进行的详细分析,这个习惯已成为大型基因研究中心的规定,尽管一些个别的实验室仍然直到文章发表后才公开他们的数据,还有一些人认为公开他们的记录与否取决于自己的愿望。

像第二章概述的那样,到目前为止,数据库内容的增长是指数性的。大多数早期的序列记录是由对于某个基因感兴趣的单个的科学家提交的,适合这种情况的提交程序必须允许手工进行生物学信息的任意注解。然而最近这些数据库不得不接受新类型的数据,而且提交速度要有实质性的提高。在 EST 测序开始不久,为了接受这些记录必需一种单独的提交协议,这种要求变得很明显,通过该协议每天接受的记录将达到上千个,峰值时期更将达到每周 100,000 个提交量。幸运的是,这些记录相当简单,而且在内容上是一致的,因此适合于自动处理。这种大批量提交协议将在下文讨论。提交过程也是国际活动的一部分,值得注意的是,向三个国际性协作数据库中的任一个提交的记录(参见第二章图 2.1)几天后都将在另两个数据库中出现,然后这些序列记录将被许多研究组和研究中心传送到世界范围,其中有些研究者再格式化这些记录以适合他们的数据库和他们的程序使用(例如,GCG,参见第四章),因此仅仅提交序列数据到这三个数据库之一,研究者们能够避免给这三个地方的数据库维护人员带来任何可能的重复工作,而且也能避免发布多余的记录。同样的,大多数期刊都希望在一篇文章中提出的所有核苷酸序列,将被由国际性的协作数据库之一提供的加入号码所验证,而且这对该文章来说具有核心的意义。(参见第 2 章和 第 6 章)。

Page 430: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

提交到哪儿?过去研究者将数据提交到哪一个特定的数据库依赖于他们想要发表文章的期刊,虽然现在一些期刊仍然不合适的指出一个偏爱的数据库,但这不再是正确的了,研究者应该提交到最方便的数据库。这可能是地理上最近的数据库(例如,如果需要一次电话会谈的话);也可能是经常提交的数据库;或者可能仅是因为在那里提交可能得到最多的注意。这三个数据库都有知识丰富的人员来帮助提交者完成整个提交过程。在通常的情况下,一个工作日内将会反馈回来一个加入号码而记录的完成将需要 5&#0;10天的时间,其实际长短将依赖于那个工作周的繁忙程度和提交的序列的状态。

目前,假设所有的序列记录提交都通过电子方式:例如通过互联网,通过电子邮件,或者(最起码)通过常规方式邮寄一张计算机磁盘。供电子方式提交的URLs 和 E_mail地址列于本章末尾, 这两种提交方式取代了早期使用的授权软件的方法,该方法现在已经过时了。不过通过授权软件来提交仍然可被接受(在本文出版时),但是使用授权软件的提交者应该注意其局限性和可以选择更好的方法。

提交什么内容?这三个数据库都需要同样的最终结果:充分注解的、具生物学意义的、便于计算的良好记录,该记录允许其他科学家利用提交该记录的生物学家已获得的工作成果,并且提供了与蛋白质、参考文献和基因组数据库(参见第 5 章)的联系。这些数据库是所有通过实验获得的序列的宝库,因此最新测序的 mRNA 或基因

Page 431: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

区域的序列可以提交到某个数据库,其工作人员将协助提交者提供足够的信息以使该序列对其他研究者有使用价值。一套丰富的生物特征和其他注解是可得到的,但其中重要的部分无疑是那些可用于分析的内容。这些部分包括核苷酸和蛋白质序列:CDS(编码序列,又称编码区)、基因、mRNA 特征(如:表现分子生物学中心法则的特征);序列得以确定的生物;以及关于参考文献的引用,这些引用将此序列连接到有关的信息领域并将给出证明该序列存在的实验细节。DNA/RNA

提交的过程相当简单,但必须小心谨慎,才能提供准确(无错误和无载体污染)和生物学上尽量良好的信息,以保证其得到科学界的最充分利用。无论提交形式如何,在开始提交以前,都要解决以下几个问题。

序列的性质

该序列来源于基因组还是mRNA?数据库的用户想知道被测序的 DNA 分子的来源。例如:尽管 cDNA是在 DNA(不是RNA)上进行测序的,在细胞中的分子表现型却是mRNA。同样对于 rRNA 基因的基因组测序而言,测序的分子几乎全都是DNA 分子。将 rRNA 复制成 DNA,就象直接对 rRNA 测序一样,尽管是可能的,但很少这样做。记住:既然被提交的基因必须有独特的分子类型,它就不会表现出(例如)一种基因组和 mRNA 分子的混合类型,否则实际上不会从一个活细胞中提取出来。

序列是合成的,但不是人造的吗?

Page 432: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

合成分子在核苷酸数据库中有一个特殊的分类,在此环境中,序列被按照实验排列,而这在自然环境中是不会出现的(如:蛋白质表达的载体序列)。DNA

数据库不接受计算机产生的序列(如:同源序列),在数据库中的所有序列都是从有问题的实际分子序列中通过实验获得的,但是它们可以被汇聚成测序训练猎枪。

序列有多精确?

在数据库文献中很少提到这个问题,但假设被提交的序列尽可能精确,这通常意味着整个提交序列至少包括两相覆盖域(相反方向)。证实最终提交的序列也同样重要,它必须无载体的污染(这可以用在载体数据库中 BLASTN 查寻证实:参见其后的第 7 章),可以以已知的限制图谱检验,消除序列重组的可能性,或确认正确的序列集合。

生物体

给每条记录分配正确的生物是至关重要的,尽管在大多数情况下这是很容易做到的。所有的 DNA 序列记录必须有一个生物分配给它们,从数据库中的记录出现在系统发生树上的位置可以得到许多推论。如果它们被错误的安置了,可能会翻译错误的遗传密码,并产生被错误截取的蛋白质产物序列。已经知道的基因和物种的种类足可以使数据库成员识别生物和其谱系。NCBI提供了一个重要的分类服务,分类学家维护能用于所有核苷酸数据库和 Swiss-Prot 蛋白质数据库的分类法。

Page 433: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

引用

注解即使再好,也永远比不上一篇充分阐述生物学的已发表文章,因此,有必要保证正确链接研究出版物和它将引用的原始数据。基于此理由, 提交中准备好引用是很重要的,即使其中只有作者的临时列表和工作标题。在出版时更新这些引用对于记录的价值也很重要。(这由数据库成员惯例的执行,而且如果提交者在发表文章以前通知数据库成员,将执行得更快)。

编码序列

核苷酸序列的提交也意味着包括其编码的蛋白质序列,这是因为:

1. 蛋白质数据库(如:Swiss-Prot 和 PIR)几乎完全由在 DNA 序列数据库中记录的蛋白质序列所组成。

2. 在提交过程中包括蛋白质序列如果不是必需的话, 也是重要和有效一步。

蛋白质包括执行我们研究的许多生物反应的酶分子,其序列数据是提交中的固有部分,它们的重要性(在第 6 章中概述)也在提交过程中体现出来,在各种数据库中其信息作为代表性必须被捕获。如果已知的话, 蛋白质产物和基因的名称也很重要,有各种各样的资源(许多在总结这些章节的列表中有描述)为给定的生物提供准确的命名系统。(参见“基因命名指导,基因趋势”,1995,Elsevier。)

Page 434: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

编码序列特征,或 CDS,是DNA 或 RNA 和蛋白质序列的联系,随同正确的翻译表一起, 在有效性中其正确定位占据了中心位置。核苷酸数据库现在用了 13

种不同遗传密码(参见章末的列表),这些遗传密码由NCBI 中的分类学和分子生物工作人员维护。由于蛋白质序列是如此重要,它们是生物学家可以计算的主要分子生物信息资源之一,它们理所当然地得到各种数据库成员的重视。在mRNA 中正确地找到开放的读框架通常是很简单的(参见第 10 章), 并且有多种工具可供利用 [ 如:NCBI 的 ORF 查找器(见章末列表)],而且在 Sequin 中是作为一个函数(如下);从一个较高级的真核生物获得正确的 CDS间隔就不那么容易了:必须连接不同的外显子序列,这涉及许多方法,在第 10 章中有介绍(如果给定蛋白质序列和正确的遗传密码的话, Sequin 中的推荐间隔函数可以计算 CDS间隔)。在提交中包括什么内容将由数据库工作人员来决定, 更恰当地说, 这受到所使用的提交工具的限制, 如通过互联网或 Sequin。有效性检查包含 CDS间隔中的起始和终止密码子,该间隔具有合法的外显子/内含子一致边界,用合适的遗传密码可将提供的氨基酸序列从指定的 CDS 中转换出来。

其他特征

在提交序列记录的特征部分还有许多其它特征,并且其中许多特征将扩充记录内容。在特征表文件中描述了完整的特征集,该文件可以 WWW 方式取得或通过匿名 FTP获得 PostScript 文件。尽管有许多特征可供利用,但在数据库中却有许多不一致的用法,主要原因是缺乏一致的原则和生物学家们对它们究竟意味着什么看法很不相同。正确地获得生物、书目、基因、CDS、mRNA通常就足以

Page 435: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

并且有助于证实序列,使生物学家通过几行文字就能获得生物学的内容。只要应用恰当,一个特征表文件是可以利用的,但要注意文件注解的意图。

种群、系统发生、变异的研究

现在核苷酸数据库可接受种群、系统发生、变异的研究作为提交的序列集,尽管在简单文件记录中并没有充分描述该信息,但它却在各种各样的数据库中出现。新型的提交方式允许:若仅因为操作的原因,一起提交一组相关序列,那么获得共享信息入口只需要一次请求。Sequin也允许用户包含有用自己中意的比对工具生成的序列比对结果,并随着DNA 序列提交该信息。尽管所有的数据库都知道该信息对于目前获得的大量记录很重要,但是NCBI是唯一接受该信息的数据库。显示该信息的新方法(如:Entrez)应尽快能使一般科学团体更易获得这种数据。

仅提交蛋白质序列

在大多数情况下,蛋白质序列和 DNA 序列并存,但也有些例外&#0;人们直接处理蛋白质序列&#0;这些序列必须在没有相应的 DNA 序列的情况下提交。对于这些提交而言,目前 SWISS-PROT是最好的地方,EBI 处理这些提交,并将其传送到 SWISS-PROT。

如何提交到互联网Authorin 利用率的下降使这三个数据库决定在互联网上采用基于表格的方式,这个新的媒介能很好的适应提交过程。三个数据库都设计了一种表格,以使

Page 436: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

DNA 序列提交到自身的数据库中:DDBJ 的 Sakura(樱花开)、EBI 的 WebIn、和 GenBank 的 BankIt。互联网是简单提交序列的理想提交途径(如图14.1),也是那些不需要复杂注解和过多重复的提交序列的最佳选择(如:在种群研究中,很典型的有 30 条类似的序列,用 Sequin提交最好)。互联网对于那些只做少量提交和要求较少、只需要简单的学习或不需要的研究小组最为理想。对于大多数提交来说,互联网的表格方式将是合适和足够的:60%&#0;80%的提交者通过互联网向NCBI提交其DNA 或 RNA 序列。这三个数据库提交的入口地址(或 URLs)在本章末有介绍。

尽管本章的这部分强调NCBI 的 BankIt提交工具,实际上,提交到基本数据库中的任何一个都将使序列获得合理的处理,并存储到另外两个数据库中。

进入 BankIt提交后(图 14.2),用户被询问要提交的核苷酸序列长度。这是由于 WWW 浏览器的局限性,使得在一个给定的窗口不可能输入 29,000 个核苷酸(字符)。如果必须提交 40,000 条碱基对(人们提交的粘性质粒的通常大小),BankIt将打开两个窗口,故通过每个窗口复制和输入 20,000 个字符,这样就解决了这个矛盾。 图 14.1:决定采用哪种协议提交DNA 序列到某一 DNA 序列数据库的流程图 。WWW是BankIt,WebIn,或 Sakura。其URLs 和电子邮件地址,请参见本章末的列表。 

Page 437: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

图 14.2

  

图 14.2:BankIt, GenBank互联网的提交网页。新提交序列的进入点(输入序列长度,并按New按钮)或更新GenBank 数据库中的一条记录。

BankIt 的下一张表格也是明了的(图 14.3),它询问联系人(即回答数据库工作人员询问的人),引用(谁得到了科学荣誉),生物(前 100 个在列表中,其余的必须输入),位置(细胞还是细胞器),一些图谱信息和核苷酸序列本身。在列表末,有个 BankIt按钮,能激活下一张列表。按下这个按钮后,首先验证一些项的有效性,如果一些基本的区域没填,该表将再次出现。若全部合格下一张表将查问会加入多少特征并提示用户指出其类型。如果没填任何特征,(图 14.4),BankIt将发出警告,以证实提交序列中没有加入一个 CDS。用户可以回答没有(0 个新CDS)或选择加入一个或更多的 CDS。此时,结构化RNA 信息或其它合法的 DDBJ/EMBL/GenBank 特征也会被加入。  

图 14.3

图 1 4.3:BankIt,GenBank 的互联网提交页面:标明提交联系人。 

图 14.4

Page 438: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

 图 14.4:BankIt,GenBank 的互联网提交网页:BankIt要求获得特征的数目, 以产生一个具有合适数目的特征表。

要保存记录,再次按BankIt,出现的新页面(图 14.5)必须在提交完成前得到确认,也就是说,在此之前,可做更多的改变或加入其他特征。再次单击BankIt 结束。接着出现最后的页面: (图 14.6)切换Update/Finished按钮,最后按BankIt按钮,提交将进入 NCBI 进行处理。刚完成的提交序列复本必须立即通过电子邮件送达,否则,有必要联系数据库以证实提交已被接受,并做出任何必要的修改。 

图 14.5

 图 14.5:BankIt,GenBank 的互联网提交网页:倒数第二个屏幕:这是一个增加或改变一些特征的互锁按钮,显示如所指示的完成入口。

  

图 14.6

 图 14.6:BankIt,GenBank 的互联网提交网页:最后一个屏幕:显示BankIt 的提交表格已成功完成。

Page 439: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

 如何用 Sequin 提交Sequin是设计用来协助科学家准备新序列,更新序列数据的一个程序,利用它将序列数据提交到 DDBJ,EMBL 和 GenBank 数据库。这是一个能在绝大多数计算机平台上运行的软件,而且适用于各种序列长度和复杂情况,包括传统的(基因大小)核苷酸序列,分段的记录(如:剪接的基因组,不是所有的内含子序列都已被确定),有许多注解特征的长序列(基因组大小),和各种相关序列(如:对于一个特殊基因、域或滤过性病毒基因的种群、系统发生、变异的研究),许多这样的提交能通过互联网执行,但 Sequin 在复杂的情况下更实用。而且特定类型的提交(如:分段类)不能通过 Web 来完成,除非给数据库工作人员加以明确的指导。

Sequin 也接受以提交的核苷酸酸序列编码的蛋白质序列,允许在这些蛋白质上进行特征的注解(如:信号肽、跨膜区或二硫键)。这与大多数科学家在提交DNA 序列时的普遍观点形成鲜明的对比。这里的新概念是蛋白质是直接注解的,而不是编码生成之的 DNA 的副产物。对于各种相关或是相近的序列(如:种群或系统发生的研究),Sequin从提交者处获得关于多个序列是如何比对的信息,最终它可以用来编辑和重新提交已存在于 GenBank 中的记录,不论是延长(或取代)已有的序列,还是注解附加的特征或比对(见下描述)。

进入一个新的提交过程

Page 440: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Sequin有许多性质大大简化了创建和注解一条记录的过程。最神奇的一方面是在只给定核苷酸酸序列,蛋白质产物序列和遗传密码(从生物的名称中自动获得)的情况下,自动计算 CDS 特征间隔。这所谓的“建议间隔”过程在计算中考虑了一致的剪接位点。传统上这些间隔是手工输入的,这是一个既耗时又易错的过程,尤其是对于一个在可变剪接或分段时有许多外显子的基因序列。

Sequin 的另一种重要的贡献在于能在序列数据库文件的定义行上以一种简单的格式输入相关注解。在读序列时,Sequin 识别和提取这一信息,并将其放置在记录中合适的位置。对于核苷酸序列,可以输入生物体的科学名称、品系或克隆名称和几个其它的修饰基因。对于蛋白质序列,可以输入基因和蛋白质名称。(如果在定义行上没有这些信息,Sequin 在执行前就会提示用户此信息。定义行的注解是非常方便的,因为信息和序列是在一起的因此以后不容易被遗忘或混淆。)除了组建合适的 CDS 特征以外,Sequin将自动利用该信息生成基因和蛋白质特征。

由于大多数提交序列包含了一个单独的核苷酸序列和一个或多个编码区域特征(及相关的蛋白质序列),前面概述的功能将频繁地影响一条没有进一步注解时就被提交的记录。由于正确地记录了基因和蛋白质名称,从而使得该记录为其他科学家提供有用信息,他们可能通过一个 BLAST 的相似性比对或从 Entrez

查找中获得该信息。

有效性

Page 441: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

为保证提交数据的质量,Sequin 使用一个内建的有效器来查询。例如:丢失的生物体信息,错误的编码区长度(相对于被提交的蛋白质序列),编码区内部的终止密码子,不匹配的氨基酸或不一致的剪接位点。在错误报告中双击其中一项,在“冲突”特征项中就会出现一个编辑框。

有效器也检查“局部”指示器的使用是否一致,尤其是在编码区、蛋白质产物和产物的蛋白质特征中的使用。(除非作了相反的设置,否则CDS就会自动的同步这些分散的局部指示器,将使纠正这类不一致问题变得很方便。)

观察序列记录

Sequin 对同一条记录提供了许多不同的视图。传统的简单文件可以出现在FASTA,GenBank 或 EMBL 形式中。(它们可以在用户计算机中以文件的方式输出,然后输入其它的序列分析包中。)图像视图显示了序列的特征间隔,这对于观察可变剪接的编码区尤其有意义。(图像视图的风格可以定制,这些视图可以被复制到个人计算机的剪贴板中,粘贴到文字处理器或视图程序中,用于准备出版物的手稿。)有一个视图可以更详细地显示实际序列的特征,对于包含比对的记录(如:由一个用户输入的相关序列或通过 PowerBLAST 中查找的比对结果,参见第 7 章),用户可以请求一个全图像视图以显示添加、删除和不匹配的情况,或细节视图显示序列字母比对。

上述提及的观察者是主动的,单击一个特征、序列或序列比对图片,将会高亮度显示该处。双击会出现一个合适的编辑框,以便多个观察者使用同一条记录,而能够看到不同的形式。例如:可以很方便的使图像视图和 GenBank(或

Page 442: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

EMBL)的简单文件视图同时显示,尤其是对于包含多个 CDS 的较大记录。图像视图可比做科学家实验室的记事本图片,为特征注解的准确性提供一个快速实用的检查手段。

先进的注解和编辑功能

Sequin 中的序列编辑器能在编辑序列时自动调节特征间隔,这对于想在已提交的序列记录中加入一段 5’端的序列尤为重要。在 Sequin 出现之前,这需要手工添加,并纠正序列中所有生物特征间隔。这样很有可能从草稿开始重做全部提交过程。序列编辑器很象文本编辑器,可在光标所在出处插入或输入一个新的序列。

在提交序列中的一个大类包含了多样的相关序列(如:种群、系统发生和变异的研究),如果用户提交了这些序列是如何自身比对的信息,这些记录将会更有指导意义。这种比对可随序列数据(如:以 PHYLIP、NEXUS 或 FASTA+GAP

形式)输入或在输入序列以后用 Sequin 计算。参见附录 II 中的各种形式的实例

对于这些记录,Sequin允许给一条序列添加注解,而且该注解可以被复制到其它的序列中。(若为CDS 特征,特征间隔可通过读蛋白质产物序列自动进行计算,而不必全部输入。)为了实现这一方法,选用特征传播的方法(从比对编辑器中),被选中的特征将传播到剩余序列中去,并用比对信息调整特征间隔。这和在每条序列上手工注解特征产生的效果相同。但用特征传播的方法仅需几分钟就能完成全过程,而手工则需几小时。

Page 443: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

特征传播和序列编辑器组合起来为更新一个已经存在的序列提供了简单而且自动的方法。更新序列的功能允许用户输入重叠或替代的序列。Sequin设计了比对,在有必要时合并序列,将特征传播到新序列的新位置,以取代旧序列和旧特征。

Sequin做为分析平台

Sequin也提供了许多种序列分析的功能,例如:有一个功能可以反补于序列和特征间隔,也很容易加入新的功能。这些功能在一个称为NCBI桌面的窗口中出现,直接显示调入内存的当前记录的内部结构。该窗口可以被理解为一个有描述器的 Venn 图表(参见下述和第 6 章),此描述器能在一组系统中(如:种群研究)应用于各种序列。在桌面上,用户可以读出 PowerBLAST 的分析结果再拖动之将其在一条序列记录上释放,从而向记录中加入比对数据,修改的结果将很快显示在观察者面前。注意:并非所有的注解都能被任何一个观察者看见简单文件视图有其局限性,例如:它不显示比对。

NCBI 数据模型支持大量的序列集,Sequin允许为了显示或注解的目的在这些序列集中进行完全的漫游,例如:Nuc-Prot 类包含一条核苷酸序列和它的蛋白质产物,核苷酸序列可自身分解。在这种情况下,Seg 类包含了片段序列和一个 Parts 类,Parts 类顺序包含每一个片段的原始数据。种群、系统发生和变异可包含多种相关序列或 Nuc-Prot 类。NCBI桌面是浏览记录内部结构的最快的方法。

数据模型的重要性

Page 444: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Sequin是一种 ASN.1 编辑器。用 ASN.1 数据描述语言写成的 NCBI 数据模型,可用来使相关信息在描述器或特征项中保持在一起(参见第 6 章),特征项是典型的生物概念(如:基因,编码区,RNAs,蛋白质),这些概念通常在一条序列中有一个位置(一个或多个间隔)。描述器可用于传送应用于多个序列的信息,这样避免了重复输入同一条信息的多个拷贝。

例如:BioSource 描述器包含了一个生物体的科学名称,常用名称,分类学上的链接,GenBank 分类,和修饰器(如:品系、克隆、染色体、图谱位置)。将此信息收集在一起记录在数据详细说明书中,将便于用户输入和修改。将单个的BioSource 描述器应用于 Nuc-prot 集将满足证实者的愿望: 在每条序列, 包括蛋白质序列上都有生物来源信息, 这同时也是数据库的规定。

在 GenBank 简单文件视图上双击一段,或在图形视图中双击一个特征,将激活一个编辑器用于修改该项的永久性的信息。在某些情况下,特别是在BioSource 或出版物中,这些项可能是描述器或者是特征,并且在简单文件中将其区分开来是困难的。(在 NCBI桌面上可以很容易地区分描述器和特征。并且只有特征和序列在总结、图表、比对、和序列视图中出现。

对于偶然的使用者来说,数据模型导致习惯可能并不明显(请看GenBank 或EMBL 的视图文件),但确实能够简化生物信息的输入。例如:在 GenBank 简单文件的头部出现的文献能够包含一个评价的子部分,在这里可以输入解释关于引用的生物学结论,和那些关于序列记录的信息。在报告中文本通常和引用在一起,相反将解释性的信息放置在大的注解段中,并用编号指向引用的文章

Page 445: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

(如“〖5〗”)是一种冒险性的做法,因为这些编号可能会发生变化,(例如由于新的文献的引用),将导致编号和文献不相符。

类似地,对于特征的引用(例如确定在编码区中核糖体的滑动)内在地引用了文献,而不是文献编号,即使在简单文件中显示了一个数字。这是另一个惯例允许文献编号改变而不“破坏”引用的完整性。并且这意味着只有一个完整的引用复本,这将使更新文献中的任何信息变得更容易。

然而,应该保守地使用对于序列记录的文字上的引用,一个序列记录并不是一门学科的回顾,使用 Entrez 中的链接和近邻是一种更加可靠的收集信息的方法和使用序列数据库作出最初发现的方法。

在最简单的情况下,单个的核苷酸序列有一个或多个蛋白质产物。Sequin允许用户不了解数据模型的结构层次而使用它。CDS 特征编辑器用来输入蛋白质序列(或将其从已输入的地方翻译出来),并且输入或修改特征(提供了蛋白质的名称)。用户可以获得(单个的)蛋白质特征而不必在整个蛋白质序列中“漫游”。并且CDS 编辑器也用基因名建立了分离的序列特征。

如果预期有关于蛋白质产物序列的大量的注解,那么漫游是必需的,至少作为对于数据模型的一种粗略的了解,许多蛋白质有半胱氨酸的双硫键。结合区,活性区,糖基化区,信号肽,或跨膜区。关于这些部分的注解对将其作为BLAST

或 Entrez 检索结果的生物学家很有意义,对于给定序列设置目标控制使观察者转向显示该序列的图形平面或文字报告。使用注解子菜单建立的任何特征或描述器将和当前的目标序列组织在一起。

Page 446: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

虽然 Sequin 确实提供了在一个结构记录中所有的序列间进行完全的漫游的功能,但是最初的序列数据建立原始的结构最好由 Sequin 的“创建新提交”功能来完成。Sequin 在前面的步骤中提取信息,(例如生物体和资源编辑器,基因和蛋白质名称)并且知道怎样正确的将每个信息填充在合适的位置。这也就是Sequin 的主要设计目标之一。手工注解需要对于数据模型更详尽的了解,和对于具有使用 Sequin 复杂功能的专业技能。

完成的提交可以存储到磁盘(File->Prepare Submission)和发送电子邮件到某一数据库,在 Sequin期间经常存盘是一个好习惯,可以避免无意中的数据丢失。

提交单个的序列

最简单的交包含一个单个的没有中断的核苷酸序列和一个或多个蛋白质产物序列。这些序列典型地来自于传统的基于基因的生物学研究,并且这样的提交在大多数情况下可以通过互联网(请看上例 BankIt)或 Sequin 来完成,Sequin提供了许多已经确认的好处和对于各种网络连接的独立性。

Sequin开始时出现一个窗口,提示用户开始一个新的提交或者打开一个包含记录的文件(图 14.7)。在最初的提交建立以后,记录可以保存下来存为文件和在最终传送到数据库之前进行编辑,如果 Sequin被配置为网络敏感,该窗口将允许下载已存在的将要更新的数据记录。 

Page 447: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

图 14.7

 图 14.7 Sequin 的初始窗口,提供了开始一个提交的几个选择,为了由原始序列文件和其它信息的最小集生成一个提交,选择开始新的提交(Start New

Submission),一旦初始记录建立起来,就可以存成一个文件。若要读已存的文件或任何其它存成文件的 ASN.1 记录,选择读已存在的记录(Read

Existing Record),若 Sequin配置为网络连接,将会显示按钮Download

from Entrez,该按钮用来下载记录用于更新。

通过完成几个表格可以建立一个新的提交(图 14.8-14.15)。这些表格使用文件夹标签来将窗口划分为几页,这样允许输入所有必需数据而不必一个大的计算机屏幕,这些表格项有前一页和后一页的按钮,当用户到达一个表格的最后一页时,下一页按钮变成了下一个表格按钮。

开始一个新的提交过程,第一步是请求一个暂时性的标题(图 14.8):然后询问联系人、序列作者和他们的学术联系的信息(图 14.9)。对于所有的提交来说,这个表格是一致的,联系人、序列作者、和他们的学术联系页通过按输出菜单按钮可以存储下来,在开始其它提交时可通过选择输入菜单按钮读入该文件。然而因为种群、系统发生和变异研究是作为一个记录一次引入的,存储提交表格页面就不太必要了。 

图 14.8

Page 448: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

 图 14.8 提交页用来从手稿中为 Sequin 输入一个暂时的标题;即使该文章没有写,或者试图发表,对于提交的描述也是必要的。该页也允许提交者要求直到文章发表再公布序列或指测序列公布的日期。

 图 14.9

 图 14.9 Sequin 的联系人页面记录了回答数据库工作人员查询的负责人的姓名和联系信息(通常是执行提交的人,但不必是真正测序的人)。Sfx 域要求名字后缀(例如:Jr.,III),而不是敬语或学位(如 Ph.D,M.D.)。当记录公布时该信息并不公开,而是保存在数据库中。

序列格式表格(图 14.12)询问提交的类型(单个的序列,如例子中所用;片段序列或种群、系统发生、变异研究)。对于最后三种类型的提交,包括相关序列的比对研究,输入数据的形式也能被指示。缺省是 FASTA 格式(或原始序列),不过 PHYLIP,NEXUS,PAUP 和 FASTA+GAP 格式也是支持的。后几种格式包含比对信息,这些存储在序列记录中。 

图 14.10

 

Page 449: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

图 14.10 Sequin 作者页命名了描述测序的手稿作者。(例如从测序中获得荣誉的人),本页是一个电子表格,可以容纳需要的作者名。按 TAB按钮可以水平地从一个域移动到下一个域。要移动到下一行的第一个名字列,从 Sfx 列内按TAB按钮。如果在最后一行中键入了任何东西,新的一行将附加到表格的后面。(在视觉上立刻感到滚动条的变化),在一行中的任何位置按下回车按钮将在当前行下增加新的一行。Sequin将忽略任何姓一栏空着的行。 

图 14.11

 图 14.11 Sequin 的联系页,用于与手稿原始作者的制度上的联系,当数据库工作人员处理记录时,该信息将出现在引用其自身的参考书目中。在本页中下一页(Next Page)换名为下一表格(Next Form);当按下该按钮时,Sequin自动检查表格内容,如果用户遗漏了任何基本信息的话,将给出提示。如果输入的信息符合要求,Sequin将出现下一个表格。 

图`14.12

 图 14.12 Sequin 的序列格式表格,允许用户指定提交记录的类型和原始序列数据的类型。大数提交是单个的序列(核苷酸)(也可能有一条或几条蛋白质产物序列)。另一类提交是片段序列。例如,在一些基因组序列中,外显子已测序

Page 450: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

但是内含子并未完全测序。通过分割该记录,我们可以注解编码区和 mRNA 特征。系统发生、种群研究和变异研究涉及不止一条相关序列的提交,它们由Sequin 包装为合适的集合。批量提交是用于那些并不具有相似性的序列集的提交,这样作只是基于方便的理由。单个的序列数据和分段的序列数据必须是FASTA 格式。种群、系统发生和变异研究也可以使用包含比对的格式。这些比对是关于提交者对于序列之间关系的断言。目前 Sequin支持 FASTA+GAP,PHYLIP,交叉存取 NEXUS 和近邻的 NEXUS 多种格式。

生物体和序列表(图 14.13-14.15)要求生物学数据。在生物体页面上(图14.13,随着用户键入生物体的科学名,经常使用的生物体名列表自动翻卷,Sequin 保存了 GenBank 中存在的最多的 800 种生物体。)因此在键入几个字母后,用户可以通过在列表中单击合适的项来补全生物体名称的其余部分。现在Sequin知道了科学名称,一般名称,GenBank 分类,分类学联系和其中最重要的,使用的遗传密码,(对于线粒体基因,有一个控制指示应该使用哪个遗传密码)对于列表中没有的生物体,需要手工设置遗传密码控制。Sequin缺省使用标准密码。 

图 14.13

 图 14.13 序列的生物体页面,询问测序的生物体的科学名。对于通常用到的800 种生物体来说,还有普通名,完全的分类,GenBank 分类和存储的遗传

Page 451: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

密码。对于表中没有的生物体,用户必须输入正确的遗传密码,序列弹出位置允许用户指示线粒体编码在这种情况下,在翻译中使用了特定生物体的可选遗传密码。在系统发生研究中,包括了不同的生物体,生物体选择列表被隐藏起来,单个的生物体名希望在数据文件中编码。并且在缺省情况下,在生物体列表中不出现遗传密码控制。

在核苷酸页(图 14.14),激活 Import Nucleotide FASTA按钮将读取序列。给基因组 DNA 或 mRNA[cDNA]设置合适的分子控制,对 3’和 5’端的检查框同样也应予以适当的设置。序列可以有一条 FASTA 定义行。这条线作为序列的先导,并以一个左尖括号开始(>);一个“局部标识符”可能被定义为尖括号后的第一个字符。如果你是这样做的,在引入该序列前检查“以序列 ID开头的 FASTA 定义行”框。在加入数字由序列数据库工作人员发放以前,局部 ID

代替了其位置。如果需要的话,样本定义行如下:>TK [org=Musculus] [strain=BALB/c] thymidine kinase gene

在读完核苷酸文件后,将有一个总结报告给出序列的长度,局部 ID,任何生物体名,品系,或其它修饰成分,这些是从定义行上解析(抽取)出来的,以及剩余的标题(图 14.14)。总结同样给出了任何不在核苷酸字母表中的无效字母。例如,偶然引入了一个氨基酸序列,将有许多字母不在字母表中,结果报告将指出这个错误。在这种情况下,从编辑菜单下选择Clear(清除),然后引入正确的序列。

Page 452: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

片段的核苷酸序列可通过连接同一文件中的单个片段来输入。在这种情况下,在每个序列上方的定义行上向 Sequin指出有多个片段。每一个片段必须有唯一的一个局部 ID号(如:通过对该片段编码的外显子号使其变得唯一)。 

图 14.14

 图 14.14 序列的核苷酸页,该页是核苷酸序列文件和分子类型(例如基因组DNA,基因组 RNA,mRNA, tRNA)说明书的入口,即使排列的分子实际上组成了 cDNA也使用了 mRNA。按下输入核酸 FASTA(Import Nucleotide

FASTA)按钮引出用户计算机上的阅读对话框。当记录在分立的文件中时,这种情况出现在分段序列和多条序列的研究中,必须多次按该按钮。然而,将所有序列放置在单个的文件中将更为合适。如果检测出任何无效字母,将有一个警告信息,同时出现一份关于序列文件是如何被中断的报告。

蛋白质页面(图 14.15)允许输入蛋白质序列,比起手工加入 CDS 特征(和相关基因及蛋白质特征)而输入该序列,让 Sequin 组建记录要容易得多。这对于片段序列来说尤其如此,若合适的话也须设置 的局部标记。蛋白质页面有个控键,可以提示局部的 ID号是否在定义行上,它也允许基因和蛋白质的名称被编码,如:>TKp [gene=TK] [prot=thymidine kinase] thymidine kinase protein

Page 453: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

局部 ID号 TKp必须不同于所有其余的 ID号,在这个例子中是 TK,它是核苷酸序列的局部 ID号。

蛋白质页面也有一个检验框,以产生与将要生成的 CDS具有相同间隔的mRNA 特征,用户随后双击mRNA 的结果,通过 mRNA 编辑器延长该特征项5’和 3’的间隔。(Sequin 编辑器被设计来保证重复的基因特征也被延长,使用户不必分别延长其范围。)多蛋白质序列(如:可变剪接的产物)的进入可锁定在同一个文件中。由于有核苷酸序列,每条蛋白质序列上的定义行提示 Sequin

有多条序列。

读入蛋白质也会产生一个报告(图 14.15),它给出序列长度,解析的局部 ID

号,解析定义行的基因和蛋白质,剩余标题。报告也指出蛋白质列表中不存在的非法特征,同样选择编辑菜单中的清除按钮修正该页面。 

图 14.15

 图 14.15 Sequin 的蛋白质页,允许蛋白质产物序列的输入。其输入按钮的表现和核酸页的按钮相同。作为表格中的最后一页,它有一个下一表格(Next

Form)的按钮。按下之后将提示用户在表格中任何被忽视的基本信息。表格完成后,Sequin将开始处理序列数据。如果再蛋白质序列 FASTA 定义行上基因和蛋白质名未被注解,Sequin将提出一个表格来输入这些名字。然后 Sequin

将基于已提供的数据开始建立一个初始的记录。

Page 454: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

此时,按下Next Form按钮将会使 Sequin把进入的数据组建成一条提交记录,对于每条蛋白质,建议间隔按照核苷酸序列来选取(用已经输入的遗传密码,它通常是从被选择的生物体来推断出)。编码区特征是由间隔的结果产生的,这也是一个最初的 mRNA 特征。基因特征是由一个横跨所有间隔的间隔产生的,这样生成了蛋白质序列,并由蛋白质特征给出它的名称,生物体(BioSource

描述器)被放在记录中,同样有文献的描述器。(最后两个被归入 Nuc-Prot 类这样它们在能应用于该类中所有的核苷酸序列和蛋白质序列),在所有的序列中加入合适的分子信息描述。

这样产生了一个阅读器表格,它能显示记录的 GenBank 简单文件表格(图14.16)。这个阅读器有各种菜单项,能将记录保存到文件中,使记录有效,以及加入新的特征和描述器。可能最后剩下的一步是双击mRNA,出现一个编辑框,点击”Location folder tab”, 用位置电子数据表扩展 5’和 3’端,更新记录中所有的阅读器。图象视图(图 14.17)可以进行 CDS 和 mRNA间隔的图象比较,确定在这些域中基因特征是一个单独的间隔区。序列视图(图14.18)显示了特征范围和 CDS 特征在实际序列中的翻译。选择准备提交按钮,运行有效器,保存文件,并显示提交到 GenBank, EMBL 或 DDBL 的电子邮件地址(在打开的窗口中选择一个地址)。 

图 14.16

 

Page 455: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

图 14.16 在 GenBank 格式中缺省的序列记录观察器。在这个例子中,已按下了序列的 CDS 特征,如该段旁边的条所示。在段落上双击将开启特征、描述器或选测序列的编辑器。该观察器可被复制。并且同一个记录可以不同格式在多个观察器中打开。 

图 14.17

 图 14.17 Sequin 的图表格式显示了片段序列结果和特征间隔。这可以和实验室记录本相比较,大概看一下,特征是否注解在正确的位置上。可以使用不同的风格,和建立了新的风格来定制图形窗口的外观表现。图片可以拷贝到个人计算机的剪贴板,以备引入字处理软件和画图程序中去。 

图 14.18

 图 14.18 序列视图显示了 Sequin 的序列编辑器。它显示了在序列上的特征间隔。 提交一个比对的序列集

Page 456: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

一个逐渐增长的提交项包括相关的序列类:种群、系统发生或变异。许多的 HIV

序列是用来作为种群研究的,通常系统发生的研究包括RUBISCO(1,5 二磷酸核酮糖羧化酶),它是光合作用的主要酶,也许是地球上最普遍的蛋白质(重量方面)。提交这样一套序列并不比提交单个序列复杂多少,输入作者和联系人的信息具有相同的表格。

在序列格式表格中,选择所要提交的类型。种群研究一般来自于同种(交叉繁殖)物种的不同个体,系统发生是来自于不同的物种。对于前一种情况,最好下定义行加上品系、克隆、隔离或其余的一些种类识别的信息;对于后一种情况,要用生物体的科学名称。复杂序列的研究可以用 FASTA 形式,在这种情况下,Sequin后来应该用于计算一个比对。更好的方法是在 PHYLIP,NEXUS 或FASTA+GAP 形式中对数据编码以表示比对信息。在序列格式表格中也可选择这些数据形式。

生物体和序列表格在序列种类上有一点不同,生物体页面上对于系统发生的研究设置默认的遗传密码,仅用于生物体,不能用于 Sequin 中种群的局部列表。核酸页只在引入按钮的名称上有所不同,这反映了选用的实际格式(例如“引入 FASTA”或“引入 PHYLIP”)。

现在代替蛋白质页的是一个注解页(图 14.19)。许多提交是属于 rRNA 序列或只是一条完整的 CDS。(这意味着特征间隔跨越了每条序列的整个范围。)注解页允许建立和为以上这些命名。指定一个定义行(标题),并且 Sequin 可将单个的生物体名置于标题前缀。在更加复杂的情况下,序列在整个横跨区中有不止

Page 457: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

一个单独的区间特征,可以在序列建立且其中的一条已作了注解后,通过特征拷贝来完成注解,这将在下文详述。

按下一张表(Next Form)出现编辑器,允许在每条序列上编辑所有的生物体和修改器。直到确认修改,Sequin将记录组织成正确的结构。

当查看器出现时,目标控制被设置为该集的第一个元素。设置目标为所有序列(ALL SEQUENCES)将产生一个所有序列的简单文件视图。然而图形视图在同一时间只能显示一条序列上的特征。并且序列视图将在单独的碱基水平上比较序列。 

图 14.19

 图 14.19 对于种群、系统发生或变异研究,注解页替代了蛋白质页,最一般的提交是一条 CDS 或多个来源的 rRNA。当所有的 CDS 或间隔扩展到这个序列时Sequin 可以自动生成这些特征的注解。输入对于 CDS 特征或 RNA 名或 rRNA

特征的蛋白质产物的名称,基因符号,关于每个 CDS 或 rRNA 特征的注解,以及每条序列的标题。在每条记录标题的前面可以加上生物体的名称。这将为每条记录制作正确的定义行。

通过特征传播进行注解

Page 458: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

假定提交几种乙醇脱氢酶基因组区域,同时传送一个比对,表明了提交者对于它们之间的关系的判断。序列包括 5’和 3’未翻译的区域以及乙醇脱氢酶外显子和内含子。假设由第一个核苷酸编码的蛋白质序列也是可获得的,下面使用特征传播来注解研究中的所有序列。

首先,定位第一条序列。然后从编码区和注解菜单的副本子菜单选择CdRgn。进入产物子页(在编码区页中);并且输入蛋白序列文件(在文件菜单中引入蛋白质 FASTA)。如果在定义行上蛋白质和基因名没有被注解,那么在蛋白质子页和属性子页的一般页中分别输入其注解。引入序列自动运行建议间隔,因此现在位置页在第一个核苷酸上应该有三个间隔,并且BioSource 应该已设置了那个核苷酸上的遗传密码。按下接受(Accept)完成特征的添加。

定位所有的序列(ALL SEQUENCES),从编辑菜单选择编辑比对打开比对编辑器,并从特征菜单选择传播。在第一个框中选择CDS 特征。最后,按下传播按钮(要看记录结构的变化过程,在这几步中将NCBI桌面打开。)

使用 Sequin 作为工作台

NCBI桌面(图 14.20)允许在一个记录中拖放项目。在一个记录中点击向上的箭头将扩展显示的细节的层次。如果你从一个记录拖动其某个特征到桌面,它将被从记录中除掉。但它保留在桌面上。它也可拖回记录中去,并可能到另一个不同的地方。(特征可以被拖到 bioseqs,Bioseqs 集,或存在的特征表,然而这并不改变特征位置。对于描述器来说却有所不同,改变打包的层次将改变描述

Page 459: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

器应用的范围。并且在桌面上的一个独立的 Seq-loc 能被拖动到特征上,在此情况下,它确实改变了特征的位置。) 

图 14.20

 图 14.20 NCBI桌面用图形的方式显示了基于 NCBI 数据模型,记录在内存里的结构。这对于生物学家来说用处不大,但对于软件开发人员和数据库序列注解者甚为有用。在本例中,提交包括了一个单独的 Nuc-prot 集,该集顺序包括了一个核苷酸链和两条蛋白质链。每条序列都有特征联系在一起。BioSource 和关于 Nuc-prot 的出版描述对于所有的序列都提供了同样的生物体(Drsophia

melanogaster)和同样的文献。

其它ASN.1 的数据可以从桌面的打开菜单读取。下面的子菜单包括ASN.1 文本格式、ASN.1 二进制格式和 FASTA 格式的核苷酸和蛋白质序列。这些在桌面上将以分离的实体的形式出现。但是它们应用于拖放方式或使用桌面上的过滤功能进行分析很合适。例如,从 PowerBLAST 进行的 Seq-align 输出可被读进来并拖放到一个序列记录上去。(当 Sequin配置为网络连接时,PowerBlast 可以在 Sequin 内部运行。参见如下)。就象观察者想到的一样,其将成为记录的一部分。因此任何可以输出 ASN.1 格式的程序&#0;&#0;例如从一个基因查找程序得到的基因特征&#0;&#0;能够用 Sequin读取其结果并由用户将其添加到序列中去,并且分析程序不需要理解数据模型或如何包装其结果。

Page 460: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

一个复杂记录的爆炸视图,描述了在桌面上将会看到的内容,如图 14.21 所示。在这个例子中,系统发生的研究包括五个部分,每部分是一个 Nuc-prot 集。在Phy 集中有两个描述器(建立日期和文献)它们应用于所有的部分,第一个Nuc-pot 集是“放大”显示更多的细节:它包含了核苷酸和蛋白质 biosoqs,还有一个 BioSource 描述器在这二者上都有应用。(系统发生的其它部分将有不同生物体的 BioSources)

两种 bioseqs都是“原始”类型,意味者实际的序列数据在 bioseq 中编码(“片段的”bioseqs 包含了指向实际原始片段的序列指示符。这就是 Entrez

基因组部分建立的方法;参见第 6 章),核苷酸 bioseq有一个 Molleo 描述器,说明测序的分子是基因组分子[和 mRNA(cDNA,)或 tRNA,rRNA 相反]。蛋白质 bioseq 的 Mollnfo是一个肽段,并且是作者提供的概念性的翻译[与通过Edman降解法或其它方法直接测序不同]。

在桌面视图上的特征显示了一个文本标签和关于特征位置和可选产物的信息。例如,CDS 特征位置指向核苷酸 bioseq上的间隔。其产物指向了整个蛋白质 。bioseq.文本标签(“乙醇脱氢酶”)实际上来自于蛋白质 bioseq上的蛋白质特征。(GenBank上的简单文件视图作同一类型的映射,CDS将蛋白质特征的名字作为它的产物的限定词,以及蛋白质 bioseq 的序列数据为其翻译限定词。)

想要熟悉NCBI 数据模型的人将会发现用 NCBI桌面观察不同类型的记录是了解 bioseqs 的好方法,也是发现包装多种多样的描述器的层次的好途径,还能

Page 461: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

知道其层次的工作方式。但是对于高级用户来说,很快可以发现数据中没有什么神秘的东西。 

图 14.21

 图 14.21 系统发生的桌面视图。在这个复合的图表里,一个系统发生发生包括几个 Nuc-prot 集并且给所有的部件应用了同样的文献,Nuc-prot 中的一个更详细地扩展开来。其中包括了一个果蝇黑素的 BioSource,这是一个包括了基因、mRNA/和 CDS 特征的核苷酸序列和一个蛋白质序列,带有一个蛋白质特征说明了该蛋白质产物的名称。

具有网络连接的 Sequin

当配置为网络连接时,Sequin 包括 PowerBLAST, 网络 Entrez,可实现MEDL/PubMed 查找的能力,以及分类学查找的功能。从查找菜单选择PowerBLAST,将出现一个对话框,提供选择运行 BLASTN 或具有核苷酸比对的 BLASTX;另外,还可以选择搜索 nr 数据库或几个子数据库,包括 est 和载体,其结果自动添加到序列记录中,并将在摘要、图表、比对和序列视图中出现

在这些视图之一的比对上双击将从 Entrez 网络服务中获取相关的序列记录,在结果观察窗的底部是近邻和链接控制。因此若一个用户对某疾病基因进行了测序并在 Sequin 内运行 PowerBLAST,他将立即看到数据库“选中”,而且只需一

Page 462: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

步就可以得到讨论该生物学问题的 MEDLINE 文献,同时还有该记录的邻近记录,然后将其发送到 Entrez 查询窗口(通过 Refine按钮),在那里,例如可通过选择或排除某分类目录来缩小查询范围。

为了配置网络应用,从Misu菜单选择网络配置(Net Configure)。如果使用了防火墙的话选中“只有往外去的链接”检查框。通常来说,除非网络有暂时性的问题,“在配置过程中测试链接”检查框应被选中。

在本书编写的过程中,在 Sequin 中加入了无数的扩充。紧跟最新发展的最好方法是(例如:新版本的 Sequin;排除了 bug)访问 Sequin 的主页和注册为Sequin 的用户。Sequin 的主页同样包括了最新更新的信息和完全的文档以及常见问题列表。

EST/STS/GSS

表达的序列标签(ESTs)是一些短的 RNA 序列,它们是克隆mRNA 序列鉴定计划的结果(更广泛的定义参见词汇表)。虽然这些序列代表了大量的现存的核苷酸数据库的内容,但从数据库的观点来看,ESTs只包含了提交过程的一小部分投资。只有这个过程的自动化使处理 ESTs 成为可能。因为 EST 文件的提交格式简单,使其很便于快速处理,而且可以达到每天数千个提交进入数据库的量级。ESTs通常大量生成,并且代表了在 GenBank 版本 102 中的超过三分之二的记录。仅仅因为其数目巨大,许多核苷酸数据库被迫为其提交和该形式记录的处理设计了新的系统。幸运的是这些记录的结构相当简单,而且除了序列本身以外,在提交过程中只有几种重要的数据类型需要合并进来,包括关于图书馆的

Page 463: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

信息(包括BioSource),以及引用信息。另外,为了提交可能知道的关于某个特定的 EST 的图谱信息,数据库为图谱组发展了一种简单的方法。该信息的简单结构使其非常符合关系型数据库模型,由其可以调出简单的数据项进而由其生成各种报告,在最简单的情况下提交者只需提交一个文献信息文件,一个联系信息文件和一个库信息文件。它们可以和数以百计(或数以千计)的 EST

文件一起发送(参见图 14.22),其中包括将每个序列链接到其它类型合适文件的标签。这些文件通常由定制的程序创建,确保在不同的记录间该信息是不变的。然后这些文件通过 e-mail 的方式提交(如果其数目在百的量级上),或借助于 FTP(如果其数目在千的量级上),提交记录所需的数据库当前的地址和联系信息参见本章末的列表。

这个提交模型是如此成功以致于为序列标签位置(STS),和基因鉴定序列(GSS)数据库提交过程所借用,在这里同样使用了具有几个变量的简单文件格式。关于如果提交这些记录的更详尽的信息参见它们各自的网页。 

图 14.22

 图 14.22 EST提交。提交 ESTs (或 STS 和 GSS 记录)需要生成一些简单文件, GenBank 和 dbEST 数据库工作人员用它们来创建记录。单独的联系信息、发表信息、一个或多个数据库信息文件将和大量序列文件连接起来生成许多完全的EST 记录。所有这些文件开始的一行是 TYPE,最后用 || 作为一行结束。

Page 464: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

 基因组中心专门研究大段DNA(每年几十万到几百万的碱基对)的中心有其自己的信息处理系统,他们不仅设计了自己的数据库系统,并且他们的程序员维护软件和数据库以明了各种各样的测序计划,而且他们将组织此信息以允许跟踪其集合,性能跟随,和早期发现问题。基因中心将他们的结果格式化为多种形式,通常包括WWW 网页,将他们生产的信息直接对社区全部开放或只面向他们的顾客。如果这些基因中心希望他们的序列可被公共数据库得到,那么他们与这些数据库之一联系以确保正确的数据交换。这三个数据库( DDBJ,EBI,和 NCBI)具有与这些不同的基因中心打交道的经验以确保及时有效率的信息交换(尽可能的快)。这包括自动数据交换的设置,特殊 FTP帐户的建立以便于以一种准确、方便的方式进行数据交换,以及生成工具确保以最有用的方式进行数据交换。在NCBI,为所有向该组织提交数据的基因测序中心建立了 FTP帐户。还有设计了各种各样的工具用来加速提交高吞吐量的基因序列(HTGS)。在 GenBank 的两个分部可以找到这些 HTGS 记录,查询结果依赖于它们的完成情况(参见第二章)。未完成的记录(第 1段或第 2段)在 GenBank 的 HTG 分部,而完成的记录(第 3段)在它们所属的分类学分部里。在它们整个的存在过程中,HTGS 记录拥有一致的 DDBJ/EMBL/GenBank 确认号码。NCBI设计的一种用来建立这些记录的工具是 fa2htgs,这是一个命令行程序,可以很容易地编写脚本,并允许用户从 FASTA 文件和一个 Sequin 模板生成 HTGS提交。就象其它所有的 NCBI产品,该程序对于大多数计算机平台都是可使用的。

Page 465: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

高吞吐量的基因组测序也意味者序列使用方式的改变。这就是由这些中心生成的序列由HTG关按钮字标识的原因,目的是使用户在他们的分析中有选择的使用这些数据,或者简单地注意到其来源。如此标记的数据不应和未完成的记录相混淆,后者不仅有HTG关按钮字,而且在 GenBank 的 HTG 分部中。这在第 2

章中由Ouellette 和 Boguski(1997)更详尽地予以检验。基因组中心愿意与之合作的数据库应该通过最新的指南和工具确保对于 HTG 数据的合适的处理。

更新更新DDBJ/EMBL/GenBank 记录可能是强加给每个科学家的最没有报酬的任务之一,这项工作没有什么刺激性,也没有什么科学荣誉,而且它很少受到注意。然而,这项工作是完成提交过程后最重要的步骤之一,它确保了在记录中的信息仍然是正确的。更新记录的最重要的方面是通知数据库与该记录联系的引用的文献的发表。这将允许数据库工作人员更新数据库中的引用,进而允许将其链接到合适的参考数目上去,(参见第 5 章),然后记录可以链接到大量的相关引用上,以及使用 Entrez 可得到的知识范围。

信息的另一个重要方面是在记录中提到的每种蛋白质和基因的正确名称;同样,此处的一个更新允许在信息和数据库中可比较的材料之间建立合适的链接。数据库给出了更新记录的 e-mail地址和 WWW地址,而且 Sequin也可用来执行此项任务,Sequin设计用来更新已存在于数据库中的序列记录,要下载已存在的记录,必需将 Sequin配置为具有网络连接(网络连接菜单项包括了设置此连接的对话框)。然后待 Sequin 重新启动后,“从 Entrez下载”

Page 466: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

(Download from Entrez)的按钮(图 14.7)将在开始窗口中出现,这允许输入一个加入号码并直接从 ID 数据库中获取(参见第 6 章)。通过更新引用(可通过 MEDLINE、PubMed 查找器获得)或增加特征来编辑记录,或利用序列编辑器加入新的序列,在后一种情况下,采用更新功能可能比直接将其贴到序列编辑器中更加方便。加入了新的更新特征,并且建议 Sequin 用户访问Sequin 的 WWW站点以确保他们获得了最新的版本。

这三个数据库的工作人员都欢迎使更新过程尽可能地有效和无痛苦。也强烈建议那些注意到记录已发表却还没有公开的人们通知数据库。如果有人检查到错误,同样应该传送到更新地址,据此数据库工作人员通知记录的所有者,并且通常导致结果的改正。这条事件链可以同第三方注解分别开来,该方式目前并不被数据库所接受。记录属于提交者,数据库工作人员提供了一些帮助,格式化指南建议,但是实质性的改变只能是来自于列表中的提交者。

结论性的评价将序列提交到数据库和看着它们公开发布对于部分提交者来说通常是一种自豪的经历,这是他们所在的实验室的一段科学活动,提交者通过参与实验室的工作而出现在科学团体里,这也是在出版过程中由出版者施加的影响的一步。在此过程中,提交者通常希望以最完全和有用的方式提供信息,允许他们的数据获得科学团体的最大程度的利用。

极少的使用者注意到数据库中表现出来的错综复杂的完全排列,但是他们确实知道他们所提供的生物学内容。提供便利这一过程的工具已成为数据库的任务。

Page 467: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

数据库工作人员也提供关于其索引的专家(某些数据库也将其称为监护人或注解者),他们在生物学方面有广泛的训练并且非常熟悉数据库,确保在提交过程中不遗漏任何东西。提交过程本身并不是一直都这样简单的,甚至在测序初期并不被鼓励,这只是由于数据库不知道如何处理这种信息。然而,现在数据库强烈地建议序列数据的提交和所有合理的更新。出现了许多工具便利完成这个任务同时除它们各自的 WWW提交工具以外,数据库也支持 Sequin为新的提交工具,现在提交数据到数据库变成了一种令人愉快的享受,并且科学家不再有忽视它的好借口了。

致谢:Sequin 建立的基础是NCBI 的软件工具箱,相当多的人对此作出了贡献;应特别提及 NCBI 的几位工作者,因为他们的工作对于 Sequin 的成功具有决定性的作用。除了我们中的一员(JAK),还包括Colombe Chappey, Jinghui

Zhang。Tatiana Tatusov,JimOstell,和 Greg Schuler。建议间隔程序由Pennsylvania 州大学的 Webb Miller 编写,Warren Gish(现在在华盛顿大学) 、Karl Sirotkin(NCBI)和 Yuri Sadykov(现在在 Netscape)修改 。BankIt提交表格由David Lipman设计,并由Brandon

Brylawski,,Sergei Shavirin,和 Tatiana Tatusov 实现。

在第 14 章提及的通讯资源:互联网和通信地址;电话和传真号码

Page 468: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

DDBJ/EMBL 和 GenBank 的一般联系信息以及提交DNA 序列到这些数据库的入口。

DDBJ(信息生物学中心,NIG)

地址:DDBJ,1111 Yata, Mishima,Shiznoka 411,Japan

传真:81-559-81-6849

E-mail

提交: [email protected]

更新: [email protected]

信息: [email protected]

互联网

主页:http://www.ddbj.nig.ac.jp/

提交:http://sakura.ddbj.nig.ac.jp/

EMBL(欧洲生物信息协会,EMBL 分部)

地址:EMBL Outstation, EBI, Wellcome Trust Genome Campus, Hinxton Cambridge, CB 10 1SD, United Kingdom

电话:01.22.349.44.44

Page 469: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

传真:01.22.349.44.68

E-mail

提交: [email protected]

更新: [email protected]

信息: [email protected]

互联网

主页:http://www.ebi.ac.uk/

提交:http://www.ebi.ac.uk/subs/allsubs.html

WebIn:http://www.ebi.ac.uk/submission/webin.html

GenBank(国家生物技术信息中心,NIH)

地址:Gen Bank National Center for Biotechnology Information, Nationtional Library of Medicine, National Institutes of Health, Building 38A, Room 8N805, Bethesda MD 20894

电话:301-496-2475

传真:301-480-9241

E-mail

提交: [email protected]

Page 470: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

EST/GSS/STS [email protected]

更新: [email protected]

信息: [email protected]

互联网

主页:http://www.ncbi.nlm.nih.gov/

提交:http://www.ncbi.nlm.nih.gov/Web/GenBank/submit.html

BankIt: http://www.ncbi.nlm.nih.gov/Web/BankIt/

其它资源,按照它们在本章中出现的顺序列出如下:

分类学浏览器: http://www.ncbi.nlm.nih.gov/Taxonomy/tax.html

在 DNA 序列数据库中使用的遗传密码:http://www.ncbi.nlm.nih.gov/htbin-post/Taxonomy/wprintgc?mode=c

寻找ORF:链接到 BLAST页上的读框架寻找器http://ncbi.nlm.nih.gov/gorf/gorg.html

DDBJ/EMBL/GenBank 特征表文档可用 WWW 方式获得或者从 EBI 或 NCBI

的 FTP 服务器上得到 PostScript 文件。http://www.ncbi.nlm.nih.gov/collab/FT/

http://www.ebi.ac.uk/ebi_docs/embl_db/ft/feature_table.html

ftp://ncbi.nlm.nih.gov/genbank/docs/

Page 471: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

ftp://ftp.ebi.ac.uk/pub/databases/embl/doc/

EMBL 和 GenBank 数据库的版本信息EMBL ftp://ftp.ebi.ac.uk/pub/databases/embl/release/relnotes.doc

GenBank ftp://ncbi.nlm.nih.gov/genbank/gbrel.txt

Sequin: DNA 序列数据库的提交和更新工具http://www.ncbi.nlm.nih.gov/Sequin

EST, STS 和 GTS主页,获取信息和向这些特定 GenBank 数据库提交序列EST http://www.ncbi.nlm.nih.gov/dbEST

STS http://www.ncbi.nlm.nih.gov/dbSTS

GSS http://www.ncbi.nlm.nih.gov/dbGSS

HTGS主页:高吞吐量基因组序列资源,工具和信息http://www.ncbi.nlm.nih.gov/HTGS

参考文献:Boguski, M. S. , Lowe, T. M. , Tolstoshev, C. M. (1993). dbEST&#0;datebase for "expressed sequence tags". Nat. Genet. 4:332-333

Ouellette, B. F. F. , and Boguski, M. S. 1997. Database Divisions and Homology Search Files: A Guide for the Perplexed. Genome Res. 7, 952-955

 上一页 下一页 返回目录 返回茶庄

 

Page 472: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

附录1词汇表algorithm(算法): 为完成一个特定任务而进行的一系列动作(例如,一些计算步骤)。

browser(浏览器): 用来访问万维网的程序,超文本标识语言(HTML)使得浏览器可以在不同的计算机平台上以相同的方式来显示一个网页。

characters and character states(特性及状态): 在系统发生学中,特性指不同物种之间的同源的特征。这些特征在某个个体上的具体表现称为状态。例如,对于“发色”,可以有“金色”,“红色”,“黄色”等几种状态。在分子生物学中,状态可以是4种核苷酸(A,T,C,G)之一,或20种氨基酸之一。也有一些作者将“character”定义为状态。

client(客户端):与远端计算机(服务器)交互的一台计算机或计算机上运行的软件。

descriptor(描述符): 关于一个序列或序列集的信息,它所包含的内容范围取决于其在记录中的位置。对一个序列集定义描述符可以避免在每条记录中重复拷贝冗余的信息。

domain name(域名): 指因特网组织结构的某个层次,用来表示网络主机并对其分类。顶级域名表示站点的类型或主机所在的国家。

download(下载): 将一个文件通过 FTP从远端主机传到本地计算机。

Page 473: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

e-mail(电子邮件): 指在计算机上编辑并通过因特网在几秒钟之内传送到其他地方的消息。

EST(Espressed sequence tag:表达序列标签): EST是从mRNA(cDNA)上生成的大量很短的序列(300-500bp)。它们代表了在特定组织或发育阶段表达的基因。它们代表在给定的 cDNA 文库中的表达标签(有些是编码的,有些不是)。这些记录通常很少有注释,只有文库和生物来源信息。很多数据库中都有这样的记录,包括DDBJ/EMBL/

GenBank,dbEST,Unigene(见第二章和第四章)。参考 http://

www.ncbi.nlm.nih.gov/dbEST/ 可以获得更多的信息。

FAQ(常见问题): 一个计算机文件,包含了一些常见的问题。确切的说,是一系列编辑好的问题及相应的回答。这有助于新手使用计算机资源,例如邮件列表或新闻组。

feature(特性): 在给定序列中的特定位置出现的注释。

firewall(防火墙): 将公司或组织的内部网络与公共网络隔离开,这样可以防止对私有计算机系统的未授权访问。

FTP(File transfer protocol:文件传输协议): 将文件在主机之间传输的方法。

Gopher: 一个文档发布系统,允许检索和显示文本文件。

Page 474: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

GSS(Genome survey sequences:基因组综述序列): DDBJ/EMBL/GenBank 中的这个部分与 EST很相似,不同之处只在于这些序列是来自于基因组,而不是 cDNA(mRNA)。GSS部分包含(但不限于)下列类型的数据:随机的基因组序列片段,cosmid/BAC/YAC末端序列(这些可能但并不必须与染色体有关),外显子标记的基因组序列,Alu PCR 序列。参考 http://www.ncbi.nlm.nih.gov/dbGSS/ 可以获得更多的信息。

GUI(Graphical uer interface:图形用户界面): 指依靠图形和图标来指导用户和应用程序进行交互的前端软件。

heuristic algorithm(启发式算法): 解决不可能和很难获得精确解的问题的一种经济实用的策略。启发式方法并不保证能得到最优的或“真正”的解。

homologous(同源的): 在系统发生学中,同源指不同个体之间由共同的祖先继承而来的相同的特征。在分子生物学中,同源通常简单地指相似性,而不考虑遗传上的联系。

homoplasy(非同源相似,平行演化): 由独立的进化过程而产生的相似性,并不代表共同的系统发生学起源。

host(主机): 在因特网上可以由 IP地址唯一定位的计算机。

HTGS/HTG: High-throughput genome sequences:高通量基因组序列(HTG是DDBJ/EMBL/GenBank 的 HTGS部分)。世界上许多测序中心正在对人类及其它高等真核生物基因组进行大规模测序工作。一般认为将这些测序工

Page 475: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

作的中间结果放在数据库中一个单独的部分比较好,因为通常这些未完成的记录中存在许多空缺,准确性比较低,而且缺少注释,还达不到 DDBJ/EMBL/

GenBank 记录所要求的标准。参考 http://www.ncbi.nlm.nih.gov/HTGS/ 可以获得更多的信息。

HTML(Hypertext markup language:超文本标识语言): 专门描述万维网文档的基于文本的标准语言。HTML 文件由浏览器来解释和执行。

hyperlink(超级链接): 万维网文档中可以用鼠标选中的文字或图形。不论在任何地方,点击一个超级链接可以使用户转移到同一页面的不同部分或另一个页面。

hypertext(超级文本): 在万维网页面中用不同的颜色或下划线来区分,并且可以作为超级链接使用的文字。

indel(插入或删除的缩略语): 在多重序列比对中,指那些未确定是由于插入还是删除而造成的序列长度变化的部分。

Internet(因特网): 一个将计算机互相连接的网络系统,用于在主机之间传送文件和消息。

IP address(IP地址): 因特网上唯一标识计算机主机的数字地址。

intranet(内部网): 一个企业或组织的内部计算机网络。内部网通常不与因特网相连,或在防火墙保护下与因特网相连。

Page 476: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

Java: 由 SUN 公司开发的一种编程语言,允许小的应用程序(applets)在不同的计算机上运行。Java applets通常在用户点击网页的超级链接时被调用。

LAN(Local area network:局域网): 连接小范围(例如几间办公室或一组建筑之内)的计算机网络。

molecular clock(分子钟): 一种假说,认为在进化过程中核苷酸或氨基酸序列以大致固定的速率发生替换。这样,给定标准时间和分子钟,序列的差异度就可以用来计算分子突变发生的时间。

mutation studies(突变分析): 在 Sequin 中,对同一物种甚至同一个体的相同基因的序列集进行分析,以分离和确定几种突变体。

orthologs/orthologous(直向同源): 共同祖先的直接后代(没有发生基因复制事件)之间的同源基因称为直向同源。参见“homologous”和“paralogs”。

PAM matrix: PAM(percent accepted mutation:默认突变几率)和BLOSUM(blocks substitution matrix:大块替换矩阵)是定义210种可能的氨基酸替换分数的矩阵。这些分数是通过对数据库中的序列进行比对,计算其替换频率而经验性地获得的,它通常反应了一定的物理化学性质。例如,亮氨酸和异亮氨酸具有相似的亲水性和大小,它们之间的替换分数就比亮氨酸与谷氨酸之间的替换分数要高。

Page 477: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

paralogs/paralogous(共生同源): 两个物种 A 和 B 的同源基因,分别是共同祖先基因组中由复制事件而产生的不同拷贝的后代,这被称为共生同源基因。参见“homologous”和“orthologs”。

phylogenetic studies(系统发生研究): 在 Sequin 中,指不同物种之间个体的一组相同的基因,假设这些个体不能相互杂交。Sequin不允许输入一个单独的生物名称,除非此生物已在 Definition 行中编码。实际上,它代表了设定正确的遗传编码的控制方式。

platform(平台): 恰当地说,操作系统在计算机上运行应用软件(例如UNIX 或 Windows95)。而平台通常指计算机的类型,例如Macintosh 或者PC兼容机。

population studies(种群研究): 在 Sequin 中,指同一种群内个体间相同基因的一个序列集,假设这些个体可以相互杂交。Sequin允许输入单独的生物名称,但为了程序正确运行,还必须为每个序列提供一些用以区分序列来源的信息,例如“strain”,“clone”或者“isolate”。

protein name(蛋白质名称): 在序列记录中,表明蛋白质特征的域。

protein description(蛋白质描述): 在序列记录中,当蛋白质名称未知时就必须使用蛋白质描述。

server(服务器): 一台处理远端客户机发来的请求的计算机。

Page 478: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础

site(位点): 在氨基酸或核苷酸序列比对中的一列残基。在同一位点上的残基被认为是同源的。

spam: 向新闻组或者大量电子邮件用户发送与他们无关的或者根本不感兴趣的邮件广播。类似于发送垃圾邮件。

STS(Sequenced tagged site:测序标签位点): 在实验过程中,STS是可作为 PCR 引物对的单拷贝序列,用以在作图过程中在基因组上标定一个单独的位置。数据库中的这个部分也包含了不同的 STS 位点,这有利于将 STS 与数据库中其他部分的数据进行比较,找到未知序列与已知基因的联系。参考http://www.ncbi.nlm.nih.gov/dbSTS/ 可以获得更多的信息。

Telnet: 一种因特网协议或应用程序,可以让用户连接并使用远端的计算机,就好象他物理上在直接操作这台计算机硬件一样。

URL(Uniform resource locator:统一资源定位符): 在使用因特网浏览器时,URL表示正在访问的站点类型(FTP,Gopher 或 Web),以及这个站点的位置。参阅表 1.2。

user(用户): 指正在使用客户机-服务器或者其他类型软件的这个人。

World Wide Web(万维网): 一个文档发布系统,可以处理各种非文字的介质。

上一页 下一页 返回目录 返回茶庄 

Page 479: read.pudn.comread.pudn.com/.../bioinformatics%20by%20Baxevanis%…  · Web view生物信息学(中译本) 目 录 译者序. 编者序. 1. 因特网与生物学家 . 1.1因特网基础