论文部分内容阅读
【摘要】生物信息学的快速发展使其成为生命科学发展的重要组成部分,是当今生物科学和自然科学的重大前沿领域之一,其研究重点主要体现在基因组学和蛋白质组学等方面。本文对生物信息学的产生背景、研究进展及在蛋白质组学研究中的应用等方面进行阐述。
【关键词】生物信息学 研究进展 蛋白质组学 应用
【中图分类号】Q51-33 【文献标识码】A 【文章编号】2095-3089(2016)10-0061-02
1.引言
生物信息学是在计算机科学、数学与生命科学等多门学科的基础上发展形成的一门新兴交叉学科。人类基因组计划(HGP, human genome project)的圆满完成极大地推动了生物信息学的发展,与此同时,多种模式生物如大肠杆菌、酵母、线虫、拟南芥、水稻、玉米等的基因组计划也都相继完成。随之而来的是包括DNA、RNA及蛋白质片段等在内的分子数据的爆炸性增长,这一切形成了生物学数据的海洋。我们需要从大量的生物数据中挖掘出为我们所用的知识和信息,由此催生了生物信息学这门学科的产生和发展。
生物信息学包含了生物信息的获取、处理、储存、分析和解释等方面,集合数学、统计、计算机与生物医学等工具研究,阐明大量生物学数据所包含的生物学意义。通过对生物信息的查询、搜索、比较、分析,从中获取基因编码及调控、核酸和蛋白质结构功能及其相互关系等知识,从而探索生命的奥秘。
蛋白质组(proteome)的概念于1994年被提出[1],指全部基因表达的全部蛋白质及其存在方式,是一种细胞、组织或完整生物体在特定时空上所拥有的全套蛋白质[2]。蛋白质组具有复杂多变的特点,蛋白质的种类数量即使在同一生物体相同细胞中在不同时期和环境下也是不同的。蛋白质组学是研究蛋白质组及大范围蛋白质的分离、分析、应用的学科。早期蛋白质组学的研究范围主要指蛋白质的表达模式,如今,蛋白质翻译后修饰研究已成为蛋白质组研究中的重要部分和巨大挑战,蛋白质与蛋白质相互作用的研究也已被纳入蛋白质组学的研究范畴。
2.生物信息学的发展
生物信息学的发展基础是各种数据库的建立和不断完善。目前国际上有三个主要的关于蛋白质和核酸的公共数据库,它们分别是美国国立生物技术信息中心(NCBI,http://www.ncbi.nlm.nib.gov)、欧洲生物信息学研究所(EBI,http://www.ebi.ac.uk)和日本信息生物学中心(CIB,http://www.ddbj.nig.ac.jp)。这三个重要数据库随着生物信息学的发展及时更新,为生物信息学的发展提供数据平台。后基因组时代的到来引导人们研究重点向功能基因组的转移。研究内容也扩展到生命现象的核心,即从基因、蛋白质研究生命的本质,理解功能、发育与疾病的关系[3]。计算机技术的进步,导致根据不同的科研需要構建相应的网络资源平台、生物分析软件应运而生,为生物信息学的发展提供新技术支持。
3.生物信息学的研究内容
3.1 序列比对
序列比对是两个或者两个以上序列进行比较发现其间的相似性或者不相似性。生物信息大多通过自身的序列表现出来,人类由于生理条件限制,对庞杂数据的分析是有限的,需要借助于计算机的程序来进行序列间的比对,由此发现生物规律。例如,氨基酸序列的比对可以分析特定位置氨基酸的差异和整个序列中不同氨基酸的比例,统计氨基酸序列的突变率和替代率,比较序列之间的同源性和一致度。核酸序列(DNA和RNA)比对可以显示序列间核苷酸的差异,估计进化距离[4]。氨基酸序列和核苷酸序列都可以进行基于计算机程序的序列比对,不仅有助于我们进行序列同源性的分析,还可以研究某一物种的进化。
序列比对是生物研究的基础。对于不同的序列比对有不同的算法和模型,实际应用中应根据不同的研究目的进行选择。两两序列比对已有较成熟的动态规划算法,以及在此基础上编写而成的比对软件包BLAST和FASTA。有时两序列整体相似性不高,但是局部区域很相似。Smith-Waterman算法是解决局部比对的好算法。
3.2蛋白质分析及结构预测
生物大分子蛋白质是生命活动重要的物质基础。蛋白质的生物信息学研究,主要集中在蛋白质的理化性质分析、序列分析、高级结构预测、蛋白质功能分析以及蛋白质与蛋白质之间的相互作用。蛋白质理化性质的分析主要包括等电点预测、疏水性和跨膜区分析以及二级结构(α螺旋、β折叠、无规卷曲等)预测,这些性质可以在瑞士生物信息研究所(http://www.expasy.ch/)的相关网站进行分析和预测。蛋白质的三级结构可以用X射线衍射技术、核磁共振技术、三维电镜重构技术来进行测定,但是这些技术耗时长,代价高,并不能成为生物实验室的常规研究手段。生物信息学的发展极大地提高了蛋白质的三维结构测定效率。从方法来看有演绎法和归纳法两种。演绎法主要是从一些基本原理或假设出发来预测蛋白质的结构。后者主要是从观察和总结已知结构的蛋白质结构规律来预测未知的蛋白质结构。同源建模属于这一范畴。人们可以根据软件进行预测,根据同源建模的原理,根据已通过实验测定的蛋白质结构来预测未知的蛋白质结构。虽然经历了漫长的时间和努力,蛋白质的结构预测现状还仍然满足不了如今的科研需要。生物信息技术的发展为实验提供了简单快速的研究方法,开创了新的研究道路,研究蛋白质与蛋白质相互作用也为新药的研发、探明微生物的致病机理提供研究思路[5]。
3.3系统发育分析
系统发育分析是生物信息学的重要分支之一,它根据大量的分子数据,对不同基因或DNA片段分析发现它们之间的进化速率所存在的差异,利用这些差异来研究物种的形成或进化历史,以及有机体之间的进化关系[6]。由于分子数据的获取比生物化石的数据容易,而且计算机的强大功能为处理庞大数据提供了可能,因此随着分子数据的大量积累,各国的研究人员都利用克隆分子片段,结合形态学分析对科、属、种以及种内的物种进行鉴定,并进行系统发育的分析研究。但是,完全通过计算机来研究整个自然界中准确的物种进化是不现实的,构建的系统发育树有时甚至存在严重错误,所做的也只是一个模拟,并不是绝对的真实情况。 4.生物信息学在蛋白质组学上的应用
4.1蛋白质的理化性质分析
从蛋白质的一级序列出发,预测蛋白质的许多理化性质,包括分子量、等电点、酶切特性、疏水性、电荷分布、稳定性等。相关工具有:1)Compute pI/MW(预测等电点和分子量)。对等电点pI的预测是根据早期研究中将蛋白质从中性到酸性变性条件下迁移过程所获的PK值。但是该种预测对碱性蛋白有限制,计算出的等电点可能不准确。2)PeptideMass(分析酶切特性)。主要针对肽段图谱的分析试验,分析蛋白质在各种蛋白酶和化学试剂处理之后的内切产物。3)SAPS(分析蛋白质电荷分布)。蛋白质序列统计分析,对提交的序列给出大量全面的分析数据。最后给出高疏水性和跨膜区域、重复结构和多重态以及周期性分析。
4.2蛋白质的结构分析预测
蛋白质的结构分析包括二级结构分析和三维结构预测。蛋白质的二级结构是指α螺旋和β折叠等规则的蛋白质局部结构元件。一段氨基酸残基根据其自身的理化性质具有形成不同二级结构元件的倾向和规律。也就是说,蛋白质二级结构的分析和预测就是找出这种倾向或规律。一般来说,二级结构预测中,α螺旋的预测效果相对较好,比较准确,而对β折叠的预测精准度要低很多。蛋白质三级结构预测是结构预测过程中最复杂、最困难的一步。虽然蛋白质三级结构是在一级结构及二级结构的基础上进行折叠的,但是其折叠机制并没有被研究透彻。一级氨基酸序列差异较大的蛋白质也能折叠形成相似的三维结构,例如,泛素和Sumo蛋白,两者的氨基酸序列相似度很低,但是具有高度类似的三维结构。但是,蛋白质的折叠也不是没有规律可循。生物信息学技术的发展使得一些预测蛋白质三级结构的方法越来越成熟。通过与已知结构的氨基酸序列比较,来预测未知蛋白的结构。常见的预测方法:SWISS-MODEL、CPH模型等。
4.3蛋白质功能分析
生物信息学的迅速发展不仅体现在对蛋白质数据的分析和预测方面,而且可以对蛋白质的功能进行较全面的分析和预测。蛋白质功能分析主要基于序列中含有的特征性结构域来识别蛋白质的相关功能。以未知蛋白为例,可以通过序列比对,分析其序列中的经典结构域或基序,然后在已知蛋白质的相关数据库中进行结构域或基序的搜索,借此来确定未知蛋白的类型及功能预测[7]。
蛋白质调控着细胞内大部分的生理过程,而作为基因产物的蛋白质并不总是被表达翻译出来,因为部分基因只有在特定生理环境和细胞周期阶段才能表达,并合成蛋白质。而有些基因在人工模拟环境下是不能表达的,那么其蛋白质产物就无法被经典的实验技术研究。但是,运用生物信息学技术可以对这类未知蛋白质进行计算分析和预测,从而获得其生物学功能[8]。
参考文献:
[1]Wilkins MR, Pasquali C, Appel RD, et al. From proteins to proteomes: large scale protein identification by twodimensional electrophoresis and amino acid analysis. Biotechnology(NY).1996 Jan;14(1):61-5.
[2]Gould KL, Ren L, Feoktistova AS, et al. Tandem affinity purification and identification of protein complex components. Methods. 2004 Jul; 33(3):239-44.
[3]乔纳森.佩夫斯纳,著,张之荣,译. 生物信息学与功能基因组学[M].北京:化学工业出版社, 2006.
[4]Masatoshi Nei, Sudhir Kumar,吕宝忠,译. 分子进化与系统发育[M]. 北京: 高等教育出版社, 2006.
[5]任仙文,李北平. 蛋白質相互作用的生物信息学研究进展[J]. 生物技术通讯, 2006, 17(6): 976-980.
[6]张树波,赖剑煌. 分子系统发育分析的生物信息学方法[J]. 计算机科学, 2010, 37(8): 47-51.
[7]黄丽俊,王建华. 蛋白质组研究技术及进展[J]. 生物学通报, 2005(8): 4-6.
[8]Hagen JB. The origins of bioinformatics. Nat Rev Genet. 2000 Dec; 1(3):231-6.
作者简介:
李静,女,安徽医科大学生命科学学院生物系教师。2013年于中国科学技术大学生命科学学院结构生物学专业博士毕业。主要研究领域是蛋白质结构生物学研究。
【关键词】生物信息学 研究进展 蛋白质组学 应用
【中图分类号】Q51-33 【文献标识码】A 【文章编号】2095-3089(2016)10-0061-02
1.引言
生物信息学是在计算机科学、数学与生命科学等多门学科的基础上发展形成的一门新兴交叉学科。人类基因组计划(HGP, human genome project)的圆满完成极大地推动了生物信息学的发展,与此同时,多种模式生物如大肠杆菌、酵母、线虫、拟南芥、水稻、玉米等的基因组计划也都相继完成。随之而来的是包括DNA、RNA及蛋白质片段等在内的分子数据的爆炸性增长,这一切形成了生物学数据的海洋。我们需要从大量的生物数据中挖掘出为我们所用的知识和信息,由此催生了生物信息学这门学科的产生和发展。
生物信息学包含了生物信息的获取、处理、储存、分析和解释等方面,集合数学、统计、计算机与生物医学等工具研究,阐明大量生物学数据所包含的生物学意义。通过对生物信息的查询、搜索、比较、分析,从中获取基因编码及调控、核酸和蛋白质结构功能及其相互关系等知识,从而探索生命的奥秘。
蛋白质组(proteome)的概念于1994年被提出[1],指全部基因表达的全部蛋白质及其存在方式,是一种细胞、组织或完整生物体在特定时空上所拥有的全套蛋白质[2]。蛋白质组具有复杂多变的特点,蛋白质的种类数量即使在同一生物体相同细胞中在不同时期和环境下也是不同的。蛋白质组学是研究蛋白质组及大范围蛋白质的分离、分析、应用的学科。早期蛋白质组学的研究范围主要指蛋白质的表达模式,如今,蛋白质翻译后修饰研究已成为蛋白质组研究中的重要部分和巨大挑战,蛋白质与蛋白质相互作用的研究也已被纳入蛋白质组学的研究范畴。
2.生物信息学的发展
生物信息学的发展基础是各种数据库的建立和不断完善。目前国际上有三个主要的关于蛋白质和核酸的公共数据库,它们分别是美国国立生物技术信息中心(NCBI,http://www.ncbi.nlm.nib.gov)、欧洲生物信息学研究所(EBI,http://www.ebi.ac.uk)和日本信息生物学中心(CIB,http://www.ddbj.nig.ac.jp)。这三个重要数据库随着生物信息学的发展及时更新,为生物信息学的发展提供数据平台。后基因组时代的到来引导人们研究重点向功能基因组的转移。研究内容也扩展到生命现象的核心,即从基因、蛋白质研究生命的本质,理解功能、发育与疾病的关系[3]。计算机技术的进步,导致根据不同的科研需要構建相应的网络资源平台、生物分析软件应运而生,为生物信息学的发展提供新技术支持。
3.生物信息学的研究内容
3.1 序列比对
序列比对是两个或者两个以上序列进行比较发现其间的相似性或者不相似性。生物信息大多通过自身的序列表现出来,人类由于生理条件限制,对庞杂数据的分析是有限的,需要借助于计算机的程序来进行序列间的比对,由此发现生物规律。例如,氨基酸序列的比对可以分析特定位置氨基酸的差异和整个序列中不同氨基酸的比例,统计氨基酸序列的突变率和替代率,比较序列之间的同源性和一致度。核酸序列(DNA和RNA)比对可以显示序列间核苷酸的差异,估计进化距离[4]。氨基酸序列和核苷酸序列都可以进行基于计算机程序的序列比对,不仅有助于我们进行序列同源性的分析,还可以研究某一物种的进化。
序列比对是生物研究的基础。对于不同的序列比对有不同的算法和模型,实际应用中应根据不同的研究目的进行选择。两两序列比对已有较成熟的动态规划算法,以及在此基础上编写而成的比对软件包BLAST和FASTA。有时两序列整体相似性不高,但是局部区域很相似。Smith-Waterman算法是解决局部比对的好算法。
3.2蛋白质分析及结构预测
生物大分子蛋白质是生命活动重要的物质基础。蛋白质的生物信息学研究,主要集中在蛋白质的理化性质分析、序列分析、高级结构预测、蛋白质功能分析以及蛋白质与蛋白质之间的相互作用。蛋白质理化性质的分析主要包括等电点预测、疏水性和跨膜区分析以及二级结构(α螺旋、β折叠、无规卷曲等)预测,这些性质可以在瑞士生物信息研究所(http://www.expasy.ch/)的相关网站进行分析和预测。蛋白质的三级结构可以用X射线衍射技术、核磁共振技术、三维电镜重构技术来进行测定,但是这些技术耗时长,代价高,并不能成为生物实验室的常规研究手段。生物信息学的发展极大地提高了蛋白质的三维结构测定效率。从方法来看有演绎法和归纳法两种。演绎法主要是从一些基本原理或假设出发来预测蛋白质的结构。后者主要是从观察和总结已知结构的蛋白质结构规律来预测未知的蛋白质结构。同源建模属于这一范畴。人们可以根据软件进行预测,根据同源建模的原理,根据已通过实验测定的蛋白质结构来预测未知的蛋白质结构。虽然经历了漫长的时间和努力,蛋白质的结构预测现状还仍然满足不了如今的科研需要。生物信息技术的发展为实验提供了简单快速的研究方法,开创了新的研究道路,研究蛋白质与蛋白质相互作用也为新药的研发、探明微生物的致病机理提供研究思路[5]。
3.3系统发育分析
系统发育分析是生物信息学的重要分支之一,它根据大量的分子数据,对不同基因或DNA片段分析发现它们之间的进化速率所存在的差异,利用这些差异来研究物种的形成或进化历史,以及有机体之间的进化关系[6]。由于分子数据的获取比生物化石的数据容易,而且计算机的强大功能为处理庞大数据提供了可能,因此随着分子数据的大量积累,各国的研究人员都利用克隆分子片段,结合形态学分析对科、属、种以及种内的物种进行鉴定,并进行系统发育的分析研究。但是,完全通过计算机来研究整个自然界中准确的物种进化是不现实的,构建的系统发育树有时甚至存在严重错误,所做的也只是一个模拟,并不是绝对的真实情况。 4.生物信息学在蛋白质组学上的应用
4.1蛋白质的理化性质分析
从蛋白质的一级序列出发,预测蛋白质的许多理化性质,包括分子量、等电点、酶切特性、疏水性、电荷分布、稳定性等。相关工具有:1)Compute pI/MW(预测等电点和分子量)。对等电点pI的预测是根据早期研究中将蛋白质从中性到酸性变性条件下迁移过程所获的PK值。但是该种预测对碱性蛋白有限制,计算出的等电点可能不准确。2)PeptideMass(分析酶切特性)。主要针对肽段图谱的分析试验,分析蛋白质在各种蛋白酶和化学试剂处理之后的内切产物。3)SAPS(分析蛋白质电荷分布)。蛋白质序列统计分析,对提交的序列给出大量全面的分析数据。最后给出高疏水性和跨膜区域、重复结构和多重态以及周期性分析。
4.2蛋白质的结构分析预测
蛋白质的结构分析包括二级结构分析和三维结构预测。蛋白质的二级结构是指α螺旋和β折叠等规则的蛋白质局部结构元件。一段氨基酸残基根据其自身的理化性质具有形成不同二级结构元件的倾向和规律。也就是说,蛋白质二级结构的分析和预测就是找出这种倾向或规律。一般来说,二级结构预测中,α螺旋的预测效果相对较好,比较准确,而对β折叠的预测精准度要低很多。蛋白质三级结构预测是结构预测过程中最复杂、最困难的一步。虽然蛋白质三级结构是在一级结构及二级结构的基础上进行折叠的,但是其折叠机制并没有被研究透彻。一级氨基酸序列差异较大的蛋白质也能折叠形成相似的三维结构,例如,泛素和Sumo蛋白,两者的氨基酸序列相似度很低,但是具有高度类似的三维结构。但是,蛋白质的折叠也不是没有规律可循。生物信息学技术的发展使得一些预测蛋白质三级结构的方法越来越成熟。通过与已知结构的氨基酸序列比较,来预测未知蛋白的结构。常见的预测方法:SWISS-MODEL、CPH模型等。
4.3蛋白质功能分析
生物信息学的迅速发展不仅体现在对蛋白质数据的分析和预测方面,而且可以对蛋白质的功能进行较全面的分析和预测。蛋白质功能分析主要基于序列中含有的特征性结构域来识别蛋白质的相关功能。以未知蛋白为例,可以通过序列比对,分析其序列中的经典结构域或基序,然后在已知蛋白质的相关数据库中进行结构域或基序的搜索,借此来确定未知蛋白的类型及功能预测[7]。
蛋白质调控着细胞内大部分的生理过程,而作为基因产物的蛋白质并不总是被表达翻译出来,因为部分基因只有在特定生理环境和细胞周期阶段才能表达,并合成蛋白质。而有些基因在人工模拟环境下是不能表达的,那么其蛋白质产物就无法被经典的实验技术研究。但是,运用生物信息学技术可以对这类未知蛋白质进行计算分析和预测,从而获得其生物学功能[8]。
参考文献:
[1]Wilkins MR, Pasquali C, Appel RD, et al. From proteins to proteomes: large scale protein identification by twodimensional electrophoresis and amino acid analysis. Biotechnology(NY).1996 Jan;14(1):61-5.
[2]Gould KL, Ren L, Feoktistova AS, et al. Tandem affinity purification and identification of protein complex components. Methods. 2004 Jul; 33(3):239-44.
[3]乔纳森.佩夫斯纳,著,张之荣,译. 生物信息学与功能基因组学[M].北京:化学工业出版社, 2006.
[4]Masatoshi Nei, Sudhir Kumar,吕宝忠,译. 分子进化与系统发育[M]. 北京: 高等教育出版社, 2006.
[5]任仙文,李北平. 蛋白質相互作用的生物信息学研究进展[J]. 生物技术通讯, 2006, 17(6): 976-980.
[6]张树波,赖剑煌. 分子系统发育分析的生物信息学方法[J]. 计算机科学, 2010, 37(8): 47-51.
[7]黄丽俊,王建华. 蛋白质组研究技术及进展[J]. 生物学通报, 2005(8): 4-6.
[8]Hagen JB. The origins of bioinformatics. Nat Rev Genet. 2000 Dec; 1(3):231-6.
作者简介:
李静,女,安徽医科大学生命科学学院生物系教师。2013年于中国科学技术大学生命科学学院结构生物学专业博士毕业。主要研究领域是蛋白质结构生物学研究。