论文部分内容阅读
生物信息学包含了生物信息的获取、处理、存储、分发、分析和解释等各个方面,特别是综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。目前主要的研究对象是生物大分子,采用计算机作为主要的研究工具来加工这些生物大分子的数据。随着互联网络的发展,给生物学家们提供了更好的交流机会,一些部门提供了数据的共享、查询、分析等相关服务。目前,蛋白质空间结构的预测方法可以分为两大类:分子动力学方法主要是从一些基本原理或假设出发,来预测和研究蛋白质的结构和折叠过程,但这一方法无法解决全局自由能最小的问题;基于知识的预测方法,主要是从观察和总结已知结构的蛋白质结构规律出发,来预测未知蛋白质的结构。蛋白质是在分子级执行最基本生命功能的多肽链,多肽链被认为是二十种氨基酸字符的线性序列,它折叠成为与其功能相应的复杂的三维结构。预测蛋白质如何折叠的关键一步是预测它的二级结构,二级结构由局部折叠规则构成,常常由氢键维持。蛋白质二级结构预测是生物信息学中的重要课题之一,二级结构预测就是给出由氨基酸组成的蛋白质序列中每一个氨基酸所对应的结构是什么。二级结构预测方法区分?螺旋(Helix)、?片段(Strand)和非常规结构。Helix对应的表示为H,Strand为E,非常规结构为C。由于径向基函数网络在逼近能力、分类能力和学习速度等方面均优于BP网络,针对这一复杂非线性的模式分类问题,本文在分析了基于神经网络蛋白质二级结构预测方法的基础上,探讨了基于径向基函数网络的预测途径。同时研究了蛋白质二级结构预测算法研究中的数据选取、网络参数确定和参数对网络性能的影响,模型的实验结果预测准确率平均可以达到69%左右,表明基于径向基函数网络预测的可行性和有效性。选择适当有效的训练集是进行本项研究工作的基础。有些序列会主要由其中某一种结构组成,所以在选取训练集的时候必须要注意。为达到较高的预测准确率,训练集必需足够大,而且要包含一定数目的各种结构。利用网上的蛋白质结构数据库PDB提供的数据,构建适合本文应用的数据库。根据需要构建数据库很重要,因为以下两点:PDB数据库蛋白质记录很长很详细,必须从中提取相关部分,建立自己的数据库;必须从蛋白质数据库中选取合适以及足够大量的蛋白质集作为训练与测试集。相邻残基之间的相关性对预测蛋白质二级结构是十分重要的。简单径向基网络的预测精确度受限,正是由于缺乏对这种相关性的“理解”。在预测<WP=53>蛋白质二级结构时,为更多的参考序列中相邻残基之间的相关性,在利用简单径向基网络进行预测的基础上引入级连径向基网络。级连后的网络可以学习相邻残基之间的相关性。利用进化信息可以提高基于神经网络预测方法的准确度。为将进化信息引入二级结构预测中,需要把一个未知结构的序列同数据库中已知结构序列进行比对抽出同类者。进行多序列比对,就是为引入相关蛋白质家族的进化信息。通过序列比对之后提取蛋白质家族的信息,就是利用进化信息,从而有效地提高蛋白质二级结构的预测准确率。然而在这一的过程中,在一些情况下却不可避免地错误引入了其它非相关蛋白质家族的信息。也就是说,经多序列比对产生的结果有可能被“污染”。研究者认为,为防止“污染”进行多序列比对的数据库应该先被“过滤”。本文实验第一步用简单的RBF网预测蛋白质二级结构。实验隐层结点数的变化对预测结果的影响,本文实验结果证明,使用31个隐层节点时效果最佳。简单RBF网可以达到大约63%左右的预测精确度。第二步将径向基函数网级连。级连以后,对窗口大小也需要通过实验来决定。经试验,认为窗口大小w =15时效果最佳,级连可以达到69%左右的预测准确率。第三步,用PSI-BLAST程序来进行训练前的序列比对,以得到结果中氨基酸残基的出现频率作为第一层的输入。这只是利用进化信息的一种初步尝试,可以再将预测准确率提高几个百分点。研究结果表明,更多的参考序列中的进化信息,调整隐层神经元数目以及窗口宽度设计等方面的网络参数,能够进一步提高蛋白质二级结构的预测精度。本文用径向基神经网络开发了蛋白质二级结构预测系统,取得了一定的应用成果。