论文部分内容阅读
蛋白质同生物的进化和功能有着密切的联系,掌握蛋白质结构有助于理解生物功能和揭示生物体的本质。随着测序技术的发展,蛋白质序列的数目呈指数形式增长,通过实验方法所获取蛋白质的结构已经远不能满足需要,并且结构获取过程中存在代价高、速度慢等问题,因此开发基于理论计算的蛋白质结构预测方法不可避免。本文以空间曲线理论和神经网络技术为基础,旨在寻求一种通过序列直接预测蛋白质主链几何特征的方法,主要内容如下: (1)广泛阅读关于蛋白质结构预测的相关文献,对已存在的蛋白质结构预测方法进行了总结,依据所适用的范围和有效性对这些方法进行了归类。 (2)对基于神经网络的蛋白质结构预测方法进行了系统的学习。已有的基于神经网络的二级结构预测方法已取得了不错的成绩,同时近年来出现了一种将神经网络用于二面角实值预测的方法,预测结果也取得了比较高的准确度。 (3)提出了基于神经网络的蛋白质主链几何特征预测方法。该方法以蛋白质主链上的C?原子为研究对象,结合空间曲线理论,将蛋白质主链空间走向转化为曲率和挠率两个特征值,降低了预测的难度。在训练过程中将氨基酸序列作为输入,采用改进的 BP算法对曲率和挠率进行预测,通过给定的评价标准G30对预测结果进行了统计计算,实验中创建了同源蛋白质链和非同源蛋白质链数据集,并对比了两种数据集预测几何特征的预测精度。在非同源蛋白质链数据集上G30分别达到了73%和59%,同源蛋白质链数据集上G30分别达到了83.03%和67.9%,实验结果说明了蛋白质主链几何特征预测的有效性,也说明了同源蛋白质对几何特征预测的准确率要优于非同源蛋白质对几何特征预测的准确率。 (4)本文提出的方法首次从曲率和挠率角度实现了蛋白质主链结构预测,为了说明方法的可行性和有效性,引入了二面角实值预测的方法。通过两种方法的实验结果比对发现:几何特征预测不依赖于二级结构的组成,并且预测结果比二面角实值预测结果稳定,预测正确比率比较令人满意,并且为从蛋白质序列直接预测蛋白质结构提供了一些借鉴。