论文部分内容阅读
蛋白质的生物学功能取决于蛋白质的三维空间结构,获取蛋白质三维空间结构对于人类认识自身和疾病有着非常重要的意义。然而实验方法测定蛋白质结构不仅代价大,而且周期长。因此从蛋白质序列出发,直接预测蛋白质三维结构已成为目前生物信息学领域中的热点研究问题之一。
近年来,蛋白质结构从头预测方法取得了较大的发展和突破,但是蛋白质构象空间的高维复杂性以及能量模型不精确仍然是蛋白质结构预测研究的难点。利用先验知识辅助蛋白质高维构象空间优化,对于提升蛋白质结构预测精度而言具有重要的作用;另外,多模态优化方法可以缓解能量模型不精确的缺陷,提高采样的可靠性。因此,本文在进化算法的框架下,进行了以下研究:
(1)针对蛋白质结构从头预测问题,设计一种基于二面角知识辅助的蛋白质结构从头预测算法。首先利用种群中个体的结构信息执行基于二级结构的交叉操作,接着使用片段组装技术和能量函数进行变异,探测潜在的高质量构象;然后利用蛋白质结构片段库特定的二面角分布信息和拉氏图先验知识构建二面角打分模型,引导构象空间采样,获得结构更加合理的构象。实验分析验证了该算法是一种有效的蛋白质结构从头预测算法。
(2)针对高维构象空间采样可靠性问题,在前面算法研究的基础上,进一步设计了一种基于二面角相似度模型的多模态构象优化算法。首先执行模态探测,采用基于Rosetta粗粒度能量模型作为筛选高质量新个体的标准,并结合蛋白质结构片段库特定的二面角分布信息和拉氏图先验知识构建角度打分模型,进行种群更新;然后建立二面角相似度模型,用来评价不同构象间的相似程度,满足多模态优化算法中相似个体快速判定的要求,进一步基于排挤机制进行种群更新,实现模态增强,获得结构更为合理的构象。实验分析表明算法不仅可以获得较高的预测精度,同时还能得到尽可能多的高质量局部极值解,从而获得一些较好的蛋白质亚稳态结构。
近年来,蛋白质结构从头预测方法取得了较大的发展和突破,但是蛋白质构象空间的高维复杂性以及能量模型不精确仍然是蛋白质结构预测研究的难点。利用先验知识辅助蛋白质高维构象空间优化,对于提升蛋白质结构预测精度而言具有重要的作用;另外,多模态优化方法可以缓解能量模型不精确的缺陷,提高采样的可靠性。因此,本文在进化算法的框架下,进行了以下研究:
(1)针对蛋白质结构从头预测问题,设计一种基于二面角知识辅助的蛋白质结构从头预测算法。首先利用种群中个体的结构信息执行基于二级结构的交叉操作,接着使用片段组装技术和能量函数进行变异,探测潜在的高质量构象;然后利用蛋白质结构片段库特定的二面角分布信息和拉氏图先验知识构建二面角打分模型,引导构象空间采样,获得结构更加合理的构象。实验分析验证了该算法是一种有效的蛋白质结构从头预测算法。
(2)针对高维构象空间采样可靠性问题,在前面算法研究的基础上,进一步设计了一种基于二面角相似度模型的多模态构象优化算法。首先执行模态探测,采用基于Rosetta粗粒度能量模型作为筛选高质量新个体的标准,并结合蛋白质结构片段库特定的二面角分布信息和拉氏图先验知识构建角度打分模型,进行种群更新;然后建立二面角相似度模型,用来评价不同构象间的相似程度,满足多模态优化算法中相似个体快速判定的要求,进一步基于排挤机制进行种群更新,实现模态增强,获得结构更为合理的构象。实验分析表明算法不仅可以获得较高的预测精度,同时还能得到尽可能多的高质量局部极值解,从而获得一些较好的蛋白质亚稳态结构。