论文部分内容阅读
蛋白质结构预测问题是计算生物学领域的核心问题之一,对其求解是后基因时代蛋白质工程的一项重要任务。已经证明,即使按最简化的数学模型,所导出的问题仍然是NP难度的。因此,蛋白质结构预测问题的研究在当今国际学术界是一项具有挑战性的重大课题。求解NP难度问题的方法主要有三种完整算法、近似算法和启发式算法。完整算法虽然能保证给出最优解,但由于人们普遍相信P6=NP,指数级的计算复杂度导致其在实际应用中很难求解较大规模的问题实例。近似算法能保证在最坏情况下所得解的精度与最优解之间的误差在一定的范围内,但其实际计算效率往往不能令人满意。另一种方法是启发式优化算法。启发式算法的主要思想来源于生物世界和社会现象,它往往可以在算法速度和精度之间达到一种很好的平衡,有可能在较短时间内求解大规模的问题实例,并达到令人满意的精度。拟物拟人算法是一种借助物理知识和人类社会经验来求解NP难度问题的启发式方法。对于蛋白质结构预测问题,当前的研究重点是设计求解该问题的高效启发式优化算法。研究了蛋白质结构预测问题的两个简化模型—-HP格点模型和AB非格点模型。HP格点模型中,PERM算法不够简洁,不便于理解。AB非格点模型中,没有非常贴近问题本质的高效求解算法。对于这两个模型,文献中算法的计算效率不够高。对于HP格点模型,PERM(Pruned-Enrichment Rosenbluth Method)算法是当今国际文献中最先进的求解算法。
本研究在介绍PERM算法的基础上,对其给出了一种拟人解释—-人口控制策略,使该算法变得好想,易于理解,对算法中的权重及预测值进行了改进,并对选择动作时不同情况下的权重计算公式进行了统一。综合这些策略得到了改进的PERM算法。在此基础上提出了进一步的拟人改进策略。根据拟人思想对权重预测公式进行了重新定义,拟人改进后的PERM算法在链生长过程中不仅考虑氨基酸的类型(H或P),同时考虑氨基酸在整个链中的位置。拟人改进的PERM算法的计算结果可概括为以下三点:第一,算法的计算速度要优于目前国际文献中最先进的求解算法—-nPERMis(new PERM importancesampling),计算速度是nPERMis的几倍到几十倍。第二,对一个链长为103的标准问题实例,拟人改进的PERM算法得到的最低能量为-55,该最低能量要优于nPERMis算法所得的最低能量-54。第三,对一个链长为46的标准问题实例,拟人改进的PERM算法首次得到了最低能量-35,该最低能量要优于文献中所报道的最低能量-34。对于AB非格点模型,找到了贴近问题本质的物理模型—-弹簧模型。在此基础上通过将原始约束优化问题转化为无约束优化问题,提出了求解基于AB非格点模型的蛋白质结构预测问题的拟物算法。拟物算法的思想基于所提出的物理模型。拟物算法及其计算结果可概括为以下三点:第一,算法提出的拟物思想很好地贴近了问题的本质。第二,以HP格点模型为基础生成初始解,算法所得解的精度要优于一种以PERM算法生成初始解的共轭梯度法所得解的精度。第三,以ELP(EnergyLandscape Paving)算法为基础生成初始解,对于绝大多数文献中的标准算例,拟物算法所得解的精度要优于国际文献中最先进的几个求解算法所得解的精度。以上研究成果表明:拟物拟人策略是求解蛋白质结构预测问题的一种有效途径。进一步工作将研究基于更加真实的数学模型的蛋白质结构预测问题的高效启发式求解算法,以期在不久的将来将其应用于蛋白质工程的实践中去。同时,沿着拟物拟人的途径,有望为其它NP难度问题设计出高效率的求解算法。