论文部分内容阅读
获取蛋白质的结构和功能是生物学研究的重要目的之一,但是使用X光晶体衍射和核磁共振技术等实验手段测定蛋白质的三维结构,以及使用生物化学方法研究蛋白质的功能时效率不高,已经无法适应蛋白质序列飞速增长的需要。在生物信息学中,通过利用结构已知的蛋白质家族成员(模板)预测新序列的结构可以建立序列与相应结构和功能之间的联系,从而用较低的成本和较短的时间预测出蛋白质的结构和功能。本文主要研究内容是给定一个蛋白质序列,通过采用同源建模的方法最终预测出该蛋白质的三级结构。这个过程包括以下几个部分:目标模板的识别、查询序列和目标序列的排列、构建模型和模型的结构合理性评估。其中的目标模板的识别是通过局部对比排列搜索工具BLAST完成的,构建模型是通过建模软件包MODELLER完成的,结构合理性评估是通过软件包PROCHECK来完成的。另外,在整个的蛋白质结构预测过程中,查询序列和目标序列的排列对于最终的建模影响最大,因此提高这个过程的排列精度,对整个的蛋白质结构预测过程都有很重要的作用。本文的研究重点是如何提高查询序列和目标序列的排列精度。目前对于预测一个新序列的蛋白质结构的各种方法中,大多存在这样的问题:在对一个新序列构建模型的过程中,生成的查询序列和目标序列的排列不够准确,进而影响了最终预测出来的蛋白质结构的准确性。鉴于此,这部分主要研究了以下三个方面的内容:在生成查询序列和目标序列的过程中所使用的profile-profile方法,针对profile-profile方法中profile中出现的数据稀疏问题所采用的数据平滑技术以及对于生成排列过程中对于新的计分体系所采用的动态规划算法。在HOMSTRAD数据库上进行的排列精度实验表明:采用profile-profile方法并结合数据平滑和动态规划技术可以有效的提高查询序列和目标序列的排列精度。最后,我们还参与了CASP7的蛋白质结构预测的评比,对获得的未知序列通过profile-profile方法生成的五个蛋白质结构进行结构合理性评估。