论文部分内容阅读
蛋白质组学的目标是"认识细胞内蛋白质种类、定量地测定细胞内蛋白质表达量以及认识蛋白质的生化功能".众所周知,蛋白质功能与其空间结构有着密切关系,因此,测定或者推测蛋白质结构是实现蛋白质组学目标的重要手段.然而由于蛋白质结构实验测定方法的局限性,使得用计算方法由蛋白质序列出发推测其三维结构,成为了一个重要的研究方向,它对于探究蛋白质功能有着至关重要的意义.
近几十年来,蛋白质空间结构预测研究取得了较大的进展.其中同源建模方法是结构预测方法中较为成功的一种策略,业界已基于此策略开发了多种实用软件.然而,为了进一步提高结构预测的精度,就必须克服基于模板方法的两个缺陷:结构模板的数量不足,目标一模板比对算法的准确性不足.本文的研究动机即为克服上述两个缺陷.
本文研究的指导思想是"将蛋白质整体结构细化为结构域,以及结构域内的核心结构,来更好地描述结构的特征".本文使用核心结构来扩充模板数量,即在蛋白质结构域聚类分析的基础上,为每个结构域提取一个(或多个)能体现该结构域结构拓扑和氨基酸组成特点的结构,通过对核心结构的组合得到更多的模板.基于核心结构构造出一个新的序列与模板比对的计算模型,并设计一个动态规划算法来解决这个计算问题,最终提高同源建模方法的预测准确度.
本文的创新性工作包括如下几个方面:
1)在模板扩展方面:提出了一个新的蛋白质结构域核心结构提取算法;
通过对结构域的分析,我们决定首先每个结构域划分为保守区域和非保守区域,分别求其核心结构.划分保守/非保守区域的方法是,采用基于统计的机器学习方法训练出划分的这两个区域的阈值,然后由一个基于滑动窗口的算法识别出保守区域,通过聚类的方法能得到每个区域的核心结构.由于非保守区域的核心结构并不唯一,因此,通过组合可以得到更多的模板.
2)在模板表示方面:提出一种新的profile构造方法;
基于结构域聚类模板数据库,提出一种加入结构信息的基于profile的序列比对算法用于模板识别.该方法用统计的方法得出结构与氨基酸构成之间的关系,综合了结构域的序列和结构的信息,通过为每个结构域建立基于profile的打分矩阵,最终利用smith-Waterman动态规划算法实现了模板选取的比对算法.实验结果表明,该算法在我们的数据库上的查询正确率比传统的序列比对算法好.
3)在序列一模板比对方面:设计了一种求解最优比对的动态规划算法:
在核心结构的基础上提出一个新的目标序列与模板的比对算法.通过对不同区域内的核心结构构造不向的基于profile的打分函数,我们设计了一个新的计算模型,该模型兼具挑选非保守区域模板和构造比对的功能.我们设计了一种动态规划算法来实现该计算模型,该算法的计算复杂度为O(kmN).通过实验得知,与其他比对算法相比较,基于核心结构的比对算法准确性较高.
本文最后挑选了一些有代表性的测试数据集,用当前使用比较广泛的软件进行测试对比,实验结果表明核心结构的方法能够提高模板与查询序列之间的比对准确度,并且能够为目标序列构造更为合适的模板,是同源建模方法的一个有效进展.