论文部分内容阅读
生物序列比较是近年来迅速发展起来的一门学科,主要用来应对由分子生物学飞速发展所产生的巨大数据等问题。生物序列比较的常见方法有2种:序列的比对方法和序列的非比对方法。然而由于生物的全基因组序列比较长,比对方法计算量较大,我们利用序列的比对方法来直接分析序列间相似性在一些情况下是不可行的。序列的非比对方法不是具体的比较基对,而是将序列看成是一个整体并将其转化为数学对象,最终借助于数学工具对其进行分析比较。在本文中,我们使用序列的非比对方法来进行生物序列相似性的研究。后缀树模型是用来存储生物序列中每个位置处的后缀标识,它的提出为多方面的研究提供了高效率的保证。很多领域的国内外学者都从事过有关后缀树模型在实际应用方面的研究。后缀树模型在生物序列比较方面也有着重要的应用,例如Leimeister CA等人利用后缀树模型查找最长公共子串的位置来近似求取k个错配下最长公共子串的长度。本文基于后缀树模型提出了2种新的相异度量。第一种相异度量是基于每个后缀标识集在序列中对应的位置集。取两条生物序列后缀标识集的交集,对交集中所有后缀对应的位置集取并集,并求每条序列的并集中含有位置个数与序列长度的比值,最后用1减去比值中较大的一个;第二种相异度量是取两条序列长度中的较小值与基于后缀树模型找到这两条序列间的公共唯一后缀的个数,二者作差后除以长度中的较小值。经过测试,本文提出的方法可以分别对12条灵长目动物的生物序列、31条哺乳动物线粒体序列和48条E型肝炎病毒序列组成的数据集重构得到的进化树图示是符合当前的生物学分类的,并且本文方法对数据集重构的进化树结果优于现在已发表的文献中其他方法对数据集重建得到的进化树结果,或与现在已发表的文献中其他方法对这个数据集重构得到的进化树完全一致。