论文部分内容阅读
系统发生学是一门研究生物进化规律和物种间遗传关系的学科,利用系统演化树来描述自然界中物种之间遗传关系,得到了较为广泛的关注和研究.用图论的方法研究系统发生学的问题,一般是将生物系统抽象为有向图结构.其中,节点表示生物系统中的个体,边表示生物之间的遗传关系.使用科学分类法,将有向图中的节点进行分类,可以得到具有层次结构的演化树。 已有的多数工作,往往是针对有限图中的子集进行分类,得到具有层次化结构的演化树.然而,有限图中总有一部分节点被忽略.这造成有限图中,有大量的节点未被分类.与此同时,也有一些工作试图对无限图中的节点进行分类,然而受无限集的限制,得到的分类往往不具有理想的层次结构,其分类方法无法得到有效的应用。 本文对有限图中紧类的节点分类方法进行扩展,提出了一种能同时对有限图和无限图中进行层次化分类的方法.首先,本文在有限图中定义了广义紧类,其次,本文在广义紧类的基础上定义了广义完备紧类,即不含有边界点的广义紧类.最后,本文提出了在有限图和无限图中搜索广义紧类的方法.同时,针对大数据中广泛存在的数据缺失和噪音,对算法进行优化,提出了加权的广义紧类搜索算法,对祖先半封闭性和子图连通性进行量化,通过设定经验阈值,提高潜在的广义紧类的搜索能力.利用加权的广义紧类搜索算法,能够高效且鲁棒地处理大规模的实验数据。 针对无限图,本文通过限定物种出现的时间,对出现在时间T之前的生物个体,按照有限图的方式,定义了时间限制的广义紧类,即条件紧类.一般来说,随着限制时间的改变,条件紧类可能会出现变化,相应的其限制集也会可能会出现变化.此外,针对不随时间变化而改变的分类,本文提出了一致紧类的概念.一致紧类与时间无关,表现为稳定的分类结果,其限制集不会随时间的变化而改变.利用有限图中的广义紧类搜索算法,能够确定条件紧类和一致紧类在时间限制下的限制集,从而根据子孙封闭性,得到条件紧类和一致紧类。 相对于已有方法,本文所用方法对于分类中的节点要求更低,更容易在图中搜索出较多分类集合.同时,本文还提出了搜索分类的算法,并且能够使用GPU进行加速.此外,本文通过使用加权的分类算法,得到了更为鲁棒的分类结果。