基于后缀树的DNA序列进化树构建研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:jihuoxiazai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物序列比较是近年来迅速发展起来的一门学科,主要用来应对由分子生物学飞速发展所产生的巨大数据等问题。生物序列比较的常见方法有2种:序列的比对方法和序列的非比对方法。然而由于生物的全基因组序列比较长,比对方法计算量较大,我们利用序列的比对方法来直接分析序列间相似性在一些情况下是不可行的。序列的非比对方法不是具体的比较基对,而是将序列看成是一个整体并将其转化为数学对象,最终借助于数学工具对其进行分析比较。在本文中,我们使用序列的非比对方法来进行生物序列相似性的研究。后缀树模型是用来存储生物序列中每个位置处的后缀标识,它的提出为多方面的研究提供了高效率的保证。很多领域的国内外学者都从事过有关后缀树模型在实际应用方面的研究。后缀树模型在生物序列比较方面也有着重要的应用,例如Leimeister CA等人利用后缀树模型查找最长公共子串的位置来近似求取k个错配下最长公共子串的长度。本文基于后缀树模型提出了2种新的相异度量。第一种相异度量是基于每个后缀标识集在序列中对应的位置集。取两条生物序列后缀标识集的交集,对交集中所有后缀对应的位置集取并集,并求每条序列的并集中含有位置个数与序列长度的比值,最后用1减去比值中较大的一个;第二种相异度量是取两条序列长度中的较小值与基于后缀树模型找到这两条序列间的公共唯一后缀的个数,二者作差后除以长度中的较小值。经过测试,本文提出的方法可以分别对12条灵长目动物的生物序列、31条哺乳动物线粒体序列和48条E型肝炎病毒序列组成的数据集重构得到的进化树图示是符合当前的生物学分类的,并且本文方法对数据集重构的进化树结果优于现在已发表的文献中其他方法对数据集重建得到的进化树结果,或与现在已发表的文献中其他方法对这个数据集重构得到的进化树完全一致。
其他文献
品牌对企业的重要性是谁都知道的.但消费者消费的是产品,向往的是品牌,而不是企业.消费者往往是通过品牌而知道企业的.
目的通过对传统病案管理流程的再造,持续改进医疗数据与病案管理质量。方法使用戴明环(PDCA)方法指导流程再造,实现医院全员参与下的全流程病案管理质控。结论再造后的新流程有
紫杉醇是一种具有独特结构和独特作用机制的抗肿瘤药物,该药是从红豆杉属植物紫杉中提取并开发利用的天然广谱抗癌新药。自1992年FDA批准上市以来,紫杉醇独特的抗肿瘤作用日
分析了青海省柴达木地区草地资源分布、特点及存在问题,提出了发展该区草地畜牧业生产的九项措施.
以卫星导航系统授时性能测试为背景,对复杂电磁环境下我国卫星导航系统授时性能和接收机守时性能的测试原理进行了研究,分析影响授时和守时性能的主要因素及其关联关系,并给
<正> 关于复平面上的奇异积分方程的一般理论已有系统的研究(例如[1]),但从应用的观点看,对各种具有特殊奇异核的方程给出有效的解法仍是很有意义的。除具Cauchy核的特征方程
心智哲学家大多奉行认知的"涉身体验"观,主张语言使用建立在人的感知觉体验经验基础上,语言活动是心智活动的反映。本文基于对认知心理学中的"感知符号系统"理论的观察与理解