基于FFT和k-mer划分的多序列比对

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:degr5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列比对是现代生物信息学中一个最基本的研究课题。随着生物数据库快速持续的增长,对多序列比对算法的敏感性和运算速度提出了更高的要求,开发具有高敏感性和高效率的算法成为当今研究的重点。本文提出一个新的算法KMD_MSA,它能在保持原来比对精度的前提下,降低比对的时间复杂度。本文首先介绍了序列比对涉及的基本问题:空位罚分,替换矩阵和比对结果评价标准。接着对基于渐进方法构建的多序列比对算法ClustalW进行了深入的研究。然后通过对这些算法的分析,对当前最流行的渐进比对提出了改进。MAFFT最早将分治思想应用到序列比对。它把快速傅立叶变换应用到序列比对,使得两序列比对的时间复杂度从O(L2)降低到O(LlgL)。通过把k-mer应用在序列比对中,并结合分治思想,本文提出了一个新的多序列比对方法:KMD_MSA。它通过快速的识别同源区域,把比对问题分成子问题予以解决。而寻找同源片断的时间复杂度也从O(LlgL)降低到O(L)。为了降低时间和空间复杂度,该方法包含两个技术:k-mer查找和压缩字母。为了验证比对效果,把KMD_MSA的性能同大多数当前流行的方法作以比较。实验结果表明KMD_MSA和其他方法具有可比的精度,而时间上却有更小的开销。这也证明该方法是有效的多序列比对方法。
其他文献
数据挖掘是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的高级处理过程。关联规则挖掘用于从大量数据中揭示项集之间的有趣关联或相关联系,是数据挖掘的一项
序列比对是现代生物信息学中一个最基本的研究课题。通过多序列比对,可以预测新序列的结构和功能,分析序列之间的同源关系,以及进行系统发育分析。本文首先介绍了序列比对涉
需求具有不同的抽象层次,用户与程序设计人员对于业务流程的考察角度与层次的不同,增加了系统设计的复杂度;同时,传统意义上的信息系统没有把管理逻辑与应用逻辑区别开来,使得现有
数据挖掘是信息技术自然演化的结果,是摆脱“数据丰富,知识缺乏”困境的有效途径。它是从大量数据中挖掘出有用的知识的一种方法,其应用涉及、金融业、零售业、电行业和生物医学
随着程序设计语言和计算机系统结构的发展,如何对新的语言特性和系统结构进行优化成为现代编译设计的核心。由于“存储墙问题”,循环中数组访问的时间占程序总执行时间的比重
人们在筹划路径时往往面临两方面的挑战:一是难以准确地从海量信息中筛选出符合需求的信息用于筹划路径,二是筹划一条路径涉及地点的筛选和时间的安排等,需要投入大量的精力。有
噪声污染作为当代四大污染之一,随着城市化的扩大而成为困扰人们生活的难题。设置防‘噪板是解决公路噪声污染的主要途径,因此,如何经济有效的检测防噪板隔音效果已成为研究热门
目前MIS系统开发主要是小型企业的开发模式,系统通过项目负责人(主要是导师)来承担项目的管理、运作以及项目维护,开发任务一般由导师领导研究生共同完成,但正是由于这种缺乏有
随着针对不同操作系统平台的应用的蓬勃发展,企业构建跨平台网络的需求越来越强烈。然而,异构网络为企业带来灵活性的同时,也暴露了许多管理、安全等方面的问题。各种平台的
光纤通信以廉价和优良的带宽特性,已经成为电信网的主要传输手段。同步数字体系(SDH)和同步光纤网络(SONET)主要以光纤为传输媒质,随着光纤通信的发展壮大,成为现代传输网络