基于de Bruijn图的短序列拼接算法的优化及并行化

来源 :中南大学 | 被引量 : 0次 | 上传用户:cytunyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组测序一直是基因组学的核心内容,随着测序技术的产生和发展,人们能在较短时间内获得大量测序数据。测序技术朝着高通量、低成本、高精度的方向发展,积累的测序数据也随之越来越多。如何快速、准确地处理海量测序数据已成为DNA测序发展的瓶颈。  本文通过对现有基于de Bruijn图算法的新一代测序技术优缺点的深入分析和研究,针对得到的read片段长度短、数量多以及通量高的特点,研究设计了基于de Bruijn图的优化算法。在序列拼接的过程中引入决策表的概念,通过决策表中的信息更新来优化de Bruijn图中最优路径的选择,缩小后继k-mer的选择范围,从而达到缩短序列拼接时间,提高contig准确率的目的。在优化算法的基础上,提出了算法的并行化处理方案,通过分别对I/O读取和存储的并行化以及拼接过程中的并行化设计,达到进一步缩短拼接时间,减少单机上存储压力,提高计算性能的目的。  仿真实验结果表明,本文提出的基于de Bruijn图算法的短序列拼接算法的优化及并行化设计与新一代测序技术中的基于de Bruijn图算法相比,有效提高了序列拼接的运算速度,降低了单机运行的内存压力。在拼接数据量为20G的C.elegans基因组,处理器为8个时,其加速比达到6倍,且具有良好的可扩展性。
其他文献
工作流成批处理,是指将同一类型活动的多个工作流活动实例进行整合处理,使得原本多个工作流活动实例的分别执行变成组合执行,从而降低活动执行成本和提高活动执行效率。然而,由于
随着我国城市化进程的加快,城市机动车数量在急剧增长,这对传统的交通管理方法提出了新的挑战。目前,交通管理问题已成为城市管理的重要问题。现代智能交通管理系统就是为应对城
随着人机交互,三维动画,游戏,体育运动分析,医疗诊断和虚拟现实等领域的迅速发展,人体运动捕获系统作为其关键技术,已成为这些领域的研究重点。目前市场上,基于带标记点的人体运动捕
随着web2.0时代的到来,网络已经成为人们生活与交流的重要工具。人们在网络上发表对某一事件或者产品的意见或者评论。如何挖掘产品评论中的有用信息即意见挖掘任务,成为自然语
本论文隶属于国家自然科学基金项目:无线传感器网络中基于时间序列相关性的低能耗数据获取方法研究(No.60970112)。无线传感器网络应用规模日趋扩大,因其能源限制等特点导致故障
遗传算法是模拟生物在自然环境中的遗传和进化过程而形成的一种全局概率搜索算法。鉴于该算法具有收敛速度太慢、容易陷入局部最优解的缺点,本文结合模拟退火机制、小生境技术
汽车产业的不断发展在给我们带来便利的同时,也产生了很多其它问题,如:城市交通拥堵、道路交通事故以及恶劣天气下道路交通安全等。车载自组织网络(VehicularAd hoc Networks, VA
社会学中投票问题的研究由来已久,现在它已经广泛地应用于计算理论领域,在人工智能、生物信息学以及图编辑问题中扮演了重要角色。参数计算理论是精确求解NP难问题的新方法,受到
组合Web服务是网构化软件的核心内容,它的运行正确性直接关系到它的可用性和用户满意度。组合Web服务的执行流程通常用“业务流程执行语言”(BPEL)进行描述。当前实践表明,由
随着互联网技术的迅猛发展,大量信息会在同一时间呈现在我们眼前,海量的信息源能提供丰富的情报信息来源,这些情报越来越受到情报人员的重视,而传统互联网应用无法针对不同用