【摘 要】
:
DNA序列拼接是基因组测序的核心问题之一。从1977年Sanger测序技术发明开始,到2005年第二代测序技术问世这段时间,DNA测序主要采用Sanger测序技术。Sanger测序技术测得的DNA片
论文部分内容阅读
DNA序列拼接是基因组测序的核心问题之一。从1977年Sanger测序技术发明开始,到2005年第二代测序技术问世这段时间,DNA测序主要采用Sanger测序技术。Sanger测序技术测得的DNA片段长度能达到1000bp,并且准确率能够达到99.999%。Sanger测序技术得到的DNA片段通常用交叠-排列-生成一致序列算法进行拼接。 与第一代测序技术相比,第二代测序技术测得的DNA片段具有长度较短、错误率较高以及通量大等特点。针对这些序列的特点,第二代测序技术当前有三种拼接策略:贪心算法,交叠-排列-生成一致序列算法,以及基于de Bruijn图的欧拉路径算法。这三者中前两者需要计算所有DNA片段的共有序列,具有较高的时间复杂度。基于de Bruijn图的欧拉路径算法通过将read拆分为k-mer将DNA拼接问题转换为求欧拉路径问题。欧拉路径问题有线性时间算法。 本文采用欧拉路径算法作为作DNA序列拼接算法。第二代测序技术的通量很高。第二代测序技术在一次运行能产生几G字节的read数据,基于de Bruijn图欧拉拼接算法将面临空间的瓶颈。本文描述一个基于de Bruijn图的并行拼接算法,该算法通过将由read拆分产生的k-mer分布存储在多个进程的哈希表中,并对k-mer编码降低内存消耗。DNA拼接并行执行,并通过发送和接收数据包在各个拼接进程之间共享数据。实验结果表明,该并行拼接算法具有近似线性的时间复杂度与空间复杂度,因而具有良好的可扩展性,能够解决较大规模基因组的序列拼接问题。
其他文献
OpenID标准化认证机制是新一代的单点登录解决方案,能够简化用户的操作流程、减少资源提供者认证系统的开销。OpenID的完整性保护作为多级安全的重要方面逐渐成为备受关注的
信息技术的飞速发展使得旅游信息呈爆炸式增长,面对海量的旅游资源,游客想要从中找到满足其需求的旅游信息变得日益困难;另一方面,游客的旅游观念也日益成熟和个性化,现有的旅游信
网络视频已经成为继门户、搜索引擎之后又一热门互联网应用。视频网站不仅需要提供优质的视频内容和良好的用户体验,还必须具备分析运营数据的能力,从而及时做出决策。互联网
随着互联网的快速发展,Web资源已成为企业获得竞争情报的重要来源。但是,从Web资源中获取的文本情报信息量往往比较大,来源广泛,不利于阅读分析,同时也存在着很多重复的内容,
随着微电子技术、计算技术以及无线通信技术的进步,低功耗多功能的传感器得到了快速的发展,而且无线传感器网络已经被广泛地应用。无线传感器网络以数据为中心,提供数据采集
结构光三维视觉技术中经常先要对编码结构光图像中的纹线进行检测,获取结构光纹线的边缘位置、边缘方向、角点等信息。由于物体形状、表面深度等三维信息的作用,还有图像拍摄
数据仓库中存储着海量数据,支持的查询形式复杂,如何达到查询的高效性是数据仓库面临的难题之一,物化视图是解决这一难题的重要手段。但是,物化视图带来了存储空间和视图维护
作为人类情感最直观的表达方式,人脸表情及其相关的研究工作已经在医疗、商业以及家庭生活等领域产生了深远的影响。本文对人脸表情系统中的特征提取和分类识别进行了分析研
旅行商问题是组合优化中最典型的NP完全问题之一,具有重要的理论与实际应用价值。由于NP完全问题无法用多项式算法解决,许多智能优化算法得以发展并用于求解TSP问题,例如模拟
图像压缩是数据压缩的一个重要分支,它的相关研究已经取得了重要的进展。为了实现对图像更有效的压缩,人们提出了许多理论和方法,分形图像编码就是其中之一。分形图像编码以