基于de bruijn图的并行de novo拼接技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:weizai111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的顺利完成,基因组学也随之进入了对于基因结构和功能分析的后基因组时代。与此同时,基因组的测序技术也向着更加快速、准确和经济的目标发展。如何快速、高通量以及低消耗地实现基因组的测序仍然是基因组学中一个基础而又十分重要的环节。新一代测序技术的序列数据(read)具有数据量大、序列长度短和准确性相对较低等特点,已有的序列拼接算法并不适应上述的数据特点。因此,适应新一代测序技术的序列拼接算法的进一步研究势在必行。目前,基于deBruijn图的序列拼接算法是基因组de novo测序拼接算法中的主要方法。该类方法利用deBruijn图来存储基因序列,具有节省内存开销、高准确性和高覆盖率等特点。本文针对基于新一代测序技术的基因组de novo测序拼接问题进行了较深入的研究,并取得了一些研究结果,具体归纳如下:首先,深入调研了生物信息学的产生、定义和发展过程;调研了基因组测序和DNA序列拼接中的主要技术;深入研究了基于de Bruijn图序列拼接算法的原理和对应的算法的计算流程。其次,针对新一代DNA测序数据的短序列、高通量、数据量大等特点,引入了决策表的概念以及用四叉树进行后继k-mer的选取方法,优化了基于deBruijn图序列拼接算法。再次,深入调研了基于MapReduce模型的deBruijn图序列拼接算法。并且,基于该模型提出了避免deBruijn图分块的具体方法和并行化方法,采用变化的K值构建de Bruijn图,实现了基于de Bruijn图的并行de novo拼接程序,并获取了拼接效率最高的拼接结果序列,最后,进行了大量的实验,并将实验结果和现有的算法的结果相比较。本文提出的基于deBruijn图的序列拼接算法的优化技术能够在一定程度上提高序列拼接的效率和准确率。基于MapReduce模型的de Bruijn图的序列拼接算法的并行化研究提高了 denovo算法的扩展性,大大提高了序列拼接的速度。基因组de novo拼接方法不利用任何参考序列,直接地基于基因组测序序列(reads)推导DNA序列,对于没有DNA参考序列的物种的基因组测序是唯一的方法。本文的研究结果对于更加准确、快速和高通量地DNA新一代测序具有一定的理论价值和实用价值。
其他文献
<正>有余数除法是一节经典的老课,使用老教材时笔者也执教过多次,都是先教无余数除法竖式,下一节课教有余数除法竖式。每次教下来,发现先教无余数除法竖式时,学生体验不到除
体育与生活有着十分密切的联系,它来源于生活而又作用于生活,这与陶行知的"生活教育"有着不谋而合的一致性。体育教学生活化是对体育新课程改革的贯彻,也是对陶行知教育思想
<正> 宋末政治家、诗人文天祥有句名言:“时穷节乃见,一一垂丹青”(《正气歌》)。意思是说,到了危急的关头,气节就表现出来了,一个个地名垂史册。南宋词人叶梦得一生中吐露爱
着重从现代商场空间的角度探讨功能与装饰之间的联系和统一,以及它们各自的作用。旨在发掘功能与装饰对商业运作的作用,运用新技术将商场空间设计的功能和装饰更加完美的结合
陶行知的体育思想是其教育思想的重要组成部分。(1)体育思想具有鲜明的爱国物色和时代特征;(2)学校体育内容具有革新精神;(3)对实施学校体育的途径、手段与措施作了可贵的探索和实践。在
医院作为服务组织和社会群众重点关注的机构之一,人们对医院提出了越来越高的要求。在这样的形势下,医院必须将人性化管理模式应用其中,促进医院向现代化发展。但当前医院在
<正> 李白的《花间独酌》,用饮酒写孤独,把饮酒写活,把孤独写绝。孤独是无形的,他写出了形,写得入骨三分,让人形象地感受得到,对影成三人,何等高超。一个人能写成三个人,越发
习近平总书记强调:“我们党对干部的要求,首先是政治上的要求。选拔任用干部,首先要看干部政治上清醒不清醒、坚定不坚定。”新修订的《干部任用条例》旗帜鲜明地把政治标准放在
报纸
<正>[教学内容]人教版四年级下册第83~84页。[教学目标]1.通过观察与操作,发现三角形角与边的特征,学会按一定的标准给三角形分类,感受三角形与日常生活的联系。
以Halliday的功能语法理论为基础的社会符号学分析,将包括图像意义的多模式话语的意义分为再现、互动和构图等相互交织的三种情况。本文从韩礼德的以功能语法理论为基础的社