论文部分内容阅读
随着人类基因组计划的顺利完成,基因组学也随之进入了对于基因结构和功能分析的后基因组时代。与此同时,基因组的测序技术也向着更加快速、准确和经济的目标发展。如何快速、高通量以及低消耗地实现基因组的测序仍然是基因组学中一个基础而又十分重要的环节。新一代测序技术的序列数据(read)具有数据量大、序列长度短和准确性相对较低等特点,已有的序列拼接算法并不适应上述的数据特点。因此,适应新一代测序技术的序列拼接算法的进一步研究势在必行。目前,基于deBruijn图的序列拼接算法是基因组de novo测序拼接算法中的主要方法。该类方法利用deBruijn图来存储基因序列,具有节省内存开销、高准确性和高覆盖率等特点。本文针对基于新一代测序技术的基因组de novo测序拼接问题进行了较深入的研究,并取得了一些研究结果,具体归纳如下:首先,深入调研了生物信息学的产生、定义和发展过程;调研了基因组测序和DNA序列拼接中的主要技术;深入研究了基于de Bruijn图序列拼接算法的原理和对应的算法的计算流程。其次,针对新一代DNA测序数据的短序列、高通量、数据量大等特点,引入了决策表的概念以及用四叉树进行后继k-mer的选取方法,优化了基于deBruijn图序列拼接算法。再次,深入调研了基于MapReduce模型的deBruijn图序列拼接算法。并且,基于该模型提出了避免deBruijn图分块的具体方法和并行化方法,采用变化的K值构建de Bruijn图,实现了基于de Bruijn图的并行de novo拼接程序,并获取了拼接效率最高的拼接结果序列,最后,进行了大量的实验,并将实验结果和现有的算法的结果相比较。本文提出的基于deBruijn图的序列拼接算法的优化技术能够在一定程度上提高序列拼接的效率和准确率。基于MapReduce模型的de Bruijn图的序列拼接算法的并行化研究提高了 denovo算法的扩展性,大大提高了序列拼接的速度。基因组de novo拼接方法不利用任何参考序列,直接地基于基因组测序序列(reads)推导DNA序列,对于没有DNA参考序列的物种的基因组测序是唯一的方法。本文的研究结果对于更加准确、快速和高通量地DNA新一代测序具有一定的理论价值和实用价值。