论文部分内容阅读
基因组测序一直是基因组学的核心内容,随着测序技术的产生和发展,人们能在较短时间内获得大量测序数据。测序技术朝着高通量、低成本、高精度的方向发展,积累的测序数据也随之越来越多。如何快速、准确地处理海量测序数据已成为DNA测序发展的瓶颈。 本文通过对现有基于de Bruijn图算法的新一代测序技术优缺点的深入分析和研究,针对得到的read片段长度短、数量多以及通量高的特点,研究设计了基于de Bruijn图的优化算法。在序列拼接的过程中引入决策表的概念,通过决策表中的信息更新来优化de Bruijn图中最优路径的选择,缩小后继k-mer的选择范围,从而达到缩短序列拼接时间,提高contig准确率的目的。在优化算法的基础上,提出了算法的并行化处理方案,通过分别对I/O读取和存储的并行化以及拼接过程中的并行化设计,达到进一步缩短拼接时间,减少单机上存储压力,提高计算性能的目的。 仿真实验结果表明,本文提出的基于de Bruijn图算法的短序列拼接算法的优化及并行化设计与新一代测序技术中的基于de Bruijn图算法相比,有效提高了序列拼接的运算速度,降低了单机运行的内存压力。在拼接数据量为20G的C.elegans基因组,处理器为8个时,其加速比达到6倍,且具有良好的可扩展性。