论文部分内容阅读
基因组拼接(genome assembly)作为基因组学研究的核心技术,一直是测序数据分析中的重点和难点。它包含两部分:将测序短读段拼接成重叠群(contig)和基于连接信息把重叠群进一步组装成基因组骨架(scaffold)。针对高通量测序数据,重叠群的组装主要是利用德布鲁因图的拼接算法,目前已经研究的较为深入且效果良好。然而,如何将重叠群进一步组装成更完整的基因组骨架,由于其问题的复杂性和基于配对连接信息的组装策略本身忽略了重叠群之间的关联性,使得其对短片段重复序列富集的区域的处理并不完善。这部分序列的缺失会导致基因断裂,使某些关键遗传信息在后续的研究分析中被遗漏。 为了解决短片段重复序列对基因组组装的影响,得到高质量、连续性更好的组装结果,本文提出一个结合直接连接信息图(Direct link graph)和间接连接信息图(Paired-end link graph)的基因组组装算法inGAP-sf。其中,直接连接信息有更好的拓扑性,加入它可有效增加图的连通性,降低图的复杂性,且有助于短片段重复序列的组装;间接连接信息可监督在直接连接信息图上的遍历,进而使得短片段重复序列被组合在一起,并可以被拆分到不同路径中。由于遍历路径数量大大增加,本研究中还提出了一个基于配对读段支持度估计的模型(Statistic-based read pairs support estimation model),用于去除路径噪音。另外,针对有偏倚的库长,本研究中使用GMM模型和EM算法来得到更精确的间隙大小,也是提高组装效果的一个原因。 此外本研究中还提出了一个基于拼接断点的基因组组装评估模型,以便更加细致的对组装结果进行衡量。根据对算法中关键模块的细致评估,如引入直接连接信息图的优势,间隙大小估计的准确性,配对读段支持度估计模型的准确性和路径筛选模型的可靠性来证明本研究的算法各方面的实用性。通过各个组装软件在有针对性设计的模拟数据集上和不同的测序数据集上的表现的评估,表现该方法在可接受的运行时间和计算资源消耗情况下,可以适用于多种中小型基因组的组装,证明方法可以有效解决短片段重复序列的组装问题,并且提高了基因组组装的完整性、连续性和准确性。