论文部分内容阅读
长序列测序技术的出现与快速发展,为大规模物种测序计划的高质量实施提供了坚实的基础。通过长序列测序数据拼接单倍体重叠群,并结合多种测序数据组装单倍体基因组序列,已经成为当前计算机科学与生物信息学研究的热点问题。然而,现有的单倍体基因组序列组装方法在低冗余或无冗余的单倍体重叠群生成、高连续性单倍体基因组序列产生和单倍体基因组序列拼接错误识别三个方面存在问题,极大限制了高质量基因组序列的有效构建。单倍体基因组序列组装属于基因组学研究的上游环节,其序列组装的质量对于基因组下游分析有着直接影响,特别是在基因组变异检测、基因组注释、基因调控元件分析、进化分析等方面起决定性作用。本文围绕着高效地生成高质量单倍体基因组序列的组装方法展开重点研究,主要研究内容如下:(1)针对现有高测错率单分子测序数据比对方法效率较低的问题,研究基于区域哈希索引和稀疏动态比对算法的单分子测序序列比对方法RHAT。该方法通过对参考基因组序列建立区域哈希索引,并结合局部序列选种的策略,实现比对候选区域的快速筛选;利用稀疏动态规划算法对测序序列与候选区域进行比对,实现比对效率的提升。该方法将为本文“冗余杂合序列清除和拼接错误检测”研究提供高效比对方法,同时还可应用到变异检测等其它基因组学研究领域,具有重要的实用价值。(2)针对单倍体重叠群序列中普遍存在冗余杂合序列的问题,研究基于测序深度分布和序列间相似性的冗余杂合序列清除方法Purge_dups。该方法通过平滑单倍体重叠群测序深度分布,实现杂合序列测序深度区间的自动识别;通过分析重叠群测序深度分布和序列间的包含关系,实现整条冗余杂合序列的识别与清除;利用动态规划算法求解重叠群序列的共线性匹配区间,实现局部冗余杂合序列的识别与清除。该方法将有效降低单倍体重叠群的冗余性,提高后续单倍体基因组序列组装的连续性和正确性。Purge_dups已应用于“脊椎动物基因组计划”,处理了近60种脊椎动物的基因组序列。(3)针对面向Hi-C测序数据的单倍体基因组序列组装连续性较低的问题,研究基于拼接序列划分和N-最优配对的单倍体基因组序列组装方法Pin_hic。该方法通过构建划分后拼接序列间的连接矩阵,减少单倍体基因组构建中的组装错误;通过N-最优配对的策略增加拼接序列间的候选连接,提高单倍体基因组序列的连续性;通过对测序深度分布的分析,切断潜在的错误连接以实现正确基因组序列的构建。该方法将用于高连续性单倍体基因组序列的构建。(4)针对单倍体基因组序列拼接错误检测方法正确性较低的问题,研究集成多种测序数据的单倍体基因组序列拼接错误检测方法Asset。该方法通过分析单分子测序数据的测序深度分布信息、光谱连续图谱数据的比对信息,检测基因组序列碱基区间的拼接错误;通过分析光谱连续图谱数据的比对信息、linked read测序数据的DNA分子测序深度分布信息、Hi-C测序数据的连接矩阵信息,检测基因组连接区间的拼接错误;通过分析包含拼接错误的碱基区间和连接区间的融合信息,全面识别潜在的拼接错误区间。该方法能够正确地检测单倍体基因组序列中的拼接错误,可作为辅助工具协助人工纠错或评价基因组序列的正确性。Asset已应用在“脊椎动物基因组计划”,并完成了部分脊椎动物基因组序列的纠错工作。本研究以实现高连续性、高正确性的单倍体基因组序列构建为目标,通过结合多种类型的测序数据,建立了一系列具有针对性和实用性的可用于单倍体基因组序列组装的算法,将有效降低单倍体重叠群的冗余性,全面提升单倍体基因组序列的连续性和正确性。这些工作将有助于解决现阶段物种基因组序列构建的多项瓶颈问题,为单倍体基因组序列组装算法研究提供了新的研究角度和分析思路。