单倍体基因组序列组装方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hanbing5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长序列测序技术的出现与快速发展,为大规模物种测序计划的高质量实施提供了坚实的基础。通过长序列测序数据拼接单倍体重叠群,并结合多种测序数据组装单倍体基因组序列,已经成为当前计算机科学与生物信息学研究的热点问题。然而,现有的单倍体基因组序列组装方法在低冗余或无冗余的单倍体重叠群生成、高连续性单倍体基因组序列产生和单倍体基因组序列拼接错误识别三个方面存在问题,极大限制了高质量基因组序列的有效构建。单倍体基因组序列组装属于基因组学研究的上游环节,其序列组装的质量对于基因组下游分析有着直接影响,特别是在基因组变异检测、基因组注释、基因调控元件分析、进化分析等方面起决定性作用。本文围绕着高效地生成高质量单倍体基因组序列的组装方法展开重点研究,主要研究内容如下:(1)针对现有高测错率单分子测序数据比对方法效率较低的问题,研究基于区域哈希索引和稀疏动态比对算法的单分子测序序列比对方法RHAT。该方法通过对参考基因组序列建立区域哈希索引,并结合局部序列选种的策略,实现比对候选区域的快速筛选;利用稀疏动态规划算法对测序序列与候选区域进行比对,实现比对效率的提升。该方法将为本文“冗余杂合序列清除和拼接错误检测”研究提供高效比对方法,同时还可应用到变异检测等其它基因组学研究领域,具有重要的实用价值。(2)针对单倍体重叠群序列中普遍存在冗余杂合序列的问题,研究基于测序深度分布和序列间相似性的冗余杂合序列清除方法Purge_dups。该方法通过平滑单倍体重叠群测序深度分布,实现杂合序列测序深度区间的自动识别;通过分析重叠群测序深度分布和序列间的包含关系,实现整条冗余杂合序列的识别与清除;利用动态规划算法求解重叠群序列的共线性匹配区间,实现局部冗余杂合序列的识别与清除。该方法将有效降低单倍体重叠群的冗余性,提高后续单倍体基因组序列组装的连续性和正确性。Purge_dups已应用于“脊椎动物基因组计划”,处理了近60种脊椎动物的基因组序列。(3)针对面向Hi-C测序数据的单倍体基因组序列组装连续性较低的问题,研究基于拼接序列划分和N-最优配对的单倍体基因组序列组装方法Pin_hic。该方法通过构建划分后拼接序列间的连接矩阵,减少单倍体基因组构建中的组装错误;通过N-最优配对的策略增加拼接序列间的候选连接,提高单倍体基因组序列的连续性;通过对测序深度分布的分析,切断潜在的错误连接以实现正确基因组序列的构建。该方法将用于高连续性单倍体基因组序列的构建。(4)针对单倍体基因组序列拼接错误检测方法正确性较低的问题,研究集成多种测序数据的单倍体基因组序列拼接错误检测方法Asset。该方法通过分析单分子测序数据的测序深度分布信息、光谱连续图谱数据的比对信息,检测基因组序列碱基区间的拼接错误;通过分析光谱连续图谱数据的比对信息、linked read测序数据的DNA分子测序深度分布信息、Hi-C测序数据的连接矩阵信息,检测基因组连接区间的拼接错误;通过分析包含拼接错误的碱基区间和连接区间的融合信息,全面识别潜在的拼接错误区间。该方法能够正确地检测单倍体基因组序列中的拼接错误,可作为辅助工具协助人工纠错或评价基因组序列的正确性。Asset已应用在“脊椎动物基因组计划”,并完成了部分脊椎动物基因组序列的纠错工作。本研究以实现高连续性、高正确性的单倍体基因组序列构建为目标,通过结合多种类型的测序数据,建立了一系列具有针对性和实用性的可用于单倍体基因组序列组装的算法,将有效降低单倍体重叠群的冗余性,全面提升单倍体基因组序列的连续性和正确性。这些工作将有助于解决现阶段物种基因组序列构建的多项瓶颈问题,为单倍体基因组序列组装算法研究提供了新的研究角度和分析思路。
其他文献
目的以18周岁为年龄分界、以20mm为房间隔缺损(atrialseptaldefect,ASD)大小分界,比较经导管封堵和外科手术2种治疗方法的安全性和有效性。方法按照患者年龄及房间隔缺损大小分为
改革开放40年以来,国内涌现出了一大批杰出人物,尤其在经济建设领域和科技领域等,为记录这些人物的先进事迹和时代精神风貌,中央电视台财经频道制播了一部大型财经人物报道专
国际合作办学会计专业的一大特色就是双语教学,目前我国的会计双语教学已经取得了显著的成绩,然而在师资力量、学生外语语言能力、教材选择、教学方法等诸多方面仍存在着问题
十字花科芸薹属物种中包含了许多蔬菜以及油料作物,包括我们常见的白菜、甘蓝、芥菜和油菜。同时,芸薹属物种在进化过程中经历过数次多倍化事件,是研究多倍体进化的非常理想
本报告基于《中国和印度在非洲的开发合作——南方大国的崛起》一书第四章至第六章的英汉翻译实践而撰写。源文本研究中国和印度两国对非洲进行开发合作的原因,属政治类文本,学术性强,句式结构复杂,多为长难句,文本中遣词造句、篇章布局的逻辑性较为明显。本报告针对源文本中的逻辑性再现问题进行探讨。翻译中遇到的逻辑性再现问题体现在词汇、句子以及段落三个层面。针对不同层面的问题,译者利用逻辑学相关知识并结合具体案例
六维力传感器是测力信息最全的一类传感器,可以将空间范围内不断变化的力/力矩信息测量出来,因测量力/力矩信息较为完整,在世界范围内得到了广泛应用。但现有六维力传感器都在不同程度上存在着一些问题,如:1)六维力传感器的感知单元一直未革新,多数采用应变片作为感知单元,但应变片存在形变极限,易损坏的问题,大量程情况下,灵敏度低;2)仍采用应变片贴片技术,长期服役会导致应变片性能劣化、粘合层胶脱落问题;3)
启动诉讼程序、解决民事纠纷的前提条件是正确处理民事诉讼当事人适格的问题。作为连接民事实体与程序的纽带,当事人适格不仅关系到法院的裁判权而且还关系到当事人的诉权。