基于高通量测序数据的基因组拼接方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sun3kai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高通量测序数据的基因组测序拼接是基因组学的核心内容。高通量测序数据具有通量高、reads长度短、错误率高的特点,对传统的基于Sanger数据的拼接方法提出了挑战,因此许多优秀的拼接方法应运而生。这些拼接方法主要基于交叠图和De Bruijn图,但其reads交叠长度或k-mer大小固定,这不利于处理拼接过程中出现的分叉(branches)和空隙(gaps),并且这些方法并未充分利用配对数据和单端数据来处理分叉结构。本文针对现有方法的不足,提出基于多重启发式的配对数据引导的拼接方法PERGA。  拼接结果(称为 contigs)中通常会出现一些拼接错误,目前有两类拼接错误识别方法:基于参考序列的检测方法(Reference-based approach)和无参考的检测方法(De novo approach)。前者未考虑结构变异的影响,后者在处理覆盖深度不均匀的数据时容易引入错误识别,因此这两类识别方法都存在一定的偏差(biases)。本文针对现有拼接错误识别方法的不足,提出无偏的(unbiased)拼接错误检测方法misFinder。  本文的主要内容包括:  (1)基于支持向量机的分叉结构处理方法  基因组拼接方法主要采用基于交叠图和De Bruijn图,并且在图中通常会出现分叉结构(branches),每个分叉对应一条路径(path),基因组拼接需要从众多候选路径中识别正确的路径。测序碱基错误(sequencing errors)和基因组的重复序列(repeats)是出现分叉结构的两个主要原因。我们分析分叉结构,根据分叉处的reads信息,提取能够区分正确路径和错误路径的特征,建立SVM预测模型,处理由于测序错误导致的分叉。  (2)基于向前查看策略的分叉结构处理方法  基因组中存在许多高度相似的非精确重复序列(nonexact repeats)和短串联重复序列(short tandem repeats,如长度<100 bp,相邻的两副本的间距<100 bp)。这些重复序列将会在拼接过程中导致分叉。SVM预测模型只考虑分叉处及其之前较短距离的局部分叉信息,并未考虑分叉之后的信息。我们设计了向前查看的方法来处理由于非精确重复序列导致的“气泡结构”,以及由于短串联重复序列导致的分叉,分离其不同的副本,使分叉信息的处理更加准确,提高拼接结果的质量。  (3)基于多重启发式的基因组拼接方法  现有拼接方法采用固定的交叠长度,不能有效地处理基因组中存在的重复序列和低覆盖区域的gaps,并且未充分利用配对数据和单端数据。针对现有方法存在的不足,我们提出配对数据引导的基因组拼接方法PERGA,以便更好地使用配对数据和单端数据处理分叉结构。PERGA采用多重启发式引导拼接:i)优先使用配对数据扩展 contigs,并优先考虑与 contigs具有最大交叠的配对数据;ii)如果没有配对数据,则使用与 contigs具有最大交叠的单端数据进行扩展;iii)在contigs的扩展过程中遇到分叉时,根据当前的contigs的数据特征,使用SVM预测模型选择路径;iv)如果路径是不能区分的,则在分叉处使用向前查看方法处理非精确重复序列和短串联重复序列。  (4)无偏的基因组拼接错误识别方法  由于高通量测序数据的reads长度过短,导致基因组拼接结果引入拼接错误,对下游数据分析产生不利影响。基于参考序列的检测方法将拼接结果与参考基因组之间的差异直接视为拼接错误,并未考虑结构变异的影响;无参考的检测方法通过分析比对到拼接结果上的配对reads信息的不一致特征识别错误,容易引入计算偏差。结合上述两种方法,我们提出无偏的基因组拼接检错方法misFinder,充分利用参考序列和比对到拼接结果上的配对数据信息,根据错拼处的reads数据的多种不一致特征,更加准确地识别拼接错误。
其他文献
本论文以研究和建立满足新一代网络发展需求的网络体系结构建模方法作为主要出发点,重点展开了对于面向服务的网络系统形式化描述和验证的相关研究。本文对传统网络体系结构及
无线传感器网络由许多具有低功率无线收发装置的传感器节点组成,能够有效地从不同环境监测收集周边环境信息并传送到远处的基站进行处理。传感器节点由电池提供能量,通常通过
随着无线计算机网络的广泛应用,研究无线网络的基础理论与关键技术具有越来越大的科学和经济价值。其中,如何提高无线网络传输控制协议的性能是无线网络研究的一个重要课题。
存储网格中数据量的高速增长对存储系统的可靠性和扩展性提出了挑战,大量数据和计算能力的分布,迫切需要在存储虚拟化中提供数据副本机制。数据副本机制可以减少数据访问延迟
视频监视系统在现代社会发挥着越来越重要的作用,它广泛应用于国防建设、交通管制、以及一些实时性的公共安全。但是现有的大多数视频监视系统仍依赖于监视人员的现场操作和
大多数移动用户在现实生活中的移动行为都有一定规律,如果对其移动日志进行研究,将会找到这些规律,我们称之为用户移动模式。用户移动模式在移动通信网络规划设计、移动性管
P2P技术作为互联网领域的一项新兴技术,以其非中心化、可扩展性强、负载均衡和健壮性等特点迅速成为计算机领域研究及应用的热点。当今的P2P技术正以日新月异的速度向前发展,
随着数字化、信息化时代的到来,多媒体信息大量涌现,图像数据也随之飞速增长,在气象、医疗、交通和军事等众多领域被大量地应用。与此同时如何对大量的图像数据进行快速、有
当今是一个经济全球化、消费个性化、业务数字化、生产过程复杂多样,市场瞬息万变的信息化时代。在这样的大环境下,中小型汽车制造业面对的比以往任何时期都要多的竞争者。为
传统的数据库是被动的,由用户或程序驱动,只有当用户或应用程序提出明确要求时才执行事务操作。主动数据库的一个很突出的思想是要让数据库系统具有各种主动进行服务的功能,