基于高能量测序数据的基因组拼接方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：dasaqa

【摘要】

：

高通量测序数据的基因组测序拼接是基因组学的核心内容。高通量测序数据具有通量高、reads长度短、错误率高的特点,对传统的基于Sanger数据的拼接方法提出了挑战,因此许多优

【作者】

：

朱晓

【出处】

：

哈尔滨工业大学

【发表日期】

：

2015年期

【关键词】

：

基因组拼接高通量测序数据分叉结构支持向量机向前查看方法拼接错误识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

高通量测序数据的基因组测序拼接是基因组学的核心内容。高通量测序数据具有通量高、reads长度短、错误率高的特点,对传统的基于Sanger数据的拼接方法提出了挑战,因此许多优秀的拼接方法应运而生。这些拼接方法主要基于交叠图和De Bruijn图,但其reads交叠长度或k-mer大小固定,这不利于处理拼接过程中出现的分叉(branches)和空隙(gaps),并且这些方法并未充分利用配对数据和单端数据来处理分叉结构。本文针对现有方法的不足,提出基于多重启发式的配对数据引导的拼接方法PERGA。拼接结果(称为contigs)中通常会出现一些拼接错误,目前有两类拼接错误识别方法:基于参考序列的检测方法(Reference-based approach)和无参考的检测方法(De novo approach)。前者未考虑结构变异的影响,后者在处理覆盖深度不均匀的数据时容易引入错误识别,因此这两类识别方法都存在一定的偏差(biases)。本文针对现有拼接错误识别方法的不足,提出无偏的(unbiased)拼接错误检测方法mis Finder。本文的主要内容包括:(1)基于支持向量机的分叉结构处理方法基因组拼接方法主要采用基于交叠图和De Bruijn图,并且在图中通常会出现分叉结构(branches),每个分叉对应一条路径(path),基因组拼接需要从众多候选路径中识别正确的路径。测序碱基错误(sequencing errors)和基因组的重复序列(repeats)是出现分叉结构的两个主要原因。我们分析分叉结构,根据分叉处的reads信息,提取能够区分正确路径和错误路径的特征,建立SVM预测模型,处理由于测序错误导致的分叉。(2)基于向前查看策略的分叉结构处理方法基因组中存在许多高度相似的非精确重复序列(nonexact repeats)和短串联重复序列(short tandem repeats,如长度<100 bp,相邻的两副本的间距<100 bp)。这些重复序列将会在拼接过程中导致分叉。SVM预测模型只考虑分叉处及其之前较短距离的局部分叉信息,并未考虑分叉之后的信息。我们设计了向前查看的方法来处理由于非精确重复序列导致的“气泡结构”,以及由于短串联重复序列导致的分叉,分离其不同的副本,使分叉信息的处理更加准确,提高拼接结果的质量。(3)基于多重启发式的基因组拼接方法现有拼接方法采用固定的交叠长度,不能有效地处理基因组中存在的重复序列和低覆盖区域的gaps,并且未充分利用配对数据和单端数据。针对现有方法存在的不足,我们提出配对数据引导的基因组拼接方法PERGA,以便更好地使用配对数据和单端数据处理分叉结构。PERGA采用多重启发式引导拼接:i)优先使用配对数据扩展contigs,并优先考虑与contigs具有最大交叠的配对数据;ii)如果没有配对数据,则使用与contigs具有最大交叠的单端数据进行扩展;iii)在contigs的扩展过程中遇到分叉时,根据当前的contigs的数据特征,使用SVM预测模型选择路径;iv)如果路径是不能区分的,则在分叉处使用向前查看方法处理非精确重复序列和短串联重复序列。(4)无偏的基因组拼接错误识别方法由于高通量测序数据的reads长度过短,导致基因组拼接结果引入拼接错误,对下游数据分析产生不利影响。基于参考序列的检测方法将拼接结果与参考基因组之间的差异直接视为拼接错误,并未考虑结构变异的影响;无参考的检测方法通过分析比对到拼接结果上的配对reads信息的不一致特征识别错误,容易引入计算偏差。结合上述两种方法,我们提出无偏的基因组拼接检错方法mis Finder,充分利用参考序列和比对到拼接结果上的配对数据信息,根据错拼处的reads数据的多种不一致特征,更加准确地识别拼接错误。

其他文献

注射用过氧化碳酰胺治疗危重症患者低氧血症的疗效观察

目的探讨注射用过氧化碳酰胺对危重病患者低氧血症的疗效。方法50例来自ICU合并低氧血症的危重病患者给予注射用过氧化碳酰胺1g加入5%葡萄糖注射液100ml,缓慢静滴,每日1～2g,连

期刊

注射用过氧化碳酰胺危重病低氧血症

基于“优酷”+“问卷星”的地理混合式教学探讨——以鲁教版必修二“影响工业区位的因素”为例

网课以可视性、灵活性受到学生和家长的欢迎,主要有录播与直播两种形式。文章依托"优酷"录播与"问卷星"双平台尝试混合教学,以地理教学案例进行设计实施,并总结其特色。

期刊

优酷问卷星混合式教学

孙申影作品

期刊

论我国热处理能源结构改变的必要性（一）

由于资源勘探开发和历史上过分依赖于外援的原因，我国机械工业的热处理设备90％以上用电。电是二次能源，发电效率一般为30％－35％，即使电阻炉加热的热效率能最高达到80％，而综合的热效率却

期刊

能源结构热效率天然气热处理中国热处理炉

地方文化研学旅行实践探索——以常州青果巷为例

研学旅行是旅游与教育教学的结合,有助于提高学生的综合素养。地方文化是一个地区的特色宝藏,具有重要的研学旅行实践价值,但目前地方文化研学旅行活动实践尚未受到重视。文

期刊

地理核心素养地方文化研学旅行青果巷

基于交易效率的中间商参与分析

“从渠道为王到信息时代中间商必将灭亡，再到中间商繁荣了渠道形式”中间商的存在经历了这样一个波折。为了进一步研究中间商存在的必要性和条件，文章首先从商品价值增值的角度

期刊

中间商异质性交易效率临界价格

人参须药材中重金属残留量的测定

目的：对11批人参须药材重金属残留量进行测定。方法：依据2015年版《中华人民共和国药典》通则2321：铅、镉、砷、汞、铜测定法项下,对铅、镉、砷、汞、铜的残留量进行了测定。结

期刊

人参须原子吸收光谱法残留量Ginseng LeptoradixAtomic absorption spectrometry（AAS）Residue

2007年北京房地产价格走势分析

本文从宏观经济、地价、国外房价、居民收入、市场需求和关联性等角度，分析了2007年北京房地产价格走势，认为2007年北京房地产价格将“继续坚挺，稳步增长”。

期刊

房地产价格走势

心理护理在慢性前列腺炎治疗中的应用

慢性前列腺炎是常见的成年男性泌尿系统疾病,病程往往较长,对患者的身心和日常生活造成影响。近年来,随着生活节奏加快,慢性前列腺炎的发病率呈现逐年上升趋势,困扰着广大的

期刊

慢性前列腺炎心理疏导心理障碍泌尿系统疾病心理护理尿路症状精神类疾病尿道内压力患者主要症状专科护士

浅析我国高校财务风险的规避

我国高校在利用银行贷款解决了高等教育扩招所面临的土地校舍不够、教学科研设备陈旧等制约高校发展的瓶颈问题，为学校的队伍建设、学科建设、基本建设提供了资金保证的同时也

期刊

高校贷款财务风险

基于高能量测序数据的基因组拼接方法研究

与本文相关的学术论文