高通量转录组测序片段快速比对算法研究

被引量 : 0次 | 上传用户:dickui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因序列比对技术是基因序列数据分析的重要组成部分,也是人们深入了解生物的遗传特性,分析各种疾病,预防和抵御各种传染疾病的基础。新一代测序技术产生序列数据的速度更快,通量更高。因此出现了很多新型的RNA序列比对工具。然而,高速,精确地比对高通量RNA序列数据是一项非常具有挑战性的任务,当前新型的RNA序列比对工具在速度和准确率方面仍然有一定的不足。因此,开发一款速度快,准确率高的RNA序列比对工具是一项非常有意义的工作。本文提出了一个高通量转录组测序片段快速比对工具RNA-fat。RNA-fat利用种子在read和参考基因组上位置的关系识别种子间的剪切点和结构性变异,并且通过对种子构图,高效地寻找种子覆盖read的最优路径。由于选择出的最优路径对read具有很高的覆盖度,算法在序列比对阶段的计算量大幅降低。RNA-fat对参考基因组构建De Bruijn图,提取De Bruijn图中所有的单一路径并进行排序,最终生成RNA-fat的索引。该索引由三个相互关联的子索引构成,且具有非常高的查询效率。在剪切和结构性变异的影响下,read未覆盖区域的比对边界在read上会出现交叉,在参考基因组上会出现长空位。为了保证序列比对的准确性,RNA-fat对每一种情况进行判断,精确计算出read未覆盖区域在read和参考基因组上的比对边界,并采用不同的比对策略进行序列比对。通过实验数据,我们首先验证了最优覆盖路径的准确性,这就为未覆盖区域比对边界搜索的准确性打下了基础。通过对寻找最优路径的动态规划算法优化前后的效率对比,我们验证了二维线段树对RNA-fat性能优化的显著作用。最后,我们将RNA-fat和现有的RNA序列比对工具在相同的实验环境和实验数据下进行性能对比,我们发现RNA-fat具有高通量,速度快的优势,且在read比对的正确率和碱基比对的正确率方面与现有RNA序列比对工具相当。
其他文献
通过对部分金融机构会计年报表的分析,反映出金融机构表外科目发生比较单一,农村信用社的表科目设置不全面。为此建议:一是统一表外业务的核算对象;二是改革表外业务账务组织
<正>鼻咽癌是我国常见的恶性肿瘤之一,5年生存率约为40%~50%,远处转移为主要的死亡原因之一,死亡患者的远处转移高达45%~60%[1],远处转移部位以骨转移最为常见。有作者报告骨转
对模块化的研究众说纷纭,各执一词。本文认为,对模块化的认识主要围绕着“产品模块化”和“设计模块化”两条主线展开。产品模块化建立在分工和专业化协作基础上,以效率为原则。
目的:了解万拉法新治疗脑卒中后焦虑抑郁的疗效及不良反应。方法:对脑卒中伴发焦虑抑郁的患者,在治疗前、后1、2、3、4周末分别以焦虑量表(HAMA)、抑郁量表(HAMD)、不良反应
弦理论提出了宇宙最基本的物质组成要素是完全相同的一维的弦 ,弦的各种不同的振动模式形成粒子的物理性质 .对弦理论探索的关注 ,有利于不同思想观念的相互交汇、启发与综合
拌合物流变性能直接决定了混凝土的施工难易程度和施工质量,因而流变性能是现代混凝土配合比设计中最重要的技术指标之一。目前,国内外绝大多数研究和现行混凝土配合比设计规
<正>张小姐脸上有一个黄豆大的痣,很影响面部美观,于是便到一家美容院做药物腐蚀祛痣,一周后,脸上的痣消失了,但随即却出现了一道凹陷的、难以修复的疤痕,她感到很后悔。难道
智慧城市这个炙手可热的概念作为新一代城市形态正慢慢渗透于民生、经济、生态等决定城市规划与管理的重要方面。依托趋于成熟的信息技术搭建一个广物联、强互联、高智能的城
当以M序列信号作为输入信号时,传统的相关辨识方法在序列长度小的情况下辨识精度不高且容易受到噪声干扰的影响。在研究先前相关辨识法的基础上,利用带有遗忘因子的最小二乘
针对目前学术界对劳动合同的解除和终止的不同理解。本文以我国劳动合同法为根据,就劳动合同解除和终止的概念、解除的条件、终止的法定事由,以及劳动合同解除或者终止的经济