基于高通量测序数据的基因组序列比对方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:linfenrir
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量基因组测序技术的不断发展,基因组、转录组、蛋白质组等组学研究得到了巨大的进步,有效推动了生物信息学、基因组学和临床医学等学科的跨越式发展。一般而言,围绕高通量测序数据展开的科学研究,其首要环节需要将测序产生的序列片段与参考基因组进行比对,进而重构出被测序样本真实的基因组序列和变异信息。因此,研究面向高通量测序数据的序列比对算法对高通量测序数据的分析与解读具有十分重要的意义。然而,由于基因组中存在大量重复性序列、参考基因组与个体基因组存在偏差以及测序错误难以避免等因素,当前的序列比对方法仍然存在比对准确性低、敏感性不足、比对速度慢等问题,迫切需要开发更加有效的高通量测序数据序列比对方法。本文围绕基于高通量测序数据的基因组序列比对问题开展研究,以提升序列比对过程的敏感性、准确性和计算速度等作为出发点,设计并开发了新型的基因组序列比对算法与工具,能够有效解决当前基因组序列比对所面临的挑战。本文的主要研究内容如下:(1)针对现有Burrows-Wheeler Transform(BWT)索引方法难以有效支持种子序列的近似匹配问题,本文提出了一种基于改进BWT的基因组索引方法fBWT。该方法首先对基因组中所有定长短重复序列分别构建多级局部索引结构sBWT,使得每个短重复序列的局部索引结构包含其前驱和后继局部序列信息。其次,通过基于BWT的Ferragina Manzini(FM)索引建立基因组的全局索引。最后,通过sBWT和辅助地址映射结构建立基因组全局索引和定长短重复序列的局部索引的映射关系,以及多级局部索引之间的地址映射关系。该索引方法能够有效支持序列比对过程中种子序列的最长近似匹配,提高种子序列在候选位置筛选过程中的敏感度和召回率。(2)针对精确匹配种子在基因组近似重复序列中无法有效筛选候选位置的问题,本文提出了一种基于最长近似匹配种子(MAMs)的序列比对方法MAM。该方法首先在fBWT索引中搜索测序序列所产生种子的最长近似匹配,初步筛选出比对候选位置。然后对该测序序列产生的所有候选位置进行链式过滤,精简候选位置集合。最后在候选位置进行测序序列和参考基因组的局部序列比对,并输出最佳比对位置。该序列比对方法能够支持在基因组近似重复序列中有效精简候选比对位置,有效提高序列比对速度。(3)针对参考基因组索引不能有效表示群体变异知识的问题,本文提出了一种融合参考基因组和变异数据的群体基因组索引方法SALT-index。该方法通过在参考基因组中融合群体变异数据形成融合变异的基因组图结构(简称变异图),并将变异图表示为主参考基因组序列(标准参考基因组区域)和副参考基因组序列(变异区域序列),然后基于Ferragina Manzini(FM)索引对主、副参考基因组序列分别构建索引。该索引方法能够有效支持带有变异的种子进行候选位置筛选,提升种子在有变异区域的比对效果。(4)针对当前面向参考基因组的序列比对方法不能有效区分变异和测序错误的问题,本文提出了一种支持变异感知的序列比对方法SALT。该方法首先在SALT-index的不包含变异信息的主索引中对种子进行精确匹配,对于未匹配种子,进行在包含变异信息的副索引上的二次精确匹配。在进行链式过滤精简候选位置后,该方法支持两种不同罚分策略的变异感知局部比对算法进行种子延展,进而确定最佳比对位置。该序列比对方法能够区分测序序列中包含的变异和测序错误,能够有效应对群体遗传多样性带来的序列比对挑战。
其他文献
人字齿行星齿轮传动因其结构紧凑、承载能力强、传动平稳等优点,被广泛应用于航空、舰船和汽车等高速重载的场合。然而,由于其结构复杂、性能影响因素众多,在应用中仍面临诸多技术难点亟待解决。本文针对人字齿行星齿轮传动系统的振动和噪声控制问题,进行了静力学接触分析和动力学响应预测的研究,以期完善基础理论并推动实际应用。为提高齿面接触分析精度,在利用范成法得到齿廓方程的基础上,直接由节点至单元生成三维斜齿轮有
建筑策划是建筑设计理论的重要组成部分,它随着建筑设计思想与工具的发展而不断更新。在包容性社会发展与包容性设计思潮的共同引领下,针对建筑领域中出现的对弱势群体关注不足和实践难以弥合认识的差距,亟需一种在包容理念注入下而形成的新的建筑设计理论,以对实践进行科学引导。本研究选取建筑设计的基本方法论——建筑策划作为研究对象,认为建筑策划包含以包容性价值为基础的策划内容,并对包容理念介入下形成的建筑包容性策
光子自旋霍尔效应(Photonic spin Hall effect)描述了有限宽度的线偏振光束在界面发生反射或折射时,由于光束左旋与右旋圆偏振分量历经不同几何相位(Geometric phase)的影响,散射光场发生自旋分裂的现象。作为光子自旋-轨道相互作用的基本现象之一,光子自旋霍尔效应为自旋光子器件的研究提供了新的思路,也在精密计量、量子信息和微纳光学等领域展现出广阔的应用前景。研究发现当入
电子束焊接技术以其高能量密度、高熔透性、焊接变形区小、易于控制、能焊接难熔及异种金属等传统焊接方法无法替代的优点,在国防、核能、航空航天和大科学工程等重要领域发挥着重要作用。电子束焊接的熔池传热、流体流动及匙孔演变等动力学行为是决定焊缝成形质量的关键。在进行电子束焊熔池和匙孔演变的研究的过程中,数值计算是一种有效的手段,而电子束热源模型的建立是进行数值计算的基础和重要决定因素。现有的理论模型多为解
我国地域广阔,气候复杂,降雪区域覆盖大面积国土。长期降雪天气的密集出现导致雪致工程灾害频发。其中,建筑倒塌由于直接危及人们的生命和财产安全,受到社会的高度关注。究其原因,主要是降雪突增,加之气流作用下形成局部堆雪,超出屋面荷载设计值。大跨空间结构由于屋面结构自重轻、面积大、体型复杂和雪荷载占比大的特点,其设计荷载往往由雪荷载控制,属于雪荷载敏感型结构。遗憾的是我国建筑结构荷载标准主要对简单体型屋面
重型燃气轮机汇集了人类社会工程技术领域最先进科技成果,其研制水平展现了一个国家的工业生产能力,它在能源的高效、洁净和安全利用中起至关重要的作用。而重燃的高温动叶不仅要承受超过本身制造材料许用温度的高温,而且在运行中始终处于高速转动状态,在较大的离心力、科氏力及其衍生的浮生力的作用下,工作环境在重燃叶片中最为恶劣。因此,高温动叶及其冷却结构的研究乃是重燃通流部件研制中的制高点技术。本文首先为高温动叶
负载换流变流器(Load Commutated Inverter,LCI)驱动同步电机控制系统具有容量大、成本低、控制简单和可靠性高等优势,因此广泛应用于抽水蓄能机组、同步调相机、燃气轮机、高炉鼓风机以及精轧机主传动系统等重要大功率传动场合,其中精轧机主传动系统由于具有阶跃负载特性和较大的带载需求,是目前对LCI驱动同步电机系统控制需求最高的应用场合。目前国内相关行业大多采用西门子、ABB和通用电
随着我国经济发展增速及城市化进程加快,饮用水水质安全保障问题日益引起众多从业人士开展研究。给水系统中常因给水末端水质不达标而整体降低饮用水水质达标率。管网作为连接水厂与用户重要基础设施,从空间长度和饮用水停留时间来看,管网水质对龙头水水质达标影响最大。由于节点完全混合的城市供配水管网水质模型模拟结果与实际水质监测数据间存在显著误差,严重影响管网水质模型精确性,因此开展节点水质混合规律研究对提高管网
天文卫星的观测规划一直是天文卫星任务中核心的决策问题。该问题主要解决有限的卫星观测资源与人们对宇宙奥秘探测的无限需求间的矛盾。在确保卫星安全、有效、平稳运行的同时,最大效率的发挥卫星的观测能力,以达到获取天文学家研究中所需的探测数据,推动天文学研究的进展的目的。然而,在天文卫星的观测计划执行过程中,不可避免的会受到不可预知的打断,使得观测无法按照既定的计划严格执行,如卫星观测设备的故障以及不可预期
随着人口老龄化形势的日渐加剧,劳动力失衡现象为机器人产业结构带来新的挑战。固有的弹性结构使连续体机器人展现出超越传统关节型机器人的出色的灵巧性和内在的柔顺性,这使得连续体机器人成为一个迅速扩展的研究领域,被广泛应用于对灵巧性和柔顺性要求高的机器人设计中,例如,微创外科手术机器人、用于受限空间检测与维护的机器人以及灵巧手,特别是拇指设计。然而,自身刚度的不足降低了连续体机器人在这些领域中应用的性能。