基于第二代测序数据的散在倍增插入变异检测方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yuanma3746
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
散在倍增插入变异是一种常见的人类基因组DNA插入类型,在人类癌症的发生过程中起着促使基因组不稳定的重要作用,准确检测散在倍增插入的位置及序列,对变异基因的筛选分析和对癌症等疾病的靶向药物选定具有重大意义。随着第二代测序技术的发展,越来越多检测插入变异的算法逐渐被提出,但是使用第二代测序数据很难检测散在倍增插入变异,这是因为源自测序样本中散在倍增插入区域的读段很可能完全映射到参考序列中的其它区域。而大多数现有方法都是采用局部组装的思想对散在倍增插入变异进行检测,由于测序读段的长度问题和散在倍增插入区域与参考序列其它区域的高重复性问题,局部组装思想对于散在倍增插入变异的检测准确率很难保证。本文的主要工作就是研究如何通过第二代测序数据准确检测散在倍增插入变异。针对散在倍增插入变异的检测问题,本文提出了一种新的方法DIPins,DIPins可以对散在倍增插入变异进行准确位点检测和序列推断,特别是当变异长度超过双端读段的插入片段大小时。DIPins方法从人类参考基因组数据与第二代测序数据出发,首先将测序数据比对结果过滤并从过滤结果中提取信息性读段,通过整合分裂读段的多个特征来确定散在倍增插入变异断点位置,在已检测变异断点处,利用分裂读段和不一致读段推断插入序列并形成新的虚拟参考序列,之后通过不断跟踪散在倍增插入变异的断点位置并迭代生成新的分裂读段,执行动态过程来推断散在倍增插入变异的序列。为了验证DIPins方法的散在倍增插入变异检测性能,本文分别在仿真数据与真实数据上做了实验,并且与其他两种方法在相同数据上的实验结果进行了比较。其中两组仿真实验结果表明,DIPins方法在检测散在倍增插入变异断点和推断变异内容方面均优于其他方法。本文特别就这些方法推断不同长度的散在倍增插入变异序列内容的能力进行了比较,发现DIPins在较大的散在倍增插入变异检测方面表现明显优于其他方法。在对DIPins方法的检测性能进行评估后,我们将DIPins方法应用于分析肺癌患者的肿瘤样本测序数据,通过分析基因药物库与基因注释结果,得出药物库中的基因与散在倍增插入变异的对应关系,为靶向药物的选定提供支持,进一步验证了DIPins方法的有效性。因此,DIPins是一种可用于基因组变异研究及临床治疗方面的变异检测工具,有助于结构变异的分析及癌症患者的精确诊断。
其他文献
随着物联网技术的快速发展,越来越多的领域与物联网技术相结合,进而朝着数字化、智能化的方向发展。其中,工业物联网这一领域近年来发展尤为迅猛,但是传统的网络架构显然不能满足工业物联网中大量传感器节点的管理需求,而软件定义网络这一新型网络架构提供了新的可能。本论文将软件定义网络与工业物联网相结合,使用软件定义网络控制器和虚拟交换机,构建适合工业物联网的网络环境,实现了传输和计算过程可配置的动态传算框架。
由于受传统成像系统中硬件本身、技术水平和外部各种环境因素的影响,现实中生成的图像会不可避免的会损失一些原来的细节纹理信息。为了对这类问题进行有效的解决,图像超分辨率技术被广泛的研究,该技术能对质量较差的图像进行恢复重建,具有成本低、普适性高等优点。针对图像超分辨率技术在医学图像重建方面的应用,虽然现阶段基于深度学习的方法能在一定程度上提高图像分辨率,但其计算量大的问题一直没有得到有效的解决。其次大
股市素来被誉为“宏观经济的晴雨表,国民财富的聚宝盆”,国家的经济发展与股市密切相关。从微观方面说,股市是广大投资者重要投资手段,具有“高风险、高收益”的特征,因此也
水下声纳图像是水下信息的主要来源之一,是现今水下目标识别的主要手段。水下声纳图像分类的研究是海洋探索与利用的前提,因此水下声纳图像分类的研究在海洋探索和海洋装备发展领域都有重要的研究意义。提高水下声纳图像的分类精度,以及更好地适应水下数据不均衡的情况,都是水下声纳图像分类研究的要点。传统水下声纳图像因为其成像原理不与光学图像相同,同时加之水下噪声和机械噪声的影响,成像质量较差,影响了水下声纳图像的
无线传感器网络节点监测环境、收集数据、处理数据,通过自组织网络形式将数据传回平台以供分析使用,应用价值非常高。但是网络中节点独立,无能量来源,这就极大限制了无线传感器网络的使用周期和应用场合,导致能耗问题成为无线传感器网络实际应用和广泛推广的短板,高效节能成为无线传感器网络路由算法设计的关键。蚁群算法能够为无线传感器网络高效快速的寻找到一条最优路径。通过在蚁群算法中的概率选择公式引入节点剩余能量,
上地幔410-km和660-km间断面的形态特征,对探测地幔过渡带内温度和化学成分的横向变化,以及板片俯冲深度和地幔对流模式等具有重要意义。阿留申-阿拉斯加俯冲带和汤加-斐济俯冲带分别位于环太平洋俯冲带的最北端和西南部,是研究俯冲板块前缘与660-km间断面相互作用的天然实验室。本文利用国家测震台网固定台站和“中国地震科学台阵探测”项目在南北地震带北段布设的流动台阵记录到的极远震波形资料,通过对大
机场始发航班与过站航班都要接受各种不同的地面服务,这些服务由相应的保障车辆完成,除冰是飞机起飞前的最后一项地面服务。除冰资源利用紧张的情况常常会出现在极端天气条件
随着云计算、大数据等技术的不断兴起,互联网应用将以前所未有的态势涌入人们生活的方方面面。光纤通信网作为通信系统中最主要的核心网络,承载了互联网和无线移动网络的大部分流量,在通信中发挥着至关重要的作用。光纤通信系统具有带宽大、抗干扰性强、低时延等显著特点,在未来将持续发挥其特征优势,引领现代通信进入崭新的阶段。因此,对光通信系统及其关键传输技术展开深入研究具有十分重要的意义。本文对光通信系统中二维和
随着互联网和移动端的发展,越来越多的人在网络上分享信息并写下自己的一些评论,包括电影评论、购物评论、新闻评论等等。传统情感分析只能给出整句的情感倾向。随着注意力机制的提出,深度学习在自然语言处理领域得到了迅速的发展,注意力机制可以捕捉上下文的信息,能更好的处理语义层次的问题。细粒度情感分析的任务由评价对象的抽取和评价对象的情感判断两个过程组成。本文尝试采取基于注意力机制的深度神经网络模型来进行细粒
图像描述是一项图文融合的技术,目的是用文字对图像内容进行概括性描述。在图像检索、机器人问答、儿童教育等领域具有广阔的应用前景。目前图像描述生成的描述语句的准确性和生动性有待提高,本文基于图卷积神经网络和注意力机制对图像描述任务进行研究分析,主要工作如下:第一,提出基于Dense Net和自适应注意力机制的图像描述模型D-ada。考虑到图像描述很难正确提取图像的全局特征,同时大多数注意力机制方法强制