【摘 要】
:
插入变异指的是一段新的或已经存在的碱基序列由于突变增加到DNA序列中,而且与某些遗传性疾病有着重要关系,近几年已经成为一个研究热点。插入变异的检测可以通过第二或者第三代测序数据,然而目前基于第三代测序技术的数据集错误率较高,相关技术仍然不成熟,所以本文主要研究基于二代测序数据分析的新插入变异检测方法。本文提出了两种方法,一种是基于局部组装和重比对的方法,另一种基于综合比对信息以确定精确断点的方法。
论文部分内容阅读
插入变异指的是一段新的或已经存在的碱基序列由于突变增加到DNA序列中,而且与某些遗传性疾病有着重要关系,近几年已经成为一个研究热点。插入变异的检测可以通过第二或者第三代测序数据,然而目前基于第三代测序技术的数据集错误率较高,相关技术仍然不成熟,所以本文主要研究基于二代测序数据分析的新插入变异检测方法。本文提出了两种方法,一种是基于局部组装和重比对的方法,另一种基于综合比对信息以确定精确断点的方法。其中包括确定插入变异断点、基因型检测以及序列拼接等问题。全文的具体工作如下:1.大部分基于多种比对信息的结构变异检测方法,在检测插入变异精确断裂点时表现不佳,造成这一问题的原因可能有:存在微同源序列、变异发生在重复序列较多的区域或者由于测序错误和单核苷酸变异使比对结果不精确等。针对以上问题,本文提出一种新的基于序列拼接和重比对的插入变异检测方法(AMTSI),不仅可以检测精确断点,而且可给出可能存在微同源序列插入变异的模糊断点位置,以及在错误率比较高或者存在单核苷酸变异的情况下,给出相对比较精确的断点结果。在模拟和真实数据集上的结果表明,AMTSI方法相较于传统的组装方法有更好的性能,结果的精度控制在±5bp以内。2.针对插入变异检测研究中较大的插入尺寸难以检测、低覆盖倍数数据检测能力较弱的问题,本文提出一种基于综合比对信息的插入变异检测方法(SIns),即从软剪切的读数中提取断点确定插入变异发生的位置。该方法首先通过发生了软剪切的配对读数和参考基因组之间的比对信息提取断点;然后,在相应的断点对插入变异中插入片段信息进行聚类以确定基因型;最后,采用Minia组装断点附近的异常读数,并将拼接完成的长序列和参考基因组再次比对以获得最终的插入序列。在模拟和真实数据集上的实验结果表明,相比其他算法,SIns在精度和F-score等相关指标上具有更好的性能。
其他文献
研究背景及目的急性ST段抬高型心肌梗死(STEMI)作为与冠状动脉疾病相关的常见危重疾病,不仅发病率高,死亡率也整体呈上升趋势。目前急诊经皮冠状动脉介入治疗(PCI)是治疗急性ST段抬高型心肌梗死主要方式,也最为有效。急诊行PCI治疗能够及时有效地恢复梗死相关动脉的正常血流灌注,遏制心肌梗死面积扩大,挽救缺血期心肌,降低患者死亡率。然而急诊PCI术中,部分患者尽管对其罪犯血管进行了充分的血运重建,
新生代农民工作为中国产业工人的主力军,并非是又工又农,而是彻底地离开自己的家乡,在社会经济发展中发挥至关重要的功效,担当着我国经济体系现代化建设的伟大使命,为城市发展做出了巨大贡献。但我国新生代农民工不管是在初步的成长时期,还是在就业后期的发展积累阶段,其人力资本投资亟待加强,且需重点解决好新生代农民工自身的就业问题,才能更好地服务于现代化经济体系建设。本文以中国劳动力动态调查为研究数据,将人力资
背景:溃疡性结肠炎(Ulcerative colitis,UC)是一种多因素引起的慢性炎症性疾病,属于炎症性肠病(Inflammatory bowel disease,IBD)的一种,病变局限于大肠黏膜及黏膜下层,多累及直肠和乙状结肠。目前UC临床治疗方法较多,最常见的是药物治疗,包括氨基水杨酸制剂、糖皮质激素、免疫抑制剂,但是药物治疗都存在一些无法避免的副作用,而副作用较少的生物制剂价格高,无法
经过长期的高速增长,我国经济已由高速增长阶段转入高质量发展阶段。基于国内经济增长态势的变化,习近平总书记于2014年提出我国经济发展进入新常态的重大论断,并指出我国经济呈现出新常态,具有从要素驱动、投资驱动转向创新驱动的特点。这便意味着随着国内经济发展形势的变化,传统的经济动能正在衰竭,需要寻找、培育、发展新的经济动能,才能真正引领新常态。在我国经济发展进入新常态的背景下,河南省作为中原经济区的主
近年来,我国贸易规模持续扩大,出口贸易额连续十年位居世界第一,成为名副其实的贸易大国。然而,随着我国人口红利的消失以及东南亚国家廉价劳动力的出现,我国传统以劳动力为主的比较优势不复存在,依靠廉价劳动力推动外向型经济发展的做法已无法延续,因此我国亟需进行贸易转型,而提高我国出口技术复杂度是这次转型的主要内容。与此同时,由于我国长期“高消耗、高投入、低附加值”的出口增长模式,导致我国的资源与环境早已面
1860年11月,共和党在美国总统大选中获胜,共和党总统候选人亚伯拉罕·林肯当选美国总统几成定局。面对林肯即将成为美国总统的前景,美国下南部蓄奴州南卡罗来纳率先走上脱离联邦之路。在南卡罗来纳的引领下,下南部另外6个蓄奴州也掀起了分离联邦运动,在1860—1861年的岁末年初做出了退出联邦决定。脱离联邦的下南部7个蓄奴州在1861年2月组成了自称独立国家的“美利坚联众国”,联邦国家陷入分裂。与此同时
早期经济学研究通常会略去不确定因素,然而现实世界的发展,使得学者们意识到不确定性冲击会对经济运行产生不容忽视的作用。鉴于此,对经济不确定性展开研究成为经济理论研究与政策制定者关注的焦点。尤其是在2008年全球金融危机爆发之后,经济不确定性与金融因素的叠加作用对宏观经济运行产生了异乎寻常的影响,这引起学者们对经济不确定性进行更深层次的研究。特别的,受到后危机时期世界经济复苏乏力的影响,我国在内部和外
近年来,大数据、人工智能、5G等数字技术不断改变人们的生产生活,数字经济再一次被社会所关注。自2008年经济危机过后,数字经济表现出不同于其他经济形态的强大适应性;在2020年的新冠疫情期间,数字经济的表现尤为亮眼,更加让人们认识到了数字经济的重要性。此外,世界各主要经济体也相继出台了各自的数字经济发展战略,学者和机构也对数字经济的概念、规模测度等问题展开了研究。梳理相关文献,学术界对数字经济的界
能源作为经济社会发展的重要因素,在推动经济总量扩张的同时带来了严重的环境问题,而环境恶化和资源过度消耗又反过来阻碍经济增长,甚至导致经济全面衰退。为应对与能源使用相关的环境问题,全球各国进行了多次协商并提出多种节能减排的可行性方案。中国政府也公开承诺了一系列节能减排目标,作为世界上最大的能源消费和碳排放国家,中国能否实现节能减排目标是决定世界节能减排行动成败的关键。在节能减排政策的实施中,提高能源
乳腺癌是影响全球女性健康最常见的恶性肿瘤之一,给全球女性带来了严重的影响。目前早期筛查依旧是控制乳腺癌发展的最有效手段。最近几年研究表明,乳腺癌的分子表型对病人的预后具有指导性的作用。因此,通过乳腺癌的分子表型初步判断乳腺癌的分子分型进行患者的预后分析具有重要的临床指导意义。本研究通过将MRI(Magnetic Resonance Imaging,MRI)影像组学特征和生物标志物关联,找出关键特征