基于二三代测序数据联合拼接的拷贝数变异检测方法

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:hui8554974
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二代测序技术是目前使用非常广泛的一种测序方法,高精度低成本使其在变异检测序列拼接等基因组研究方面应用广泛。而三代测序自出现起就备受关注,因其读长远超二代的特点,被视为可以替代二代测序的方法。但是由于三代测序的准确度较低测序成本较高的问题,在实际应用中会存在数据质量和成本之间的冲突,很大程度上都是作为二代研究的补充。目前已有较多方法根据不同策略进行基因组结构变异的检测,但因为拷贝数变异包含多种子类型、变异长度较长等特点,现有的策略面对较复杂的拷贝数变异检测来说存在很多问题。鉴于二代三代测序研究的各自特点和变异检测的研究现状,本文提出了一种基于二代测序数据和三代测序数据联合拼接的拷贝数变异检测方法,其中利用了序列深度模型和深度学习框架,提高了变异检测的精确度和灵敏度。主要有以下几方面内容:1.对现有的四种基因结构变异检测策略进行了研究,分析了基于De bruijn图和OLC(Overlap-Layout-Consensus)算法的几种流行的拼接策略,研究了千人基因组计划提供的真实测序数据集和基准变异数据集,分析了其中存在的问题。根据研究需要,将三代测序数据引入到整个研究中。使用基于SNP(单核苷酸变异)和InDel(较小的插入缺失变异)检测的方法,利用二代测序数据完成三代测序的校正,有效地平衡了测序成本和校正质量之间的关系,获得了初步的实验数据。2.为了更好的检测拷贝数变异的子类型缺失和重复,本文提出了一种基于二代和三代测序数据联合拼接的检测算法。本文进行了两次拼接,分别使用De Bruijn图算法和OLC算法进行,获得了用于拷贝数变异检测的数据重叠群(contigs)。在两次拼接过程中,三代数据在解决重复序列造成的各种闭环问题中发挥了重要作用,保证了拼接结果的准确性。3.结合序列深度(read-depth)策略,利用深度学习CNN模型对拷贝数变异进行检测。将获得的contigs比对回参考基因组,分析每个位点的测序深度,根据拷贝数与每个检测位点的荧光信号强度值LRR(Log R Ratio)的关系生成包含拷贝数信息的图片,用于深度学习模型的训练。使用本文提出的拷贝数变异检测方法AssCNV23在模拟数据和真实数据上都进行了变异检测实验,结果显示无论是高覆盖度数据还是低覆盖度数据,无论是真实数据还是模拟数据,在精确度、敏感度和断点的准确度上的综合表现都很优秀。
其他文献
2005年入冬以来,是近几年持续低温最长的年份,持续的低温使笔者所在地区的养殖池塘呈现封冻现象,导致本地区出现了大量的死鱼现象。笔者走访了多处池塘,了解情况如下:
桥式抓斗卸船机作为港口散货船接卸的主要大型机械设备,其安全稳定运行对企业运营生产有着至关重要的作用,随着港口桥式抓斗卸船机工作时间和强度的不断提升,相应地增加了卸船机的故障问题。目前现有的卸船机故障诊断技术能有效地减少危险事故,但是仍然不能及时的发现故障问题并解决问题。本文针对已有故障诊断研究中故障诊断不及时、不全面等不足,通过传感器监测桥式抓斗卸船机整机的运行状态以获取监测数据,并利用新的故障预
随着城市信息化技术水平的提升,智慧城市建设理念应运而生。因此,需要构建比较全面的城市数字化基础设施,城市三维模型作为数字化基础设施中的重要组成部分有着广泛的应用。数字化的城市是以城市三维模型作为数据展示平台,通过构建应用软件,来展示城市各领域的数据。由此可见城市三维模型的可视化不仅仅是对模型本身的真实展示,而且需要根据实际的应用需求,采用合理的渲染方式,屏蔽掉不必要的细节特征,对重点信息突出显示,
一、亲虾雌雄鉴别与比例雄虾个体较大,螯足粗壮,螫足附端外侧有一明亮的红色软疣,腹部狭小,生殖孔开口于第5对步足基部;雌虾螫足较小,无软疣或软疵颜色较战,腹部膨大,生殖孔开口于第3
“比”词句的教学是对外汉语教学界的研究热点,也是对外汉语初级阶段语法教学的重点。对于初级阶段的学生来说,学习汉语时间不长,掌握的语法规则不多,很容易受到母语负迁移的