论文部分内容阅读
二代测序技术是目前使用非常广泛的一种测序方法,高精度低成本使其在变异检测序列拼接等基因组研究方面应用广泛。而三代测序自出现起就备受关注,因其读长远超二代的特点,被视为可以替代二代测序的方法。但是由于三代测序的准确度较低测序成本较高的问题,在实际应用中会存在数据质量和成本之间的冲突,很大程度上都是作为二代研究的补充。目前已有较多方法根据不同策略进行基因组结构变异的检测,但因为拷贝数变异包含多种子类型、变异长度较长等特点,现有的策略面对较复杂的拷贝数变异检测来说存在很多问题。鉴于二代三代测序研究的各自特点和变异检测的研究现状,本文提出了一种基于二代测序数据和三代测序数据联合拼接的拷贝数变异检测方法,其中利用了序列深度模型和深度学习框架,提高了变异检测的精确度和灵敏度。主要有以下几方面内容:1.对现有的四种基因结构变异检测策略进行了研究,分析了基于De bruijn图和OLC(Overlap-Layout-Consensus)算法的几种流行的拼接策略,研究了千人基因组计划提供的真实测序数据集和基准变异数据集,分析了其中存在的问题。根据研究需要,将三代测序数据引入到整个研究中。使用基于SNP(单核苷酸变异)和InDel(较小的插入缺失变异)检测的方法,利用二代测序数据完成三代测序的校正,有效地平衡了测序成本和校正质量之间的关系,获得了初步的实验数据。2.为了更好的检测拷贝数变异的子类型缺失和重复,本文提出了一种基于二代和三代测序数据联合拼接的检测算法。本文进行了两次拼接,分别使用De Bruijn图算法和OLC算法进行,获得了用于拷贝数变异检测的数据重叠群(contigs)。在两次拼接过程中,三代数据在解决重复序列造成的各种闭环问题中发挥了重要作用,保证了拼接结果的准确性。3.结合序列深度(read-depth)策略,利用深度学习CNN模型对拷贝数变异进行检测。将获得的contigs比对回参考基因组,分析每个位点的测序深度,根据拷贝数与每个检测位点的荧光信号强度值LRR(Log R Ratio)的关系生成包含拷贝数信息的图片,用于深度学习模型的训练。使用本文提出的拷贝数变异检测方法AssCNV23在模拟数据和真实数据上都进行了变异检测实验,结果显示无论是高覆盖度数据还是低覆盖度数据,无论是真实数据还是模拟数据,在精确度、敏感度和断点的准确度上的综合表现都很优秀。