论文部分内容阅读
在法医学领域,基于DNA分型的个体识别和亲缘关系鉴定已经成为了常规的技术手段,在大量刑事案件和民事案件,以及在重大事故、灾害、战争中的遗骸鉴定等方面起到了不可替代的作用。例如,近几年来,入朝志愿军烈士遗骸的身份识别与寻亲主要是通过DNA分型技术实现的。DNA分型主要是对具有群体多态性的短串联重复序列(Short Tandem Repeat,STR)、单核苷酸多态性(Single Nucleotide Polymorphism,SNP)等遗传标记的基因型进行分型。这些遗传标记可通过毛细管电泳仪、高通量测序仪等大型精密设备进行分型,一般需要在专门的实验室中开展。在一些需要进行现场鉴定的特殊场景中,快速DNA分析仪为这类场景提供了一种解决方案。但是,这类小型电泳仪的检测通量较低,检测样本数极小,而且只能对STR进行分析。在具有大量样本检测需求的场景(如重大事故中较多残骸需要检测)中工作效率较低。因此,难以满足特定场景的需求。牛津纳米孔技术公司(Oxford Nanopore Technologies,ONT)的纳米孔测序技术为上述问题的解决提供了思路。其中Min ION测序仪总重量只有约100克,具有超高的便携性,而且单次测序的产量高,在现场DNA鉴定应用中具有的巨大潜力。目前已有多个研究团队发表了关于基于纳米孔测序技术进行现场测序的成熟方案。然而,将纳米孔测序技术应用于实际的法医鉴定中,面临着巨大的挑战。主要问题在于,纳米孔测序数据的错误率较高,难以满足法医鉴定对准确性的要求,并且缺乏针对性的算法以及高准确率的分型工具与软件;另一方面,纳米孔测序技术的软硬件产品更新换代的速度很快,这对强烈依赖于标准化和广泛验证的法医科学造成了严重的影响,建立标准的DNA分型流程,并根据软硬件的更新开展验证研究是非常必要的。最后,目前现有的纳米孔测序数据分析工具与软件的使用方式比较复杂,具有较高的生物信息学门槛,为降低在实际场景中应用的复杂度,需要建立用户友好型的可视化交互式分析软件。本论文以解决上述问题为出发点,主要以STR高精度分型算法的开发为研究内容,并对基于纳米孔测序的个体识别技术进行探索。本文的研究方法和技术路线主要分为以下4个部分:1.建立基准数据集并对纳米孔测序的错误特征进行刻画。首先,采集30个志愿者的DNA样品,并纳入一个DNA标准品(2800M)的3次重复,共33份样本用于初步建立基准数据集。采用基于多重扩增的Foren Seq试剂盒,对每一份样本的94个身份信息SNP和54个法医学STR进行靶向富集,使用获得法医认证的高通量测序平台Mi Seq FGx进行测序,并使用Foren Seq UAS软件得到样品的DNA分型结果,作为参考标准。同时,使用纳米孔测序仪Min ION和测序芯片R9.4.1,对33个样品的多重扩增产物(Foren Seq扩增子)进行纳米孔测序。然后,建立基于比对和读段(read)计数的基础生物信息学分析方法,对纳米孔测序碱基数据进行SNP与STR分型分析,评估分型效果并对测序错误特征进行刻画。具体包括SNP的等位基因不平衡性、SNP的非等位基因型频率、测序读段层面和位点(locus)层面上的测序错误模式以及对STR分型效果的影响,STR的等位基因不平衡性等。2.根据纳米孔测序错误特征,建立针对法医STR的分型算法。算法以测序仪产出碱基序列为输入数据,STR分型结果为输出数据。根据第一步的结果进行测序错误矫正以及分型等部分的算法开发和优化。采集了额外的31份志愿者DNA样品以及8个标准细胞系DNA,用于扩充基准数据集。同第一步数据一起,构建用于参数优化的训练集和验证用测试集。并采用降采样的方式,寻找在低覆盖度的情况下分型算法的最优参数。最后评估分型算法在验证集和测试集上的分型效果,并将结果同一些STR分型软件如STRspy、Repeat HMM、STRique进行比较。3.建立基于深度神经网络的STR区域碱基识别模型。为了降低纳米孔测序电信号-碱基信号转化的错误噪音,开发用于法医学STR区域测序片段的碱基识别(basecalling)模型。使用基准数据集的碱基序列建立标签数据,将纳米孔测序原始电信号序列经过生物信息学工具进行分割、修剪并与标签数据对齐后作为模型输入,训练神经网络模型。在测试集上,将训练后的碱基识别模型与纳米孔测序的官方碱基识别软件Guppy的不同版本进行比较,评估碱基识别准确率效果。最后,将本研究建立的碱基识别模型和STR分型算法应用于个别高挑战性STR基因座,并评估分型的准确率。4.建立一套适用于在法医实验室以及现场进行STR分析的整合分析软件。软件将测序数据预处理、序列比对、STR分型等工具和方法进行整合,并通过Py Qt5图形模块接口实现可视化界面,整体完成后进行软件测试。本文的研究结果如下:1.通过基于比对和读段计数的自编生物信息学流程,对33个样本的94个身份识别SNP进行分型,分型准确率达到了99.96%,优于现有的纳米孔测序主流变异检测工具。但由于纳米孔测序的错误较高,虽通过算法可得到SNP的正确分型,但少数SNP位点的非等位基因型频率偏性较大,远高于基于Mi Seq FGx测序数据的分型结果,在实际应用中需要注意。基于自编生物信息学流程对54个STR进行了分型,结果显示STR的错误率远高于SNP位点。但是需要注意的是,由于纳米孔测序具有系统性错误,测序错误的分布在不同STR上表现不一致,而部分STR具有高置信度的分型结果。具体地,基于33个样本的纳米孔测序数据,14个常染色体STR、4个XSTR和14个YSTR具有一致的高准确率。该结果证明了纳米孔测序应用于个体识别的潜力。同时,本研究还分析了测序读段层面上的测序错误,发现大量基因座的错误分型同正确分型的偏差分布具有集中性,这说明可尝试通过建立针对性的算法来矫正STR区域的测序错误,并且需要对算法的参数进行优化,以消除等位基因不平衡性以及低覆盖情况对分型正确率的影响。2.建立了针对法医STR的分型算法——NanoSTR。考虑到纳米孔测序的错误特征,NanoSTR基于仿射空位罚分比对算法和重复单元递归搜索算法。其中,仿射空位罚分比对算法使得测序序列和参考序列的比对结果更有利于正确的识别STR重复单元;在重复单元递归搜索算法中,重点考虑了具体的STR重复单元模式,从而减小了搜索空间,提升了分型准确度。结果显示,NanoSTR相比于基础生物信息学分型方法有了巨大提升。在54个STR中,除Penta D和Penta E,NanoSTR可在25个常染色体STR,7个XSTR,20个YSTR具有一致的高准确率。Panta D和Panta E的重复单元中包含有单碱基重复模式,对纳米孔测序的准确性带来了巨大挑战。3.建立了基于卷积循环神经网络和线性链条件随机场框架的碱基识别模型——STRsignal。通过之前的结果可知,在面对具有一些挑战性的STR区域,官方碱基识别软件无法有效地降低测序错误的出现频率。为了解决该问题,本研究直接从纳米孔测序的原始电信号出发,建立了针对法医学STR的深度神经网络碱基识别模型。结果显示,STRsignal针对这54个法医STR的序列准确率中位数为99.7%,好于官方碱基识别工具的98.4%。将STRsignal产生的碱基序列作为NanoSTR的输入,在测试集中Penta D和Penta E的分型正确率达到了100%。这说明通过定制的碱基识别模型结合分型算法工具,可大幅度提升基于纳米孔测序数据的STR分型准确率,使得纳米孔测序技术有进行实际应用和转化的可能性。4.初步建立了可用于在实验室条件和现场进行个体识别鉴定的交互式整合分析软件。通过将该软件与纳米孔测序配套软件部署在同一计算平台上,初步实现了从样品上机到STR分型报告的自动化分析流程。该软件可部署于Linux操作系统的笔记本电脑或台式电脑。为了方便非生物信息学专业人员的使用,该软件具有图形化操作界面,可通过鼠标进行操作。此外,软件简化了需要用户设置参数的环节,并支持多种分型方法,降低了将纳米孔测序数据法医学分析的操作复杂度,为下一步开发可实用的法医分型软件提供参考或原型。本论文结论如下:本研究首先通过建立基准数据集和基础分析方法,为纳米孔测序进行法医学应用提供了原理性证明,刻画了在SNP和STR分型中纳米孔测序数据的错误特征,并针对性地建立了适用于法医学STR分型的NanoSTR算法,大大提升了基于纳米孔测序的STR分型准确率,初步满足了使用纳米孔测序进行个体识别的要求。然后,建立了法医STR专用的纳米孔电信号—碱基信号识别模型STRsignal,进一步提升了STR的分型准确率,满足了个体识别准确性的要求。最后,建立了用户友好的交互式可视化STR整合分析软件,降低了法医DNA分析人员的操作难度,促进了基于纳米孔测序进行个体识别相关研究的进展。总的来说,纳米孔测序作为一项具有广阔应用前景的测序技术,本研究为将纳米孔测序应用于法医DNA物证学领域,提供了有参考价值的方法、数据和结果。