基于纳米孔测序的个体识别技术研究

来源 :军事科学院 | 被引量 : 0次 | 上传用户:ww5118529
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在法医学领域,基于DNA分型的个体识别和亲缘关系鉴定已经成为了常规的技术手段,在大量刑事案件和民事案件,以及在重大事故、灾害、战争中的遗骸鉴定等方面起到了不可替代的作用。例如,近几年来,入朝志愿军烈士遗骸的身份识别与寻亲主要是通过DNA分型技术实现的。DNA分型主要是对具有群体多态性的短串联重复序列(Short Tandem Repeat,STR)、单核苷酸多态性(Single Nucleotide Polymorphism,SNP)等遗传标记的基因型进行分型。这些遗传标记可通过毛细管电泳仪、高通量测序仪等大型精密设备进行分型,一般需要在专门的实验室中开展。在一些需要进行现场鉴定的特殊场景中,快速DNA分析仪为这类场景提供了一种解决方案。但是,这类小型电泳仪的检测通量较低,检测样本数极小,而且只能对STR进行分析。在具有大量样本检测需求的场景(如重大事故中较多残骸需要检测)中工作效率较低。因此,难以满足特定场景的需求。牛津纳米孔技术公司(Oxford Nanopore Technologies,ONT)的纳米孔测序技术为上述问题的解决提供了思路。其中Min ION测序仪总重量只有约100克,具有超高的便携性,而且单次测序的产量高,在现场DNA鉴定应用中具有的巨大潜力。目前已有多个研究团队发表了关于基于纳米孔测序技术进行现场测序的成熟方案。然而,将纳米孔测序技术应用于实际的法医鉴定中,面临着巨大的挑战。主要问题在于,纳米孔测序数据的错误率较高,难以满足法医鉴定对准确性的要求,并且缺乏针对性的算法以及高准确率的分型工具与软件;另一方面,纳米孔测序技术的软硬件产品更新换代的速度很快,这对强烈依赖于标准化和广泛验证的法医科学造成了严重的影响,建立标准的DNA分型流程,并根据软硬件的更新开展验证研究是非常必要的。最后,目前现有的纳米孔测序数据分析工具与软件的使用方式比较复杂,具有较高的生物信息学门槛,为降低在实际场景中应用的复杂度,需要建立用户友好型的可视化交互式分析软件。本论文以解决上述问题为出发点,主要以STR高精度分型算法的开发为研究内容,并对基于纳米孔测序的个体识别技术进行探索。本文的研究方法和技术路线主要分为以下4个部分:1.建立基准数据集并对纳米孔测序的错误特征进行刻画。首先,采集30个志愿者的DNA样品,并纳入一个DNA标准品(2800M)的3次重复,共33份样本用于初步建立基准数据集。采用基于多重扩增的Foren Seq试剂盒,对每一份样本的94个身份信息SNP和54个法医学STR进行靶向富集,使用获得法医认证的高通量测序平台Mi Seq FGx进行测序,并使用Foren Seq UAS软件得到样品的DNA分型结果,作为参考标准。同时,使用纳米孔测序仪Min ION和测序芯片R9.4.1,对33个样品的多重扩增产物(Foren Seq扩增子)进行纳米孔测序。然后,建立基于比对和读段(read)计数的基础生物信息学分析方法,对纳米孔测序碱基数据进行SNP与STR分型分析,评估分型效果并对测序错误特征进行刻画。具体包括SNP的等位基因不平衡性、SNP的非等位基因型频率、测序读段层面和位点(locus)层面上的测序错误模式以及对STR分型效果的影响,STR的等位基因不平衡性等。2.根据纳米孔测序错误特征,建立针对法医STR的分型算法。算法以测序仪产出碱基序列为输入数据,STR分型结果为输出数据。根据第一步的结果进行测序错误矫正以及分型等部分的算法开发和优化。采集了额外的31份志愿者DNA样品以及8个标准细胞系DNA,用于扩充基准数据集。同第一步数据一起,构建用于参数优化的训练集和验证用测试集。并采用降采样的方式,寻找在低覆盖度的情况下分型算法的最优参数。最后评估分型算法在验证集和测试集上的分型效果,并将结果同一些STR分型软件如STRspy、Repeat HMM、STRique进行比较。3.建立基于深度神经网络的STR区域碱基识别模型。为了降低纳米孔测序电信号-碱基信号转化的错误噪音,开发用于法医学STR区域测序片段的碱基识别(basecalling)模型。使用基准数据集的碱基序列建立标签数据,将纳米孔测序原始电信号序列经过生物信息学工具进行分割、修剪并与标签数据对齐后作为模型输入,训练神经网络模型。在测试集上,将训练后的碱基识别模型与纳米孔测序的官方碱基识别软件Guppy的不同版本进行比较,评估碱基识别准确率效果。最后,将本研究建立的碱基识别模型和STR分型算法应用于个别高挑战性STR基因座,并评估分型的准确率。4.建立一套适用于在法医实验室以及现场进行STR分析的整合分析软件。软件将测序数据预处理、序列比对、STR分型等工具和方法进行整合,并通过Py Qt5图形模块接口实现可视化界面,整体完成后进行软件测试。本文的研究结果如下:1.通过基于比对和读段计数的自编生物信息学流程,对33个样本的94个身份识别SNP进行分型,分型准确率达到了99.96%,优于现有的纳米孔测序主流变异检测工具。但由于纳米孔测序的错误较高,虽通过算法可得到SNP的正确分型,但少数SNP位点的非等位基因型频率偏性较大,远高于基于Mi Seq FGx测序数据的分型结果,在实际应用中需要注意。基于自编生物信息学流程对54个STR进行了分型,结果显示STR的错误率远高于SNP位点。但是需要注意的是,由于纳米孔测序具有系统性错误,测序错误的分布在不同STR上表现不一致,而部分STR具有高置信度的分型结果。具体地,基于33个样本的纳米孔测序数据,14个常染色体STR、4个XSTR和14个YSTR具有一致的高准确率。该结果证明了纳米孔测序应用于个体识别的潜力。同时,本研究还分析了测序读段层面上的测序错误,发现大量基因座的错误分型同正确分型的偏差分布具有集中性,这说明可尝试通过建立针对性的算法来矫正STR区域的测序错误,并且需要对算法的参数进行优化,以消除等位基因不平衡性以及低覆盖情况对分型正确率的影响。2.建立了针对法医STR的分型算法——NanoSTR。考虑到纳米孔测序的错误特征,NanoSTR基于仿射空位罚分比对算法和重复单元递归搜索算法。其中,仿射空位罚分比对算法使得测序序列和参考序列的比对结果更有利于正确的识别STR重复单元;在重复单元递归搜索算法中,重点考虑了具体的STR重复单元模式,从而减小了搜索空间,提升了分型准确度。结果显示,NanoSTR相比于基础生物信息学分型方法有了巨大提升。在54个STR中,除Penta D和Penta E,NanoSTR可在25个常染色体STR,7个XSTR,20个YSTR具有一致的高准确率。Panta D和Panta E的重复单元中包含有单碱基重复模式,对纳米孔测序的准确性带来了巨大挑战。3.建立了基于卷积循环神经网络和线性链条件随机场框架的碱基识别模型——STRsignal。通过之前的结果可知,在面对具有一些挑战性的STR区域,官方碱基识别软件无法有效地降低测序错误的出现频率。为了解决该问题,本研究直接从纳米孔测序的原始电信号出发,建立了针对法医学STR的深度神经网络碱基识别模型。结果显示,STRsignal针对这54个法医STR的序列准确率中位数为99.7%,好于官方碱基识别工具的98.4%。将STRsignal产生的碱基序列作为NanoSTR的输入,在测试集中Penta D和Penta E的分型正确率达到了100%。这说明通过定制的碱基识别模型结合分型算法工具,可大幅度提升基于纳米孔测序数据的STR分型准确率,使得纳米孔测序技术有进行实际应用和转化的可能性。4.初步建立了可用于在实验室条件和现场进行个体识别鉴定的交互式整合分析软件。通过将该软件与纳米孔测序配套软件部署在同一计算平台上,初步实现了从样品上机到STR分型报告的自动化分析流程。该软件可部署于Linux操作系统的笔记本电脑或台式电脑。为了方便非生物信息学专业人员的使用,该软件具有图形化操作界面,可通过鼠标进行操作。此外,软件简化了需要用户设置参数的环节,并支持多种分型方法,降低了将纳米孔测序数据法医学分析的操作复杂度,为下一步开发可实用的法医分型软件提供参考或原型。本论文结论如下:本研究首先通过建立基准数据集和基础分析方法,为纳米孔测序进行法医学应用提供了原理性证明,刻画了在SNP和STR分型中纳米孔测序数据的错误特征,并针对性地建立了适用于法医学STR分型的NanoSTR算法,大大提升了基于纳米孔测序的STR分型准确率,初步满足了使用纳米孔测序进行个体识别的要求。然后,建立了法医STR专用的纳米孔电信号—碱基信号识别模型STRsignal,进一步提升了STR的分型准确率,满足了个体识别准确性的要求。最后,建立了用户友好的交互式可视化STR整合分析软件,降低了法医DNA分析人员的操作难度,促进了基于纳米孔测序进行个体识别相关研究的进展。总的来说,纳米孔测序作为一项具有广阔应用前景的测序技术,本研究为将纳米孔测序应用于法医DNA物证学领域,提供了有参考价值的方法、数据和结果。
其他文献
镉(Cd)是我国近海典型的重金属污染物之一,贝类一般通过水环境和摄食途径在体内积累Cd。相较于其他水生生物,贝类可以对Cd超富集,导致贝类产品不合格的因素主要是Cd超标。本论文旨在研究Cd胁迫下厚壳贻贝体内抗氧化应激及组织形态学变化、金属离子内稳态平衡的变化、Cd赋存形态的变化规律及蛋白组的变化,进而阐释厚壳贻贝中Cd的毒理学机制及富集机理,从而为Cd的风险评估和贝类食品安全容量的确定提供依据。通
学位
本文是一篇探讨画家观看方式的论文。在这里并不是对“观看”问题做全方位的研究,而是主要探讨围绕绘画创作的一系列观看问题,包括画家具体绘画创作过程中的观看,由绘画作品所联系起来的创作者与观众之间的观看方式传播,以及时代与社会的发展对艺术家观看方式的影响等问题。力图探讨集中在绘画过程以及作品中的视觉感知与视觉表现的丰富性和复杂性。希望这种针对创作过程内部的观看方式的研究,以及外部因素对绘画观看方式影响的
学位
目的:本研究通过对课题组早期miRNA芯片和circRNA芯片检测结果的分析,找到了一个新的circRNA分子,继而对该分子调控胃癌生物学行为的机制进行了深入的研究,发现了一条竞争性内源RNA(Ce RNA)通路,为胃癌早期诊断和治疗提供了新的靶点和思路。研究方法:1.课题组前期从8对早期胃癌组织与癌旁组织配对样本的miRNA芯片获得31个差异表达的miRNA,通过q RT-PCR和琼脂糖凝胶电泳
学位
城市化作为人类活动对水循环影响的重要表现形式,所引起的水文效应已成为水科学领域的研究热点,其中的暴雨洪涝问题成为关注焦点。目前,国内外学者已在城市化水文效应方面开展了众多工作,为后续研究提供了借鉴。尽管如此,现有研究多集中在单一人类活动要素(如土地利用变化)引起的洪水响应,较少关注城市化地区不同人类活动与洪水的相互作用,对多要素引起的洪水变化缺乏定量分析与实证研究。近三十年来,随着我国东部平原水网
学位
肠道病毒71型是一种嗜神经病原体,能够引起具有严重神经症状的手足口病。然而目前我们对肠道病毒71型感染的发病机制的认识,特别是传播方式和途径,了解的仍然有限;而且,当前国内还没有有效的预防方式和精准的治疗方法来应对EV71的爆发,从而使得EV71成为在东南亚地区最紧迫的公共健康问题。深入的研究EV71与宿主之间的相互作用,可以为我们寻找治疗手足口病的解决办法提供有意义的理论支撑。以前的研究表明在体
学位
作为我国生态产品价值实现的典型代表之一,福建省南平市借助“生态银行”走出了一条极具特色的绿色创新发展之路。“生态银行”究竟是一种无法复制的特例,还是可推广的参考样本值得思考。文中引入价值网理论和顺昌“森林生态银行”典型案例,探索“生态银行”赋能生态产品价值实现的理论逻辑和实践依据;提出生态产品价值实现是多方利益主体通过专业化分工协作共创卓越顾客价值的结果,“生态银行”是生态产品价值实现价值网中关系
期刊
我国东北地区位于东亚季风影响区的边缘,具有典型的生态环境脆弱性,受全球气候变化影响深刻。黄土堆积对气候变化的响应较为敏感,是晚第四纪环境变化的良好记录。但是,目前对该区域黄土堆积与环境演变的研究仍比较薄弱,特别是缺少系统可靠的独立年代。在广泛野外踏勘的基础上,本文对研究区内位于科尔沁沁沙地南缘,由南至北分布的安家窝铺(AJWP)、牛样子沟(NYZG)、头道井子(TDJZ)、三把伙(SBH)、平安村
学位
元代汉语语法研究大多选用元杂剧、元散曲、南戏、话本、“直译”和“直讲”、白话文牍以及元代会话课本等传世文献作为研究语料,这些语料大体可以分为“纯汉语”文献和“蒙式汉语”文献两类。以往的研究对这些语料的认识分歧较大,焦点在于这些语料是否能真正反映元代语言的真实面貌。黑水城出土元代汉文文书是黑水城汉文文献的主要组成部分,在黑水城汉文文献中所占的比重较大,尤其是“中藏黑水城汉文文献”,基本都是元代文书文
学位
长江中下游流域是我国人口密度最高、经济活动强度最大、环境压力最严重的流域之一,流域水环境问题日渐突出,饮用水水源和水生态安全面临考验。长江流域水资源总量丰沛,但水资源时空分布不均,尤其依赖长江干流过境水供水的中下游经济发达地区,水质型缺水问题导致的供需矛盾依然突出。沿江大城市的集中水源地安全是重大的环境和社会问题。但长期以来长江中下游沿江城市形成以长江干流为主要水源的单一供水结构,应急水源建设滞后
学位
报纸