论文部分内容阅读
病原微生物导致的各种疾病和大规模疫情是人类健康的重要威胁。病原微生物的准确鉴定是临床治疗和疾控防控工作的前提。近几十年来,培养法、微生物特异聚合酶链反应(Polymerase Chain Reactionm,PCR)法、酶联免疫吸附测定(enzyme linked immunosorbent assay,ELISA)法、DNA微阵列(DNA microarray)法等鉴定方法发挥了巨大的作用。但是,传统方法存在一个局限,即需要对病原微生物有一定程度上的预先判断,以选择合适的试剂盒或实验材料。近些年来,新突发疫情、临床微生物感染或传染病疑难病例,常存在对病原微生物的先验知识不足或预判不准确的情况,对病原鉴定的方法学提出了更高的挑战。二代测序技术,又称为高通量测序技术,为该问题提供了一个可行的解决方案。在没有病原种属先验知识的情况下,可直接对来自标本的核酸进行高通量测序,再通过生物信息学方法,同庞大的微生物核酸数据库进行比对,即可获得标本中的微生物的信息,随后再进行传统方法的验证或确证,实现对疑难样本的鉴定。该策略的其中一个关键步骤是对庞大的测序数据进行分析,目前,已有一些软件可对非培养标本的二代测序数据进行微生物相关分析,如VirusSeq、VERSE等。但这些软件通常需要比较大的计算资源和存储资源,有的需要部署在云端,在疫情现场或临床一线推广存在难度。另一方面,现有的软件多关注于细菌类微生物,而病毒在新突发传染病中占了很大的比例。所以,基于高通量测序的病原微生物分析方法还有继续改进和提升的空间,以更适应临床或疾控应用的需求。本论文开发了一个轻量级的生物信息学的病毒快速鉴定工具。该工具可安装于家用级的个人计算机,也在移动式计算工作站和计算集群中部署,具有用户友好的图像化中文界面,可实现分钟级别的高通量测序数据快速分析,获取其中病毒物种水平的信息。本论文首先介绍了该快速病毒鉴定工具的开发细节,包含病毒核酸数据库的建立和精简处理方法、病毒分析流程的确定、软件开发技术框架的实现这三个部分。由于核酸全库中的病毒序列存在比较大的冗余性,为了提升分析速度,降低对计算硬件的需求,我们对病毒核酸数据库进行了精简处理。利用序列同源性比对、聚类软件,以及自编脚本,以95%同源性为阈值,挑出代表性病毒核酸序列,并剔除了同人类基因组的同源序列,将数据库从1,914,294条序列(3,447,426,279碱基)精简为112,694条序列(721,193,979碱基)。基于精简的病毒核酸数据库,进行高通量测序数据(短读段)的快速比对、拼接、拼接序列的比对,并对产生的结果进行分析和整合,以便进行展示。本工具基于网页形式,包括数据提交、分析方案选择、和结果展示三个部分。其中结果展示部分,包括了短片段比对到的病毒核酸数据库的情况,在参考序列上的覆盖情况,基因组拼接结果,以及拼接获得序列和病毒核酸数据库的BLAST结果。开发主要基于Django框架的模型-视图-控制器设计模式,采用鼠标进行操作,并具有中文界面。该工具提供了源代码安装和基于虚拟机的安装方式,并对比对和拼接的最优线程数进行了优化。在个体笔记本计算系统上,我们比较了基于精简病毒核酸数据库和原始病毒核酸数据库的分析速度和结果。采用两个腺病毒感染病人的咽拭子样本高通量测序数据作为测试,采用精简数据库的整体分析时间为2.16分钟,相对于采用原始序列数据库的分析时间19.76分钟,用时缩短9倍。其中,在对分析的加速主要体现在短片段比对环节。另一方面,采用精简数据库发现了8,537条腺病毒序列,是总数据集序列的0.55%,是所有比对到病毒序列的77%,而原始数据集发现了8,500条腺病毒序列,且这两个比例分别是0.24%和71.4%。序列拼接可得到腺病毒的近全基因组序列(34,776bp)。该结果说明,该系统具有更高的分析速度,且可实现对该样本数据集种病原病毒的准确鉴定。接下来,我们对更多的高通量测序数据集进行了测试,包括五个腺病毒感染病例数据(891Mbp)和五个2014年西非埃博拉病毒感染病例数据(465Mbp)。采用同时上传多套数据的方式进行一键式分析。在个体笔记本计算系统上,腺病毒数据的分析时间为4.07分钟,在5例中均发现了腺病毒的序列。埃博拉病毒数据集的分析时间为118.75分钟,在这5例样本中识别到了6.39%-63.49%的埃博拉病毒序列,均成功组装成为埃博拉病毒基因组框架图。埃博拉病毒分析时间主要在于拼接,由于数据集中可比对到病毒基因组的序列过多,导致拼接的时间较长。但是由于精简数据库,对人类同源系列进行了有效去除,没有出现由于人源序列去除不全而导致的拼接计算内存溢出情况。总的说来,我们开发了一个轻量级的病毒鉴定生物信息学工具,可利用有限的计算资源,实现非培养样本高通量测序数据的快速、准确的物种水平鉴定分析,在疫情现场、临床一线的病原体应急响应后或快速评估中,可能具有比较好的应用前景。同时,该工具有用户友好的中文界面,支持一键式出结果,并采用图表的形式进行展示,方便非生物信息学人员使用。