基于二代测序数据的快速病毒鉴定工具及其在可移动计算平台中的应用

来源 :军事科学院 | 被引量 : 0次 | 上传用户:t60720372f
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
病原微生物导致的各种疾病和大规模疫情是人类健康的重要威胁。病原微生物的准确鉴定是临床治疗和疾控防控工作的前提。近几十年来,培养法、微生物特异聚合酶链反应(Polymerase Chain Reactionm,PCR)法、酶联免疫吸附测定(enzyme linked immunosorbent assay,ELISA)法、DNA微阵列(DNA microarray)法等鉴定方法发挥了巨大的作用。但是,传统方法存在一个局限,即需要对病原微生物有一定程度上的预先判断,以选择合适的试剂盒或实验材料。近些年来,新突发疫情、临床微生物感染或传染病疑难病例,常存在对病原微生物的先验知识不足或预判不准确的情况,对病原鉴定的方法学提出了更高的挑战。二代测序技术,又称为高通量测序技术,为该问题提供了一个可行的解决方案。在没有病原种属先验知识的情况下,可直接对来自标本的核酸进行高通量测序,再通过生物信息学方法,同庞大的微生物核酸数据库进行比对,即可获得标本中的微生物的信息,随后再进行传统方法的验证或确证,实现对疑难样本的鉴定。该策略的其中一个关键步骤是对庞大的测序数据进行分析,目前,已有一些软件可对非培养标本的二代测序数据进行微生物相关分析,如VirusSeq、VERSE等。但这些软件通常需要比较大的计算资源和存储资源,有的需要部署在云端,在疫情现场或临床一线推广存在难度。另一方面,现有的软件多关注于细菌类微生物,而病毒在新突发传染病中占了很大的比例。所以,基于高通量测序的病原微生物分析方法还有继续改进和提升的空间,以更适应临床或疾控应用的需求。本论文开发了一个轻量级的生物信息学的病毒快速鉴定工具。该工具可安装于家用级的个人计算机,也在移动式计算工作站和计算集群中部署,具有用户友好的图像化中文界面,可实现分钟级别的高通量测序数据快速分析,获取其中病毒物种水平的信息。本论文首先介绍了该快速病毒鉴定工具的开发细节,包含病毒核酸数据库的建立和精简处理方法、病毒分析流程的确定、软件开发技术框架的实现这三个部分。由于核酸全库中的病毒序列存在比较大的冗余性,为了提升分析速度,降低对计算硬件的需求,我们对病毒核酸数据库进行了精简处理。利用序列同源性比对、聚类软件,以及自编脚本,以95%同源性为阈值,挑出代表性病毒核酸序列,并剔除了同人类基因组的同源序列,将数据库从1,914,294条序列(3,447,426,279碱基)精简为112,694条序列(721,193,979碱基)。基于精简的病毒核酸数据库,进行高通量测序数据(短读段)的快速比对、拼接、拼接序列的比对,并对产生的结果进行分析和整合,以便进行展示。本工具基于网页形式,包括数据提交、分析方案选择、和结果展示三个部分。其中结果展示部分,包括了短片段比对到的病毒核酸数据库的情况,在参考序列上的覆盖情况,基因组拼接结果,以及拼接获得序列和病毒核酸数据库的BLAST结果。开发主要基于Django框架的模型-视图-控制器设计模式,采用鼠标进行操作,并具有中文界面。该工具提供了源代码安装和基于虚拟机的安装方式,并对比对和拼接的最优线程数进行了优化。在个体笔记本计算系统上,我们比较了基于精简病毒核酸数据库和原始病毒核酸数据库的分析速度和结果。采用两个腺病毒感染病人的咽拭子样本高通量测序数据作为测试,采用精简数据库的整体分析时间为2.16分钟,相对于采用原始序列数据库的分析时间19.76分钟,用时缩短9倍。其中,在对分析的加速主要体现在短片段比对环节。另一方面,采用精简数据库发现了8,537条腺病毒序列,是总数据集序列的0.55%,是所有比对到病毒序列的77%,而原始数据集发现了8,500条腺病毒序列,且这两个比例分别是0.24%和71.4%。序列拼接可得到腺病毒的近全基因组序列(34,776bp)。该结果说明,该系统具有更高的分析速度,且可实现对该样本数据集种病原病毒的准确鉴定。接下来,我们对更多的高通量测序数据集进行了测试,包括五个腺病毒感染病例数据(891Mbp)和五个2014年西非埃博拉病毒感染病例数据(465Mbp)。采用同时上传多套数据的方式进行一键式分析。在个体笔记本计算系统上,腺病毒数据的分析时间为4.07分钟,在5例中均发现了腺病毒的序列。埃博拉病毒数据集的分析时间为118.75分钟,在这5例样本中识别到了6.39%-63.49%的埃博拉病毒序列,均成功组装成为埃博拉病毒基因组框架图。埃博拉病毒分析时间主要在于拼接,由于数据集中可比对到病毒基因组的序列过多,导致拼接的时间较长。但是由于精简数据库,对人类同源系列进行了有效去除,没有出现由于人源序列去除不全而导致的拼接计算内存溢出情况。总的说来,我们开发了一个轻量级的病毒鉴定生物信息学工具,可利用有限的计算资源,实现非培养样本高通量测序数据的快速、准确的物种水平鉴定分析,在疫情现场、临床一线的病原体应急响应后或快速评估中,可能具有比较好的应用前景。同时,该工具有用户友好的中文界面,支持一键式出结果,并采用图表的形式进行展示,方便非生物信息学人员使用。
其他文献
曾看过这样一幅漫画:两棵树本来一模一样,一个人希望小树早日成材,便把其中的一棵按养花之道,盲目地将其移植到花盆中,便乐滋滋地走了。过了一段时间,当他再去看时,花盆里的小树依然如故,而另一棵却长得枝繁叶茂……  看罢,我感慨良多。画中人希望小树早日成材的愿望是好的,可没有按正确的方法去做。反而事倍功半。我禁不住想到了一些父母对子女恨铁不成钢,望子成龙心切时,便咒骂他们,甚至体罚他们;而另一些父母对自
期刊
中共早期领导人十分重视宣传工作,他们创办了一批报刊,作为党的耳目喉舌,推进了组织工作的展开。中国共产党革命胜利的取得,亦离不开早期领导在报刊宣传工作上的出色表现。因
在SAS系统的支持下,选择非农业人口比例、GDP、人均GDP和人口密度作为解释变量,废水排放总量作为因变量,建立多元线性回归方程,对武汉市城市化进程的环境效应进行了定量分析
文章阐述了设立股东除名制度的必要性,并结合自己的执业实践对设立股东除名制度的依据、条件和程序进行了构想,以弥补我国股东除名制度研究的不足。
近些年来,我国一直致力于风电产业的发展。政府通过可再生能源强制配额及特许权招标等方式大力支持着风电产业的发展。随着我国风电产业的快速发展,其中也暴露出一些问题,笔
机关档案成形于机关各类行政管理工作过程中,是机关基础管理工作中的重要组成部分,反映着机关发展变迁的历史,具有极为重要的教育和借鉴作用.随着科学技术的发展和进步、信息
暖冬是指华北、东北地区冬天应该比较寒冷,但恰恰相反,天气并不是那么寒冷.所说的暖冬与冷冬,是按照30年以上的平均气温资料来定的.30年以上的平均气温资料显示华北、东北地
无数苍老的巨石,全都从千年的颓弛或掩埋中踉跄走出,规整地站在大道两旁,就像古代老将军们矗立,风尘满面,接受历史的检阅。这条大道穿越了千年。终于从1896年,万物皆敛声息语,静观奥林匹亚文明走过。这条大道没有终点,然而却有一个最简单的里程碑——人类的健康。于是,一条金色跑道开始丈量从奥林匹亚到爱琴海,从宙斯神殿到巴特农神殿,从德尔斐到伯罗奔尼撒的距离;一种盛大的议事开始启迪人类从上帝到维纳斯,从苏格
期刊
该院妇科手术临床中,对功能性子宫出血6例,子宫粘膜下肌瘤9例,子宫内膜息肉5例给予硬膜外阻滞下行宫腔镜手术,手术时间40~70min,平均(55.2±2.4)min,手术顺利,无并发症发生,
所谓悬念,就是把作品后面将要表现的内容,先在前面作个提示或暗示,但又不马上解答,而是故意在读者心中留下个疑团,使读者产生"非看下去不可"的心理,从而增添文章的吸引力和艺
期刊