高通量测序数据中病毒基因组的生物信息学分析方法探索

来源 :中国人民解放军军事医学科学院 解放军军事医学科学院 | 被引量 : 5次 | 上传用户:gswwg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
病毒是一类只能够在活着的宿主细胞内复制的感染源。病毒个体微小、构造简单,除朊病毒(仅由蛋白构成)外,病毒均由一种作为遗传物质的核酸(DNA或RNA)与蛋白质构成。病毒种类多样,宿主范围广,具有细胞结构的生物均可以是病毒的宿主。病毒基因组作为病毒遗传信息的载体,是研究病毒的核心数据。随着高通量测序技术的普及,对病毒基因组进行高通量测序已成为研究病毒遗传、进化的主要手段。面对高通量测序产出的大量数据,就要求生物信息学分析能够尽可能多地挖掘出其中病毒基因组的有效信息。本文的研究目的即是探索出不同数据类型下,高通量测序数据中病毒基因组的生物信息学分析方法。本文从课题组积累的高通量测序数据及分析需求出发,探索了从高通量测序数据中挖掘病毒基因组中有效信息的分析方法。本文围绕病原微生物,分析其测序数据中病毒基因组的相关信息,具体分为两个部分:1、细菌高通量测序数据中溶原性噬菌体的分析;2、复杂测序样品中的病毒发现及基因组分析。细菌高通量测序数据中溶原性噬菌体的分析溶原性噬菌体是一类能够整合入宿主菌基因组中,随宿主菌的复制而传代的病毒。在某些条件的诱导下,也能够脱离宿主基因组,产生子代噬菌体释放出来。溶原性噬菌体的复制特性决定了它具有介导基因水平转移的功能,往往能够对宿主菌的致病性产生重要影响,如德国发现的肠出血性大肠杆菌O104:H4的主要毒力基因就是由前噬菌体所编码。本文以分离自足部溃烂病人的72株细菌基因组测序数据为研究对象,以溶原性噬菌体复制机制为理论模型,研究发现新的溶原性噬菌体基因组及其整合特征,为了解噬菌体的生物学特性及防控高致病性细菌感染提供基础。采用生物信息学软件与自编程序相结合的方式进行数据处理与分析。使用NGS QC Toolkit v2.3.3对原始测序数据进行质量控制,去除短读长及低质量数据。针对Ion Torrent平台数据特点,选择了商业软件Newbler v3.0作为数据组装软件。使用perl脚本编程,搭建前噬菌体预测分析流程,对组装得到的contigs进行前噬菌体预测。为得到活跃的前噬菌体基因组,选用两种辅助拼接工具,ContigScape插件显示组装后contigs之间的连接信息,商业软件CLC Genomics Workbench 9进行序列调整及拼接结果检查。使用实验室内部软件对contigs进行连接。同时使用RAST在线注释工具对得到的溶原性噬菌体基因组进行注释。最后,综合分析得到的溶原性噬菌体基因组结构、整合位点、进化关系等信息,挖掘其中的潜在信息。在72株细菌基因组数据中,共有11株细菌数据中发现了前噬菌体脱离细菌基因组进行复制的现象。对能够脱离细菌基因组进行复制的噬菌体序列进行拼接,共得到14个活化的前噬菌体全基因组序列,其中11株与目前已知的噬菌体序列同源性很低,为本文新发现的噬菌体序列。新序列的发现表明本文研究方法可用于新溶原性噬菌体的发现,增加科研人员对噬菌体的认知。分析发现,整合状态下噬菌体整合酶基因均与其整合位点紧邻。溶原性噬菌体的整合位点序列长短特征不一,但表现出与其整合酶具有相关性。同一整合位点可供多种具有相似整合酶的溶原性噬菌体整合,提供了前噬菌体预测的新思路。宿主为同一属内的细菌的溶原性噬菌体具有相似的基因组结构。复杂测序样品中的病毒发现及基因组分析由于病毒分离培养周期长,成功率低,我们常常要对一些复杂样品进行高通量测序,然后获取其中的有效病毒信息,这就给数据分析带来了一定的挑战。课题组近年来开展了使用高通量测序对临床样品进行病原检测的工作,要求数据分析能够快速准确地发现临床样品中的病原。目前单一的生物信息学软件不能满足我们对于复杂测序样品的分析需求,鉴于此开发了分析软件《高通量测序数据病原体归类分析软件v1.0》。该软件能够对细菌、真菌、原虫、病毒4种类型的病原进行检测,同时在应对复杂样品中已知或未知病毒的发现工作表现出良好的效果。复杂样品中已知病毒的发现,以2016年7月北京发现的输入性裂谷热病例为例。通过使用分析软件对测序数据分析,发现了大量的裂谷热病毒序列,确认了裂谷热病毒为致病原,并在第一时间获得了该株裂谷热病毒的全基因组序列。该株裂谷热病毒与2009年南非发现的Kakamas株同源性最高,进化分析提示该株病毒没有发生重组。复杂样品中未知病毒的发现,以勐海弹状病毒的发现为例。该株病毒分离自云南勐海地区捕获的白纹伊蚊,以C6/36细胞培养后,使用常见病毒引物无法鉴定出是何种病毒。通过对其高通量测序数据的分析,排除掉宿主细胞、其他细菌、病毒等干扰因素,获得了该株病毒的全基因组序列。序列分析显示其为一株新型的弹状病毒,命名为勐海弹状病毒,与发现于秘鲁的另外两株蚊媒弹状病毒最为相似。在对勐海弹状病毒的基因组分析中,本文还对选取的93株弹状病毒参考序列进行了病毒末端序列分析。发现其中的45株均具有短反向重复末端序列的特点,分布于不同的属中。狂犬病毒属内具有非常一致的末端序列“ACGCTTAAC”,而Ephemerovirus、Vesiculovirus、Tibrovirus和Sprivivirus四个属的病毒则均有“ACGAAGA”的一致末端序列。病毒基因组的末端序列常常与其基因组复制相关,其末端序列往往是相对严格的,这表明短反向重复末端序列很可能是弹状病毒科病毒基因组的一类特点。综上,本文在现有病毒基因组分析方法的基础上,提出了以细菌测序数据分析活化的前噬菌体全基因组及其整合位点的分析方法,能够用于新溶原性噬菌体发现,为了解溶原性噬菌体提供新知识。开发了高通量测序数据病原体归类分析软件,取得软件著作权,并在未知病原检测中发挥良好的作用。通过数据分析发现了一种新的弹状病毒,并对弹状病毒科基因组的末端序列特点做了分析。病毒基因组的分析,仍需针对不同的研究对象及分析需求设计分析方法,希望本文的方法及结论能够给其他科研人员提供参考和思路。
其他文献
  在三种不同的配气正时方案下,通过试验研究了气门重叠角对发动机怠速稳定性以及对发动机动力性、经济性和排放的影响。结果表明:低速时,气门重叠角对发动机动力性基本上没
本文主要围绕锂离子电池正极材料LiNi_(1/3)Co_(1/3)Mn_(1/3)O_2存在的高电压区间电化学性能差及高倍率循环性能差这一主题,在LiNi_(1/3)Co_(1/3)Mn_(1/3)O_2材料的合成及改性方面展开了一些研究。本文首次对高温固相法碳包覆改性LiNi_(1/3)Co_(1/3)Mn_(1/3)O_2进行了系统的研究。首次研究了Mg-Cl共掺杂对LiNi_(1/3)Co_
决明(Cassia obtusifolia L.)为豆科(Leguminosae)云实亚科(Caesalpinioideae Taub.)决明属(Cassia)一年生半灌木状草本,以其种子入药,药材名为决明子。决明子具有祛风散热,清肝明目,润肠通便等功效,是国家卫生部公布的69种药食同源的物质之一。决明子作为我国的一味传统中药材,近年来越来越受到人们的青睐,因其不但具有药用价值,还含有多种维生素、