论文部分内容阅读
近年来,新发突发传染病,尤其是病毒性传染病频繁暴发,对畜禽养殖与公共卫生构成了严重威胁,对全球安全、社会经济和人类生活构成重大挑战。快速准确地诊断动物与人的新发传染病是及时制定和实施防控措施的前提。由于未知的新型病毒与已知病毒存在着较大的差异,因此传统的病毒检测方法在应对新突发病毒性传染病时存在明显的局限性。随着病毒分子生物学和下一代测序技术的快速发展,基于高通量测序(High-throughput sequencing,HTS)的病毒宏基因组学成为了一种具有广阔应用前景并且适用于快速诊断和大规模筛查病毒性传染病病原的有效手段。因为它不需要任何的先验信息,通过与病毒数据库比对就可以识别出样品中的所有潜在病毒。病毒宏基因组分析高度依赖于测序数据与病毒参考数据库的比对分析。因此具有高代表性、高准确性、具有功能性的高质量病毒参考数据库是诊断可靠性的重要保证。国际上,病毒基因数据库繁多,其中较为常用的有Genbank以及Uni Prot,但是所有这些数据库都存在许多非病毒序列污染,从而影响病毒组分析结果的正确性和准确性,这些污染序列包括宿主序列、实验室材料污染序列(laboratory-component-derived,LCD)以及一些被错误分类的病毒序列。基于这样的数据库所获得的病毒组分析结果通常都有偏差,甚至导致错误诊断,为了确保病毒组诊断技术的准确性和可靠性,本研究下载了Genbank和Uni Prot中所有的病毒序列,通过系统分析与筛查去除了污染序列和非必须的重复序列,从而构建了一个用于真核生物病毒的生物信息分析检测和鉴定的非冗余病毒参考数据库EVRD(Eukaryotic Viral Reference Database)。主要方法与过程是通过宿主与载体序列过滤以及病毒数据库交叉验证等方法对现有病毒序列数据库Gen Bank、Uni Prot进行“净化”,将其中被错误注释为病毒的宿主与载体序列片段以及跨科注释错误的病毒序列进行去除。最终经过详细的筛查和“净化”,从这些病毒数据库中共检测到766条核苷酸和276条氨基酸“问题序列”,本研究将它们称为异源序列HGS(Heterogenous sequence),最长可达6605bp。这些异源序列广泛分布于39个病毒科,其中涉及到多种与公共卫生相关的病毒,如丙型肝炎病毒、克里米亚-刚果出血热病毒和丝状病毒等。它们主要是错误注释为病毒序列的宿主基因序列、载体序列、错误分类的病毒序列以及实验室材料污染的病毒序列。本研究还将来自于实验室材料污染序列(LCD,n=155)、部分来自于质粒载体骨架部分的序列(Vector,n=79)以及一些常见的疫苗毒株序列(Vaccine,n=40)添加到了EVRD病毒数据库中作为警示序列。以此来提示使用者在注释到这些序列信息时,应该谨慎判别其真实来源。为了验证上述构建的EVRD病毒数据库的分析效能和准确性,本研究以该病毒数据库对网上下载的9组人、猪和蝙蝠病毒组SRA数据集分别进行了基于contigs以及reads的病毒组注释。统计9组测序数据中的病毒组概貌并与下载的Genbank/Uni Prot以及病毒参考数据库RVDB/RVDB-prot(Reference Viral Database)的注释结果进行比较评估。最终结果表明EVRD不仅能够应用在病毒组分析中,在与其他2个病毒数据库比较中也颇具优势,即EVRD数据库数据量更小,所以比对耗时更少,并且对真实病毒的识别能力(覆盖率)以及检出数量上也基本相同。不仅如此EVRD病毒数据库在比对时还避免了禽副粘病毒、牛病毒性腹泻病毒等假阳性序列的出现,避免使用者对于结果的错误解读,并且在一组猪的SRA数据集中还识别到了带有“Vaccine”标签的PRRSV疫苗毒株以及野毒株。表明该养殖场检测出的不只是野毒株,而且还有疫苗毒株。为了将该数据库应用于病毒病防控,该病毒数据库已经上线(https://cvri.caas.cn/kxyj/yjfx/bfbd/EVRD/index.htm)。总之,为了推进病毒组技术走向临床,本研究通过去除Genbank/Uni Prot中的异源序列,建立了更加准确可靠的真核生物病毒参考数据库EVRD,该库已经上线并将保持定期更新。EVRD在不漏检病毒的基础上避免了假阳性序列对于结果的干扰和误判,在病毒病诊断、病毒序列的分类聚类、病毒分析和新病毒检测等方面有良好的应用前景。因此,很适合于人和动物病毒病的精准监测与高通量病毒筛查。