论文部分内容阅读
自1987年Woese提出三域学说以来,原核生物的分类学一直以16S r RNA基因的系统发育关系和序列一致度作为不同分类单元分类的标准。随着测序技术的发展,以及生物信息学分析技术日益成熟,数据库中细菌全基因组序列数量呈爆发式增长,全基因组序列分析在原核生物系统学上成为不可替代的指征。基于基因组核酸序列计算的平均核苷酸一致度(Average nucleotide identity,ANI,95%~96%)和DNA-DNA模拟杂交值(DDH值,70%),已成为种级分类单元的黄金标准。而对属及以上高级分类单元间细菌间基因组差异度的研究鲜有报道,目前尚无统一标准。对高级分类单元间细菌基因组间差异度的量化分析,将有力促进原核生物系统学及系统基因组分类学的发展。基于此,本研究于2020年9月,下载了Gen Bank中现有的细菌域模式菌株的全基因组序列(9229个物种),使用Check M进行质量评估,最终获得8578个高质量(完整度>95%、污染度<5%)基因组。进一步基于细菌名录网站LPSN(List of Prokaryotic names with Standing in Nomenclature,LPSN,https://www.bacterio.net)核对了相应菌株的最新分类地位,结果表明这些菌株分布于37个门、71个纲、170个目、423个科和2191个属。对模式菌株的全基因组序列信息特征进行统计分析,发现细菌域细菌的全基因组大小为0.58~13.61M bp,G+C%含量为22.41%~75.86%。对所有全基因组完成图的统计分析发现,细菌域模式菌株的复制子数量为1~9个。不同分类群G+C%含量的差异度:种间为0%~16.77%,属间为0.01%~26.86%,科间为0%~32.79%,目间为0.02%~38.2%。不同分类群基因组大小的差异度:种间为0%~55.49%,属间为0.08%~85.40%,科间为0.04%~87.03%,目间为0.92%~82.76%。利用Ortho ANI计算了不同分类单元(包括目间、科间、属间和种间)的平均核苷酸一致度(ANI),结果表明细菌域细菌种间基因组间ANI值分布范围为61.39%~98.23%,中值为75.12%,均值为75.1%;属间数据分布范围为61.64%~88.05%,中值为68.57%,均值为69.2%;科间数据分布范围为60.13%~81.24%,中值为65.49%,均值为66.31%;目间数据分布范围为59.23%~79.42%,中值为66.05%,均值为65.94%。利用Compare M计算了不同分类单元菌间的平均氨基酸一致度(Aaverage amino acid identity,AAI),结果表明细菌域细菌种间基因组间AAI值分布范围为43.77%~98.57%,中值为71.57%,均值为71.80%;属间数据分布范围为45.23%~91.03%,中值为61.70%,均值为62.02%;科间数据分布范围为42.57%~74.18%,中值为54.43%,均值为55.02%;目间数据分布范围为41.88%~60.88%,中值为51.97%,均值为52.07%。对比ANI和AAI计算结果,发现种间ANI值和AAI值数据波动范围最大,目间数据分布最为集中。无论ANI还是AAI在不同分类单元之间均有一定程度的重叠现象,在属间、科间和目间较高等级的分类单元AAI的重叠明显低于ANI,因此,在较高等级的分类单元中AAI具有更高的分辨率。对ANI值和AAI值的对应性分析表明随着分类等级的升高,其线性相关性越差且两值间的比值也呈现出下降趋势。对物种数量多的Alphaproteobacteria纲、Actinobacteria纲和Bacilli纲内不同分类单元菌间基因组差异度分析表明,Alphaproteobacteria纲目间、科间、属间和种间ANI均值分别为65.98%、68.08%、70.95%和77.45%,AAI均值分别为51.76%、56.79%、64.42%和74.49%;Actinobacteria纲目间、科间、属间和种间ANI均值分别为72.20%、69.21%、67.91%和76.76%,AAI均值分别为52..61%、56.57%、62.41%和71.7%;Bacilli纲目间、科间、属间和种间ANI均值分别为63.33%、64.50%、66.34%和70.91%,AAI均值49.87%、53.36%、58.42%和67.55%。进一步分析发现,G+C%含量在属间差异度最为明显。在科间和目间,Alphaproteobacteria纲的AAI值具有比较明显的科(60%)、目(54%)边界;Actinobacteria纲和Bacilli纲中,科间和目间的ANI值、AAI值数据范围重叠较多。在Alphaproteobacteria纲和Bacilli纲种间基因组一致度分析中发现ANI值与AAI值表现出极强的线性相关性(R~2≥0.88),并结合物种树、基因组关系指数(ANI值和AAI值)、16S r RNA基因系统发育关系和同源性值以及基因组信息对与现有分类地位存在问题的物种进行了重分类建议。综上,本研究在核酸和氨基酸水平上系统分析了细菌域不同分类单元模式菌株间全基因组序列的差异度,为细菌域不同分类单元的基因组学分类提供依据,为宏基因组研究中难以确定分类地位的物种提供分类参考。