论文部分内容阅读
突变是细菌演化的源动力。单核苷酸多态性(single nucleotide polymorphism,SNP)、小的插入和缺失(small insertion and deletion,Indel)、结构变异(structural variation,SV)和重组(recombination)等多种基因组突变,为细菌提供了演化所必需的多样性。同时,突变也是病原菌分型鉴定、溯源追踪和演化研究的重要基础,为病原菌毒力、耐药等重要性状的遗传机制研究提供靶标和依据。根据分子演化中性理论,突变在染色体上应表现为随机分布;然而对小规模自然种群和实验室传代菌株的研究结果证明,细菌存在非随机突变现象,可在基因组中产生突变“热区”和“冷区”。此类现象的形成机制尚不明确,一般认为与同源重组、自然选择和染色体突变速率不均一等因素有关。目前缺乏对非随机突变在大规模细菌自然种群中分布规律的认识,也缺少对该现象形成机制的系统研究。鼠疫耶尔森菌(Yersiniapestis,简称鼠疫菌)是自然疫源性疾病——鼠疫的病原体,可引起腺鼠疫、肺鼠疫和败血性鼠疫,主要通过啮齿类动物和跳蚤等叮咬进行传播,其中肺鼠疫可通过呼吸道飞沫在人与人之间进行扩散。鼠疫菌在人类历史上曾引起三次大流行,导致上亿人口死亡,同时该菌也是一种典型的生物战剂,会给人类社会带来生物安全威胁。了解鼠疫菌非随机突变的特性,将为解析该重要病原的演化规律、致病机理以及进行针对性防护提供底层理论支撑。同时,鼠疫菌具有高度遗传单态性(genetic monomorphism)、自然界中未观察到同源重组等特征,使得该物种易于排除多种影响因素造成的研究偏倚,成为非随机突变研究的理想模型。通过对大规模鼠疫菌自然分离株的基因组序列展开分析,将进一步明确非随机突变现象的分布规律、作用边界、产生机制以及与细菌种群演化间的关系,为解决细菌基因组非随机突变这一微生物演化领域研究的理论难题提供新线索。本研究应用比较基因组学和群体遗传学的理论和工具,基于3,557株覆盖5大洲42个国家(其中3,482株为鼠疫菌现代分离株,来自28个国家)的鼠疫菌全基因组测序数据,从以下三方面开展研究:1.鼠疫菌种群多样性与地理分布基于大规模测序数据,本研究重新评估了鼠疫菌的种群多样性和地理分布特征。结果表明,在纳入更多基因组序列的情况下,鼠疫菌家系树仍支持五分支框架结构,其全球和国内分布均具有明显地域聚集性特征。本研究总结归纳了世界各地的鼠疫菌种群分布规律,发现美洲(北美洲和南美洲)、东南亚以及非洲马达加斯加地区的鼠疫菌均属于1.ORI分支,种群多样性单一,是第三次鼠疫大流行传播形成的疫源地;除0.PE3和1.ANT种群位于非洲地区外,其他目前所有已知的鼠疫菌现代种群(不考虑古DNA序列)均在东欧和亚洲地区有分布,主要位于俄罗斯、高加索地区、中国、蒙古国以及中亚各国。其中我国鼠疫菌种群多样性高于其他国家,是鼠疫菌可能的起源地。同时,密集采样数据大大丰富和完善了鼠疫菌整个物种以及各系统发育群内部的多样性,推动了进一步精细划分种群的需求。本研究参照目前广泛认可和使用的流感病毒和SARS-CoV-2动态命名体系,在与现有鼠疫菌种群命名体系框架保持一致的前提下,提出包容性和扩展性更强的鼠疫菌三级分层命名体系,解决了在命名新种群或亚群时缺乏统一参考标准的问题,能够为未来精细溯源和密集采样时的种群鉴定以及命名工作提供有效参考。2.鼠疫菌SNP和Indel变异特征SNP和Indel(本研究定义为片段长度≤30 bp的插入和缺失)变异是细菌染色体上最为常见的两类变异。全基因组范围内的SNP变异已经成为细菌分型和演化研究常用的分子标记,然而,Indel变异由于复杂度高、缺乏合适的分析工具,细菌群体基因组学研究中很少涉及该变异,鼠疫菌中也缺乏对Indel变异特征的系统了解。本研究建立了适用于大规模测序的Indel鉴定流程和相应参数,并结合SNP变异,深入挖掘了鼠疫菌中这两种突变类型的基因组分布特征和规律。SNP变异分析结果表明,鼠疫菌中基因编码区和基因间区的SNP密度分别为1.35 SNP/kb和1.70 SNP/kb;鼠疫菌基因组两两之间的平均遗传距离(即差异的SNP位点数)为118;除最早分化出来的谱系分支Branch 0外,其余3个主要分支Branch 1~3(Branch 4由于菌株数量太少未纳入分析)内部两两菌株之间的平均遗传距离小于60个SNP。尽管本研究纳入超过3,000条基因组序列,但观测到的鼠疫菌遗传多样性仍有限,进一步证实鼠疫菌在群体遗传水平高度单态性的特点。Indel变异分析结果表明,基因编码区的移码突变占鼠疫菌总Indel变异的53.98%,主要与1 bp长度的Indel突变型占主导地位有关。虽然通常认为Indel位点突变率高,不适于长期演化分析,但是本研究比较了基于Indel变异和SNP变异重建的系统发育树,发现:二者主要分支拓扑结构基本一致,说明鼠疫菌长期演化各个阶段都存在固定下来的Indel位点,这些位点的功能效应有待进一步探索;基于Indel变异的系统发育树在个别分支节点分辨率较低,表明Indel在演化中可能受到更强的纯化选择作用,因此在群体中的固定率低于SNP。另外,本研究证实了鼠疫菌中发生的Indel变异与基因组序列低复杂度有关,并且发现Indel位点周围存在与结核分枝杆菌类似的“Indel 口袋”现象(基因组序列复杂度在Indel位点上下游7~19 bp范围内呈现下降趋势,形成类似口袋的形状)。我们推测该现象可能在其他细菌基因组中也存在,未来对更多细菌物种的基因组学研究将为该假设提供证据支持。3.鼠疫菌非随机突变分布及形成机制前期研究表明,鼠疫菌中存在非随机突变现象;但这些研究只考察了染色体局部区域,或者基因组数量和地域代表性有限。本研究改进了已有分析方法,基于二项分布和随机抽样,建立了适用于鼠疫菌大规模测序数据的非随机突变鉴定流程(由于鼠疫菌遗传多样性低,平均每kb基因组序列不超过2个突变,因此本研究只关注突变热区),并基于SNP和Indel变异,全面考察了鼠疫菌基因组的非随机突变现象及其序列特征。本研究在鼠疫菌染色体上鉴定出45个可靠的突变热区,命名为HR01~HR45,并基于随机抽样方法和模拟中性演化序列验证了突变热区的可靠性。突变热区的序列长度范围为40~4,436 bp,包含6~226个突变。根据基因组分布特征,本研究将突变热区分为3大类:只涉及单个基因的突变热区(5个)、只发生在基因间区的突变热区(6个)以及跨基因和间区分布的突变热区(34个)。该结果表明,过去以基因为作用单位研究非随机突变或自然选择存在不足,从操纵子水平或基因功能复合体水平综合考虑更符合客观规律。同时,我们归纳总结了突变热区相关基因的功能,发现其功能集中在转录、翻译以及无机离子转运和代谢方面,其中转录调控因子相关基因涉及14个突变热区,提示参与环境应答的基因更容易发生改变。另外,本研究从同源重组、自然选择、染色体突变速率异质性和转录水平变化四个方面,初步探索了突变热区的形成机制。首先,基于单个基因组中可能存在的物理连锁突变位点数目,我们排除了同源重组对鼠疫菌突变热区形成的影响。其次,通过非随机突变与种群结构、时空分布的关联分析,以及计算两种常见的自然选择压力评价参数(dN/dS>1和homoplasy位点),本研究分析了突变热区可能存在的自然选择信号,共鉴定到4个具有高固定比的突变热区和11个在单个种群中突变富集的低固定比热区。高固定比的突变热区呈现典型的正向选择表现形式,即具有适应度优势的突变在种群演化中被保留下来并遗传给后代,可能参与鼠疫菌整个物种演化的关键过程(例如HR31的ail基因);而单个种群中突变富集的低固定比热区则与特定自然环境适应有关,呈现基因/基因功能复合体水平趋同演化(例如HR02的rpoZ基因和HR27的purR基因)。另外,超过三分之二的突变热区存在dN/dS>1或homoplasy位点。上述结果表明鼠疫菌突变热区的形成主要受自然选择影响。但是,由于个别热区存在低GC含量/低基因组复杂度序列或具有较高的dS值,因此不排除染色体部分区域突变速率存在差异的可能性。最后,基于已公开发表的鼠疫菌转录组数据,我们分析了不同实验条件对基因转录水平的影响,发现突变热区相关基因更容易受不同条件影响发生基因表达水平的改变,推测该现象可能与突变热区存在较多参与环境应答的基因有关;但在形成机制方面,无法用异常表达基因更容易发生高突变的假设解释突变热区形成现象。结论:本研究以鼠疫菌为模型,应用群体基因组学研究方法,系统性分析了鼠疫菌的全球遗传多样性(第一章),深入挖掘了物种水平的基因组突变分布特征(第二章),加深了对鼠疫菌演化和传播规律的认识,为这一重要病原的精细溯源和防控提供参考;同时,总结归纳了鼠疫菌基因组的非随机突变现象及分布规律,并进一步探索讨论了非随机突变产生的可能机制(第三章和第四章),为细菌基因组非随机突变假说提供支撑,有助于实现演化底层理论的新突破。