论文部分内容阅读
研究目的 近十年,由于测序技术的迅速发展,使得我们能够在短时间内低成本完成大量基因组的测序,也为细菌的群体遗传学研究和表型性状与遗传基础的关联分析研究提供了前所未有的机遇。与此同时,如何合理处理和分析海量基因组数据,给生物统计学带来了新的机遇和挑战,也极大的促进了该学科的发展。本研究以鼠疫菌为研究对象,将生态流行病学涉及的气候与鼠疫疫情的研究与基因组流行病学涉及的鼠疫菌全基因组范围的遗传变异综合在一起,探讨鼠疫菌在局部地区气候影响下的进化规律。这样的跨学科研究,开启了鼠疫菌研究的新领域,为其它人畜共患病原菌研究提供参考。研究对象 鼠疫菌在人类历史上曾有三次大流行,造成上亿人死亡。目前虽然没有在人类中大规模流行,但仍存在于鼠疫自然疫源地中,并可通过蚤等媒介在啮齿类动物间传播流行。乌苏地区位于新疆维吾尔自治区,属于北天山灰旱獭、长尾黄鼠鼠疫疫源地,是重点的疫情监测地,在该地区自然环境中动物间鼠疫常年流行。本研究从该地区保存的120株历史菌株中筛选了102株菌进行测序,并最终确定93株菌用于本研究分析。同时,为了分析在50年的历史中环境因素和宿主媒介动态变化,本研究还收集和使了用该地区的鼠疫监测信息和气候环境数据。研究内容与结果-局部地区鼠疫菌进化对采样得到的乌苏地区93株鼠疫菌鉴定出166个可靠SNP位点。通过这些位点,可以对这些菌株构建系统发育树,分析其进化关系。系统发育分析表明,乌苏地区的鼠疫菌可以分为2个大群,分别位于古尔图地区的两片区域(记为A和B)(共78株)和巴音沟地区(共14株),另外还有1株距离两个群关系都比较远,可能是由于两个地区地理隔离导致不同种群的形成。另外,本研究还将93株菌与全球鼠疫菌系统发育树做比较,发现这93株菌均可定位在0.ANT1分支中。考虑到古尔图和巴音沟地区距离较远,海拔相差上千米,生态环境差别较大,本研究将焦点聚集在古尔图地区分离的78株鼠疫菌以及该地区的鼠疫生境中。古尔图地区鼠疫分离株中共鉴定出54个SNP。通过多种不同建树方法,均得到一致系统发育关系。78株菌可以分为3个主要群,并可进一步细分为Group 1.1,1.2,2.1,2.2和3。通过观察各群在时间上的动态变化,我们发现在A地区Group 1明显被Group 2所逐渐替代,发生时间约在1987年到1989年之间,1990年后Group1在A地区仅观测到1例。通过BEAST2推测各种群分化时间,Group 1和Group 2两群在1929年(95%置信区间为1900到1954年)产生分化。种群的替代可能是由于某种外部因素影响,导致另一个种群Group 2取得优势地位。通过有效种群大小和有效种群复制率分析,可以发现在1983年到1989年中,有效复制率明显降低,而有效种群大小也在1987年后明显下降,这些事实都表明在这个时期内可能有异常的外部环境变化,形成选择压力,从而改变了鼠疫菌的种群构成。基于鼠疫菌的SNP、Indel和附加基因组变异分析结果,本研究分析了基因组中受自然选择的区域,最终发现12个变异热区,并对其进行了详细注释。其中受选择最显著的热区位于rpo Z编码基因,基因总长只有276bp,发生了8个变异,其变异发生率(8/276≈2.90×10-2)远高于78株菌的全基因组变异发生率(128/4653728≈2.73×10-5)。rpo Z基因与鼠疫菌的生长速率以及在蚤体内生物膜形成有关,因而这些变异可能会影响鼠疫菌在跳蚤和老鼠中间的传播,但由于生长速率降低这些变异均未在种群中固定下来。-局部地区鼠疫疫情与气候环境变化关联为了充分挖掘疫情监测数据,本研究对各指标首先进行了两两之间的相关分析。对蚤指数、鼠密度和血清阳性率进行Pearson相关分析,结果显示三者之间相关性不高,甚至相关系数都没有超过0.5。理论上三者之间应该是有着直接的影响作用,因此相关度不高可能是由于其它因素如气候和环境导致。三个指标的自相关和两两之间的互相关也不存在规律性,说明这三个指标间在一定时延下也无显著的相关性。参考与古尔图地区相临的哈萨克斯坦地区鼠疫疫情规律所做的监测数据随时间变化图表示,该地区不存在与哈萨克斯坦地区相同的疫情规律,仍需要进一步深入研究其成因。对气候环境数据的探索性分析中,首先分析了降水、温度和NDVI数据的季节性,通过谱分析确定了有且仅有以1年为单位的周期分量。通过对时间序列季节项分解过滤周期分量后,得到了不包含周期波动的三项气候环境数据。这三个时间序列(季节分量调整后三项气候环境数据)本身前后数据之间仍存在一定的相关性,为了能有效鉴定在50年间何时出现异常气候情况,则需要将该规律部分进一步分解。通过使用时间序列中ARIMA模型方法,对这三项数据进一步分解后,得到了接近高斯白噪声,前后之间相关性也不存在。这里剩余的残差项就是气候环境数据在排除规律性因素后剩余的随机分量,此数据中的异常数据即为气候环境异常点。通过广义极端学生化偏差(ESD)方法,最终鉴定出8个温度异常值,9个降水异常值以及1个NDVI异常值。异常点的分布并不均匀,在1986年到1990年间,多次出现降水异常以及温度异常。为研究监测指标之间以及与气候环境指标之间的相互关系,希望通过建立定量化的回归方程来研究这些指标之间的规律。由于涉及变量数目过多,因而采用遗传算法解决变量筛选问题,以AICc为标准选择最优模型。通过该方法得到的方程揭示了监测指标与当年和前一年的监测指标以及气候环境指标中影响最大的分量。所建立的三个方程中,都包含有鼠密度指标,说明鼠密度在鼠疫菌流行的生态系统中发挥着重要的作用。将气候环境异常与基因组变异相联系,发现1986年到1990年间,是气候异常频发的时段,正好对应了检测到的鼠疫菌变异最多的一段时间,可能是导致鼠疫菌种群克隆群转换的原因。结论与意义 本研究通过对局部地区——古尔图地区鼠疫菌的基因组进化、动物鼠疫疫情与气候变化的相关和回归分析,给出了鼠疫菌所处生态系统在历史中的动态变化过程,为后续深入探索鼠疫菌在鼠疫自然疫源地的流行规律做出铺垫。rpo Z基因很可能与鼠疫菌环境适应性密切相关,可能会导致鼠疫菌的流行强度增加。结合气候与环境数据,发现连续的气候异常同鼠疫菌克隆群转换时间恰好一致,可能是由于极端天气导致鼠疫菌种群下降,从而引起鼠疫菌种群克隆群变化。这提示我们应当注意连续极端天气下鼠疫菌发生的变异,预防具有高传染性鼠疫菌种群出现。通过回归分析,发现宿主密度在整个鼠疫菌流行的生态系统中,可能是最重要的一项因素。本研究所得到的线性方程,可用于对古尔图地区鼠疫疫情的流行进行预测。