论文部分内容阅读
16S rRNA全长约为1540nt,存在于所有细菌的核糖体中。因其结构与功能的高度保守性,在微生物生态学研究中,常通过高通量测序对其基因片段进行测定,根据测序序列相似度的高低来反映微生物亲缘关系的远近,根据序列的出现次数来反映对应的微生物在群落中的丰度,从而得到微生物群落的物种组成比例与多样性信息。因此,根据测序数据准确地获取微生物的分类特征信息,对比较微生物群落结构的差异,乃至对锁定关键功能菌种都是至关重要的。本论文首先探讨了测序深度对反映群落多样性特征的影响。在研究中通常基于可操作分类单元(operational taxonomy unit,OTU)的丰度分布情况,通过模拟采样的方式观察alpha多样性指标随测序深度变化的稀释曲线。根据稀释曲线是否达到平台期来判断测序深度是否足够。但我们的结果发现不同alpha多样性的稀释曲线具有显著差别;同时alpha多样性指标的变化并不能对应地反映测序深度对beta多样性、样本分组显著性和分组准确率等指标的影响。我们因此提出在论证测序深度是否足够时,应综合使用多项指标,并使用重采样模拟的方式对测序深度的影响进行评估。同时根据示例数据,我们认为使用Illumina测序平台对人体共生微生物群落多样性进行研究时,应保证每个样本中的高质量序列不低于5,000条。本论文的第二部分讨论了测序错误对微生物群落分类特征信息的准确性的影响并提出了解决方法。我们发现目前的主流分析流程虽然有严格的序列质控手段,但是质控后的高质量序列中仍然存在测序错误。而正是这些测序错误导致在数据分析过程中产生了很多虚假的分类特征信息。为此我们开发了一个流程来有效地减少这些测序错误带来的影响。该流程分为两步,第一步基于序列检测最低可信限原理,使用bootstrapping采样模拟,筛选掉高质量序列中丰度低于可靠检测阈值的序列(abundance filtering,AF);第二步使用剩余的丰度较高的高质量序列进行OTU划分,并将第一步筛选出的低丰度序列与划定的OTU进行比对,将能够比对上的序列纳入OTU 的丰度计算(AF-based OTU picking and remapping,AOR)。我们使用该流程对多种数据,包括我们自行构建并测序的人工群落数据、基于数据库参考序列的模拟数据以及已公开发表的四个真实数据,与现有的主流分析流程进行了比较分析。结果显示,我们提出的流程能够最大程度地减少错误序列对于群落多样性研究的影响,从而能有效避免错误的生物学结论对后续分析和实验的误导。本论文第三部分通过一个实例介绍了基于16S rRNA基因高通量测序数据的分析方法在实际研究中的应用。在此实例中,我们研究了慢性乙型肝炎(CHB)患者中肠道菌群失调现象对肝病发生发展的作用。依据观察到的CHB患者肠道菌群结构和功能变化特点,我们提出了肠道菌群失调指数(gut dysbiosis index,GDI),该指数用肠道中“有害菌”对“有益菌”的丰度差异来指征肠道菌群的失调情况。通过肠道菌群与人体血液代谢物组的分析,我们发现肠道菌群可能参与了血液中芳香类氨基酸(aromatic amino acids,AAA)的异常积累。而AAA对促成肝纤维化、肝硬化和肝癌的病理发展具有关键性的作用。我们的这个发现提示肠道菌群可能通过干预宿主代谢的方式参与了慢性乙型肝炎向肝硬化的发展过程。综上,本文着眼于实际应用,对目前以16S rRNA基因高通量测序为检测手段的微生物群落结构与功能分析中存在的部分问题进行了探讨,并提出了切实可行的改进方案。最后用一个实际案例展示了我们改进的分析流程在微生物生态学中的应用价值。