论文部分内容阅读
随着环境微生物研究的发展和高通量测序技术的出现,微生物的研究迎来了宏基因组学的技术研究时代。突破传统微生物学研究方法的瓶颈,宏基因组学直接研究环境微生物的基因组。近年来大量研究表明,人体的多种疾病与人体类各个器官的微生物群落是息息相关的,而宏基因组样本分类方法成为研究微生物群落与宿主或环境关系的重要研究手段:通过提取宏基因组样本的特征,结合分类算法鉴定样本类别。目前宏基因组样本分类方法大多使用微生物的全基因组序列,本文深入研究了基于16S rRNA基因序列微生物群落分析方法,建立了一套基于16S rRNA基因序列的样本分类流程,并将分析与分类方法应用到小鼠及人类肠道微生物群落的研究中。样本分类的重要前提是对不同状态的样本提取一种具有显著差异性的特征。本文深入研究不同样本的16S rRNA基因序列,通过模拟数据分析验证群落结构作为样本特征的可行性。分析结果表明,物种丰度包含了样本中微生物的物种数目、比例,是最基本的样本特征;α多样性提炼了样本的物种丰度信息,降低了样本特征维数,是一种较为重要的样本特征;β多样性特征同时结合了群落独立进化信息(UniFrac)和物种丰度,是较为理想的样本特征。结合随机森林算法和三种有效的样本特征,我们建立了一套基于16S rRNA基因序列的样本分类流程。通过对不同参数的模拟数据集的分类实验,我们比较了样本类别数、特征的类间方差、类内方差以及系统发育树高度对分类流程准确率的影响。最终的分类结果表明,在样本特征类间差异不明显,即类内特征方差大、类间特征方差小的情况下本文所建立的分类流程分类准确率比其他分类方法高;在样本类别数增加、群落进化关系复杂等情况下,本文所建立的流程较其他分类方法表现更好。实验结果表明我们设计的宏基因组样本分类流程具有良好的分类性能,能够准确鉴别基于16S rRNA序列的宏基因组样本。将所建立的基于16S rRNA基因序列的宏基因组样本分类分析流程分别应用于小鼠和人类肠道微生物样本。实验结果表明我们发展的分类流程对与环境相关的小鼠肠道微生物样本分类准确率高于88%,能够准确地对小鼠肠道宏基因组样本中微生物群落所生存的环境类别进行区分。同时分类结果表明:特征向量的类间方差小的两组样本错分而导致的样本分类错误较多;不同环境下小鼠肠道微生物样本的群落独立进化信息(UniFrac)对样本差异性的体现不如物种进化关系。对于与肥胖相关的人类肠道微生物样本,我们发展的流程的分类准确率达到75%以上,基本能够鉴定人类肠道宏基因组样本中微生物群落的宿主的体型类别。同时分类结果还表明:过重组和肥胖组两类样本组的特征向量的类间方差低而经常导致样本错分;肥胖相关人类肠道微生物样本的群落独立进化信息作为样本特征的分类性能要优于微生物物种进化信息,我们认为群落独立进化信息更能体现有着不同身体质量指数人群的肠道微生物差异。综合两组数据实验结论如下:首先,样本特征的类间方差对分类准确率影响较大,类间方差较小的两组样本容易错分而导致分类准确率降低;其次,我们设计的流程不论基于哪一种样本特征,分类性能都要比基于支持向量机的分类流程出色:最后,对于不同样本16S rRNA测序数据,MetaPhyl的分类性能不如我们发展的分类流程稳定。