论文部分内容阅读
微生物通过多种相互作用组成复杂的生态网络以群落的形式共存于我们身边,与我们的生产和生活息息相关,更是直接影响了人类的身体健康,了解群落内部微生物-微生物之间的影响机制会帮助我们更好的掌握整个群落的功能和特性。如何从不同的物种在多个相似样本中的含量数据推测出它们之间可能存在的相互作用关系并识别出在群落中起关键作用的物种是本课题重点研究的问题。由于真实微生物生态网络数据的不足,本文使用Barabasi–Albert(BA)模型、Generalized Lotka–Volterra(GLV)模型和二次抽样的方法生成模拟的微生物群落及其对应的截面物种-丰度表,再由模拟群落中的已知参数通过Leave-one方法和Bray-Curtis(BC)距离生成群落中物种重要程度的标准排名,然后基于这些模拟数据进行网络构建以及物种重要程度评估方法的研究,最终将具有较高准确率的方法应用在系统的真实数据应用部分以对真实的微生物群落进行分析。在网络构建部分,本文综合了Pearson相关性、Spearman相关性和Mutual Information三种度量方法来分析不同物种之间的相关性,然后通过网络反卷积算法来处理由于相互作用的可传递性而造成的间接相关性问题,再使用Molecular Ecological Network Analyses(MENA)方法选取合适的阈值来确定微生物生态网络的结构,最后本文提出了一种名为Quotient Value(QV)的方法计算生态网络中边的方向以及权值大小,该方法挖掘了物种-丰度表中相关性分析之外的其他信息并具有较高的准确性。在关键物种识别部分,本文提出了一种名为Spread Intensity(SI)的新算法,该算法结合了生态网络的拓扑结构以及微生物群落本身的特性实现了对微生物群落中物种重要程度的评估,之后本文分别在与标准排名的Spearman相关性、精确率以及最小百分比三个方面将SI算法与传统的关键物种识别方法进行了全面的比较,结果表明SI算法在各个方面均具有明显的优越性。最后,为了证明本系统所使用的方法在真实数据上具有良好的可迁移性,本文对肥胖小鼠肠道微生物数据进行了分析,使用该数据构造网络并分析其中与肥胖症相关的关键物种,最终发现本文分析的结论与真实生物实验结果相吻合,证明了本系统在真实数据中的可应用性。