论文部分内容阅读
肠道菌群与人体健康密切相关,在代谢和免疫系统中扮演重要角色。二代测序技术和生物信息学的迅速发展使得肠道菌群和宿主互作关系的研究不断深入,但由于以往研究集中于单个队列或小型数据库,限制了对肠道菌群靶向调节宿主健康机制的透彻解析。本文基于美国肠道微生物组计划(American Gut Project,AGP)和SRA数据库的肠道菌群测序大数据,首先通过相关性分析解析肠道菌群与宿主背景信息的关联性,其次通过多样性、物种差异和代谢通路分析等绘制便秘、糖尿病、心脑血管疾病、炎症性肠病、肠易激综合征、肥胖和自闭症等疾病人群的肠道菌群特征图谱,最后基于多种特征选择和建模方法构建肠道菌群便秘精准预测模型,并通过人群试验对模型准确性进行验证。为解析肠道菌群在调节宿主健康的作用机制和开发菌群靶向性的食品微生物资源奠定理论基础。主要研究结果如下:(1)通过基于 Unweighted Unifrac 距离矩阵,Weighted Unifrac 距离矩阵和 Bray-Curtis 距离矩阵,进行置换多元方差分析(PERMEANOVA/Adonis)分析,相似性分析(Analysis of similarities,Anosim)和多响应置换过程分析(Multi ResponsePermutation Procedure,MRPP)以探究包括排便频率、糖尿病等在内的85种宿主背景信息与肠道菌群之间的相关性。结果表明,排便质量、炎症性肠病、糖尿病等宿主背景信息与肠道菌群的关系相对较为密切。(2)通过多样性分析、物种差异分析和代谢通路分析等解析糖尿病、肥胖、心血管疾病、炎症性肠病、肠易激综合征、便秘和自闭症疾病人群肠道菌群的特征。经过Wilcox秩和检验,发现除便秘之外的疾病人群肠道菌群的α多样性较健康人群显著降低,而便秘人群肠道菌群的α多样性则与健康人群相比较高;基于Unweighted UniFrac、Weighted UniFrac和Bray-Curts共3种距离矩阵的主成分分析,发现上述7种疾病人群肠道菌群的β多样性与健康人群相比不具有显著差异;物种差异分析表明上述7种疾病人群与健康人群的肠道菌群在物种上具有显著差异,而代谢通路分析只发现了肥胖、便秘、炎症性肠病和自闭症人群与健康人群相比具有显著差异;通过建立机器学习模型表明肠道菌群与上述7种疾病之间具有密切的关系。(3)首先,通过AGP和SRA数据库构建便秘肠道菌群大数据集,其次,通过分析样本量与模型性能之间的关系来确保本文纳入的样本量满足建立便秘预测模型的要求,最后,通过最近邻,支持向量机,决策树,随机森林,梯度提升回归树,Ada模型,朴素贝叶斯,逻辑回归及Lasso模型等机器学习方法和Wilcox秩和检验,T-test、Mann-whitytest,chi2,F-test、mutual information、Logsitic回归,Lasso回归和随机森林等特征选择方法构建便秘精准预测模型。结果表明:经过chi2选择后的梯度提升回归树模型AUC值为87.6%,测试集和验证集上的精度分别为85.3%和88.1%;经过Log选择后的梯度提升回归树模型AUC值为86.2%,测试集和验证集精度分别为81.7%和86.9%。上述两个模型为本文中性能最优的模型。