论文部分内容阅读
大数据时代,数据已成为非常重要的生产因素,数据挖掘已经应用于各行各业。其中,对肠道微生物领域的挖掘就是当前研究的热点。由于肠道微生物菌群对人体疾病的产生与治疗具有非常重要的作用,因此,本文采用数据挖掘的方法对肠道微生物菌群信息分布特性与疾病的相关性进行研究。目前,常用的菌群数据研究方法主要有非监督学习算法以及监督学习算法。由于菌群数据特性与文本数据特性之间的相似性,本文采用了非监督学习算法的LDA(Latent Dirichlet Allocation)概率话题模型。但是,在实验处理中发现,LDA模型存在一定的缺陷,所以在此基础上引入了一种基于最小化加权边缘值骨干树的模型改进,Celltree-LDA概率话题模型。并与传统肠道菌群处理方法系统聚类和K-Means聚类以及LDA模型三种方法相比较,以此来证明Celltree-LDA模型的有效性;然后,再根据Celltree-LDA模型的分析结果,结合临床实验,进一步挖掘其相应的临床意义和生物学意义。(1)通过采用Celltree-LDA模型中的折叠Gibbs抽样算法对第1套数据源的北平顶猴阴道菌群(MVB)和轻微型肝性脑病(MHE1)菌群的时间异质性OTUs(Operational Taxonomic Unit)数据集进行分析,研究结果表明:Celltree-LDA模型能够区分样本间的异质性,比LDA模型、系统聚类和K-Means聚类方法在挖掘肠道菌群结构上更加有效。更为重要的是,Celltree-LDA模型还能鉴定出对样本影响最大的OTUs。(2)根据Celltree-LDA模型分析的结果,采用Celltree-LDA模型对第2套数据源的轻微型肝性脑病(MHE2)患者服用利福昔明联合益生菌的肠道菌群时间异质性的结构(OTUs菌群数据集)和功能(KO代谢数据集)进行分析。菌群结构研究表明:Celltree-LDA模型鉴定出了3种主要影响肠道菌群结构异质性最大的OTUs菌属,根据治疗前后其组内微生物菌群结构的变化,发现这3种菌属在治疗后的肠道菌群结构中均有所改变(P<0.05)。菌群功能研究表明:利福昔明不改变MHE患者肠道菌群功能,而利福昔明联合益生菌改变了MHE患者肠道菌群的功能(P<0.05)。此外,根据临床疗效指标:对比两组患者治疗后血清炎性因子和血氨水平,观察组明显优于对照组,具有统计学意义(P<0.05)。综上所述,Celltree-LDA模型不仅能有效地量化菌群结构和功能的异质性,还能鉴定出影响异质性最大的OTUs。利福昔明联合益生菌疗法能明显改善MHE患者的血氨水平和血清炎性因子水平,改变MHE患者的肠道菌群结构和功能,具有较好的临床参考价值。