论文部分内容阅读
微生物是一切微小生物的统称,近年来,越来越多的研究证明微生物在人类健康、免疫防御、癌症控制、营养吸收中发挥着重要的作用,鉴定与疾病相关的微生物将有助于人们对复杂疾病发病机理的理解,同时也能促进相关药物开发用于疾病预防、诊断和治疗。然而用生物实验方法鉴定疾病与微生物关联不仅昂贵而且耗时。因此,利用目前已知的微生物-疾病关联数据,通过开发有效计算模型来识别潜在疾病相关的微生物将极大的降低实验成本,从而缩短实验周期。本文提出了两种算法模型预微生物与疾病之间潜在的关联。这两种模型分别是基于KATZ模型和二分网络推荐的微生物-疾病关联预测方法(KATZ model and Bipartite Network Recommendation Algorithm,KATZBNRA)和基于线性模型的微生物-疾病关联预测方法(Linear Model for Microbe and Disease Association,LMMDA)。两种方法都用到微生物-疾病关联网络、微生物相似性网络和疾病相似性网络。KATZBNRA结合了二分网络推荐算法和KATZ模型,首先利用二分网络推荐算法计算出推荐分数矩阵,然后将推荐分数矩阵与疾病相似性矩阵和微生物相似性矩阵整合,构建了疾病与微生物的异构网络,最后在异构网络上使用KATZ模型,实现微生物-疾病关联的预测。LMMDA将已知关联的微生物-疾病数据与疾病相似性矩阵和微生物相似性矩阵整合在一起,利用线性模型计算出关联分数矩阵,再用网络投影算法对关联分数矩阵进一步优化,从而实现微生物-疾病关联的预测。这两种方法都采用留一交叉验证、五折交叉验证和二折交叉验证对算法性能进行了评估,同时也对算法中的重要参数进行了交叉验证,并用AUC(Area Under Curve)值来验证他们的预测效果,其中KATZBNRA的留一交叉验证、五折交叉验证和二折交叉验证的AUC值分别为0.9098、0.8972、0.8463,LMMDA的留一交叉验证、五折交叉验证和二折交叉验证AUC值分别为0.8923、0.8897、0.8763,结果表明这两个方法的预测结果有较高的可信度。同时文本还对某些具体的疾病做了案例分析,进一步评估算法的准确度。