论文部分内容阅读
细菌在抗生素的大量使用过程中出现了耐药性,这已经成为全球范围内影响人类健康的重大问题。随着耐药性细菌的大量增加,使得抗生素的治疗效果不明显,人们需要采取一些突破性的方法来解决这一问题。噬菌体作为生物圈中最常见也是最多样的生物体之一,不仅能摧毁特定的细菌宿主,还可以成倍的复制,这些特性使得噬菌体疗法成为最有前途替代抗生素的方法之一。噬菌体疗法的关键是将目标细菌宿主与相应的治疗性噬菌体正确匹配。实验方法验证噬菌体与目标细菌宿主之间的相互作用耗时耗力,而且代价昂贵。因此有必要发展预测噬菌体和目标细菌宿主之间相互作用的计算方法。目前基于相似性的计算方法预测精度不高,基于机器学习的预测方法则由于负样本的随机选择从而导致模型的稳定性不佳。根据当前预测噬菌体-宿主相互作用方法的研究现状,本文基于PhagesDB和GenBank数据库中的噬菌体-宿主相互作用数据,开发了两种基于深度学习算法的噬菌体-宿主相互作用预测方法。本文的详细工作如下:(1)构建了基于随机选择负样本和深度学习的噬菌体-宿主相互作用预测方法。由于目前未知的噬菌体-宿主相互作用(负样本)数据较多,本文从负样本集合中随机选择一部分负样本与正样本(已知的噬菌体-宿主相互作用)构建一套数据集。同时基于噬菌体和宿主编码的蛋白质量化了多类特征(氨基酸组成,化学元素丰度以及分子量),然后使用深度卷积神经网络构建了一个预测模型PredPHI(Predicting phage host interactions)。实验结果表明,在预测噬菌体-宿主相互作用上,PredPHI比前人方法更具有优势。(2)构建了基于高质量负样本和深度学习的噬菌体-宿主相互作用预测方法。为了改善由于负样本随机选择导致的模型稳定性差的问题,本文设计了三种负样本选择方法来构建三组训练集,分别是随机选择、基于K均值聚类,以及基于噬菌体的相似性方法。在前一工作的数据集和特征基础上,本文使用更合理的标准对数据进行了更严苛的筛选(去除噬菌体和宿主编码的蛋白质中属于假设蛋白的部分)。本文比较了不同分类器在训练集上的性能,结果显示三套训练集上皆是深度学习模型效果最优。接着本文在独立测试集上比较三套训练集构建的模型性能。最终实验结果表明,基于K-Means聚类方法选择负样本构建的模型(PredPHI-V2)性能较优,且模型稳定性优于随机选择负样本方法构建的模型。最终,本文所构建的高性能的噬菌体-宿主相互作用预测方法可以针对所感染的细菌提供具有相互作用的噬菌体,为其个性化治疗提供潜在的噬菌体,也为研究人员的进一步实验提供便利。