基于深度学习的噬菌体-宿主相互作用预测方法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:skt023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细菌在抗生素的大量使用过程中出现了耐药性,这已经成为全球范围内影响人类健康的重大问题。随着耐药性细菌的大量增加,使得抗生素的治疗效果不明显,人们需要采取一些突破性的方法来解决这一问题。噬菌体作为生物圈中最常见也是最多样的生物体之一,不仅能摧毁特定的细菌宿主,还可以成倍的复制,这些特性使得噬菌体疗法成为最有前途替代抗生素的方法之一。噬菌体疗法的关键是将目标细菌宿主与相应的治疗性噬菌体正确匹配。实验方法验证噬菌体与目标细菌宿主之间的相互作用耗时耗力,而且代价昂贵。因此有必要发展预测噬菌体和目标细菌宿主之间相互作用的计算方法。目前基于相似性的计算方法预测精度不高,基于机器学习的预测方法则由于负样本的随机选择从而导致模型的稳定性不佳。根据当前预测噬菌体-宿主相互作用方法的研究现状,本文基于PhagesDB和GenBank数据库中的噬菌体-宿主相互作用数据,开发了两种基于深度学习算法的噬菌体-宿主相互作用预测方法。本文的详细工作如下:(1)构建了基于随机选择负样本和深度学习的噬菌体-宿主相互作用预测方法。由于目前未知的噬菌体-宿主相互作用(负样本)数据较多,本文从负样本集合中随机选择一部分负样本与正样本(已知的噬菌体-宿主相互作用)构建一套数据集。同时基于噬菌体和宿主编码的蛋白质量化了多类特征(氨基酸组成,化学元素丰度以及分子量),然后使用深度卷积神经网络构建了一个预测模型PredPHI(Predicting phage host interactions)。实验结果表明,在预测噬菌体-宿主相互作用上,PredPHI比前人方法更具有优势。(2)构建了基于高质量负样本和深度学习的噬菌体-宿主相互作用预测方法。为了改善由于负样本随机选择导致的模型稳定性差的问题,本文设计了三种负样本选择方法来构建三组训练集,分别是随机选择、基于K均值聚类,以及基于噬菌体的相似性方法。在前一工作的数据集和特征基础上,本文使用更合理的标准对数据进行了更严苛的筛选(去除噬菌体和宿主编码的蛋白质中属于假设蛋白的部分)。本文比较了不同分类器在训练集上的性能,结果显示三套训练集上皆是深度学习模型效果最优。接着本文在独立测试集上比较三套训练集构建的模型性能。最终实验结果表明,基于K-Means聚类方法选择负样本构建的模型(PredPHI-V2)性能较优,且模型稳定性优于随机选择负样本方法构建的模型。最终,本文所构建的高性能的噬菌体-宿主相互作用预测方法可以针对所感染的细菌提供具有相互作用的噬菌体,为其个性化治疗提供潜在的噬菌体,也为研究人员的进一步实验提供便利。
其他文献
EOS—MOD IS数据在森林火情监测中的应用研究日益受到世界各国的重视。为了获得适用于中国不同地区森林火情监测的成熟技术,很有必要对现有MOD IS数据林火监测理论算法进行验证分析,探讨其在中国不同地域和季节中使用时的通用性。为此,利用中国境内9起森林火灾事件对MOD IS数据火点识别的理论算法进行验证分析。结果显示9起森林火灾有8起被有效检测到,1起森林火情被遗漏。通过对9起森林火点及其邻近像
<正>现代医学所阐述的痛风性关节炎,以高尿酸血症为发病基础,一般是由于嘌呤代谢紊乱与尿酸排泄减少等原因导致的单钠尿酸盐晶体在关节及周围结缔组织析出而引起的急性炎症性
为了探讨体外诱导免疫耐受性树突状细胞(dendritic cell,DC)产生的方法及其机制,利用人HLA-G1真核表达载体转染K562细胞并与DC共培养后,用流式细胞术检测DC表面CD80、CD86、I
以2000和2010年两期遥感影像为主体数据源,选取四川松潘县作为实验区。采用遥感与GIS相结合的手段,对实验区生态环境进行监测与评价。在建立生态环境评价指标体系的基础上,计算生态环境状况指数。结果表明:生物丰度指数达到60%以上,而植被覆盖指数和水源涵养指数也比较高,土壤退化指数50%以下。松潘县植物资源丰富,生物多样性维护状况良好,综合生态环境状况良好。
为了探讨垂体肿瘤转化基因(PTTG)与碱性成纤维细胞生长因子(b-FGF)在急性白血病中的表达及其与急性白血病预后的相关性,采用免疫细胞化学染色方法检测53例急性白血病患者及15
灯泡贯流式水电站是开发低水头水力资源的较好方式,而且效率高投资低,近年来发展较快。相对于低水头贯流式水轮机,高水头贯流式水轮机具有水头变幅荡涤,内部压力、速度等参数