论文部分内容阅读
尽管科学技术飞速发展,传统的药物发现仍然是费时费力且高风险高成本的过程,因此急需要一种新的药物开发技术来缩短药物开发周期,降低风险和成本。生物医学实体(如基因、疾病、药物等等)之间的关联研究是药物重定位技术的基础,研究基于各种计算方法并结合各种生物医学领域的组学数据,发现潜在未知的药物-疾病,疾病-基因之间的关系。由于神经网络和推荐模型在用户-物品关系预测中的优越性能,本文采用基于深度学习的推荐系统模型进行药物重定位研究,结合最新的数据表示和整合方法,提出了基于深度学习的神经协同过滤模型——NCFBE算法。本研究分为以下两个部分:(1)研究了将网络表示方法应用到生物医学知识库中,自动学习生物实体的结构和语义表示,基于学习到的实体表示采用传统的机器学习模型SVM应用到药物-疾病关联预测之中。该模型的实验结果表明,实体的网络表示和多源数据整合使用可以改善系统的预测能力,跟同期的其它系统相比有一定的性能提升。(2)提出了NCFBE模型,将神经网络推荐系统模型结合异构数据表示和整合技术应用药物-疾病关联预测中。本研究利用已知的药物-疾病关系构建了神经协同过滤模型,然后整合药物和疾病相关的知识库信息作为推荐系统的辅助信息,减轻了神经协同过滤模型的由于数据稀疏导致的冷启动问题。在多个公共数据集上的实验结果显示,跟其它最新的药物-疾病关系预测系统相比,在AUC,AUPR,和F1等多个评估取值上都显示了更好的性能。为了证明模型在其它生物医学实体的关联预测的鲁棒性,本文也将NCFBE模型应用在mi RNA与疾病的关联研究并取得了很好的性能,证明模型具有很好的泛化能力。综上所述,本文提出的神经协同过滤模型NCFBE在生物领域的实体关系预测中取得了优异的性能,表明深度神经网络架构对生物医学实体的特征表示学习和整合有其优势。为药物的重定位研究提供了一种新的思路。