论文部分内容阅读
药物-靶标相互作用(Drug-Target Interaction,DTI)关系预测对于药物研发至关重要,然而单一数据源已经无法满足研究需求。如何将多源生物医学数据进行融合并实现药物-靶标新关系的发现是当前研究的热点和难点。知识融合(Knowledge Fusion,KF)是近年来发展起来的,将多源异构数据进行集成,并发现新知识的有效途径。知识融合为基于多源生物医学数据的药物-靶标关系预测提供了新思路。从国内外相关研究成果来看,知识融合在融合框架、融合方法以及应用方面均存在着需要深入研究和解决的问题。此外,当前的药物-靶标关系预测方法也存在不足。因此,本研究针对当前研究中存在的问题开展面向药物-靶标关系预测的多源生物医学知识融合研究,提出一套可以有效融合多源生物医学数据,实现药物-靶标关系预测的知识融合方法。通过梳理相关国内外研究现状,本研究认为当前研究中存在以下问题:(1)知识融合的概念使用较为混乱,需要进行概念界定。由于生物医学领域的特殊性,当前的知识融合框架并不能直接应用于药物-靶标关系预测。(2)知识网络(Knowledge Network,KN)虽然可以结构化展示多源异构数据中的实体和关系,但是针对生物医学实体之间存在的复杂语义关系揭示得不够充分。由传统信息融合算法继承而来的知识融合方法在效率和适应性上都较低。(3)在药物-靶标关系预测方面,药物间和蛋白质间存在的多重语义信息考虑得不全面,且研究中使用的特征维度较为单一。此外,网络分析(Network Analysis,NA)和机器学习(Machine Learning,ML)各有其优点,但两种方法联合应用研究较少。(4)当前的知识融合研究大多停留在理论框架层面,并且为数不多的实践研究中数据规模较小。知识融合在生物医学领域的应用研究有待进一步加强。针对以上问题,本研究首先从“数据-信息-知识”、“知识整合-知识集成-知识聚合-知识融合”以及“数据融合-信息融合-知识融合”三个方面对知识融合的内涵进行界定,并通过总结归纳前人提出的多种定义,最终提出本研究对于知识融合的定义。然后基于DIKW(Data-Information-Knowledge-Wisdom)层级理论、知识网络、相似性计算、元路径(Meta-path)和机器学习,构建由基础数据层、关联融合层、特征融合层、决策融合层、理论方法层和服务应用层构成的知识融合框架,并基于此框架开展接下来的方法研究。本研究提出了一种面向药物-靶标关系预测的多源生物医学知识融合方法。该方法的核心内容主要分为三个方面,分别对应关联级融合、特征级融合和决策级融合三个融合层级:(1)融合多源数据的生物医学知识网络构建:首先构建了包含4种节点类型(药物、蛋白质、疾病和副作用)和6种关系类型(药物-蛋白质、药物-药物、药物-疾病、药物-副作用、蛋白质-疾病和蛋白质-蛋白质)的生物医学知识网络模型。通过对比分析25个相关生物医学数据库,最终选取Drug Bank、HPRD、CTD和SIDER数据库获取实体和关系,然后利用矩阵实现生物医学实体链接。构建的知识网络共包含12015个节点和1895445个边,最后利用Cytoscape和VOSviewer对构建的生物医学知识网络进行可视化展示。(2)融合多重语义的药物和蛋白质相似性网络构建:首先基于疾病本体(Disease Ontology,DO)和物质扩散(Mass Diffusion,MD)模型提出了融合疾病语义的药物相似性计算方法DSFDS。并利用重启随机游走(Random Walk with Restart,RWR)、Jaccard、Tanimoto以及smith-waterman算法,对药物间和蛋白质间存在的多重语义关系进行相似性计算,构建融合多重语义关系的药物相似性网络和蛋白质相似性网络。(3)融合网络分析和机器学习的关系预测模型构建:首先利用元路径和Hete Sim算法计算药物-靶标语义相似性,并将单个实体间相似性计算转换为矩阵的批量计算,进而基于全局异构网络获得药物-靶标的21维Hete Sim特征。然后利用XGBoost、随机森林(Random Forest,RF)和支持向量机(Support Vector Machine,SVM)构建关系预测模型。本研究得出了以下结论:(1)在理论层面,对知识融合的内涵进行了辨析,提出了知识融合的定义。本研究认为知识融合包括了数据融合与信息融合,能够产生新知识是知识融合的标志性特点。(2)在方法层面,本研究提出的面向药物-靶标关系预测的生物医学知识融合方法具有一定的有效性和先进性。首先,提出了一种融合疾病语义的药物相似性计算方法DSFDS。实验证明,基于该方法得到的药物相似性网络在药物-靶标关系预测任务中具有更好的效果。其次,构建了融合多重语义的药物和蛋白质相似性网络。通过社会网络分析(Social Network Analysis,SNA)证明,经过关系融合后的药物相似性网络和蛋白质相似性网络具有更好的效果。最后,通过融合网络分析和机器学习构建了药物-靶标关系预测模型。实验证明,本方法在各项评价指标上均优于对比方法。并且三种机器学习算法中,XGBoost比随机森林、支持向量机具有更好的效果。(3)在应用层面,利用该方法发现了新的药物-靶标关系,并且许多预测结果可以得到文献中先前已知的实验或临床证据支持。例如文献证实氯氮平与GABA受体蛋白之间,美西麦角与5-HT1B/1D之间确实存在作用关系。此外,齐拉西酮与5-HT2B,替米沙坦与前列腺素G/H合成酶1/2,吲哚洛尔、卡替洛尔与Alpha-2A肾上腺素能受体,坦索罗辛和C-X-C趋化因子受体1之间可能存在相互作用关系。这些结果可以为研究者开展实验研究提供参考。本研究的创新之处是:(1)从多个角度对知识融合的概念进行了辨析,明确了知识融合的内涵。构建了面向药物-靶标关系预测的多源生物医学知识融合框架。这丰富了知识融合研究的相关理论成果,为后续知识融合研究提供一定的理论参考。(2)基于疾病本体和物质扩散模型,提出了一种融合疾病语义信息的药物相似性计算方法DSFDS。并且基于药物间和蛋白质间存在的多重语义关系,构建了多个相似性网络,并将这些相似性网络进行融合。进一步丰富了所构建的生物医学知识网络中的关系,提高了生物医学知识网络的数据客观性和完整性,为药物-靶标关系预测任务提供了更多样的信息和多方位的视角。(3)将网络分析和机器学习方法相融合,充分利用异质异构知识网络的拓扑特性,基于元路径的思想,从语义层面上在全局网络中获取药物-靶标的21维Hete Sim特征。可以更全面地揭示实体间语义特征,使得基于机器学习算法构建的关系预测模型可以获得更好的效果。