面向药物-靶标关系预测的多源生物医学知识融合研究

来源 :吉林大学 | 被引量 : 1次 | 上传用户:ywg005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
药物-靶标相互作用(Drug-Target Interaction,DTI)关系预测对于药物研发至关重要,然而单一数据源已经无法满足研究需求。如何将多源生物医学数据进行融合并实现药物-靶标新关系的发现是当前研究的热点和难点。知识融合(Knowledge Fusion,KF)是近年来发展起来的,将多源异构数据进行集成,并发现新知识的有效途径。知识融合为基于多源生物医学数据的药物-靶标关系预测提供了新思路。从国内外相关研究成果来看,知识融合在融合框架、融合方法以及应用方面均存在着需要深入研究和解决的问题。此外,当前的药物-靶标关系预测方法也存在不足。因此,本研究针对当前研究中存在的问题开展面向药物-靶标关系预测的多源生物医学知识融合研究,提出一套可以有效融合多源生物医学数据,实现药物-靶标关系预测的知识融合方法。通过梳理相关国内外研究现状,本研究认为当前研究中存在以下问题:(1)知识融合的概念使用较为混乱,需要进行概念界定。由于生物医学领域的特殊性,当前的知识融合框架并不能直接应用于药物-靶标关系预测。(2)知识网络(Knowledge Network,KN)虽然可以结构化展示多源异构数据中的实体和关系,但是针对生物医学实体之间存在的复杂语义关系揭示得不够充分。由传统信息融合算法继承而来的知识融合方法在效率和适应性上都较低。(3)在药物-靶标关系预测方面,药物间和蛋白质间存在的多重语义信息考虑得不全面,且研究中使用的特征维度较为单一。此外,网络分析(Network Analysis,NA)和机器学习(Machine Learning,ML)各有其优点,但两种方法联合应用研究较少。(4)当前的知识融合研究大多停留在理论框架层面,并且为数不多的实践研究中数据规模较小。知识融合在生物医学领域的应用研究有待进一步加强。针对以上问题,本研究首先从“数据-信息-知识”、“知识整合-知识集成-知识聚合-知识融合”以及“数据融合-信息融合-知识融合”三个方面对知识融合的内涵进行界定,并通过总结归纳前人提出的多种定义,最终提出本研究对于知识融合的定义。然后基于DIKW(Data-Information-Knowledge-Wisdom)层级理论、知识网络、相似性计算、元路径(Meta-path)和机器学习,构建由基础数据层、关联融合层、特征融合层、决策融合层、理论方法层和服务应用层构成的知识融合框架,并基于此框架开展接下来的方法研究。本研究提出了一种面向药物-靶标关系预测的多源生物医学知识融合方法。该方法的核心内容主要分为三个方面,分别对应关联级融合、特征级融合和决策级融合三个融合层级:(1)融合多源数据的生物医学知识网络构建:首先构建了包含4种节点类型(药物、蛋白质、疾病和副作用)和6种关系类型(药物-蛋白质、药物-药物、药物-疾病、药物-副作用、蛋白质-疾病和蛋白质-蛋白质)的生物医学知识网络模型。通过对比分析25个相关生物医学数据库,最终选取Drug Bank、HPRD、CTD和SIDER数据库获取实体和关系,然后利用矩阵实现生物医学实体链接。构建的知识网络共包含12015个节点和1895445个边,最后利用Cytoscape和VOSviewer对构建的生物医学知识网络进行可视化展示。(2)融合多重语义的药物和蛋白质相似性网络构建:首先基于疾病本体(Disease Ontology,DO)和物质扩散(Mass Diffusion,MD)模型提出了融合疾病语义的药物相似性计算方法DSFDS。并利用重启随机游走(Random Walk with Restart,RWR)、Jaccard、Tanimoto以及smith-waterman算法,对药物间和蛋白质间存在的多重语义关系进行相似性计算,构建融合多重语义关系的药物相似性网络和蛋白质相似性网络。(3)融合网络分析和机器学习的关系预测模型构建:首先利用元路径和Hete Sim算法计算药物-靶标语义相似性,并将单个实体间相似性计算转换为矩阵的批量计算,进而基于全局异构网络获得药物-靶标的21维Hete Sim特征。然后利用XGBoost、随机森林(Random Forest,RF)和支持向量机(Support Vector Machine,SVM)构建关系预测模型。本研究得出了以下结论:(1)在理论层面,对知识融合的内涵进行了辨析,提出了知识融合的定义。本研究认为知识融合包括了数据融合与信息融合,能够产生新知识是知识融合的标志性特点。(2)在方法层面,本研究提出的面向药物-靶标关系预测的生物医学知识融合方法具有一定的有效性和先进性。首先,提出了一种融合疾病语义的药物相似性计算方法DSFDS。实验证明,基于该方法得到的药物相似性网络在药物-靶标关系预测任务中具有更好的效果。其次,构建了融合多重语义的药物和蛋白质相似性网络。通过社会网络分析(Social Network Analysis,SNA)证明,经过关系融合后的药物相似性网络和蛋白质相似性网络具有更好的效果。最后,通过融合网络分析和机器学习构建了药物-靶标关系预测模型。实验证明,本方法在各项评价指标上均优于对比方法。并且三种机器学习算法中,XGBoost比随机森林、支持向量机具有更好的效果。(3)在应用层面,利用该方法发现了新的药物-靶标关系,并且许多预测结果可以得到文献中先前已知的实验或临床证据支持。例如文献证实氯氮平与GABA受体蛋白之间,美西麦角与5-HT1B/1D之间确实存在作用关系。此外,齐拉西酮与5-HT2B,替米沙坦与前列腺素G/H合成酶1/2,吲哚洛尔、卡替洛尔与Alpha-2A肾上腺素能受体,坦索罗辛和C-X-C趋化因子受体1之间可能存在相互作用关系。这些结果可以为研究者开展实验研究提供参考。本研究的创新之处是:(1)从多个角度对知识融合的概念进行了辨析,明确了知识融合的内涵。构建了面向药物-靶标关系预测的多源生物医学知识融合框架。这丰富了知识融合研究的相关理论成果,为后续知识融合研究提供一定的理论参考。(2)基于疾病本体和物质扩散模型,提出了一种融合疾病语义信息的药物相似性计算方法DSFDS。并且基于药物间和蛋白质间存在的多重语义关系,构建了多个相似性网络,并将这些相似性网络进行融合。进一步丰富了所构建的生物医学知识网络中的关系,提高了生物医学知识网络的数据客观性和完整性,为药物-靶标关系预测任务提供了更多样的信息和多方位的视角。(3)将网络分析和机器学习方法相融合,充分利用异质异构知识网络的拓扑特性,基于元路径的思想,从语义层面上在全局网络中获取药物-靶标的21维Hete Sim特征。可以更全面地揭示实体间语义特征,使得基于机器学习算法构建的关系预测模型可以获得更好的效果。
其他文献
液体石油燃料中含有的硫化合物,燃烧后会生成硫的氧化物,引起酸雨、污染水体、破坏植被、威胁人们的身体健康。为此世界各国制定了相关的法律法规,严格限制液体燃料中硫物质的含量。相比于现在广泛应用于工业生产的加氢脱硫方法,氧化脱硫反应条件温和、安全,以过氧化氢为氧化剂,常压,60-80°C即可反应。分子筛具有大的比表面积和均匀的微孔结构,良好的热/水热稳定性,被广泛应用于各种催化反应中,是化学工业中最为重
学位
刺激响应性材料以其对环境的响应性、分子转变控制以及能够实现内部、外部间的能量转换而受到广泛关注。刺激响应性材料在各个领域尤其是光电器件的应用中显现出巨大的潜力,如自适应、智能检测、信息存储、伪装和防伪识别、软机器人、药物释放等。人们对于响应机制认识的逐渐深入,以及对于智能材料的种类和性能的不断拓展,大大推动了相关领域的发展。然而,为了满足实际应用的需求,仍然需要设计和开发新型结构响应性材料以提高和
学位
复杂交通道路环境下的智能汽车自主换道系统是目前汽车行业的研究热点之一。换道是一个复杂的车辆行为,不仅影响车辆自身的安全性、高效性与舒适性等,同时作为交通流的一部分,也将极大地影响整个交通系统的性能。因此,研发一套满足多目标优化的智能汽车自主换道系统意义重大。本文依托国家重点研发计划子项:“复杂道路环境协同感知与目标跟踪技术”(No.2017YFB0102601),针对目前智能汽车自主换道系统存在的
学位
全极化探地雷达(Full polarimetric ground penetrating radar,FP-GPR)是一种通过改变天线的相对位置以发射不同极化状态的高频电磁波来探测地下的方法,它相较于传统探地雷达的优点在于其能够完整地描述目标体的极化散射特性。地下目标等具有介电常数差异的界面会使电磁波产生感应场旋转效应(Induced field rotation,IFR),它通常与目标的形状有关
学位
地震勘探是油气和固体矿产等资源勘探的重要手段,当前油气勘探领域逐渐向“两深”和“两新”拓展——“海域深水区、深部层系”,“极地等新区、非常规等新领域”,同时,勘探方向逐渐从常规向非常规油气战略转变——致密油气、煤层气、页岩气等非常规油气资源正成为储量增长的主体,这些非常规储层往往伴随着“三复杂(复杂地表、复杂构造和复杂岩性)”问题,同时“两宽一高”一体化采集模式的广泛应用,都对传统的地震勘探数据处
学位
近年,国家经济发展造成的资源短缺及环境和自然灾害等问题给我国地球物理探测技术带来了严峻的挑战。实现近地表地球物理精细化探测是矿产资源开发、地质灾害预测、智慧城市立体化建设的基础,与人类安全和国民经济可持续发展密切相关。航空电磁法是基于飞行平台的移动地球物理探测技术,适合于地形复杂、环境恶劣的地区进行大面积的矿产、油气资源及工程和环境勘查,具有高效、环保和低成本的优点,逐渐成为近地表结构探测的重要方
学位
光学聚合物薄膜以其优良的光学透明性和良好的力学性能等因素在以柔性电子、柔性显示为代表的新一代信息产业中广泛应用。随着电子与显示技术的迭代更新,其发展方向是高速化、高密度化、高集成化、超薄化等,对聚合物光学薄膜材料的性能要求也随之越来越高,例如高耐热性、高温尺寸稳定性以及阻水、阻氧特性等。传统的光学聚合物薄膜材料(如聚对苯二甲酸乙二醇酯、聚萘二甲酸乙二醇酯、聚碳酸酯等)虽然在光学透明度方面具有一定的
学位
酶是由活细胞产生具有催化活性的蛋白质以及核糖核酸(RNA)。但是天然酶存在以下缺点严重限制了其开发与应用:(1)制备和纯化成本高;(2)稳定性差;(3)对反应环境敏感;(4)难以回收再利用等。近年来,随着纳米技术的不断发展,纳米酶作为人工酶的一种,已成为了新的研究热点。纳米酶不仅具有纳米材料特有的理化性质,而且还具有与天然酶类似的催化性能。纳米酶不仅稳定性高、成本低、易于回收和储存,而且还可以通过
学位
邻苯二甲酸酯(Phthalic acid esters,PAEs)作为最常用的增塑剂,因其分子量小,易于制得,具有较好的延展性和柔韧性,广泛被应用在塑料制品中。PAEs可作用于生物细胞中的染色体,可使染色体的结构数目发生改变,具有使生物致癌、致畸等危害,严重威胁生态环境和人类健康。因此兼顾PAEs功能性的同时,降低PAEs对环境危害具有重要意义。PAEs种类繁多,且较少在环境中单一存在。通过实验手
学位
华支睾吸虫病是由华支睾吸虫(Clonorchis sinensis)寄生在人及动物的肝脏胆管引起的一种重要的食源性人兽共患寄生虫病,与肝纤维化、肝硬化和胆管癌密切相关。在东亚地区,超过1500万人感染,我国约有1300万人感染,已被列为被忽视的热带病。华支睾吸虫感染者肝硬化发生率是未感染者的6倍以上,国际癌症研究机构将其列为I类致癌物。目前防控华支睾吸虫病主要是提倡不生食鱼虾和吡喹酮治疗,尚无有效
学位