耦合分子图和分子指纹的深度学习算法(FP-GNN)用于分子性质的预测

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:glc12123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来人工智能技术的飞速发展,利用计算机技术对化合物的生物活性、理化性质和ADMET性质(吸收、分布、代谢、排泄、毒性)进行高效预测成为新药研发的热点。目前,计算机辅助分子性质预测的研究仍存在着几个问题,包括(1)基于分子图和基于分子指纹的预测算法孰优孰劣,存在争议。研究表明,分子指纹和分子图之间可能存在互补性;(2)生物相关数据集数量少、质量不佳,数据集内噪声干扰模型在现实场景中的发挥;(3)深度学习算法存在固有的黑箱问题,导致模型无法解释结果产生的过程;(4)生物相关数据集的子任务之间往往存在相关性,开发多任务深度学习模型,可以学习相关数据集中彼此依赖的更多信息,可能有助于提升模型预测性能。基于上述问题,本研究开发了一种耦合分子图和分子指纹的深度学习模型,即FPGNN,用于分子的性质预测。我们在三类经典数据集上评估FP-GNN模型的预测性能。首先,在13个公共基准数据集的总共16项任务上,与四种基于分子图的深度学习模型和基于分子指纹的XGBoost模型相比,FP-GNN在7项任务上预测性能最优,4项任务上预测性能次优。其次,在真实无偏的LIT-PCBA数据集上,与两种基于分子图的模型和五种基于分子指纹的模型相比,FP-GNN的平均预测性能最优(AUC=0.739)。最后,在14个乳腺癌细胞表型筛选数据集上,与三种基于分子图的模型和基于分子指纹的XGBoost模型相比,FP-GNN在8个细胞系上预测效果最好,在3个细胞系上预测效果次优,并取得了最佳的平均预测性能(AUC=0.849)。因此,与当前先进的基于分子图或基于分子指纹的模型相比,耦合分子图和分子指纹的FP-GNN模型具有可比较甚至更优秀的预测性能。我们在LIT-PCBA数据集上对FP-GNN模型做了消融性实验,结果显示,在15个任务中,FP-GNN的融合模型在10个任务上优于单特征模型,说明了分子图和分子指纹之间存在着信息互补,即融合分子图和分子指纹可以提升模型的预测性能。此外,在HIV数据集上测试模型的抗干扰能力,与当前先进的基于分子图的模型(Attentive FP、HRGCN+)和基于分子指纹的XGBoost模型相比,FP-GNN模型在不同的噪声比例上均表现出最优秀的抗干扰能力,说明模型能够适用于真实场景。最后,为FP-GNN模型设计了双重的可解释功能,在分子图模块采用隐层分析,在BBBP数据集上做了解释性案例说明;在分子指纹模块采用敏感性分析,在Free Solv数据集上做了解释性案例说明。结果表明,FP-GNN模型具有可解释性,部分解决了模型的黑箱问题,并为使用者提供了分子中具有重要价值的片段信息。基于单任务的FP-GNN模型,本文还设计了多任务的FP-GNN模型。在Tox21数据集的实验证明,与单任务FP-GNN模型相比,多任务FP-GNN模型在绝大多数(83.3%)任务上表现更优且平均预测性能(AUC=0.846)更优秀。与当前先进的多任务模型Smi2vec-Bi GRU相比,多任务FP-GNN模型在Tox21数据集的所有任务上都有着更优秀的预测效果;在SIDER数据集的绝大多数(88.9%)任务上预测性能更优,且平均预测效果(AUC=0.662)远超Smi2vec-Bi GRU(AUC=0.606)。这说明了多任务设计能够提高FP-GNN模型在相关性强的多任务数据集上的预测性能。最后,本文在CYP数据集上做了多任务FP-GNN模型的应用。评估结果显示,在CYP数据集的5个亚型上,与九种基于分子指纹的模型和两种基于分子图的模型相比,多任务FP-GNN在4个亚型上具有最优的预测性能,且平均性能最优秀(AUC=0.905)。多任务FP-GNN在CYP酶系数据集上有着优秀的性能,非常适合用于筛选CYP抑制剂。综上所述,相比当前优秀的机器学习和深度学习算法,FP-GNN算法具有相当甚至更优秀的预测性能,有着强大的实用价值。本文已将FP-GNN模型的代码和使用说明上传至开源网站,供研究者下载使用:https://github.com/idrug Lab/FP-GNN。
其他文献
创新创业是促进经济快速发展的重要源动力,而创业者创业的勇气多数源于机会信心,当创业者发现创业机会,对自身能力、知识和资源等进行合理分析和判断,通过学习创业所需的知识、信息和经验等以弥补自身不足,促进创业自我效能的提高,使得创业者对所识别的机会形成可行性信心,有助于创业者更有勇气创业,促进创业活动。创业者的机会信心作为在创业过程中行动和抉择的重要支撑,是创业研究领域的关键。在创业前期,由于创业者自身
学位
酱醪中微生物与生酱油理化性质互相影响,紧密联系。本研究以一种传统酱油盐水发酵过程为研究对象,通过测定发酵过程中酱醪理化性质、风味物质以及鉴定微生物群落,探究生酱油的品质变化特点及发酵规律,并通过关联分析明确酱醪中重要的微生物。结合高效液相色谱和气质联用等多种方法,对不同时期的酱醪进行理化指标及风味物质含量的测定。结果发现这种盐水发酵方式中头油品质最好,含1.5 g/100g总氮、1.0g/100m
学位
随着中国经济的发展,我们早已进入消费升级时代和VUCA时代。市场的不稳定性和技术的快速变革使得企业不得不选择“抱团取暖”,主动加入或构建生态系统。市场竞争也早已由单个企业间的竞争扩散为整个创业生态系统之间的竞争。越来越多的企业意识到了生态系统和共生战略的力量,试图运用共生战略形成和谐、稳定、互补的共生关系,以利用整个生态系统的力量去应对环境变化所带来的持续的不确定性和无法判断的未来。理论方面,创业
学位
罗汉果是具有岭南地区特色并被国家首批批准列入药食两用材料的食源性药材,葫芦烷三萜苷类化合物即罗汉果苷,是罗汉果提取物的主要及有效生理活性成分,但直接摄入的多配基皂苷结构却难以被人体消化系统直接代谢吸收,因此,编码有数千种糖苷水解酶的肠道菌群,在协助宿主代谢从而影响多糖结构物质的益生活性、口服生物利用度等方面起着极其重要的作用。肠道微生物水解去除皂苷的部分或全部糖配基可得到更容易被人体利用的小分子物
学位
米曲霉、黑曲霉是目前工业上常用的曲霉属真菌菌株,且因为其悠久的驯服历史及较高的食品安全性,在我国广泛应用于食品酿造行业。目前常用育种方法为传统的诱变及原生质体融合方法,具有不确定性和盲目性,且需大规模的筛选工作。Cas9-sg RNA核糖核蛋白(ribonucleoprotein complexes,RNP)复合物的转化属于DNA-free的方式,脱离了传统的转基因的范畴,且降低了脱靶作用,可以达
学位
加快科技创新是推动经济高质量发展的需要。国有企业作为我国国家创新体系的关键组成部分,其创新能力对国家整体创新能力具有重要影响。经过40多年的改革,我国国有企业的活力明显增强,但由于委托代理冲突导致其仍存在创新动能不足、效率较低等问题。因此,发展混合所有制经济成为新时代国企改革的关键突破口。已有研究从所有权结构、董事会治理和高管治理等视角出发对混改国企创新的影响因素进行了大量实证检验。其中,董事会作
学位
本论文聚焦于烘焙食品工业废水碳氮比高等问题,以放射状软性填料结合无纺布、毛圈状软性填料结合无纺布、单一无纺布为填料,分别应用于折叠曝气生物膜反应器中,设立三个反应器,处理此类高碳氮比废水。三个反应器在启动前期已成功挂膜,对污染物表现出良好的去除效果,在稳定运行阶段,所有反应器对COD和氨氮的去除效率都在98%以上,并且没有NO3--N和NO2--N积累,在进水7h内可以实现污染物的完全去除,即反应
学位
在当今新经济时代下,科技创新是国家高质量发展的重要引擎。自二十一世纪初,国家实施了两轮东北老工业基地振兴战略,初显成效。但由于吉林省企业仍创新意识不足、市场敏感度低,长期处于创新效率低下状态,加之市场环境变幻莫测,吉林省的经济下行压力依然较大。根据近几年的统计年鉴显示,同我国发达省域相比,吉林省在创新投入、创新产出和创新转化三方面存在较大差距。随着数字经济蓬勃发展、新冠肺炎疫情的蔓延,吉林省人口红
学位
新出现和已存在的病毒是人类和动物中各种感染疾病的主要病原体,会导致各种高死亡率流行病和大流行病的发生。一个典型的例子就是2019年12月31日爆发的COVID-19疫情,它是由一种称为严重急性呼吸综合征冠状病毒2(SARS-Co V-2)的新型冠状病毒株引起的一场急性呼吸系统疾病大流行。由于缺乏有效的抗病毒药物,COVID-19不断危及全球公共卫生。对于大多数病毒,如丙型肝炎病毒(HCV)、流感病
学位
镉污染严重威胁着环境和食品安全。民以食为天,食品安全关乎人类自身身体健康。通过食品摄入的镉会在人体内积蓄,并对人体产生毒害作用,其半衰期长达15-30年。因此,迫切需要开发高灵敏度、高选择性的镉检测工具。目前,荧光指示剂是快速检测环境中无机镉的有力工具。本研究通过构建具有不同连接模型的镉荧光指示剂,并确定了镉离子荧光指示剂的筛选条件,其识别元件为来源于恶臭假单胞菌对镉离子具有高度特异结合能力的Ca
学位