基于深度学习对化合物与蛋白质相互作用分类的研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:LinChu41
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
化合物和蛋白质相互作用的识别在网络药理学和药物发现中有着非常重要的作用,但是传统的生化实验方法既耗时又昂贵。随着计算机软件技术的迅猛发展,利用计算机软件模拟生化实验的方法成为可能,这种方法比传统的生化实验方法速度更快并且也更加便宜,因此计算方法开始流行起来。然而,计算方法要求研究者有浓厚的化学方面的背景知识并且准确率并不高,例如分子对接技术,一种研究化合物和蛋白质间结合模式和亲和力的理论模拟方法,就需要对化合物和蛋白质的结构有深刻的认识。近年来,机器学习技术在日常生活中的应用越来越广泛,如人脸识别、机器翻译、无人驾驶。这些应用中都使用了一种被称为深度学习的技术。由于深度学习可以自动提取特征,不需要研究者有相关的背景知识,入门门槛低,并且其学习能力强大,在许多任务上都取得了比传统机器学习技术更高的准确率,因此深度学习已经在计算机视觉、语音识别和自然语言处理方面取得了巨大的成功。同时,深度学习在医学、化学和生物学中的应用也逐渐发展起来。本文以BindingDB中化合物与蛋白质相互作用的数据作为依据,并使用SDF(Structure Data File)和蛋白质序列表示化合物和蛋白质的结构。然后利用随机生成算法生成与正样本数量相同的负样本,并使用深度学习中的深度神经网络学习训练数据。深度神经网络的输入为化合物和蛋白质的结构数据,输出为化合物与蛋白质相互作用为绑定的概率。经过大量的实验调整超参数,最终的深度神经网络的结构为多路网络。多路网络分为特征提取网络和分类网络。其中特征提取网络分别提取化合物和蛋白质的特征,其隐藏层有3层,每层2000个神经元;分类网络基于特征提取网络提取到的特征对化合物和蛋白质的相互作用进行分类,其隐藏层为1层,有1000个神经元。多路网络的参数数量达到了2720万,最终可以达到96.73%的测试准确率。本文将深度学习技术引入化合物与蛋白质相互作用分类的研究中。虽然本文所做工作并不能直接应用于实际中,但是对今后深度学习在化合物与蛋白质相互作用分类研究中的应用起到了启示性的作用。
其他文献
<正>上海都市菜园位于奉贤区海湾镇,北靠G1501高速公路,西临浦星公路,南濒杭州湾,距上海市中心约45公里,是一个集观光旅游、会务度假、科普教育、休闲保健于一体的现代农业观
2005年11月23-25日,由河南博物院联合中国社会科学院古代文明研究中心、河南省文物考古研究所共同举办了“文明探源:考古与历史的整合”学术研讨会。为了充分反映这次会议的
目的探讨妊娠剧吐并发韦尼克脑病的诊断、治疗和预后。方法对2003年12月~2006年12月收治的3例妊娠剧吐并发韦尼克脑病的临床资料进行回顾性分析。结果3例患者均因妊娠后频繁呕
<正> 凡是具有峰形曲线增长的生物种群,大体上可归纳为前峰形、中峰形和后峰形,完全像逻辑斯蒂曲线增长的不多。因而,采用逻辑斯蒂曲线拟合的方法拟合峰形曲线就有些不太理想
汽车发动机工作时会产生HC、CO、NOX等有害气体,不同工况下将有不同成份的尾气排放,通过分析尾气中的HC、CO、NOX等成份比例,可以为快速分析发动机故障提供便捷的途径。通过
本文就我区水泥厂机立窑多数窑体散热损失大,煤耗高,为解决窑体保温问题,介绍了高温隔热保温砖的研制.高温隔热保温砖是用膨胀珍珠岩、常温增强剂、高温膨胀剂、高温增强剂等
中国经济发展目前进入一种新常态,增速放缓,结构优化升级,从要素驱动、投资驱动转向创新驱动。这一系列新变化必然会对地勘单位的财务管理带来重大影响,如何适应新常态?转变财务管
<正>据南宁新闻网消息,《广西修造船及海洋工程装备工业发展"十三五"规划》(以下简称《规划》)印发实施,广西将通过"十三五"时期的调整与发展,实现在海洋工程装备制造、自主
目前,建筑业已经成为现代化城市建设发展最重要的支柱产业之一,建筑业可以解决就业问题以及促进相关产业的发展。随着我国相关行业税收营增制度的逐渐深入,在不久的将来建筑业必
在英语专业四级考试中,听力理解一直是学生的一个难点。本文采用实例分析、问卷调查、师生交谈等方式,对学生听力理解过程中存在的问题进行分析。通过分析发现,影响听力理解