论文部分内容阅读
化合物和蛋白质相互作用的识别在网络药理学和药物发现中有着非常重要的作用,但是传统的生化实验方法既耗时又昂贵。随着计算机软件技术的迅猛发展,利用计算机软件模拟生化实验的方法成为可能,这种方法比传统的生化实验方法速度更快并且也更加便宜,因此计算方法开始流行起来。然而,计算方法要求研究者有浓厚的化学方面的背景知识并且准确率并不高,例如分子对接技术,一种研究化合物和蛋白质间结合模式和亲和力的理论模拟方法,就需要对化合物和蛋白质的结构有深刻的认识。近年来,机器学习技术在日常生活中的应用越来越广泛,如人脸识别、机器翻译、无人驾驶。这些应用中都使用了一种被称为深度学习的技术。由于深度学习可以自动提取特征,不需要研究者有相关的背景知识,入门门槛低,并且其学习能力强大,在许多任务上都取得了比传统机器学习技术更高的准确率,因此深度学习已经在计算机视觉、语音识别和自然语言处理方面取得了巨大的成功。同时,深度学习在医学、化学和生物学中的应用也逐渐发展起来。本文以BindingDB中化合物与蛋白质相互作用的数据作为依据,并使用SDF(Structure Data File)和蛋白质序列表示化合物和蛋白质的结构。然后利用随机生成算法生成与正样本数量相同的负样本,并使用深度学习中的深度神经网络学习训练数据。深度神经网络的输入为化合物和蛋白质的结构数据,输出为化合物与蛋白质相互作用为绑定的概率。经过大量的实验调整超参数,最终的深度神经网络的结构为多路网络。多路网络分为特征提取网络和分类网络。其中特征提取网络分别提取化合物和蛋白质的特征,其隐藏层有3层,每层2000个神经元;分类网络基于特征提取网络提取到的特征对化合物和蛋白质的相互作用进行分类,其隐藏层为1层,有1000个神经元。多路网络的参数数量达到了2720万,最终可以达到96.73%的测试准确率。本文将深度学习技术引入化合物与蛋白质相互作用分类的研究中。虽然本文所做工作并不能直接应用于实际中,但是对今后深度学习在化合物与蛋白质相互作用分类研究中的应用起到了启示性的作用。