论文部分内容阅读
癌症是一类与细胞恶性增殖密切相关的疾病,长期存在于人类历史中。常见的致癌因素包括理化致癌、生活方式致癌、激素致癌、炎症致癌和辐射致癌等。其中,化学致癌随着近年来工业的高速发展和各类化学物质在人类生活中的广泛应用,成为一大值得引起高度重视的致癌因素。因此,通过各种手段以预知一些潜在致癌的化合物就成为至关重要的一类研究。化学致癌物质的实验预测和验证早在40年前就已开始,主要方法是体外实验,但这些方法大多无法保证较高的可靠度,且在成本和通量方面受到限制。所以,基于定量构效关系,从化合物的结构信息来预测其致癌可能性就成为21世纪之后更加热门的研究领域,但这类方法也存在两个问题,一是大多数据驱动的模型在对应评价指标方面缺乏足够好的表现,二是构建模型所采用的算法大多是传统的机器学习算法,很难使预测结果得到进一步提升。与此同时,深度学习作为一种新兴的,具有强大建模能力的方法,不仅在图像,文本,音频等领域展现出超越传统方法的标签预测和信息提取能力,在化学信息学方面也已经有各方面的应用。同时,相关研究大多局限于通用性致癌数据,但化学致癌过程大多为毒性化合物引起人体病变后所致,因此需要一些额外的思路来拓展此类工作。本论文根据已有的研究,分别从两种常见的致癌相关化学毒性——诱变性和线粒体毒性的角度,结合对应的实验数据,基于多种深度学习算法建立了高精度的分类预测模型。具体包括以下内容:论文的第一章从不同层面阐释了一些我们研究相关的背景信息和研究目的。首先介绍了癌症及其治疗的相关信息,并列出了一些常见的致癌因素,其中重点介绍了化学致癌因素,之后将从上世纪末至今化学致癌作用预测和评价的相关方法进行列举,并分析了这些方法的优势和不足。随后对毒性与致癌性的关系做了介绍,又引入了深度学习的概念并简述了其发展历程,并具体解释了一些深度学习相关的专业术语和方法,结合简单的数学模型描述了常用的深度学习框架。论文的第二章研究的是基于深度学习的Ames试验诱变性预测。Ames试验是一种广泛使用的生物测定法,用于评估化学物质的诱变性。由于致癌性和诱变性之间存在密切的联系,因此迫切需要建立可靠的计算机模拟方法来预测后者,以作为耗时且昂贵的体外测试的替代方法。在这部分研究中,深度学习架构——深度神经网络(DNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)、门控循环单元(GRU)和自编码器(autoencoder),以及分子特征——ECFP4、PubChem指纹、MACCS密钥和2D化学描述符被用于诱变性分类模型的建立。我们利用Hansen等人提供的Ames试验基准数据集,按照Kennard-Stone算法进行数据分割。我们建立的最佳模型在验证集上以94.2%的准确率,97.0%的灵敏度,90.9%的特异性和88.2%的Kappa分数取得了令人满意的分类性能。此外,我们还进行了亚结构分析以识别潜在的结构警报,并基于最佳模型开发了相应的网络预测系统DeepAmes。论文的第三章研究的是基于深度学习的线粒体毒性预测。线粒体膜电位(MMP)在遭到破坏的情况下,会引发线粒体功能障碍,而相应的DNA损伤则有可能引起癌症。因此,我们在这部分的研究中关注线粒体毒性的预测。这里我们在网络结构层面只有DNN模型和上一章相同,除了ECFP4和PubChem分子指纹以及2D化学描述符外,我们还采用了3D化学描述符来检验更丰富的化学信息对模型表现的影响。数据方面,Schyman等人的工作和部分Tox21数据被用于此工作中。由于源数据为非平衡数据集,我们在这里使用SMOTE超采样方法来衡量数据平衡性对实验结果的影响,从10折交叉验证和按照4:1内部分割两方面进行比较。此外,由于使用传统的化学特征作为网络输入无法获得更进一步的结果,且过度依赖专家知识,我们引入了基于图网络的特征学习,来从图层面自动提取特征信息。具体使用的网络框架为图卷积网络(GCN)和信息传递网络(MPNN),最终均取得了较好的分类效果,其中MPNN网络的结果非常优越,在验证集上达到了0.9161的AUC值、92.25%的准确率、0.6650的MCC值和0.6507的Kappa值。我们的上述工作充分利用了深度学习在特征提取和数据分析方面的能力,建立了针对Ames试验诱变性和线粒体毒性的预测分类模型,取得了非常好的实验结果,我们的结果将有助于用于致癌相关化合物毒性的快速评估,具有较好的应用价值。