论文部分内容阅读
随着电子信息技术的不断发展,人工智能(AI)已经成为了这个时代的主题和核心,并成为人类第四次工业革命的标志,将像机械化(蒸汽机)、电气化(电器)、信息化(计算机)一样应用到各个领域。近几年来,人工智能技术再次出现了前所未有的发展和繁荣,机器学习技术尤其是深度学习技术的发展和应用是人工智能的重要推动力。基于特征提取和建模方面明显的优势,深度人工神经网络作为一种代表性深度学习技术已经开始受到很多关注。传统浅层学习技术在建立不同QSAR模型时存在数据量不宜过大,且模型性能不稳定等问题,因此,将深度人工神经网络运用在大数据建模方面是十分必要的。本学位论文利用深度人工神经网络建立多种QSAR模型分别对氯喹衍生物的抑制活性和有机污染物的安全风险进行评估,该模型不仅能准确预测现有化合物的性质,而且也能预测其他未被合成或未测定的化合物的性质,为合理设计及合成高效、安全的分子提供理论指导。论文主要包括以下各章:第一章绪论。主要介绍DNN和QSAR方法的基本原理,研究步骤和实验内容等理论,并总结了近年来QSAR发展和应用。最后,对本论文的研究工作做了简要介绍。第二章运用正交设计和均匀设计方法简化DNN建模研究。深度人工神经网络可通过学习一种深层非线性网络结构,实现复杂函数逼近,在性能上优于传统浅层模型。然而,在使用深度神经网络进行QSAR建模时,网络结构最优参数的选择(神经元的数量,隐藏层,传递函数,数据集划分,迭代次数等)变得十分困难。另外,为了防止模型出现过拟合现象,通常会加入交互检验集来优化参数。为了保证所建立的模型准确、稳定,所有样本均需参与训练,测试和交互检验,工作量十分巨大。基于此本文提出一种新的、快速的样本划分与选择和网络结构参数优化的方法。将均匀设计运用在样本数据集的划分和选择上,正交设计运用在DNN网络结构参数优化上,两种方法的组合大大减少了建模的工作量,并保证最终建立稳定、可靠的最优模型。第三章深度神经网络用于预测氯喹衍生物的抑制浓度。利用上述提出的方法建立了222个氯喹(CQ)衍生物结构参数与半数抑制浓度值之间的DNN模型。首先优化了222个化合物的分子结构,并计算相应的描述符,利用k-fold和均匀设计方法划分训练集、交互检验集和测试集。利用启发式方法选择10个描述符并建立MLR和ANN模型。利用正交实验设计优化了DNN的网络结构参数,分别建立了128,000个DNN模型,获得了最优的网络结构参数和模型。该方法极大地减少了建模的工作量。结果表明,与MLR和ANN相比,DNN模型表现出更好的性能。第四章基于DNN的QSBR模型预测有机污染物的生物降解性。用相同的方法建立了290个常见的有机化合物的分子结构与生物降解性BOD值之间的DNN模型。分别采用启发式方法筛选出9个变量,随机森林筛选出8个变量建立MLR模型。使用DPS均匀设计方法划分数据集的组合,正交实验设计方法来优化DNN的结构参数,总共400,000个模型,与所有需要建立的14,000,000个模型相比,工作量减少至1/35,并且能获得性能相当的最优模型。根据不同变量选择和不同模型组合建模的结果表明RF变量选择方法较HM更适合建立DNN模型,所建立的RF-DNN模型更加准确和稳定。第五章总结与展望。简要总结了本工作提出的方法和应用,提出了未来可应用的领域。