深度神经网络在QSAR建模中的应用研究

来源 :兰州大学 | 被引量 : 2次 | 上传用户:ccj5310110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子信息技术的不断发展,人工智能(AI)已经成为了这个时代的主题和核心,并成为人类第四次工业革命的标志,将像机械化(蒸汽机)、电气化(电器)、信息化(计算机)一样应用到各个领域。近几年来,人工智能技术再次出现了前所未有的发展和繁荣,机器学习技术尤其是深度学习技术的发展和应用是人工智能的重要推动力。基于特征提取和建模方面明显的优势,深度人工神经网络作为一种代表性深度学习技术已经开始受到很多关注。传统浅层学习技术在建立不同QSAR模型时存在数据量不宜过大,且模型性能不稳定等问题,因此,将深度人工神经网络运用在大数据建模方面是十分必要的。本学位论文利用深度人工神经网络建立多种QSAR模型分别对氯喹衍生物的抑制活性和有机污染物的安全风险进行评估,该模型不仅能准确预测现有化合物的性质,而且也能预测其他未被合成或未测定的化合物的性质,为合理设计及合成高效、安全的分子提供理论指导。论文主要包括以下各章:第一章绪论。主要介绍DNN和QSAR方法的基本原理,研究步骤和实验内容等理论,并总结了近年来QSAR发展和应用。最后,对本论文的研究工作做了简要介绍。第二章运用正交设计和均匀设计方法简化DNN建模研究。深度人工神经网络可通过学习一种深层非线性网络结构,实现复杂函数逼近,在性能上优于传统浅层模型。然而,在使用深度神经网络进行QSAR建模时,网络结构最优参数的选择(神经元的数量,隐藏层,传递函数,数据集划分,迭代次数等)变得十分困难。另外,为了防止模型出现过拟合现象,通常会加入交互检验集来优化参数。为了保证所建立的模型准确、稳定,所有样本均需参与训练,测试和交互检验,工作量十分巨大。基于此本文提出一种新的、快速的样本划分与选择和网络结构参数优化的方法。将均匀设计运用在样本数据集的划分和选择上,正交设计运用在DNN网络结构参数优化上,两种方法的组合大大减少了建模的工作量,并保证最终建立稳定、可靠的最优模型。第三章深度神经网络用于预测氯喹衍生物的抑制浓度。利用上述提出的方法建立了222个氯喹(CQ)衍生物结构参数与半数抑制浓度值之间的DNN模型。首先优化了222个化合物的分子结构,并计算相应的描述符,利用k-fold和均匀设计方法划分训练集、交互检验集和测试集。利用启发式方法选择10个描述符并建立MLR和ANN模型。利用正交实验设计优化了DNN的网络结构参数,分别建立了128,000个DNN模型,获得了最优的网络结构参数和模型。该方法极大地减少了建模的工作量。结果表明,与MLR和ANN相比,DNN模型表现出更好的性能。第四章基于DNN的QSBR模型预测有机污染物的生物降解性。用相同的方法建立了290个常见的有机化合物的分子结构与生物降解性BOD值之间的DNN模型。分别采用启发式方法筛选出9个变量,随机森林筛选出8个变量建立MLR模型。使用DPS均匀设计方法划分数据集的组合,正交实验设计方法来优化DNN的结构参数,总共400,000个模型,与所有需要建立的14,000,000个模型相比,工作量减少至1/35,并且能获得性能相当的最优模型。根据不同变量选择和不同模型组合建模的结果表明RF变量选择方法较HM更适合建立DNN模型,所建立的RF-DNN模型更加准确和稳定。第五章总结与展望。简要总结了本工作提出的方法和应用,提出了未来可应用的领域。
其他文献
社会公德建设是精神文明建设的重要指标之一,是衡量一个国家文明程度的重要标志。这些年,经济领域的快速稳定增长,宁夏地区人民的生活水平,明显得到改善。现阶段,我们已进入
从对《物权法》的立法解读中,可以看出,《物权法》第9条、第23条虽然规定了登记、交付分别是不动产和动产的物权变动的生效要件。但是结合《物权法》其他法律规定,可以看出,
草原是我国重要的自然生态系统类型,不但是重要的地理屏障,同时也是我国最大的地表保护天然防线,在生态环境与生物多样性保护方面具有不可或缺的作用。但由于气候异常和人类
中国的文学情感理论深受儒家诗学观念的影响,所论大多集中在"情"与"志"、"情"与"道"、"情"与"理"的关系层面。清末以来,民族国家意识的兴起以及近现代西方哲学、美学的输入,极为深刻地改
目前,人民群众的精神文化需求随着物质生活质量的逐步提高,也呈现出日益增长的态势。人民群众的精神文化需求具有多样性,众口难调,传统上由政府部门主导的公共文化服务供给模
《运动生理学》课程是高校体育院系开设的一门重要专业基础理论课和主干课程之一。它主要研究人体在体育活动和运动训练影响下结构和机能的变化,探讨人体运动能力发展的生理学机制,论证并确立各种科学的训练制度和训练方法。但是由于运动生理学这门课内容多且较为抽象,而体育专业学生基础文化知识较为薄弱。在学习中,存在学习枯燥乏味、难以理解、成绩普遍不理想的情况。为了改变这种现状,本文以江西师范大学2017级体育教育
高速公路的发展水平从某个层次上可以反映该国的社会经济实力,是该国现代化程度的重要标志。高速公路的发展水平深受其运营管理模式影响,随着高速公路建设规模的扩大,如何有
汽车车身设计是科学和艺术结合的一个综合性的设计过程。车身设计成本在整车总体设计中所占比重最大,它是制约汽车制造和新车型开发的关键。从汽车形态美、功能、技术、文化
对在华跨国公司按合资和独资的组织形式分类,问卷调查了广东省在华跨国公司的融资管理策略。分析表明,在华跨国公司的两类组织企业的融资管理策略没有显著差别,同时,在华跨国
如果用一句话来形容唯宝对世界的价值,家族第七代传人、德国唯宝日用餐具部负责人及董事会成员尼古拉斯·吕克·唯勒瓦说,那是"始于1748年的欧洲文化沃土"。唯宝(Viller