基于集成机器学习模型的分子激发能含时密度泛函理论计算精度研究

来源 :东北师范大学 | 被引量 : 2次 | 上传用户:kaixun520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分子激发能的研究是理论计算化学研究中的热点和难点之一。由于激发能包含分子的内在结构信息和电子性质,精确地预测包括电子跃迁吸收能与发射波长在内的分子激发态性质已然成为理论计算化学领域的关键问题研究关注之所在。经过多年研究和应用,量子化学方法现今已经超过仅能在理论上定量验证实验现象的水平,并发展成为可以在某些分子属性实验值无法获取或不准确的条件下准确预测物质基态、激发态性质和化学反应现象等。然而,并非全部计算结果均可与真实实验值精准相符,特别是对于较大分子的激发态有关的计算。这是由于对于复杂分子或大分子体系的激发态性质的计算复杂度高,尤其是当要保证一定精确度时的计算尤为耗时。实际实验条件下计算资源的局限性以及计算方法自身的固有近似性成为导致这种现象的主要原因。人工智能方法为解决这些问题,提供了一些简单而有效的策略来校正理论计算的误差,从而提高理论计算方法的准确性并拓展其应用范围。本论文将机器学习集成算法与量子化学计算方法相结合针对分子激发态的计算效率和准确性对计算结果加以改善。首先,基于AdaBoost和Bagging两种典型的机器学习集成架构建模,并将其应用于包含433个有机分子的数据集以期提高密度泛函理论计算电子光谱吸收能的精度。然后,再次将此二种集成模型应用于包含了113个荧光分子的数据集以提高荧光发射波长的回归精度。上述研究工作采用的方法,为分子性质的准确预测提供了一种有效且高效的替代途径,提高了理论方法的可靠性并扩展了其适用范围。本论文的研究工作可概括描述为如下几个部分:1.采用含时密度泛函理论(Time-Dependent Density Functional Theory,TDDFT)量子化学方法和机器学习结合的策略,提出了准确、稳健、高效的吸收能计算集成校正模型。该模型由集成了支持向量机(SVM)、广义回归神经网络(GRNN)和随机森林(RF)为基学习器回归方法的AdaBoost框架建立。通过该集成模型的校正,吸收能的TDDFT(TDB3LYP/STO-3G,6-31G*,6-311G**)计算结果精度得以明显改善。其中,最小STO-3G基组上的计算吸收能平均绝对误差(Mean Absolute Error,MAE)和均方根误差(Root Mean Square Error,RMSE)分别由0.62和0.79 eV降至0.11和0.14 eV。校正模型的验证参数可达R2(0.97)、Q2(0.98)、Qc2 v(0.99),说明了较好的拟合性和预测性能。研究显示,所提出的集成校正模型仅需基于最小基组的TDDFT计算,就可以达到较高的大基组水平的精度,同时模型的计算时间与TDDFT计算时间相比,花费极小。2.探究基于线性拟合余弦夹角距离集成规则的回归模型,该模型建立在Bagging框架上,集成了包括GBDT、GRNN、ELM、RF与SVM在内的多种基机器回归学习方法。在该Bagging框架下,集成校正模型具有处理高维数据和较强泛化能力的优点,可以显著改进TDDFT的激发态计算。为求取高精度计算结果,同样仅需最小的计算资源(TD-B3LYP/STO-3G),吸收能(λmax)回归结果的MAE和RMSE即可分别从0.62减少到0.09 eV和从0.79到0.12 eV。此外,由于本研究提出的集成方法是基于加权平均Bagging算法将多种基学习器回归模型结果集成,其时间复杂度实际上与单基学习器算法相同,在保证极高精确度的同时亦具有高效性,比AdaBoost模型更为简洁。这表明Bagging集成可以作为降低昂贵计算成本而建立的较好校正模型工具之一。3.鉴于以上AdaBoost与Bagging集成模型对于吸收能计算结果的成功校正,尝试进一步将二者应用于包含113个近红外荧光分子的162个样本的数据集,对发射波长的计算精度进行校正。实验结果表明,集成模型可将TDDFT/STO-3G计算的发射波长的MAE值与RMSE值分别从1.094降低到0.014eV和从1.375降低到0.017eV。进一步证明了集成模型的适用性与有效性。
其他文献
主要来源于巨噬细胞的促炎因子IL-1β和IL-18,在宿主防御感染和炎性疾病中扮演着重要的角色。生物活性的IL-1β和IL-18需要细胞内天冬半胱氨酸蛋白酶caspase-1将无活性的前体
研究目的:观察冠心舒通胶囊对早期主动脉动脉粥样硬化(AS)大鼠组织学形态、血脂、血流变以及诱导型一氧化氮合酶(iNOS)表达的影响,阐明冠心舒通胶囊对早期AS大鼠作用机制,为中成药在防治AS类疾病提供实验依据。研究方法:60只健康雄性大鼠,随机分为5组:空白对照组(CON)、模型组(M)、阿托伐他汀钙组(A)、低剂量冠心舒通胶囊组(DY)和高剂量冠心舒通胶囊(GY)组,每组均为12只。空白对照组给
为方便大学生的社交活动,利用网络改善生活品质,基于Android平台,Spring Boot微服务技术,token身份验证,Json数据传输解析,redis内存数据库,Mysql数据库等技术,设计并实现了
长期以来,国外资本市场仍是中国互联网企业的首选,但目前这一情况却正悄悄发生变化。一方面表现为寻求境外上市的互联网企业数量大幅下降:另一方面境外上市的企业掀起了一股
H管具公司是中石化一家较大规模的管具服务公司,可同时满足100个钻井队的施工需求。由于胜利油田已进入勘探开发中后期,产量成本压力越来越大。管具公司面临投资减少、定额结
近年来,赣东北供电公司在上级组织的正确领导下,紧紧围绕“谋发展、重管理、促和谐”工作思路,坚持以人为本,以离退休党支部为核心,阵地建设为依托,充分发挥教育、管理、服务
随着物流社会化、精细化程度越来越高,物流专业人才的需求缺口越来越大,但同时高职物流毕业生失业率和再择业率也居高不下。产生这种"供需矛盾"的原因,是多方面的。文中着眼于
南水北调西四环暗涵位于西四环主路下,主暗涵穿越多座桥梁、地铁及建筑物,如何在暗挖施工中保证施工安全及建筑物不受影响是浅埋暗挖法施工中的关键。以京石段应急供水工程(北京
改革开放20多年来, 中国的教育事业成绩斐然, 然而农村教育却是“另一种现实”, 即面临供给不足与供给不良的双重困境。本文以有效需求理论为视角, 对我国农村教育的供需现状