论文部分内容阅读
分子激发能的研究是理论计算化学研究中的热点和难点之一。由于激发能包含分子的内在结构信息和电子性质,精确地预测包括电子跃迁吸收能与发射波长在内的分子激发态性质已然成为理论计算化学领域的关键问题研究关注之所在。经过多年研究和应用,量子化学方法现今已经超过仅能在理论上定量验证实验现象的水平,并发展成为可以在某些分子属性实验值无法获取或不准确的条件下准确预测物质基态、激发态性质和化学反应现象等。然而,并非全部计算结果均可与真实实验值精准相符,特别是对于较大分子的激发态有关的计算。这是由于对于复杂分子或大分子体系的激发态性质的计算复杂度高,尤其是当要保证一定精确度时的计算尤为耗时。实际实验条件下计算资源的局限性以及计算方法自身的固有近似性成为导致这种现象的主要原因。人工智能方法为解决这些问题,提供了一些简单而有效的策略来校正理论计算的误差,从而提高理论计算方法的准确性并拓展其应用范围。本论文将机器学习集成算法与量子化学计算方法相结合针对分子激发态的计算效率和准确性对计算结果加以改善。首先,基于AdaBoost和Bagging两种典型的机器学习集成架构建模,并将其应用于包含433个有机分子的数据集以期提高密度泛函理论计算电子光谱吸收能的精度。然后,再次将此二种集成模型应用于包含了113个荧光分子的数据集以提高荧光发射波长的回归精度。上述研究工作采用的方法,为分子性质的准确预测提供了一种有效且高效的替代途径,提高了理论方法的可靠性并扩展了其适用范围。本论文的研究工作可概括描述为如下几个部分:1.采用含时密度泛函理论(Time-Dependent Density Functional Theory,TDDFT)量子化学方法和机器学习结合的策略,提出了准确、稳健、高效的吸收能计算集成校正模型。该模型由集成了支持向量机(SVM)、广义回归神经网络(GRNN)和随机森林(RF)为基学习器回归方法的AdaBoost框架建立。通过该集成模型的校正,吸收能的TDDFT(TDB3LYP/STO-3G,6-31G*,6-311G**)计算结果精度得以明显改善。其中,最小STO-3G基组上的计算吸收能平均绝对误差(Mean Absolute Error,MAE)和均方根误差(Root Mean Square Error,RMSE)分别由0.62和0.79 eV降至0.11和0.14 eV。校正模型的验证参数可达R2(0.97)、Q2(0.98)、Qc2 v(0.99),说明了较好的拟合性和预测性能。研究显示,所提出的集成校正模型仅需基于最小基组的TDDFT计算,就可以达到较高的大基组水平的精度,同时模型的计算时间与TDDFT计算时间相比,花费极小。2.探究基于线性拟合余弦夹角距离集成规则的回归模型,该模型建立在Bagging框架上,集成了包括GBDT、GRNN、ELM、RF与SVM在内的多种基机器回归学习方法。在该Bagging框架下,集成校正模型具有处理高维数据和较强泛化能力的优点,可以显著改进TDDFT的激发态计算。为求取高精度计算结果,同样仅需最小的计算资源(TD-B3LYP/STO-3G),吸收能(λmax)回归结果的MAE和RMSE即可分别从0.62减少到0.09 eV和从0.79到0.12 eV。此外,由于本研究提出的集成方法是基于加权平均Bagging算法将多种基学习器回归模型结果集成,其时间复杂度实际上与单基学习器算法相同,在保证极高精确度的同时亦具有高效性,比AdaBoost模型更为简洁。这表明Bagging集成可以作为降低昂贵计算成本而建立的较好校正模型工具之一。3.鉴于以上AdaBoost与Bagging集成模型对于吸收能计算结果的成功校正,尝试进一步将二者应用于包含113个近红外荧光分子的162个样本的数据集,对发射波长的计算精度进行校正。实验结果表明,集成模型可将TDDFT/STO-3G计算的发射波长的MAE值与RMSE值分别从1.094降低到0.014eV和从1.375降低到0.017eV。进一步证明了集成模型的适用性与有效性。