论文部分内容阅读
血红素与氧气的结合与解离过程是重要的生命现象。在氧气靠近的过程中,血红素电荷极化效应明显,且底物对血红素自旋态影响显著,使体系存在自旋交叉的现象。但是传统力场的固定点电荷模型,不适合应用到血红素体系中,且当前针对血红素自旋交叉这一特点开发力场的工作较少。本课题组针对这一问题提出了多自旋态可变电荷力场的设想,这一设想的核心是能够根据构型变化准确的预测各个自旋态的电荷,从而正确的描述由于构象变化导致的各组态的能量变化。近年来,在电荷预测中基于K-means聚类和随机森林的方法逐渐受到重视并有成功应用。本论文的核心思想是将这些方法用于多自旋态可变电荷力场的开发,测试这些方法在血红素体系多自旋态电荷力场中的表现。论文的具体研究思路如下:首先,我们对血红素模型体系和氧气分子复合物进行了非绝热动力学模拟,从轨迹中提取了近40000个血红素模型结构,采用密度泛函方法计算得到体系在各个自旋态下的静电势电荷。然后,论文采用基于K-means聚类和随机森林的方法进行电荷预测测试。针对每种测试方法,我们都构建了两个数据集。一是未进行几何构型优化,体系处于能量较高的状态;二是进行几何构型优化,体系处于局域能量最小点。为了优化预测方法,我们分别引入了距离矩阵,对称函数和人工筛选结构参数作为描述符并进行了系统比较。在基于K-means聚类的方法中,我们加入距离矩阵,比较了基于结构参数和基于距离矩阵两种预测方式,找到了描述血红素模型体系的11个结构参数,使两种预测方式呈现同样好的预测效果。随机森林的方法中,我们不仅应用描述原子周围化学环境的对称函数与随机森林回归算法结合,进行电荷预测,也尝试了采用11个结构参数作为描述符进行电荷预测。本论文得到以下主要结论:1.基于K-means聚类的方法不需要构建复杂的分析模型就可以给出各自旋态下不同结构对应的电荷。且基于K-means聚类的方法采用的是系综平均的思想,比单一模型的描述容错率要更高。2.随机森林回归模型不仅计算效率高,还可实现单一原子的预测,实时更新重要原子的电荷,提供所需原子的多自旋态可变电荷力场参数。3.通过平均绝对误差、均方根误差、相关性系数等参数,展现了两个方法都可以获得较为准确的预测结果,是得到多自旋态可变电荷力场参数的有效方法。总之,本论文使用基于K-means聚类和随机森林的方法分别预测了各个自旋态下血红素模型的电荷,以及几何构型优化后体系的多组态电荷,且比较分析了两种方法的预测效果。当然,本论文的工作只是对血红素力场研究的初步尝试,尚有很多缺点。在未来的工作中我们将进一步完善多自旋态可变电荷力场参数的计算方法。我们相信,本论文也可以为其它基于机器学习的力场开发工作提供借鉴。