论文部分内容阅读
量子化学计算方法是一种非常重要的理论化学方法,在化学信息学中,它属于演绎式的学习方式,即通过求解薛定谔方程直接来计算化合物的性质,它能准确地提供分子结构、性质等方面的相关信息。但是,量子化学方法的应用却受到研究体系的大小及运算时间的限制。定量结构.活性/性质关系是化学信息学中另外一种非常重要的学习方式,即归纳式学习方法。本论文将量子化学方法与定量结构-活性/性质关系研究相结合,发展了一种将演绎式与归纳式学习方式相结合的方法,并将其用于化合物物理、化学、生物性质的理论预测。这种方法建立的模型,不仅具有量子化学精度高的优点,并且具有定量结构-活性/性质关系快速的优势。同时,也促进了化学信息中两大学习方式的互补与交叉,具有很好的应用前景及重要的理论和实际意义。本论文的具体内容共分五章:第一章简述了化学信息学中两种重要的理论,量子化学理论和定量结构-活性/性质关系(Quantitative Structure-Activity/Property Relationship,QSAR/QSPR),包括它们的基本原理及实现方法。第二章利用QSPR研究方法,将遗传算法(Genetic Algorithm,GA)和多元线性回归方法(Multiple Linear Regression,MLR)结合,建立了预测苯甲酸、吡啶、喹啉及其它们的取代物等56个化合物药物渗透性的QSPR模型,所选的最终模型包含4个描述符,结果显示,对于训练集R2=0.94,Q2=0.91,F=151.36,RMSE=0.22,AARD=10.21%,对测试集的预测结果是R2=0.92,RMSE=0.26,AARD=13.29%。此外,通过描述符与药物渗透性之间的相关分析,总结出了一些分子结构特征影响药物渗透性的规律,可以用于预测新化合物的渗透性质。第三章将密度泛函理论应用到QSAR建模过程中,精确预测了52个酚类化合物作用于半胱氨酸天门冬氨酸水解专一型蛋白酶而引起细胞凋亡的活性。首先用DFT方法优化了所研究化合物的结构,并计算了它们的描述符,接着用DUPLEX方法将化合物分为训练集与测试集,然后利用GA方法选出了5个描述符作为多元线性回归方法的建模参数。所建模型经过了严格的内部及外部检验,对于训练集得到的R2=0.938,测试集得到的R2=0.939。为了证明这种方法的优越性,我们还采用了半经验的量子化学方法(AM1)来优化所有的分子结构,然后用同样的方法建立模型,结果显不用DFT方法优化分子得到的QSAR模型不仅比半经验的方法得到的模型的预测能力好,还可以得到更多量子化学的描述符。我们将DFT优化结构方法与GA-MLR结合应用到QSAR研究中,不仅克服了以往分子结构不准确给建模过程中带来的误差,还拓宽了QSAR的应用域范围。第四章主要应用DFT方法研究了含硝基系列化合物的构象,以及Y-NO2(Y=N,O)单键的键能(bond dissociation energies,BDE)。研究表明对于N-硝基磺胺类和O-硝基醇类这两个系列的化合物,每个分子只有一种稳定的构象,而对于N-硝基酰胺类化合物由于在C-N单键之间存在顺反异构的区别,每个分子有两种稳定的构象,并发现反式构象比顺式构象稳定。计算结果显示适合这三类化合物Y-NO2键的BDE的理论计算方法不同,分别是:B3P86/6-311++G(d,p)、B3LYP/6-311++G(d,p)、B3LYP/6-311++G(d,p)。最后我们还研究了远程取代基对键离解能的影响,发现Y-NO2 BDE与σp常数呈现负的相关性。本章中得出的这些结论可以应用于计算这三类化合物同系物中未知的Y-NO2键BDE的计算,从而为研究这三类化合物在生物体内的生物化学反应提供可靠的键能数据。第五章将量子化学计算与统计学校正方法结合,建立了预测110个过氧化物氧氧单键的BDE的计算方法,此方法是在用一种量子化学方法(密度泛函方法)计算得到的过氧化物氧氧单键的BDE的基础上,通过遗传算法,选出与氧氧单键的BDE相关性较大的5个描述符,并建立了具有校正意义的模型,通过这种方法计算得到的BDE,结果得到了很大的改善,对整个数据集的RMSE由原来的10.88kcal/mol降低到2.42kcal/mol,AARD由原来的9.45%降低到5.66%,总之,所建立的模型可以用于快速的预测其它未知的氧氧单键的BDE。这种将量子化学与统计学校正结合的思路,可以推广到对其它类型单键的BDE理论预测。