论文部分内容阅读
持久性有机污染物(POPs)是一类能持久存在于环境中,通过食物链积累,对人类健康及环境造成有害影响的化学物质。POPs大多数是低水溶解度和高脂溶性的卤化物,同时也是半挥发性的物质,能够蒸发或被吸附到大气颗粒物中,因此,它们能够在空气和水中经历长距离的迁移。定量结构-性质相关(QSPR)是一个涵盖了化学、生物、数学、计算机等多门科学的交叉学科点,是国际上十分活跃的前沿领域,已经成为对有机污染物进行生态风险评价的一个重要手段,它可以用于预测有机污染物在环境中的迁移、转化和分布等行为。在有机污染物的QSPR研究中,量子化学计算是获得分子结构参数的重要方法。
本文将支持向量机(Support Vector Machine,SVM),一种特别适合用有限已知样本训练建模,进而预报未知样本属性的模式识别新算法应用于三种不同体系中,均得到了较好的预报结果。由于支持向量机算法的数学理论非常严格,同时考虑到拟合精度和对过拟合的抑制,故能基于小样本集作较可靠的计算机预报。对所选三种体系的数据处理结果充分说明了支持向量机算法的优点和广泛的应用前景。本文主要的研究内容如下:
第一部分采用支持向量机回归(SVR)方法研究了139个多环芳烃的定量构效关系。首先利用不同的化学软件计算了52个芳烃分子的描述符,然后用mRMR-GA-SVR(最小冗余最大相关法-遗传算法-支持向量回归方法的组合)特征筛选方法得到8个较佳的分子描述符,再用5重交叉验证方法得到优化的SVR模型参数,最后使用支持向量回归(SVR)算法建立PAHs若干物性(包括沸点bp、正辛醇/水分配系数logKow、色谱保留指数RI)与经优化组合的量子化学参数间的QSPR回归模型。多环芳烃bp、logKow和RI的SVR模型对训练集(样本数分别为45、52和90)和测试集(样本数分别为12、13和23)拟合和预测的R2(分别为0.997、0.971和0.950)和q2(分别为0.999、0.924和0.947)值较大。结果表明:SVR方法可以建立PAHs若干物性的较佳的QSPR模型,并有满意的预测结果。
第二部分采用支持向量机回归(SVR)方法和多元线性回归(MLR)、偏最小二乘(PLS)及逆传播人工神经网络(BP-ANN)研究了47个麻醉药毒性pEC50的定量构效关系。从若干量子化学计算参数中筛选出能够有效建模的分子描述符。基于“留-法交叉验证”方法所得SVR、MLR、PLS和BP-ANN模型的根均方差分别为0.357、0.385、0.392和0.466。结果表明,所建SVR模型的预报精度高于MLR、PLS和BP-ANN方法所得的结果。SVR方法可望成为结构毒性关系研究领域中有用的化学计量学工具。第三部分建立了417卤代烃的沸点bp与分子结构特征参数之间的定量关系(QSPR模型)。用不同的化学软件计算了340个卤代烃的分子描述符,最小冗余最大相关法(The minimum Redundancy Maximum Relevance,mRMR)-支持向量回归方法(SVR)用于选择包含最大信息量的描述符集,并用SVR算法建立了卤代烃沸点的QSPR回归模型,最后用该模型预测测试集77种卤代烃的沸点。结果表明:所建SVR模型的预报精度高于MLR、PLS和BP-ANN方法所得的结果。mRMR-SVR特征选择方法和SVR算法可用于卤代烃沸点的QSPR研究。