论文部分内容阅读
环境污染物的毒性检测对环境治理有重要意义。常规实验检测方法费时耗力,且污染物的泄露可能造成二次污染。定量构效关系(Quantitative Structure-ActivityRelationship, QSAR)是实验检测的有效补充,它基于化合物的结构特征预测毒性,易操作,成本低,现已广泛应用。QSAR包含特征获取、特征选择以及预测模型构建三个部分。特征(分子描述符)通常可由量子化学软件计算获取,预测模型通常采用基于结构凤险最小的支持向量回归(Support Vector Regression, SVR)模型。本文围绕特征选择这一关键环节,将两种新的特征选择方法应用于环境污染物毒性预测的QSAR建模,结果如下。醇酚类化合物的毒性QSAR研究:化合物毒性与描述符通常呈现为非线性关系,量子化学计算的化合物分子描述符中包含诸多无关特征与冗余特征。最大相关最小冗余(minimal Redundancy Maximal Relevance, mRMR)是应用较广泛的特征选择方法,但当前的mRMR对连续型因变量不适用,且存在相关性测度与冗余性测度不可比的缺陷。QSAR研究中因变量(毒性)与自变量(描述符)多为连续型变量,本文以非线性的距离相关系数(distance Correlation, dCor)取代线性的Pearson相关系数(R),在非线性条件下实现了相关性测度与冗余性测度可比,由此提出了新的特征选择方法mRMR-dCor。三个醇酚类化合物毒性QSAR数据集的分析表明,基于mRMR-dCor选择特征的SVR模型独立预测Q2分别为0.954、0.941、0.981,明显优于参比模型与文献报道,mRMR-dCor选择的多数保留分子描述符得到文献报道支持。QSAR预测芳香类化合物的生物富集因子及辛醇水分配系数:mRMR、mRMR-dCor仅能给出特征引入排序,需经训练集交叉测试最终决定某特征引入与否、引入何时终止,相当耗时。本文应用了结合mRMR-dCor与分摊冗余策略的新的特征选择方法dCor-shared,可实现特征选择自动终止,且无需基于交叉测试精度最高逐个引入特征,大幅度缩短了计算时间。对芳香类化合物生物富集因子与辛醇水分配系数的独立预测表明,基于dCor-shared特征选择的SVR模型预测精度明显优于参比模型。mRMR-dCor、dCor-shared在化合物QSAR、定量构质关系等高维特征选择领域有广泛应用前景。