论文部分内容阅读
摘要
[目的] 构建可靠的QSAR模型用于评价醇类化合物的毒性。[方法] 利用MLR、SLR和SVR 3种方法研究60种醇类化合物辛醇/水分配系数lgKow和水溶解度lgSw这两个指标与mX的相关性。[结果] 模型评估结果显示出MLR和SLR的建模能力与文献方法一样优异,SVR在具有合适核函数时其建模能力也能表现出优异的泛化推广能力。[结论] 该研究可为QSAR模型的构建提供参考。
关键词 醇;有机污染物;支持向量机;定量构效关系
中图分类号 S181.3 文献标识码 A 文章编号 0517-6611(2014)32-11470-03
The Evaluation of lgKow and lgSw of Alcohol Using Different Modeling Methods
LI Ran1,2, JIANG Peng1,2, HE Ying1,2, ZHOU Wei1,2,3* et al
(1.Hunan Provincial Key Laboratory for Biology and Control of Plant Diseases and Insect Pests, College of Plant Protection, Hunan Agricultural University, Changsha, Hunan 410128; 2. Hunan Provincial Engineering & Technology Research Center for Biopesticide and Formulation Processing, Hunan Agricultural University, Changsha, Hunan 410128; 3. Chenzhou Company of Hunan Tobacco Company, Chenzhou, Hunan 423000)
Abstract [Objective] The research aimed to establish reliable QSAR model for the toxicity evaluation of alcohol.
[Method] The correlation between mX and two measures (octanol/water partition coefficient lgKow and solubility lgSw) of 60 alcohol compounds was studied using MLR, SLR and SVR. [Result] The results showed that, similar to the literature method, MLR and SLR had the excellent modeling capabilities, and SVR with an appropriate kernel function could also exhibit excellent generalization capability.[Conclusion] This study could provide references for the construction of QSAR model.
Key words Alcohol; Organic pollutant; SVR; QSAR
随着经济的飞速发展,与化学品相关的环境问题日益突出[1]。因此,有关有机污染物的毒性风险评估显得非常重要。醇类化合物是一类重要的环境毒性污染物,在湖泊和河流中都已检测到,这类化合物在环境中的影响也是不可忽视的。由于这类化合物品种较多,完全进行试验研究相当困难。定量构效关系(Quantitative Structure Activity Relationship,QSAR)相关性研究在化学研究领域得到了非常有效的应用,近年来,又被大量地应用于环境科学中[2],在环境污染物毒性等研究方面有重要的实用价值。 QSAR建模是一种用于研究醇类化合物分子结构与毒性关系的有效方法,它有助于解释结构特征如何决定毒性[3]。有机污染物的水溶解度(lgSw)是评价有机物迁移转化和毒性的主要参数,它和正辛醇/水分配系数(lgKow)一样与土壤/沉积物吸附系数(Kow)、生物富集因子及致癌性、药物的结构变化有密切关系[4]。因此,它们是评价有机污染物环境行为的重要基本参数,传统的“摇瓶法”测定lgKow不仅费时、繁琐,而且存在很多局限性。因此,采用QSAR研究模型来对lgKow及lgSw进行预测越来越受到学者的注意。
目前,分子連接性指数(mX)法已被广泛地应用于有机物理化参数、环境参数以及生物毒性的预测中[5],通常有机物的理化性质取决于分子中疏水部分和亲水部分的共同贡献。对于疏水性物质,色散作用可能成为控制分子性质的主要因素[5];对亲水性物质,它们和溶剂之间的色散作用和非色散作用共同决定了化合物的理化行为。所以,对于疏水性物质,简单连接性指数与理化性质就存在较好的相关关系。如果化合物既有疏水性又有亲水性时,相关性则不十分理想,简单连接性指数就不能有效地反映相关关系。同时,化学毒性和相关特征之间的关系通常又是非线性的,构建线性模型从而显得不合逻辑。因此,非线性特征筛选和非线性建模的模型一定会为化合物毒性的评估提供更有用的信息。为构建可靠的QSAR模型,笔者采用非线性支持向量回归方法(Support Vector Regression,SVR)[6]。SVR是一类基于结构风险最小化原则的机器学习方法,它能克服小样本问题、过拟合、维数灾和局部极小的难题,广泛应用于非线性建模的QASR研究中[7]。该研究利用两种线性技术和一种非线性SVR技术对源自文献的60个化合物的水溶解度lgSw和辛醇/水分配系数lgKow进行QSAR研究。 1.4 模型评估
基于均方误差(MSE)值,核函数参数的优化采用留一法交叉验证[9-10]。模型的外部预测能力通过公式(1)和(2)的MSE和预测相关系数(R2pred)值进行评估:
MSE=∑(yi-yi)2n
(1)
R2pred=1-∑(yi-yi)2∑(yi-ytraining)2
(2)
式中,yi为测试集的试验值;
y为测试集的预测值;
n为测试集的数目;
ytraining为训练集的活性均值。
留一法是指依次从训练集中取出一个样本作为测试样本,而将剩余样本组成训练集的一种较为客观和严格的预测性能检验方法。一般认为,一个好的QSAR模型应该在独立测试时具有更低的MSE值和更高的R2pred (至少>0.6)值[9-10]。
2 结果与分析
2.1 利用MLR和SLR方法构建醇类有机污染物线性QSAR模型及其评估
文献利用最小二乘法建立起简单性连接指数mX与lgSw和lgKow两组因变量QSAR模型,分别产生两组独立预测方程(表2)。基于文献数据,该研究利用MLR和SLR两种方法进行其他线性模型构建。结果表明:MLR和SLR两种方法构建的线性模型评估值完全一致,SLR方法汰选掉任何自变量;MLR和SLR这两个线性模型预测方程和评估值与文献的GLS模型也完全一致,其R2pred值均非常高。对于研究中既定的数据,这3种线性建模方法的泛化推广能力显示出很大优势。
2.2 利用SVR方法构建醇类有机污染物非线性QSAR模型及其评估
基于文献数据,该研究进一步利用SVR进行非线性模型构建,所用核函数包括线性核函数(t=0)、多项式核函数(t=1, d=2;t=1, d=3)、径向基核函数(t=2)和双曲正切核函数(t=3)[11]。SVR建模结果表明(表3):不同的核函数产生的结果差异非常大,因此核函数寻优非常必要;对于正辛醇/水分配系数lgKow,SVR建模中的t=0、t=2和t=3结果都非常优秀,有效模型比率为60%;对于水溶解度lgSw,SVR建模中仅有t=0的模型结果非常优秀,有效模型比率仅为20%。SVR非线性建模结果支持线性核函数(t=0)为研究中既定数据的最优核函数。综合上述线性模型结果的优良表现,该研究认为文献计算出的简单性连接指数mX与lgSw和lgKow之间存在明显的线性关系,线性模型和具有合适核函数的非线性SVR模型均能很好地预测出其中的关联信息。SVR能较好地解决小样本、非线性、维数灾和局极小等实际问题,其在一些与lgSw和lgKow间存在非线性关系的描述符的建模上是否更具优势还有待进一步研究。
表2 3种线性方法预测结果比较
参数lgKow
GLS[5]MLRSLR
lgSw
GLS[5]MLRSLR
预测方程lgKow=0.5120X - 0.0951X - 2.220lgSw=0.6420X-0.1771X - 3.230
MSE0.0010.0010.0010.3570.3570.357
R2pred1.0001.0001.0000.9860.9860.986
表3 SVR方法預测结果比较
参数lgKow
t=0t=1, d=2t=1, d=3t=2t=3
lgSw
t=0t=1, d=2t=1, d=3t=2t=3
MSE0.022173.114968.1021.4440.2240.416182.054913.24422.20350.152
R2pred0.999-6.643-41.7440.9360.9900.984-5.910-33.6620.157-0.904
3 结论
该研究运用MLR、SLR、SVR 3种方法研究文献所给出的60种醇类化合物辛醇/水分配系数lgKow和水溶解度lgSw这两个指标与mX的相关性。一系列模型评估结果表明,MLR、SLR和SVR(具有合适的核函数)的建模能力与文献方法的建模能力一样优异。
参考文献
[1]
WANG H,YAN Z,LI H,et al.Progress of environmental management and risk assessment of industrial chemicals in China[J].Environ Pollut,2012,165(1):174-181.
[2] 谭显胜,袁哲明,周铁军,等.Multi-KNN-SVR组合预测在含氟化合物QSAR研究中的应用[J].高等学校化学学报,2008,29(1):95-99.
[3] LI X L,WANG Z Y,LIU H L,et al.Quantitative structure-activity relationship for prediction of the toxicity of phenols on Photobacterium phosphoreum[J].Bull Environ Contam Toxicol,2012,89:27-31.
[4] 王连生.有机污染物化学[M].北京:科学出版社,1990:3-65.
[5] 堵锡华,蔡可迎.醇、醚类有机污染物的QSAR研究[J].福州大学学报,2004,32(2):224-227.
[6] VAPNIK V N.The Nature of Statistical Learning Theory[M].New York:SpringerVerlag,1995.
[7] XIANG C S,ZHOU W,YUAN Z M,et al.A new parameters joint optimization method of chaotic time series prediction[J].Int J Phys Sci,2011,6:2565-2571.
[8] ZHOU W,DAI Z,CHEN Y,et al.Highdimensional descriptor selection and computational QSAR modeling for antitumor activity of ARC111 analogues based on support vector regression (SVR)[J].Int J Mol Sci,2012,13(1):1161-1172.
[9] 代志军,周玮,袁哲明.基于支持向量机的高维特征非线性快速筛选与肽QSAR建模[J].物理化学学报,2011,27(7):1654-1660.
[10] ZHOU W,DAI Z J,CHEN Y,et al.Computational QSAR models with high-dimensional descriptor selection improve antitumor activity design of ARC-111 analogues[J].Med Chem Sci,2013,22(1):278-286.
[11] 李巍巍,代志军,谭显胜,等.基于支持向量回归的酚类化合物QSAR建模[J].现代生物医学进展,2011(24):4857-4860.
[目的] 构建可靠的QSAR模型用于评价醇类化合物的毒性。[方法] 利用MLR、SLR和SVR 3种方法研究60种醇类化合物辛醇/水分配系数lgKow和水溶解度lgSw这两个指标与mX的相关性。[结果] 模型评估结果显示出MLR和SLR的建模能力与文献方法一样优异,SVR在具有合适核函数时其建模能力也能表现出优异的泛化推广能力。[结论] 该研究可为QSAR模型的构建提供参考。
关键词 醇;有机污染物;支持向量机;定量构效关系
中图分类号 S181.3 文献标识码 A 文章编号 0517-6611(2014)32-11470-03
The Evaluation of lgKow and lgSw of Alcohol Using Different Modeling Methods
LI Ran1,2, JIANG Peng1,2, HE Ying1,2, ZHOU Wei1,2,3* et al
(1.Hunan Provincial Key Laboratory for Biology and Control of Plant Diseases and Insect Pests, College of Plant Protection, Hunan Agricultural University, Changsha, Hunan 410128; 2. Hunan Provincial Engineering & Technology Research Center for Biopesticide and Formulation Processing, Hunan Agricultural University, Changsha, Hunan 410128; 3. Chenzhou Company of Hunan Tobacco Company, Chenzhou, Hunan 423000)
Abstract [Objective] The research aimed to establish reliable QSAR model for the toxicity evaluation of alcohol.
[Method] The correlation between mX and two measures (octanol/water partition coefficient lgKow and solubility lgSw) of 60 alcohol compounds was studied using MLR, SLR and SVR. [Result] The results showed that, similar to the literature method, MLR and SLR had the excellent modeling capabilities, and SVR with an appropriate kernel function could also exhibit excellent generalization capability.[Conclusion] This study could provide references for the construction of QSAR model.
Key words Alcohol; Organic pollutant; SVR; QSAR
随着经济的飞速发展,与化学品相关的环境问题日益突出[1]。因此,有关有机污染物的毒性风险评估显得非常重要。醇类化合物是一类重要的环境毒性污染物,在湖泊和河流中都已检测到,这类化合物在环境中的影响也是不可忽视的。由于这类化合物品种较多,完全进行试验研究相当困难。定量构效关系(Quantitative Structure Activity Relationship,QSAR)相关性研究在化学研究领域得到了非常有效的应用,近年来,又被大量地应用于环境科学中[2],在环境污染物毒性等研究方面有重要的实用价值。 QSAR建模是一种用于研究醇类化合物分子结构与毒性关系的有效方法,它有助于解释结构特征如何决定毒性[3]。有机污染物的水溶解度(lgSw)是评价有机物迁移转化和毒性的主要参数,它和正辛醇/水分配系数(lgKow)一样与土壤/沉积物吸附系数(Kow)、生物富集因子及致癌性、药物的结构变化有密切关系[4]。因此,它们是评价有机污染物环境行为的重要基本参数,传统的“摇瓶法”测定lgKow不仅费时、繁琐,而且存在很多局限性。因此,采用QSAR研究模型来对lgKow及lgSw进行预测越来越受到学者的注意。
目前,分子連接性指数(mX)法已被广泛地应用于有机物理化参数、环境参数以及生物毒性的预测中[5],通常有机物的理化性质取决于分子中疏水部分和亲水部分的共同贡献。对于疏水性物质,色散作用可能成为控制分子性质的主要因素[5];对亲水性物质,它们和溶剂之间的色散作用和非色散作用共同决定了化合物的理化行为。所以,对于疏水性物质,简单连接性指数与理化性质就存在较好的相关关系。如果化合物既有疏水性又有亲水性时,相关性则不十分理想,简单连接性指数就不能有效地反映相关关系。同时,化学毒性和相关特征之间的关系通常又是非线性的,构建线性模型从而显得不合逻辑。因此,非线性特征筛选和非线性建模的模型一定会为化合物毒性的评估提供更有用的信息。为构建可靠的QSAR模型,笔者采用非线性支持向量回归方法(Support Vector Regression,SVR)[6]。SVR是一类基于结构风险最小化原则的机器学习方法,它能克服小样本问题、过拟合、维数灾和局部极小的难题,广泛应用于非线性建模的QASR研究中[7]。该研究利用两种线性技术和一种非线性SVR技术对源自文献的60个化合物的水溶解度lgSw和辛醇/水分配系数lgKow进行QSAR研究。 1.4 模型评估
基于均方误差(MSE)值,核函数参数的优化采用留一法交叉验证[9-10]。模型的外部预测能力通过公式(1)和(2)的MSE和预测相关系数(R2pred)值进行评估:
MSE=∑(yi-yi)2n
(1)
R2pred=1-∑(yi-yi)2∑(yi-ytraining)2
(2)
式中,yi为测试集的试验值;
y为测试集的预测值;
n为测试集的数目;
ytraining为训练集的活性均值。
留一法是指依次从训练集中取出一个样本作为测试样本,而将剩余样本组成训练集的一种较为客观和严格的预测性能检验方法。一般认为,一个好的QSAR模型应该在独立测试时具有更低的MSE值和更高的R2pred (至少>0.6)值[9-10]。
2 结果与分析
2.1 利用MLR和SLR方法构建醇类有机污染物线性QSAR模型及其评估
文献利用最小二乘法建立起简单性连接指数mX与lgSw和lgKow两组因变量QSAR模型,分别产生两组独立预测方程(表2)。基于文献数据,该研究利用MLR和SLR两种方法进行其他线性模型构建。结果表明:MLR和SLR两种方法构建的线性模型评估值完全一致,SLR方法汰选掉任何自变量;MLR和SLR这两个线性模型预测方程和评估值与文献的GLS模型也完全一致,其R2pred值均非常高。对于研究中既定的数据,这3种线性建模方法的泛化推广能力显示出很大优势。
2.2 利用SVR方法构建醇类有机污染物非线性QSAR模型及其评估
基于文献数据,该研究进一步利用SVR进行非线性模型构建,所用核函数包括线性核函数(t=0)、多项式核函数(t=1, d=2;t=1, d=3)、径向基核函数(t=2)和双曲正切核函数(t=3)[11]。SVR建模结果表明(表3):不同的核函数产生的结果差异非常大,因此核函数寻优非常必要;对于正辛醇/水分配系数lgKow,SVR建模中的t=0、t=2和t=3结果都非常优秀,有效模型比率为60%;对于水溶解度lgSw,SVR建模中仅有t=0的模型结果非常优秀,有效模型比率仅为20%。SVR非线性建模结果支持线性核函数(t=0)为研究中既定数据的最优核函数。综合上述线性模型结果的优良表现,该研究认为文献计算出的简单性连接指数mX与lgSw和lgKow之间存在明显的线性关系,线性模型和具有合适核函数的非线性SVR模型均能很好地预测出其中的关联信息。SVR能较好地解决小样本、非线性、维数灾和局极小等实际问题,其在一些与lgSw和lgKow间存在非线性关系的描述符的建模上是否更具优势还有待进一步研究。
表2 3种线性方法预测结果比较
参数lgKow
GLS[5]MLRSLR
lgSw
GLS[5]MLRSLR
预测方程lgKow=0.5120X - 0.0951X - 2.220lgSw=0.6420X-0.1771X - 3.230
MSE0.0010.0010.0010.3570.3570.357
R2pred1.0001.0001.0000.9860.9860.986
表3 SVR方法預测结果比较
参数lgKow
t=0t=1, d=2t=1, d=3t=2t=3
lgSw
t=0t=1, d=2t=1, d=3t=2t=3
MSE0.022173.114968.1021.4440.2240.416182.054913.24422.20350.152
R2pred0.999-6.643-41.7440.9360.9900.984-5.910-33.6620.157-0.904
3 结论
该研究运用MLR、SLR、SVR 3种方法研究文献所给出的60种醇类化合物辛醇/水分配系数lgKow和水溶解度lgSw这两个指标与mX的相关性。一系列模型评估结果表明,MLR、SLR和SVR(具有合适的核函数)的建模能力与文献方法的建模能力一样优异。
参考文献
[1]
WANG H,YAN Z,LI H,et al.Progress of environmental management and risk assessment of industrial chemicals in China[J].Environ Pollut,2012,165(1):174-181.
[2] 谭显胜,袁哲明,周铁军,等.Multi-KNN-SVR组合预测在含氟化合物QSAR研究中的应用[J].高等学校化学学报,2008,29(1):95-99.
[3] LI X L,WANG Z Y,LIU H L,et al.Quantitative structure-activity relationship for prediction of the toxicity of phenols on Photobacterium phosphoreum[J].Bull Environ Contam Toxicol,2012,89:27-31.
[4] 王连生.有机污染物化学[M].北京:科学出版社,1990:3-65.
[5] 堵锡华,蔡可迎.醇、醚类有机污染物的QSAR研究[J].福州大学学报,2004,32(2):224-227.
[6] VAPNIK V N.The Nature of Statistical Learning Theory[M].New York:SpringerVerlag,1995.
[7] XIANG C S,ZHOU W,YUAN Z M,et al.A new parameters joint optimization method of chaotic time series prediction[J].Int J Phys Sci,2011,6:2565-2571.
[8] ZHOU W,DAI Z,CHEN Y,et al.Highdimensional descriptor selection and computational QSAR modeling for antitumor activity of ARC111 analogues based on support vector regression (SVR)[J].Int J Mol Sci,2012,13(1):1161-1172.
[9] 代志军,周玮,袁哲明.基于支持向量机的高维特征非线性快速筛选与肽QSAR建模[J].物理化学学报,2011,27(7):1654-1660.
[10] ZHOU W,DAI Z J,CHEN Y,et al.Computational QSAR models with high-dimensional descriptor selection improve antitumor activity design of ARC-111 analogues[J].Med Chem Sci,2013,22(1):278-286.
[11] 李巍巍,代志军,谭显胜,等.基于支持向量回归的酚类化合物QSAR建模[J].现代生物医学进展,2011(24):4857-4860.