论文部分内容阅读
化合物的固有特性是衡量其对环境影响的重要指标,也是生态风险评价的重要依据。传统的生态固有特性数据主要通过实验获得,成本昂贵,工作量大,而且时间上相对滞后。为了及时准确地进行新化学物质生态危害评价,减少或避免对环境的危害,本文依据化学物质定量结构-活性相关(Quantitative Structure-Activity Relationship,QSAR)原理,对化合物的基本生态固有特性正辛醇/水分配系数、降解性、富集性以及鱼类毒性进行预测研究。在对化学物质碎片结构进行识别的基础上,分别建立了以上四种固有特性基于主成分分析(Principal Component Analysis,PCA)-多元线性回归(MultivariateLinear Regression,MLR)、PCA-BP(Back-Propagation Network)神经网络、PCA-支持向量机(Support Vector Machine,SVM)的预测模型,并设计开发了新化学物质固有特性预测系统。本文的主要研究内容与结论如下:(1)选取建模碎片结构并进行识别。在专家指导下,分析影响正辛醇/水分配系数、降解性、富集性以及鱼类毒性的主要因素,选取对各特性具有主要表征意义的碎片结构,建立碎片结构集作为各特性建模输入参数。基于SMILES(Simplified Molecular Input LineEntry Specification,简化分子结构线性输入规范)表达式的规则,以南京环科所以及国内外相关环境网站提供的化合物信息为数据源,利用项目团队设计的碎片结构识别算法,逐个自动识别碎片结构集中的各碎片数量,并与人工识别的结果进行验证。(2)针对四种固有特性,分别建立基于PCA-MLR、PCA-BP及PCA-SVM的QSAR预测模型。为消除各碎片结构之间的冗余,在建模之前,采用主成分分析方法对碎片结构进行筛选,选取对各特性影响较大的碎片结构作为模型输入参数。以各特性表征值为输出参数,分别采用上述三种方法,选取合适的模型参数建立各特性的QSAR模型,并对建立的模型分别进行交叉验证及外部验证。验证结果表明,各模型具有良好的预测精度,能够较科学、较准确地预测出四种生态固有特性值。(3)设计并开发生态固有特性QSAR预测系统。采用JAVA与MATLAB混合编程,集成碎片识别结果和所构建的各特性模型,实现了新化学物质四种固有特性的预测并能将预测结果导出到Word、Txt、Excel等环境下。另外,通过调用CDK(ChemistryDevelopment Kit)组件实现了二维结构图的生成,直观地对预测物质的化学结构图进行了展示。经过一系列测试,结果表明该系统具有较好的稳定性和适用性。