论文部分内容阅读
近年来,随着我国经济和化工产业的飞速发展,越来越多的危险化学品出现在生产、经营、运输及使用中,这无疑对人类和社会带来了潜在的威胁,因此对化学物质进行危险性评价显得越来越重要。理化性质是评价化学品危险性的重要指标,但由于各种原因,目前还没有一个完整的数据库。定量结构-性质/活性关系(Quantitative Structure-Property/Activity Relationship, QSPR/QSAR)方法的出现为化学品的危险性预测提供一个可靠的手段。一旦建立了可靠的模型,既可以用它来预测新的甚至是尚未合成的化合物的各种性质,而且可以在微观上了解分子结构对性质的影响,这对新分子的设计有一定的指导作用。本论文利用遗传函数算法(Genetic Function Approximation, GFA)来选择描述符,用多元线性回归(Multivariable Linear Regression, MLR)的方法建立线性模型;随后还使用BP神经网络(Back-Propagation Network, BPNN)和支持向量机(Support Vector Machines, SVM)来建立非线性模型,得到的结果令人满意。具体可分为以下几个方面的内容:(1)阐述了QSPR/QSAR的基本原理、研究步骤以及研究进展;详细的解释了BPNN和SVM的基本原理。(2)建立了一个用于研究脂肪族化合物的急性毒性的QSAR模型。利用GFA选择分子描述符,分别用MLR和BPNN建立急性毒性与分子描述符之间的线性和非线性模型。测试集中复相关系数R2分别为0.760和0.814,平均绝对误差AAE为0.314mmol/L和0.296mmol/L,表明非线性模型的拟合度和预测精度均优于线性模型。该方法提供了一个基于分子结构预测脂肪族化合物急性毒性的新途径。(3)预测了结构类型互不相同的1056种有机物的燃烧下限。通过GFA筛选出4个与燃烧下限密切相关的结构参数。MLR和BPNN分别用来建立线性和非线性模型。测试集中复相关系数R2分别为0.956和0.978,均方根误差RMSE分别为0.107vo1%和0.077vo1%。结果表明,BPNN模型性能优于MLR。(4)运用MLR和SVM方法,分别建立了91个脂肪醇化合物的结构与其闪点之间的线性和非线性的QSPR模型。测试集中复相关系数R2分别为0.976和0.979,平均绝对误差AAE为2.870K和2.706K。结果表明,通过GFA筛选出的3个描述符能很好的表征脂肪醇化合物的闪点。(5)将QSPR方法应用于液态烃化合物定量结构性质关系的研究。应用MLR和SVM建立了液态烃燃烧热与三个描述符的相关性模型。测试集中的复相关系数R2分别为0.992和0.993,平均绝对误差AAE为121kJ/mol和88kJ/mol。该方法的提出为工程上预测液态烃化合物燃烧热提供了有效途径。