基于距离相关的最小冗余最大相关特征选择法在QSAR中的应用

来源 :湖南农业大学 | 被引量 : 0次 | 上传用户:gfjgds
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
环境污染物的毒性检测对环境治理有重要意义。常规实验检测方法费时耗力,且污染物的泄露可能造成二次污染。定量构效关系(Quantitative Structure-ActivityRelationship, QSAR)是实验检测的有效补充,它基于化合物的结构特征预测毒性,易操作,成本低,现已广泛应用。QSAR包含特征获取、特征选择以及预测模型构建三个部分。特征(分子描述符)通常可由量子化学软件计算获取,预测模型通常采用基于结构凤险最小的支持向量回归(Support Vector Regression, SVR)模型。本文围绕特征选择这一关键环节,将两种新的特征选择方法应用于环境污染物毒性预测的QSAR建模,结果如下。醇酚类化合物的毒性QSAR研究:化合物毒性与描述符通常呈现为非线性关系,量子化学计算的化合物分子描述符中包含诸多无关特征与冗余特征。最大相关最小冗余(minimal Redundancy Maximal Relevance, mRMR)是应用较广泛的特征选择方法,但当前的mRMR对连续型因变量不适用,且存在相关性测度与冗余性测度不可比的缺陷。QSAR研究中因变量(毒性)与自变量(描述符)多为连续型变量,本文以非线性的距离相关系数(distance Correlation, dCor)取代线性的Pearson相关系数(R),在非线性条件下实现了相关性测度与冗余性测度可比,由此提出了新的特征选择方法mRMR-dCor。三个醇酚类化合物毒性QSAR数据集的分析表明,基于mRMR-dCor选择特征的SVR模型独立预测Q2分别为0.954、0.941、0.981,明显优于参比模型与文献报道,mRMR-dCor选择的多数保留分子描述符得到文献报道支持。QSAR预测芳香类化合物的生物富集因子及辛醇水分配系数:mRMR、mRMR-dCor仅能给出特征引入排序,需经训练集交叉测试最终决定某特征引入与否、引入何时终止,相当耗时。本文应用了结合mRMR-dCor与分摊冗余策略的新的特征选择方法dCor-shared,可实现特征选择自动终止,且无需基于交叉测试精度最高逐个引入特征,大幅度缩短了计算时间。对芳香类化合物生物富集因子与辛醇水分配系数的独立预测表明,基于dCor-shared特征选择的SVR模型预测精度明显优于参比模型。mRMR-dCor、dCor-shared在化合物QSAR、定量构质关系等高维特征选择领域有广泛应用前景。
其他文献
<正>桥陇社区位于广东省东莞市塘厦镇南部,北靠凤凰岗社区,西与石鼓连接,东南毗邻凤岗镇,东深公路贯穿而过,是深圳入塘厦的第一站。桥陇总面积2.9平方公里,户籍人口1137人。
1.嫩黄瓜适量,切成薄片,加适量蜂蜜拌腌,酌量食用,可治小儿夏季痢疾。
硅/有机杂化太阳能电池(Silicon-based inorganic/Organic Hybrid Solar Cells,简写为SOHCs)结合了晶硅太阳能电池和有机太阳能电池的优势,成为近几年来研究的热点,而硅基微纳
目的:评价64层螺旋CT脑血管造影(CTA)检查对颅内动脉瘤的诊断效能和临床应用价值,并与数字减影血管造影(DSA)进行比较,分析两项检查各自优势。材料与方法:收集2007年12月--2010
M2高速钢是高碳高合金高耐磨钢,常用于制备热轧辊和各种硬质工具。该材料一般需通过热处理来调控马氏体相和硬质合金碳化物的形态分布,从而得到良好的硬度和韧性的配合。本文结合市场可供货M2高速钢的主要生产技术,对比研究了热轧、喷射沉积和激光重熔三种方法制备的M2高速钢的热处理工艺、相应的组织和硬度;对比分析其组织、相结构形成的机理及区别特征,为企业对市场上M2高速钢供货态的选择和热加工处理方式的选用提供
生活中人们经常使用亲属称谓。但是在网络空间里亲属称谓的使用有了新的变化。基于此,针对网络流行语中亲属称谓的使用的特点、产生这些变化的原因,以及如何看待这种变化进行
目前施工企业的施工日志大多流于形势,内容没有针对性,空洞乏味,不能完整、确切的反映施工的真实面貌,给工程质量、施工安全、施工争议等一系列问题的还原带来困难,无法推敲和定论
随着国家对于企业研发投入和自主创新的重视,企业在我国自主创新领域中的主体地位逐渐确立,越来越多的研究开始关注上市公司进行研发活动的情况。而作为风险居高的投资之一,
文章概述了在当代艺术作品创作中丑化中国人迎合西方评价标准的现象,分析了产生这种现象的原因,探讨在解决当代艺术创作中人物底线问题方面如何发挥毛泽东文艺思想的作用:坚持文
本文通过实例,论述了求数列极限的多种方法,包括“求”与“证”结合法、级数审敛法、定积分计算法、洛必达法则等,并指出了这些方法的特点、适用范围和有关要注意的问题。