【摘 要】
:
定量构效关系(Quantitative Structure-Activity Relationship,QSAR)通过数学统计分析方法,建立化合物结构与生物活性间的相关性模型,定量地描述两者的关系,以预测新化合物的各种活性,为分子设计提供指导。选择合适的特征选择方法和统计模型有助于提高QSAR模型预测精度,增强其可解释性。单变量过滤法利用相关性统计量对特征排序,未考虑特征间冗余;多变量过滤法如常用
论文部分内容阅读
定量构效关系(Quantitative Structure-Activity Relationship,QSAR)通过数学统计分析方法,建立化合物结构与生物活性间的相关性模型,定量地描述两者的关系,以预测新化合物的各种活性,为分子设计提供指导。选择合适的特征选择方法和统计模型有助于提高QSAR模型预测精度,增强其可解释性。单变量过滤法利用相关性统计量对特征排序,未考虑特征间冗余;多变量过滤法如常用的最小冗余最大相关(minimal Redundancy Maximal Relevance,m RMR)虽考虑了特征间的冗余,但直接去冗余常导致预测精度的下降。以上方法仅对特征重要性排序,还需交叉测试搜索特征子集,较为耗时。本文基于最大信息系数(Maximum Information Coefficient,MIC)的改进算法Chi-MIC和冗余分摊策略,发展了一种可自动终止的特征筛选方法Chi-MIC-share,该方法复杂度低,计算速度快,不依赖学习机器。3个QSAR数据集(梨形四膜虫、蝌蚪、黑呆头鱼)经Chi-MIC-share特征选择后,支持向量回归模型(Support Vector Regression,SVR)的独立预测MSE分别为0.0280、0.0226、0.0321,R~2分别为0.9590、0.9750、0.9367,均优于参比特征选择方法,表明了Chi-MIC-share方法的有效性。基于上述3个数据集和Chi-MIC-share方法,对多元线性回归(Multiple Linear Regression,MLR)、偏最小二乘回归(Partial Least Squares Regression,PLS)、岭回归(Ridge Regression,Ridge)、随机森林(Random Forest,RF)、神经网络(Artificial Neural Network,ANN)等五种模型进行建模预测,并与SVR模型对比。结果表明,MLR、PLS线性模型表现不佳,SVR、RF模型较Ridge、ANN模型表现较好,且SVR优于RF模型,说明了SVR模型在小样本非线性数据处理中的稳健性。互作描述了系统的整体效应和其部分效应的关系,主效特征和互作特征的组合可以提高模型的预测性能。基于Abs特征互作模式(Zij=|Xi-Xj|,即互作特征Zij由特征Xi与Xj转换),本文将单个互作特征及多个互作特征引入QSAR研究中,试验结果表明互作特征的引入能提高SVR模型的预测精度。本研究提出的Chi-MIC-share特征选择方法,以及在模型选择和特征互作方面做出的尝试,可能为定量研究提供新的思路,具有一定的参考价值。
其他文献
超声波气雾栽培中最重要的是根系的气雾环境,根系的气雾环境直接影响气雾栽培的成败。在根系生长环境中,温度与根系雾滴沉降量直接影响根系对水分和养分的吸收。因此,开展气雾栽培的根系温度均匀性和沉降量的研究符合气雾栽培技术的发展需要。本文设计了一种生菜的气雾栽培装置,研究了雾化量、风速、雾化频率对根系温度分布及雾滴沉降量的影响。论文的研究内容与结果如下:1.搭建了气雾栽培装置,进行装置的结构设计和控制系统
为适应中国水稻种植的田间差异,对小型联合收割机进行性能优化,并开发不同作业环境下的工作参数模式。探究不同作业环境下,脱粒分离装置的最佳工作参数对整机性能优化至关重要。本文基于4LZ-0.8型小型联合收割机,研究了脱粒滚筒转速、脱粒间隙、喂入量对脱粒分离性能的影响。在横轴流小型联合收割机的脱粒分离装置上进行室内试验,以脱净率、未脱净率、破碎率为性能指标,进行五水平正交试验。利用Matlab中的曲面响
本研究通过合成具有磁性和选择特异性的磁分子印迹纳米粒子(magnetic molecularly imprinted polymers nanoparticles,MMIPs NPs)并耦合表面等离子体共振(Surface Plasmon Resonance,SPR)传感器,实现了高灵敏检测牛奶中残留的诺氟沙星(Norfloxacin,NOR)。主要研究内容与结果如下:(1)利用化学共沉淀法合成了
本试验旨在研究黄曲霉毒素B1和T-2毒素联合使用对肉鸡生长性能、肠道健康、和免疫功能的影响,同时评价吸附剂TOXO XL的脱毒效果。选取1日龄健康AA肉鸡448羽,2×2双因子完全随机设计,随机分为4个组,每组8个重复,每重复14羽。试验期42d。试验结果如下:(1)添加霉菌毒素显著提高了肉鸡1~21日龄时的料重比(F/G)、21日龄血清谷丙转氨酶(ALT)活性以及42日龄肌胃指数、十二指肠指数(
为解决湖南稻作烟区由于不合理的耕作方式导致土壤物理化性质和生物学性质下降、耕作层变浅,导致土壤质量衰退的问题,开展粉垄深耕在烟稻轮作中的适宜耕作深度研究,探讨粉垄深耕不同深度对植烟土壤理化性状及烤烟产质量的影响,为探寻湖南稻作烟区更为适宜的耕作技术和耕作深度提供科学参考。本试验主要研究结果如下:(1)在土壤物理性状方面,粉垄深耕30cm和40cm处理较常规耕作在0-40cm土层能显著降低土壤容重(
为研究三丁酸甘油酯(TB)是否有缓解高棉菜粕饲料给草鱼幼鱼带来的生长、免疫及肠道健康的负面影响,本研究开展两个实验。实验一:设置基础日粮组(S1)、高棉菜粕日粮组(S2)以及在高棉菜粕日粮组中添加500(S3)、1000(S4)、1500 mg/kg TB(S5)共5个处理组,每个组设置3个重复,每个重复50尾草鱼(9.59±0.01)g,养殖实验于水库网箱(2×2×2m)中进行,持续10周,研究
南瓜属(Cucurbita Linn.)是一个大族群,原产于美洲,栽培历史悠久,为葫芦科南瓜属一年生蔓生草本作物。南瓜产量的高低及品质的优劣除了受品种特性的影响以外,还受到土壤、气候等外部条件的影响,其中肥料的影响最大,如何选择合适的施肥方式和氮、磷、钾比例,提高南瓜的产量和品质,同时减少肥料的施用量有着重要意义。本研究就如何实现最佳施肥方式以提高南瓜产量,以及不同氮磷钾适宜的施肥量进行了探讨,旨
黑熊俗称黑瞎子,身体粗壮,是食肉目熊科熊属的哺乳野生动物,黑熊的保护是野生动物保护工作的重要内容之一。本研究开展了黑熊的护养和繁育,保护了39头成年黑熊未出现伤亡,并繁育了5头黑熊幼仔,为黑熊的科学保护奠定了基础。本文重点研究了黑熊的笼舍设计及管理、饲养安全的操作规程、饲养人员管理规范;饲养管理过程中的营养配方优化、黑熊的日常行为研究;繁育规律研究;黑熊救护过程中的方式方法;疾病防控及临床病例研究
近些年来,为了提高城市绿量,改善生态环境,立交桥垂直绿化逐渐被人们所重视。长沙市一直在积极开展城市绿荫行动,特别是在立交桥的垂直绿化方面提出了提质改造的方针。本研究对长沙市立交桥垂直绿化现状进行了实地调研和分析,共调查了18座立交桥。通过利用调研收集的相关数据资料,对植物的种类和组成、植物应用与栽培模式、植物的观赏特性、生态服务功能、养护现状以及存在的问题进行了系统分析。另外,在归纳研究相关理论的
本文通过不同品种双季稻稻鱼、稻鳅、稻鸭模式对水稻产量因素、土壤养分及田间甲烷排放的影响研究,为稻田生态种养模式所产生的经济、社会、生态、环境效益提供科学依据。本研究采取双季稻种植制度,设置“单一种稻”(CK)、“稻田养鱼”(RF)、“稻田养泥鳅”(RL)、“稻田养鸭”(RD)共4个处理,每个处理3个重复,分两季进行大区试验,研究结果如下:1.早晚稻稻田甲烷排放通量各有两个峰。早稻田甲烷排放通量最高