【摘 要】
:
过氧化物酶体增殖物激活受体γ(PPARγ)是参与调控糖类和脂质代谢等重要生理功能的一类核受体蛋白。化学品分子异常结合或激活PPARγ则可能扰乱相关生理功能,是引发宏观有害健康效应的“分子起始事件”。发展能预测化学品活性类别或连续值的计算毒理学模型,有助于高效、低成本地填补化学品PPARγ活性数据的空缺,支持化学品的危害性管理。本研究构建了化学品PPARγ活性数据库;采用机器学习算法,建立了定量构效
论文部分内容阅读
过氧化物酶体增殖物激活受体γ(PPARγ)是参与调控糖类和脂质代谢等重要生理功能的一类核受体蛋白。化学品分子异常结合或激活PPARγ则可能扰乱相关生理功能,是引发宏观有害健康效应的“分子起始事件”。发展能预测化学品活性类别或连续值的计算毒理学模型,有助于高效、低成本地填补化学品PPARγ活性数据的空缺,支持化学品的危害性管理。本研究构建了化学品PPARγ活性数据库;采用机器学习算法,建立了定量构效关系(QSAR)模型,分析了数据集化学品的结构-活性地貌(SAL);创建了模型应用域的表征方法,主要内容和结果如下:(1)构建了化学品PPARγ活性类别数据库,建立了化学品PPARγ活性筛查模型,创建了模型应用域表征方法。基于Ch EMBL数据库及环境、健康和毒理学领域的文献,构建了以PPARγ激动剂活性类别为终点的、有别于美国Tox21/Tox Cast来源的训练集,覆盖1767种化学品(活性:1363种,无活性:404种),以Tox21数据作为外部验证集。采取Mordred描述符、拓展连接性指纹(ECFP)以及分子存取系统(MACCS)指纹,利用随机森林(RF)算法构建了筛查模型(分类模型)。基于Mordred描述符的RF模型交叉验证正确率达0.91,高于现有基于Tox21/Tox Cast数据的分类模型。发现了以往基于描述符空间的应用域表征方法的无效性,创建了基于分子指纹(FP)相似系数阈值(Scutoff),以及与待预测化学品结构相似的训练集化学品的最低数目(Nmin)的应用域表征方法(记作ADFP{Scutoff,Nmin}),能够有效识别出模型可正确分类的化学品。(2)构建了化学品PPARγ活性连续值的数据集及定量预测模型。通过分析PPARγ活性终点数据的内在关系,整理了以PPARγ结合能力为终点的训练集TS-1[抑制常数/解离常数负对数(p Ki,p Kd),419种化学品]和TS-2[半数抑制浓度负对数(p IC50),1316种],以及相应的外部验证集。采取Mordred描述符、ECFP和MACCS指纹,利用岭回归、最小绝对收缩和选择算符(LASSO)回归、偏最小二乘回归、RF和支持向量机(SVM)等算法以及基于LASSO或RF模型的描述符筛选策略,构建化学品PPARγ活性数值的定量预测模型(回归模型)。基于LASSO筛选的4096(8192)位ECFP10描述符与SVM组合,在TS-1(TS-2)的交叉验证预测决定系数达到0.80(0.81),优于多数已有模型,且训练集涵盖化学品数目为已有模型的3~10(6~73)倍。发现相比基于描述符空间的应用域表征方法,ADFP{Scutoff,Nmin}能够有效识别出模型预测误差较低的化学品。(3)定量地解释了模型对化学品活性预测误差,并提升模型应用域识别低预测误差化学品的能力。引入了药物化学领域的“类网络相似性图(NSG)”思路,可视化表征了QSAR训练集化学品的SAL。创建了基于相似权重函数(w)的局域不连续性(LDw)和具有方向性的LDw(LDw(±))指标,用于定量表征数据集化学品的局域SAL特性。发现LDw(±)与回归模型和分类模型的预测误差之间具有强而显著的线性关系(Pearson相关系数r>0.8,p<0.001),深化了数据集化学品SAL特性与QSAR模型预测准确性内在机理性认识。基于LDw构造了局域SAL相似密度(ρs)和“崎岖性”(V)两项应用域指标,并揭示出应用域ADFP{Scutoff,Nmin}的Nmin是ρs,LB的一种特例。基于ρs的下限(ρs,LB)和V的上限(VUB),发展了新应用域表征方法ADFP{w,ρs,LB,VUB},该应用域相比ADFP{Scutoff,Nmin},进一步提升了识别模型预测误差低的化学品的能力(平均绝对误差从0.46降低至0.27)。综上,本研究构建了化学品PPARγ激动剂活性和结合能力为终点的数据库,为发展化学品PPARγ活性的计算毒理学模型奠定了数据基础;采用机器学习算法,发展了化学品PPARγ活性的筛查和定量预测模型;基于分子结构相似性网络分析和SAL分析,揭示了SAL局域不连续性与QSAR模型预测误差之间的相关关系;创建了面向基于高维分子描述符或分子指纹、采用非线性机器学习算法所建QSAR模型的应用域表征方法。
其他文献
2021年,习近平总书记明确指出,“促进基本公共服务均等化”是实现共同富裕的路径之一。这表明在新的发展背景下,推动基本公共服务均等化将成为实现“共同富裕”的必经之路。人民的健康状况是国家富强与民族富裕的重要标志。基本医疗服务作为基本公共服务体系的构成部分之一,其均等化发展对于保障人民健康水平、实现共同富裕具有重要意义。数字化赋能已经成为新一轮科技革命的普遍特征,充分发挥数字经济在实现基本医疗服务均
微生物驱动着重要的生物地化循环,与自然环境中的多种污染物的转化与去除都存在密切的关系。自然界中微生物以群落形式存在,因此研究受污染环境中的微生物群落结构及其转化相应污染物的功能类群十分重要,它不仅能够让我们了解哪些微生物与功能基因参与到了污染物的转化过程中,还能了解污染物的最终归趋,为污染治理提供理论基础。组学技术和高通量测序等技术的不断发展为从群落水平上深入研究微生物的群落结构、功能及相互作用关
目的:探索县域医共体对乡镇卫生院医疗服务能力提升的作用背景,在此基础上归纳分析乡镇卫生院医疗服务能力提升的现实问题,为乡镇卫生院医疗服务能力提升锚定问题现状。方法:从动态能力理论视角,结合课题调研和文献综述,回顾分析我国乡镇卫生院发展所处的社会背景及长期发展过程中的问题归纳总结。结果:乡镇卫生院的医疗服务能力提升处于社会综合系统环境下,呈现动态的、多变的能力发展趋势,符合动态能力理论及其逻辑。结论
随着干散货航运市场的发展,作为全球干散货供应链重要节点的干散货港口作业日益繁忙,其吞吐量持续处于高位。干散货港口装卸设备具有大型化和复杂化的特点,其故障将造成港口作业的停滞,进而影响干散货供应链的稳定运行。为降低干散货港口装卸设备故障对港口运营的影响,本研究对干散货港区装船作业系统设备故障特征进行数据挖掘,提出“设备级-流程级-系统级”运维优化模型及求解方法,构建干散货港区装船作业系统运维与调度协
随着海上可再生能源的开发与利用,单桩固定式风机与点吸收式波能转换装置等海洋结构物得到了广泛的应用。一般而言,这些结构物的水平尺度与特征波长相比相对较小,且在恶劣的海洋环境与结构大幅运动等条件下容易引起各种非线性效应,传统的基于小波陡和小振幅运动假设的设计理论(如一阶、二阶绕辐射理论)已无法准确描述这些结构的非线性水动力与运动响应。因此,本文基于势流理论,并引入散射波分离技术与弱散射假定,建立了一个
种子使植物能够在恶劣的环境条件下生存,将遗传信息从亲代传递给下一代。种子活力是农业中的一个重要性状,直接影响田间出苗率和作物产量。然而,由于种子老化,种子活力在贮藏过程中下降。为了有效地保护基因资源,减少由于种子老化给农业生产带来的巨大经济损失,有必要探究种子老化的机制,以便了解种子老化的起因以及老化过程中发生的一系列重要事件。在种子贮藏过程中,高温高湿是加速种子老化的两个主要因素。活性氧(ROS
人类探测到的首个引力波事件GW150914开启了引力波宇宙学时代。致密双星并合产生的引力波信号中含有波源的距离信息,因此引力波源可以作为“标准汽笛”,用于研究宇宙的膨胀历史。为实现这一目标,现有的观测事例远远不够。在本文中,我们着眼于以Einstein Telescope和Cosmic Explorer为代表的第三代引力波探测器,利用模拟的方法,预测未来引力波标准汽笛数据在宇宙学中的应用前景。本文
于2019~2020年6~7月在雅砻江下游锦屏大河湾里庄江段开展鱼类早期资源调查。结果表明,调查期间共采集鱼类卵苗19种,其中产漂流性卵鱼类7种,5种为长江上游特有鱼类。产漂流性卵鱼类2019年和2020年产卵规模分别为103.07×10~4粒和388.58×10~4粒,主要产卵场自上而下分布在烟袋、南河-青纳和里庄等3个江段。与历史数据相比,锦屏大河湾产漂流性卵鱼类种类组成变化不大,均以中华金沙
浮式天然气液化装置(FLNG)和天然气运输船(LNGC)在进行旁靠作业时,两艘作业船之间会形成一道狭长的缝隙。当入射波浪的频率接近缝隙内振动流体的固有频率时,缝隙内流体会发生剧烈的大幅共振运动,该现象称为窄缝共振。类似的局部限制空间内流体大幅共振现象,还可能发生于海洋平台的月池内部,即月池共振。窄缝/月池内流体的大幅共振运动,会严重危害海洋工程的结构稳定性和作业安全。基于上述工程背景,本文针对浮体
伴随经济及互联网的快速发展,电子产品更新换代速度加快,电子废弃物产量迅速增长。电子废弃物回收难成为了全球性难题。电子废弃物由于含有金、银和钯等贵金属,非正规回收处理导致的环境污染以及存储造成的资源浪费现象日益严重。传统的正规电子废弃物回收难以满足各方要求。随着互联网的广泛应用,涌现出一系列电子废弃物“互联网+回收”平台,由于其具有价格透明以及降低信息不对称等优势,逐渐成为了主流的电子废弃物回收模式