基于增广拉格朗日函数法的安全深度强化学习算法研究及其应用

来源 :西南大学 | 被引量 : 1次 | 上传用户:chrron
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习作为机器学习的范式和方法论之一,在许多领域取得了成功,其目标是生成最大化期望累计收益的策略.然而,在安全攸关的领域,生成的策略除了实现最大化收益的最优性目标,还需要保证其满足安全性.关于这一类问题的研究称为安全深度强化学习,其常用的一种框架是将安全性要求表示为约束条件的约束马尔可夫决策过程,可借助传统的约束优化方法来求解.然而,现有的基于约束优化的安全深度强化学习算法存在计算成本高,拉格朗日乘子学习率难以选择,容易收敛到不安全的鞍点以及初始值需在安全域内等不足.传统的约束优化方法中有一类方法克服了上述缺点——增广拉格朗日函数法.因此,本文针对绝对安全和相对安全两种场景,构建了等式约束和不等式约束,基于增广拉格朗日函数法设计实现了两类新型安全深度强化学习算法,并将其应用到工业油泵控制案例中.此外,为了进一步生成更安全的策略,本文对稀疏损耗进行了研究.概括来讲,本文主要研究内容,成果和创新点如下:(1)基于等式约束型增广拉格朗日函数法的安全强化学习算法研究.针对安全攸关领域极其严格安全性要求,本文将其建模为约束为等式0的约束马尔科夫决策过程.为了求解该模型,本文结合等式约束型增广拉格朗日函数法和深度强化学习算法DDPG,设计实现了新型等式约束型安全深度强化学习算法——DDPG-ALM算法.在通用平台(Safety Gym仿真环境)上的实验表明,所提DDPG-ALM算法在最优性上获得较好的收益,在安全性上超越了现有的安全深度强化学习基准算法.(2)基于不等式约束型增广拉格朗日函数法的安全强化学习算法研究.针对安全要求较为宽松的领域,安全约束要求为低于某个阈值,本文将其建模为约束为不等式的约束马尔科夫决策过程.为了求解该模型,本文结合不等式约束型增广拉格朗日函数法和深度强化学习算法PPO,提出了新型安全深度强化学习算法——PPO-ALM算法.在Safety Gym仿真环境对比实验表明,相比于现有基准算法,PPO-ALM算法能够满足不同的安全约束,更好地保证安全性,更好地平衡最优性和安全性.(3)稀疏损耗研究.本文在通用平台实验DDPG-ALM算法及其他基准算法时,遭遇了稀疏损耗.本文分析,稀疏损耗导致状态-动作损耗网络对状态-动作损耗函数逼近的误差大,进而导致无法生成绝对安全的策略.为了更好地逼近状态-动作损耗函数,生成更安全的策略,本文首先基于收益重塑和状态聚集提出了状态重塑的概念,减少了状态-动作损耗函数的解空间,使其更加容易逼近;其次,基于双缓存池和优先经验回放提出了安全优先经验回放,增加了采样安全相关经验的概率,使状态-动作损耗网络逼近得更好.在Safety Gym仿真环境的对比实验表明,状态重塑极大改善了生成策略的安全性和最优性;安全优先经验回放在损失少量收益的前提下,进一步提高了生成策略的安全性.(4)工业油泵案例的应用研究.首先,本文对工业油泵案例进行了深入研究,建立了该案例的约束马尔可夫决策过程模型,搭建了油泵仿真环境;随后,通过精心设计输出层结构和激活函数,构建了神经网络形式的油泵控制器,使得油泵开关时间的线性不等式约束得到满足;最后,在油泵仿真环境使用提出的DDPG-ALM算法以生成安全最优控制器.对比实验表明,DDPG-ALM算法生成的控制器在安全性和最优性上均超越了现有同类基准算法,在最优性方面接近于理论最优控制器.本文研究成果对于传统约束优化方法与安全强化学习相结合具有重要借鉴意义,所提方法有望推广至更多的安全智能控制应用场景.
其他文献
随着委托代理问题的产生,股权激励因此应运而生,用于减缓日益加剧的委托代理矛盾。2005年,在国家政策的支持下,越来越多上市公司实施股权激励,从而降低代理成本,完善公司治理,提升竞争力。但是,由于股权激励在我国起步相对较晚,而且其相关法规也在不断完善中,相当一部分上市公司的股权激励计划未能实现预期效果,所有我国上市公司股权激励在实践层面上仍然存在值得研究的问题,因此本文主要以我国当前的宏观环境,对广
学位
目的:通过采集冠心病稳定型心绞痛患者的病例资料,评估冠心病患者衰弱水平,进行临床指标相关性及影响因素分析,探究不同衰弱程度下中医证型分布规律,为冠心病患者合并衰弱状态提供早期中西医结合识别、诊断、治疗和提前干预的参考依据。资料与方法:采用横断面调查法,依据纳排标准及剔除标准,收集2020年10月至2021年12月就诊于辽宁中医药大学附属医院心内一、二科病房患者,既往病史明确或行冠状动脉造影检查,证
学位
红麻(Hibiscus cannabinus L.)属于锦葵科木槿属一年生草本韧皮纤维作物。土壤盐渍化是一种存在于全球范围内的生态环境问题,严重影响植物种子萌发、生长发育的各个阶段。NAC转录因子是植物中特有的一类转录因子,在植物生长发育及抗逆性中起重要作用。木质素和纤维素是植物次生细胞壁的重要组成部分,木质素合成主要受NAC调控网络控制。本研究以红麻耐盐品种福红18号和盐敏感品种赞引1号为实验材
学位
随着城市化的快速发展,我国农村空间结构也面临着空心化、破败化等一系列问题。党的十九大报告中提出实行乡村振兴战略,以促进中国农村的空间结构的发展转型与重构。乡村振兴的关键在于乡村人才的振兴。近年来,随着国家乡村振兴战略的推行,人才返乡入乡逐渐增多。人才返乡入乡不仅可以为乡村地区带来资本集聚,为乡村产业的发展提供坚实基础,还能通过自身的社会关系网络,加强村庄与外界的联系,吸引劳动力与技术,为乡村的发展
学位
随着我国城市化进程的不断加快,城市密度朝着越来越高的方向发展。在城市高密度的条件下,小学建设用地条件愈发紧张,室外活动场所作为小学生身心发展需要的重要空间,设计条件被进一步压缩,其设计方法需要总结。深圳作为我国当代发展的代表城市,城市密度逐年升高,小学的室外活动场所设计面临的问题具有代表性,也初步涌现出了针对问题应对的具体实践项目。文章希望通过对深圳城市高密度下小学的调查研究和案例分析,总结提炼设
学位
当前世界处于百年未有之大变局,全球性WTO多边贸易谈判陷入僵局、贸易摩擦日益频繁导致区域经济一体化快速发展。各经济体之间的相互合作和一体化程度大大提高,越来越多的国家通过签订自由贸易协定来扩大区域内的经济合作,以实现经济发展、就业改善以及贸易增长的目的。中韩两国隔海相望,是亚洲经济的重要引擎。自2015年12月20日起,《中韩自由贸易协定》正式生效,推动了中韩贸易自由化、便利化的发展,促进了两国产
学位
随着雷达探测技术的发展,车载防撞雷达已经逐渐进入了大众视野,成为了高级辅助驾驶领域中不可或缺的一环,尤其是在车辆数量愈发增多的现在。车载防撞雷达通过对回波数据进行处理分析为驾驶人员提供预警,通过辅助驾驶人员来提升车辆的行驶安全。24GHz与77GHz是车载防撞雷达的两个主要频段,但24GHz雷达存在体积大并且探测距离与精度不及77GHz雷达的问题,所以车载防撞雷达正在由24GHz逐步向77GHz过
学位
云计算时代,越来越多的政府机构、企业及个人用户开始通过购买互联网云产品或云服务的方式来满足自身IT业务需求。如何提高天翼云产品及云服务客户满意度,增加与用户之间的粘性,是春城电信分公司在“云改数转”战略转型期非常重要的客户关系管理内容。但春城电信运营的天翼云系列产品并未在当前的通信市场占有较大份额,随着强有力的竞争对手在短期内将强势入驻本地,同品类的产品相互抢夺市场,春城电信天翼云产品市场占有率势
学位
在扫黑除恶专项斗争常态化的背景下,催收非法债务罪作为扫黑除恶专项斗争的产物应运而生。非法催债的上游与下游行为都有可能涉及违法犯罪,具有严重的社会危害性。本文将从催收非法债务罪的立法背景与司法认定中存在的困境入手,结合对本罪犯罪构成的理解提出非法催债行为规制的立法完善与司法建议。首先,对催收非法债务罪的立法背景进行梳理。主要是根据非法催债相关的司法解释进行分析,司法解释中对非法催债行为的认定罪名多样
学位
现在人们对于海洋资源的开发主要集中于浅海深度,伴随着生物学家对一类具有特殊水下感知鱼类的相关研究,结合电场探测类传感器技术的发展,基于水下主动电场的探测技术逐渐走入科学家和工程师的视野。除了对弱电鱼类使用主动电场进行探测的理论原理相关研究,也有研究者开始将水下主动电场探测定位技术进行实际应用。本文研究的重点是通过合成一个模拟弱电鱼发射的激励信号频谱的多频信号对物体进行探测,分析物体特性与所生成的多
学位