求解受约束的马尔可夫决策过程——基于增广拉格朗日的原始对偶算法

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:wrxingmail
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在经济管理活动中,我们常常遇到一些较为复杂的随机序贯决策问题。当随机序贯决策问题不含有约束条件时,通常可以利用马尔可夫决策过程(MDP)对其进行建模描述。然而在很多实际问题中,决策者不仅需要最优化目标函数,还需要满足其他一些性能指标的约束,因此单一性能指标的优化已经不足以描述这类含约束的随机序贯决策问题。对于含约束的随机序贯决策而言,通常可以将其建模成受约束的马尔可夫决策过程(CMDP)。本文以受约束的马尔可夫决策过程为研究对象,基于增广拉格朗日函数,提出了一种新的原始对偶算法来求解CMDP。算法的两个核心步骤分别是策略迭代以及更新拉格朗日乘子。在进行策略迭代时,算法首先对增广拉格朗日项进行一阶泰勒展开,将其线性化,并利用KL散度作为正则项,结合贝尔曼正则化算子来求解下一步的策略。根据KL散度的定义,本文求解出策略迭代时?(a|s)的显式表达式。在更新完策略后,再利用投影梯度上升迭代拉格朗日乘子。由于策略迭代需要知道对应状态下每个动作的Q值,因此文章中利用蒙特卡洛方法采样的方法来估算Q函数值。另外,在建立该原始对偶算法后,本文又对算法进行了收敛分析,最终发现当步长为常数步长时,算法可以取得(())Olog T T的收敛速率;当步长为递减步长时,可以取得O(1 T)的收敛速率。除此之外,本文还研究了一类具有特殊性质的弱耦合的马尔可夫决策过程,由于弱耦合马尔可夫决策过程具有可分解的性质,所以当初始策略为可分解策略,并使用基于增广拉格朗日的原始对偶算法去迭代求解时,得到的策略将始终为可分解策略。因此在利用原始对偶算法迭代求解时,可以将其拆解成几个子问题进而分别进行策略迭代,这种可分解的性质可以减轻状态动作空间较大时CMDP遇到的“维数诅咒”问题。另外本文利用了多个数值实验来证明算法收敛分析的正确性,分别是单产品多周期的库存实验、多产品多周期的库存实验以及多顾客种类多服务器类型的排队系统规划实验,其中后两个实验正属于弱耦合的马尔可夫决策过程。在前两个实验中,由于状态动作空间有限且规模较小,因此可以直接利用蒙特卡洛模拟采样出所有状态动作空间对的Q值进行策略迭代;后一个问题尽管可以拆解成多个子问题,但是状态动作空间仍较大,因此不仅在动作空间上做了处理,将动作空间修改成优先规则,并且利用函数近似的方式来拟合不同动作下的Q函数来减轻遇到的“维数诅咒”。最终这几个实验的结果中可以发现相较于Yi等人(2021)中的原始对偶算法,本文提出的基于增广拉格朗日的原始对偶算法能够收敛到与之相近CMDP目标成本值,且算法不容易出现波动的情况,迭代过程更为平滑。这是由于更新拉格朗日乘子时,增广拉格朗日函数关于对偶乘子的梯度能缩小其变化范围,导致对偶乘子迭代波动相对更小,另外在做策略迭代时利用了状态动作对Q值的指数函数,所以更小波动的拉格朗日乘子也会导致策略迭代更为平滑。除此之外,基于增广拉格朗日的原始对偶算法含约束的二次项,因此算法在迭代过程中产生的大部分策略都能满足约束且可以更好地保证约束的满足。
其他文献
<正>笔者有幸跟随国医大师刘嘉湘教授侍诊,现将其辨治皮肤T细胞淋巴瘤难治性瘙痒病验案1则报道如下。何某,男,61岁。既往有左肺腺癌Ia期手术史(2015年11月)。2019年8月28日初诊:主诉:躯干反复皮疹伴瘙痒3年余,泛发全身1年半。2016年7月在无明显诱因下出现躯干部反复皮疹伴有瘙痒,西医口服及外涂药物效果均欠佳,皮疹范围、瘙痒程度逐渐加重,于2018年10月在外院行PET-CT、
期刊
纵隔肿瘤是指在纵隔内生长的肿瘤,属于罕见肿瘤,其真实患病率难以估计,但近些年随着肺癌筛查的进行,越来越多的纵隔肿瘤患者被发现。大多数纵隔肿瘤的形成病因不明确,形态性质各异、复杂多样,多数患者无典型症状,临床上无统一的诊疗指南,这些都对医生的诊断提出了挑战。临床上,医生需要在术前对肿块的性质进行准确的诊断,才能够评估手术风险、制定合适的治疗方案。而培养这样一个经验丰富的外科医生需要漫长的周期和大量的
学位
近年来,随着公众金融管理意识的逐步增强,加之金融市场行情火爆,我国基金业发展迅速。中国基金业协会数据显示,从2015年至2020年,我国基金总规模在数量、管理规模和份额规模方面均有显著性提升。随着基金业快速发展,基金收益预测和净值估计问题引起金融市场多方参与者的关注。基金投资者对估值不准的容忍度低,因其择时行为受短期波动影响,申购和赎回操作常参考估值结果;基金销售平台为提升用户体验和使用便捷性,致
学位
金融行业的资金融通能够给各行各业带来助推力,也能给个人带来便利。尤其是在互联网和金融结合的今天,金融服务的获取渠道得到了极大的拓展、资本的分配效率也得到了极大的提升。但是无论是在传统金融行业,还是在新兴的互联网金融领域,都时刻面临着风险。信贷,作为金融行业十分重要的组成部分,是各大金融机构主要的盈利方式。央行在2021年年底的货币政策报告中写到:要保持货币信贷总量稳定增长;2022年1月新增贷款3
学位
近年来,概率销售的应用日益增加,潮玩盲盒的热潮引起了人们对概率产品的关注。在其应用的早期,商家采取既单独出售每款产品,同时提供概率产品的模式。早期相关文献也提出了对该种模式的解释:可以实现价格歧视、市场细分的功能,同时又能更好地应对需求的不确定性。然而,在近期,概率销售有了新的营销模式——商家只供应概率产品,如实际中POPMART的盲盒、Dota2的宝箱等等。在新模式下,交易概率产品的二级市场应运
学位
为了在竞争日益激烈的汽车行业中提升品牌绩效,越来越多的汽车制造厂商通过融入新的技术或是修改车款设计来满足用户需求,从而来保持自身的竞争优势。因此,相比于耗时耗力的新品研发,车型改款已经成为一种市场上常见且流行的做法。每次的改款事件都会对汽车销量产生深远的影响,特别是大型的改款事件。如果企业无法预测改款的损益及事件的后续影响,就必须要承担一定的营销风险,甚至承担销量和名誉的损失。就通用汽车在中国全面
学位
线性规划是数学规划中最为基础也是最为重要的一个分支,在今天的世界里,线性规划已经成为了工业排产、资源调度、军事作战、动态定价乃至金融决策等行业的重要应用工具。随着现代计算机不断发展,如今线性规划问题需要决策的变量以及需要满足的约束数目已经上升至亿数量级,求解难度与日俱增。因此,如何高效、稳定、合理的求解线性规划问题成为了工业界重要的课题之一。其中,最为基础的就是使用商业求解器对这些数学规划问题求解
学位
区块链是一种分布式账本技术,存储在其中的交易记录具有防伪、不可篡改、可追溯等特性,最初是由比特币带来的。目前,以比特币为代表的区块链技术不断发展,整个加密资产市场总市值已达2万亿美元,其中智能合约平台、De Fi、NFT、DAO、Web3等技术不断涌现,相关的投融资事件不断增加。然而,目前世界范围内针对这一新兴市场暂无完善的监管体系,故而在加密资产市场中各类骗局层出不穷,投资者血本无归的报道屡见不
学位
关于网络数据的分析科学结合了图论、统计学、机器学习等各方面的知识,是数据挖掘等领域的重要研究方面。目前,学界对于各类复杂的社交网络模型都有了较为完善的研究,提出了许多科学有效的模型,譬如随机块模型(Stochastic Block Models,SBM)、度修正的随机块模型(Degree-Corrected Block Models,DCBM)。与此同时,众多学者基于某些网络结构的特点,提出了“社
学位
谷歌在2012年正式提出知识图谱这一概念之后,知识图谱迅速得到了各界的关注,在自然语言处理的多个应用场景中发挥了重要作用,包括智能搜索、问答系统以及资讯推荐等。为了满足不同领域应用的需要,相关人员通常会为各领域独立出垂直领域的知识图谱,这些图谱彼此之间相互独立。但随着信息技术的不断进步,垂直领域的知识图谱由于数据单一已经无法满足更深层次的研究需求,在知识的扩展上非常受限。因此,需要将多个知识图谱进
学位