折扣和平均准则下SMDP基于性能势的统一强化学习算法

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:UsherChen2431
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一类特殊的随机过程,Markov过程在实际生活中有着广阔的应用领域。Markov决策过程(MDP)和半Markov决策过程(SMDP)都是描述这类随机系统常见的数学模型。其中,SMDP是一类比MDP更广泛的系统,过程在每个状态的逗留时间是一个服从一般分布的随机变量。不同准则下的MDP和SMDP性能优化,则是该领域的一个研究热点。 Markov性能势理论的提出,为MDP的优化提供了一种新的理论框架和途径。根据基于性能势的Bellman最优性方程以及最优性定理,可以发展求解MDP最优策略的策略迭代、数值迭代等算法。近年来,强化学习也越来越多的应用到该类问题的求解中。它是人工智能的一个重要的研究方向,综合了随机逼近、函数逼近以及动态规划的相关理念。对于大规模MDP和SMDP,它能够很好地逼近问题的一个最优或次优解,可以克服传统动态规划方法存在的一些缺点。 由性能势理论与强化学习之间的联系,本文将研究SMDP基于性能势仿真逼近的性能优化算法。首先,根据等价无穷小生成子的定义,把SMDP转化为一个等价一致化Markov链。从而,可以将MDP的理论成果推广到SMDP的性能优化中。其次,由性能势Poisson方程以及样本轨道定义出发,可以建立折扣和平均准则下性能势基于强化学习方法的统一逼近公式。进而,结合一种能够有效的解决大规模离散事件动态系统问题的先进优化方法,即神经元动态规划(NDP),讨论了两种准则SMDP基于性能势统一的critic模式下NDP优化算法。同时,由Q学习不依赖模型信息的特点,研究了两种准则下SMDP基于Q学习的统一优化算法。利用Q函数与性能势的相关成果,获得了两种准则下Q函数的统一Bellman最优性方程以及统一的学习公式。另外,讨论了紧致行动集空间上,平均准则多链SMDP基于性能势理论的性能优化问题。在一定的假设条件下,给出了多链SMDP基于性能势的策略迭代算法。 文章还通过相应的SMDP数值例子,给出了相关优化算法的实验结果。
其他文献
现如今各行各业的数据每天都在快速增加,学术界和企业发现这些数据中隐藏着巨大的价值。在这种需求下各种数据分析框架和平台发展起来,其中Hadoop是目前最流行的开源平台,该平台
数字图书作为一种新型的电子媒体在我们的日常学习和生活中发挥着越来越重要的作用,从近几年的发展来看,其应用是比较成功的,不少公司均推出了各自的数字图书产品面向市场,服务于
数字签名技术在身份识别和认证、数据完整性、抗抵赖等方面具有其它技术所无法替代的作用,它在军事、电子商务和电子政务等领域有着极广泛的应用。论文在前人工作的基础上,着重
机械驱动传动装置作为一个测试机械振动和机械驱动特性的设备,主要用于测试专业机械设备的振动特性和各个力学参数。一般情况下,振动对机械部件是有害的。机械振动往往会破坏机械部件正常工作和原有性能,也会在运动中形成动载荷,加速机械部件失效,缩短使用寿命,甚至导致不可逆的损坏。为提高机械部件的可靠性,有必要对机械部件进行机械结构振动分析和测试,也有必要获得机械部件的力学模型参数,如弯曲刚度,支撑刚度,扭转刚
电子商务已经成为企业经营活动的重要组成部分,企业电子商务系统的综合性能直接体现着企业的服务水平和竞争力。电子商务性能测评是衡量电子商务平台整体水平的主要途径,目前,设
组播作为一种高效网络数据传送技术,已经在各种宽带应用领域得到广泛应用。目前,组播主干网的核心路由器速率已经达到2.5Gbps~10Gbps,这一速率要求核心路由器每秒能够转发几百万
学位
随着语音识别技术的不断发展,语种识别作为语音识别的一个方面和它具有的重要意义,也越来越受到人们的广泛重视。语种识别就是用计算机来自动识别一段发音所属语种的一项技术,它
如何持久化对象是面向对象分析和设计中都需要解决的问题。由于面向对象数据库还不成熟,对象/关系数据库虽然有所发展,但是出于应用传统以及方便与遗留系统的集成的因素,关系
作为一种新型的松散耦合的分布式计算模型,Web服务提供了应用软件之间独立于操作平台和编程语言的互操作。但是,Web服务也带来了新的安全风险:XML应用程序层的新威胁、关键应