论文部分内容阅读
作为一类特殊的随机过程,Markov过程在实际生活中有着广阔的应用领域。Markov决策过程(MDP)和半Markov决策过程(SMDP)都是描述这类随机系统常见的数学模型。其中,SMDP是一类比MDP更广泛的系统,过程在每个状态的逗留时间是一个服从一般分布的随机变量。不同准则下的MDP和SMDP性能优化,则是该领域的一个研究热点。 Markov性能势理论的提出,为MDP的优化提供了一种新的理论框架和途径。根据基于性能势的Bellman最优性方程以及最优性定理,可以发展求解MDP最优策略的策略迭代、数值迭代等算法。近年来,强化学习也越来越多的应用到该类问题的求解中。它是人工智能的一个重要的研究方向,综合了随机逼近、函数逼近以及动态规划的相关理念。对于大规模MDP和SMDP,它能够很好地逼近问题的一个最优或次优解,可以克服传统动态规划方法存在的一些缺点。 由性能势理论与强化学习之间的联系,本文将研究SMDP基于性能势仿真逼近的性能优化算法。首先,根据等价无穷小生成子的定义,把SMDP转化为一个等价一致化Markov链。从而,可以将MDP的理论成果推广到SMDP的性能优化中。其次,由性能势Poisson方程以及样本轨道定义出发,可以建立折扣和平均准则下性能势基于强化学习方法的统一逼近公式。进而,结合一种能够有效的解决大规模离散事件动态系统问题的先进优化方法,即神经元动态规划(NDP),讨论了两种准则SMDP基于性能势统一的critic模式下NDP优化算法。同时,由Q学习不依赖模型信息的特点,研究了两种准则下SMDP基于Q学习的统一优化算法。利用Q函数与性能势的相关成果,获得了两种准则下Q函数的统一Bellman最优性方程以及统一的学习公式。另外,讨论了紧致行动集空间上,平均准则多链SMDP基于性能势理论的性能优化问题。在一定的假设条件下,给出了多链SMDP基于性能势的策略迭代算法。 文章还通过相应的SMDP数值例子,给出了相关优化算法的实验结果。