论文部分内容阅读
Q学习等强化学习技术是解决一类离散事件动态系统优化问题的有效方法,已经广泛应用到各类实际问题的研究中,特别是可拓展到可用半Markov决策过程(SMDP)建模的系统优化中。本文运用采样技术,将这类方法引入到一阶连续时间非线性随机系统,以解决其最优控制问题。
论文针对一阶连续时间非线性随机系统的特点,通过勒贝格采样方法,将其优化控制问题建模为半Markov决策过程。首先基于事件驱动优化方法和Q学习技术,给出了一阶连续时间非线性随机系统在折扣和平均优化准则下统一的优化算法。其次,论文在性能势理论框架下,引入一种在线策略迭代方法,以解决该类系统的最优控制问题。该方法利用样本轨道仿真技术,并基于历史访问信息进行性能势学习,通过适当探索技术实现状态-行动对,即Q因子的学习。另外,还基于历史访问信息,建立了一种随机有向探索机制,提高了探索的效率和安全性。
最后,我们通过一阶连续时间非线性随机系统例子,针对两种不同代价函数定义,分别采用Q学习和在线策略迭代方法,给出了相关优化结果。实验数据显示,针对这类一阶连续时间非线性随机系统的优化控制,在线策略迭代方法要优于Q学习,且优化过程相对平稳。本文研究结果也可直接应用于解决高阶随机系统的最优控制问题。