论文部分内容阅读
强化学习是一类重要的机器学习方法,强化学习具有两个重要的特征:算法可以在不知道环境的全部模型时,求解模型未知的最优化问题;强化学习强调Agent与环境的在线交互,在交互过程中对数据进行累积学习,以达到在线求解最优策略的目的。因此,强化学习方法被越来越多地用于作业优化调度、在线学习控制、游戏等领域。针对于强化学习方法存在的“维数灾难”、收敛速度慢、收敛精度低等问题,本文以模型无关的贝叶斯强化学习为出发点,提出了几种模型无关的贝叶斯强化学习算法,主要研究概括为以下3个方面。(1)针对贝叶斯Q学习存在收敛速度慢且收敛精度低的问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法。该方法主要分为2部分:学习部分和规划部分。基于学习部分建立的模型,规划部分使用优先级扫描方法和动态规划方法对动作值函数进行规划更新。从理论上分析了算法的收敛性,并通过实验表明该方法能较好地平衡探索与利用,且具有较优的收敛速度及收敛精度。(2)针对状态空间中的有效样本选择问题,在高斯过程时间差分算法框架下,提出一种基于随机投影的高斯过程时间差分算法。利用哈希函数把状态集合中的元素映射成哈希值,根据哈希值分组,来减少状态之间的比较。实验结果表明该方法能够提高算法的执行速度,且在评估状态值函数精度和算法执行时间上有较好地平衡。(3)针对蒙特卡洛方法对梯度的估计易导致高方差,初始性能不够稳定的问题,提出一种基于状态依赖探索的贝叶斯策略梯度算法。将策略梯度模型化为一个高斯过程,利用贝叶斯积分方法来评估策略,在每一个状态下引入状态依赖探索函数,不仅可以克服因算法初始策略的随机性带来的不稳定,而且可以减小每个情节中估计的方差,使得算法具有更快的收敛速度和鲁棒性。