论文部分内容阅读
研究了行动-自适应评价强化学习方法,考虑到行动器所采取的探索策略对学习性能的影响,利用混合探索策略进行探索;分析学习和规划的特点,在评价器中应用集成模型学习和无模型学习的学习方法,在行动器应用新的混合探索策略,提出一种集成规划的行动-自适应评价强化学习算法并进行仿真实验,实验结果表明,新算法有较好的学习效果.