论文部分内容阅读
两轮机器人自平衡控制的难点在于提高机器人达到平衡的快速性和稳定性的能力。为解决传统强化学习算法收敛速度慢,系统易发散的问题,提出一种分层强化学习算法。将目标任务分解为若干个子任务,为每个子任务寻找最优策略,当所有的子目标都收敛到最优值时,目标任务也收敛到最优。在上述算法中,报酬函数可以从启发式的环境中学习,加快对未知环境的探索,快速达到自平衡并保持稳定。对两轮机器人进行自平衡仿真实验。仿真结果表明,相对于传统的强化学习算法,应用改进算法的两轮机器人的各控制状态的收敛特性及机器人的学习性能更强,有效的提高了