论文部分内容阅读
随着传统的连续控制技术的发展,包括PID(Proportional Integral Derivative)控制,以及 SLAM(Simultaneous Localization and Mapping)技术,使得机器人连续控制类任务在简单条件下能够达到很高的控制精度,比如多关节手臂推物体任务,多关节手指抓取固定大小物体任务。然而,传统的控制方法参数较多,需要做大量的手工试验,而且对于复杂环境性能较差。强化学习作为一种利用环境反馈来学习一个策略去完成特定任务的机器学习方法,能够很好的解决传统控制方法的上述问题,但由于强化学习对环境给予的数据的利用率并不高,训练时间较长,因此,提出一种能够提升现有强化学习算法的数据利用率的方法,具有重要的意义。在强化学习中,对于连续动作空间的控制类任务,一般使用动作空间无界的高斯策略表示agent的策略,即用一个高斯分布去表示agent对环境的当前状态所选择的动作的概率。然后接受环境给予的反馈,采用策略梯度类,例如Reinforce算法,TRPO(Trust Region Policy Optimization)算法,PPO(Proximal Policy Optimization)算法等估计策略梯度样本从而更新策略。然而,使用动作空间无界的高斯策略来表示现实中有界动作空间的agent策略将会带来边界效应,使得估计策略梯度样本的偏差较大,并且,为了鼓励agent去探索当前状态下并未尝试过的动作,动作策略的高斯分布的方差需要维持在一个范围内,这将使得采样点较为分散,使得估计的策略梯度的样本方差较大,训练收敛速度较慢。本文提出了一种动作空间有界的策略,称为逻辑高斯策略,并在理论上证明了它对比原有的高斯策略,既能消除原有的边界效应,又能够降低采样过程策略梯度样本间的方差。实验结果表明,使用有界的逻辑高斯策略表示agent策略,在不论简单和复杂的连续控制类型任务,都能够有效提升策略梯度类算法例如TRPO算法和PPO算法的性能,加快训练时的收敛速度。