论文部分内容阅读
增强学习(Reinforcement Learning)又称为强化学习或再励学习,是近年来机器学习和人工智能领域研究的热点之一。与监督学习不同,增强学习不需要给定输入状态下的期望输出,而强调在与环境的交互中进行学习,以极大化(或极小化)从环境获得的评价性反馈信号为学习目标,因此增强学习在求解无法获得教师信号的复杂优化与决策问题中具有广泛的应用前景。作为增强学习领域的一个重要研究方向,策略梯度(Policy gradient)方法克服了基于值函数(Value function)的增强学习算法不能保证收敛、难于引入先验知识等缺陷。但是另一方面,由于在梯度估计过程中方差过大,使得策略梯度算法收敛速度很慢,成为策略梯度增强学习被广泛应用的一个障碍。为此,本文在国家自然科学基金重点项目“未知环境中移动机器人导航控制的理论与方法研究(60234030)”的资助下,重点研究策略梯度增强学习理论、算法及其在月球车运动控制中的应用。在分析了策略梯度增强学习理论框架的基础上,主要研究了两类提高策略梯度学习算法收敛性能的方法,即:回报基线方法和引入先验知识的方法。其中,回报基线方法能够有效地降低策略梯度增强学习的梯度估计方差;而通过引入先验知识不仅可以提高策略梯度增强学习算法的收敛速度,还能克服在学习初期因为初始化策略的随机性而带来的缺陷。文中针对月球车运功控制中的多轮协调问题,提出了一种基于混合策略梯度增强学习的自适应控制方法。本文的创新点和研究成果主要包括:1、在策略梯度增强学习理论框架的研究中,证明了现有策略梯度增强学习算法的梯度估计公式都符合统一的形式。并且在上述理论框架的指导下,对现有的策略梯度算法进行了推广。2、针对部分可观测马氏决策过程(POMDP),研究了策略梯度增强学习中的回报基线方法。提出了一种求解最优回报基线的方法,使得策略梯度估计的方差减小到最小。文中对最优回报基线的性质进行了理论证明,并且提出了一种新的求解POMDP的策略梯度学习算法-Istate-Grbp,该算法通过利用回报基线,减小了梯度估计的方差。仿真实验结果表明,通过减小方差,算法能够有效地提高收敛速度。3、研究了利用模糊推理系统引入先验知识的策略梯度增强学习算法。本文分别针对具有离散行为空间和连续行为空间的马氏决策问题,提出了两种模糊策略梯度增强学习方法(Fuzzy Policy Gradient: FPG)。因为在模糊规则的制定过程中,难以确定的往往是后件参数,因此在本文提出的两种模糊策略梯度算法中,都是利用策略梯度方法调整模糊规则的后件参数。文中证明了这两种模糊策略梯度算法的收敛性,仿真实验表明了算法的有效性。4、提出了利用支持向量机(Support Vector Machine: SVM)引入先验知识的混合策略梯度增强学习方法PG-SVM。PG-SVM算法在策略梯度增强学习的框架下利用SVM来进行初始策略的学习和逼近,从而可以通过训练样本数据来自动引入先验知识。与已有方法相比,PG-SVM算法具有以下几个优点:(1)只要是能够提供样本点的先验知识,就可以很容易地结合到算法中来;(2)在线的策略梯度增强学习算法可以克服学习过程中的各种不确定性;(3)策略函数的结构可以通过SVM算法来确定,因而是数据驱动的,而不是预先定义的。5、针对月球车运动控制中的多轮协调问题,提出了一种基于混合策略梯度增强学习的自适应控制方法。由于月球车本身结构的复杂性,基于模型的经典控制将会有很大的困难,并且经典控制还需要在线估计地形的各种参数。针对这种导师信号难以获取、模糊规则难以制定的复杂优化控制问题,本文提出了一种基于混合式策略梯度增强学习PG-SVM的多轮协调控制方法。对于这种具有高维连续状态和行为空间的复杂问题,以往的增强学习算法不仅特别耗时,并且还需要利用仿真环境。这不仅需要月球车的动力学模型,还需要对月球车的行驶环境进行模拟。而本文提出的PG-SVM增强学习控制方法通过利用基于训练数据的先验知识,极大地缩短了学习时间,并且保证了在学习过程中的在线性能。这使得学习过程可以完全在实车上进行,不需要任何的仿真环境,这对推动增强学习的实用化进程具有重要的意义。最后得到控制器的控制效果是令人满意的。本文的最后一章对今后进一步的研究方向进行了分析和展望。