论文部分内容阅读
强化学习(RL:Reinforcement Learning),又称增强学习或再励学习,是一种重要的机器学习方法,是近几年来智能控制和人工智能领域的研究热点之一。在各种学习方法中,强化学习具有较强的在线自适应性和对复杂系统的自学能力,它在与环境的交互中,通过试探式的学习收敛到最优的控制策略,这种学习机制已经在非线性控制、人工智能复杂问题求解、机器人控制、优化与调度以及多agent系统中有成功应用。然而,由于各种系统的复杂性和不确定性的限制,强化学习的研究中还存在一些难以解决的问题。如何结合相关的知识表示和计算智能技术,设计合适的学习算法和控制结构,是实现强化学习方法广泛应用的关键。目前的强化学习研究主要都是针对小规模、离散的状态和动作空间,对于在大规模、连续的状态和动作空间下的学习控制还是亟待解决的难题。本文针对大规模、连续的状态和动作空间下的强化学习理论、算法及应用进行研究,因此具有重要的理论意义和应用价值。本文在收集了国内外相关的文献之后,对其进行充分的分析和综合。在此基础上,对强化学习算法及其在机器人系统中的应用进行了较深入的研究。主要研究工作如下:(1)基于递推最小二乘法的多步时序差分学习针对强化学习过程收敛速度缓慢的问题,提出了基于递推最小二乘法的多步时序差分学习(RLS-TD(λ))算法。证明了在满足一定条件下,该算法的权值将以概率1收敛到唯一解,并且得出和证明了值函数估计值的误差应满足的关系式。迷宫游戏的仿真实验表明:与传统强化学习算法相比,RLS-TD(λ)算法实现了在线、递推式的学习,具有计算量小的优点。(2)基于RBF神经网络的强化学习针对基本Actor-Critic学习泛化能力不强的问题,提出了一种基于RBF网络的强化学习算法。证明了该算法在满足一定条件下将以概率1收敛到某矩阵方程的唯一解。该算法通过Actor和Criric共享RBF网络,根据任务复杂度和学习进度进行实时的在线学习。基于该算法,设计了一种具有强化学习机制的自适应PID(AC-PID)控制器设计方法,该方法可以解决传统PID(T-PID)控制器不易在线实时整定参数的不足。仿真实验表明,该算法具有更好的学习泛化能力。(3)基于探索度的改进型模糊Sarsa学习针对强化学习中探索和利用之间难以平衡的问题,在已有的模糊Sarsa学习(FSL)算法基础上,首次提出了一种基于探索度的改进型模糊Sarsa学习(IFSL)算法,证明了IFSL算法中可调节的权向量存在平衡不动点。该算法通过增加自适应学习率产生器和模糊平衡器来控制探索和利用的程度,以提高学习性能。小车爬山问题的仿真实验结果表明,该算法加快了系统的学习收敛速度,具有更优的学习性能。(4)基于蚁群优化的变学习率模糊Sarsa学习针对模糊Sarsa学习中学习因子优化调整的问题,提出了一种基于蚁群优化的变学习率模糊Sarsa学习(ACO-FSL)算法。该算法运用蚁群优化中的信息素水平更新规律来自动调节学习率,把模糊神经网络中模糊推理过程看作是蚂蚁觅食的过程,构造相应的信息素矩阵,从而实现最优策略下行为动作的选择。小车爬山与卡车倒车问题的仿真实验表明:ACO-FSL算法比FSL算法具有更优的学习性能。(5)强化学习在移动机器人路径规划中的应用详细探讨了ACO-FSL算法在移动机器人路径规划中的应用,给出了一种加权回报函数的设计方法,实现了对未知环境状态空间的动态建立,有效克服了移动机器人在路径规划时对全局环境信息或动态障碍物的运动信息的依赖性。仿真实验表明,ACO-FSL算法在学习性能和计算时间方面要优于IFSL算法和FSL算法。最后,对本文进行总结,阐明本研究的创新和主要研究成果,并指明未来进一步研究的问题。