论文部分内容阅读
针对具有连续状态和未知系统模型的非线性系统控制问题,提出一种基于Elman神经网络的Q学习控制策略.利用Elman网络良好的动态特性及泛化能力,对状态一动作对的Q值进行在线估计,解决状态空间泛化中易出现的“维数灾”问题.借鉴TD(λ)算法中状态的资格迹机制,通过对权值向量定义对应的资格迹来加速神经网络的学习过程.将所提方法应用于具有连续状态的小车爬山控制问题,学习系统在经过大约60多次学习后即能获得小车爬山控制策略,仿真结果表明所提方法能够有效解决具有连续状态的非线性系统的无模型增强学习控制.