论文部分内容阅读
值函数逼近是将经典强化学习应用于大规模、连续状态空间的主要思路之一,并由此形成了值函数逼近强化学习研究方向。但目前,其在应用中还普遍存在收敛速度较慢、计算量较大、自适应能力不强等问题,特别是大部分算法的泛化结构及其相关参数均依赖先验知识或通过反复试凑确定,使得算法本身具有较强的领域相关性,若人为设定的泛化偏置与问题不匹配甚至导致算法不能正确收敛,易用性较差。本文针对上述问题,立足已有研究成果提出了一系列非参数化值函数逼近强化学习算法。(1)提出了基于CMAC的非参数化近似策略迭代强化学习(NPAPIRL-CMAC)算法。该算法设计了一种新的基于CMAC的强化学习网络结构,并定义了网络结构的工作机制;基于FUNSample算法实现了样本的自动采集和泛化参数的自动获取,基于FUNT&E算法和FUNBI算法实现了量化编码结构的自动构建,基于量化编码结构单元的构建样本数集合自动计算其平均学习率;基于delta规则实现了值函数逼近器参数和量化编码结构的自动更新;基于广义策略迭代思想实现算法整体步骤,提升了算法的在线计算能力。一级倒立摆平衡控制的仿真实验结果验证了该算法在单个量化编码结构的激活区间数分别取1和2时,强化学习允许误差率在不同取值下的有效性、鲁棒性和快速收敛能力。(2)提出了基于状态聚类的非参数化近似广义策略迭代强化学习(NPAGPIRL-SC)算法。该算法对基于FRBF(Fuzzy RBF)的强化学习网络结构进行了改进,并定义了网络结构的工作机制;基于FUNSample算法实现了样本的自动采集,基于FUNBase算法实现了初始状态基函数及其自适应调整参数的自动构建;基于delta规则实现了值函数逼近器参数和状态基函数的自动更新;基于广义策略迭代思想实现算法整体步骤,提升了算法的在线计算能力。一级倒立摆平衡控制的仿真实验结果验证了该算法在不同离散动作取值下、不同强化学习允许误差率下的有效性、鲁棒性和快速收敛能力。(3)提出了非参数化近似策略迭代并行强化学习(NPAPIRL-P)算法。该算法设计了一种新的并行强化学习网络结构及相应的并行学习方式,其单个学习单元基于NPAGPIRL-SC算法实现。一级倒立摆平衡控制的仿真实验结果验证了该算法在不同离散动作取值下、不同强化学习允许误差率下的有效性和鲁棒性,实验还重点对该算法平衡加速比与效率的能力进行了检验,并与NPAGPIRL-SC算法的实验数据进行对比,结果表明NPAPIRL-P算法具有良好的并行加速性能。(4)提出了基于Dyna框架的非参数化近似策略迭代强化学习(NPAPIRL-Dyna)算法。该算法在NPAGPIRL-SC算法的基础上进行了改进,一是在网络结构中引入了内部状态转移矩阵D,以时间上的相继特征弥补状态基函数仅通过欧式距离从空间上判定输入状态对各状态基函数隶属度的不足;二是利用对状态基函数的访问频次描述环境拓扑特征并构建环境估计模型B和B′,而后基于Dyna框架的模型辨识思想,将学习和规划过程进行了有机整合;三是进一步强化了算法网络结构与参数的自适应调整能力,包括新增结构、合并结构、调整参数等操作。一级倒立摆平衡控制的仿真实验结果验证了该算法在不同强化学习允许误差率下的有效性和鲁棒性,并通过与NPAGPIRL-SC算法的比较验证了基于模型的规划过程对算法效率和精确性的提升确有帮助。