论文部分内容阅读
强化学习是一种从与环境交互中学习的机器学习技术,是目前机器学习研究中最活跃的方向之一。强化学习所面临的一个突出问题是大空间和复杂非线性任务带来的“维度灾难”问题。分层强化学习通过时间抽象形成分层控制来简化问题的处理,从而为强化学习解决“维度灾难”问题提供了一个很好的方法,因此,分层强化学习的研究受到了研究者的广泛关注,并成为强化学习的热点研究领域。
本文针对分层强化学习中的几个关键问题,包括子目标自动发现、动态抽象、背景知识与交互经验的综合利用、分层多Agent强化学习,以及空间参数表示与处理等,进行了深入的研究。本文的创造性研究成果主要有:
(1)提出了面向Option的K—聚类Subgoal发现算法,该算法能通过对在线获取的少量路径数据进行聚类的方法抽取出Subgoal,与其它状态访问计数式Subgoal发现算法相比,该算法具有使用的数据量少、能自动判断环境中瓶颈类Subgoal的存在性,能有效地发现状态空间中有用的Subgoal,具有计算开销小和收敛速度快等优点。
(2)提出了基于捷径发现的Option强化学习算法,该算法首先根据经验建立起状态转移图模型,然后从中发现状态空间中的捷径,并利用捷径创建option。算法所建立的状态转移图模型能增量处理 Agent交互的历史经验,利用该图模型所蕴含的信息和捷径可改进经典的强化学习算法,改进option创建过程中所使用的“经历重放”,使它不再需要Agent交互的原始路径记录。该算法具有优良的在线性能,使得它能很好地满足动态option和临时option创建的要求。
(3)提出了一种基于Agent交互经验和事务处理结构的分层多Agent强化学习模型和算法,该模型能很好地将背景知识、Agent交互经验和分层强化学习等技术有机地结合起来,能有效处理多Agent的合作和竞争问题。实验显示,基于该模型设计的算法具有良好的学习性能、交互性能和协调性能。
(4)提出了基于遗传算法框架的强化学习算法GARL,该算法结合遗传算法的模式理论,利用基因空间分割,对Agent的动作空间进行划分,从而改善强化学习在大规模复杂问题上的可操作性和收敛性。从理论上对算法的收敛性和复杂性进行了分析,给出了该算法收敛的两个定理,并进一步从理论和实验两方面分析了分割对GARL性能的影响,给出了分割模式取值的一个指导范围。