论文部分内容阅读
在强化学习的实际应用中,“维数灾难”问题一直困扰着其发展。虽然“维数灾难”问题是由待解决问题的本质所决定的,无法从根本上进行消除,但是却可以从方法上加以克服。分层强化学习通过时间抽象形成分层控制策略,简化了复杂问题的处理,为解决“维数灾难”问题提供了一个良好的方法。但是典型的分层强化学习方法要求设计者具有较完备的先验知识,并事先给定任务的抽象机制和分层结构,这在实际应用中往往是无法满足的。如何使Agent在与环境的交互过程中自动发现并抽象出子任务,实现任务的分层控制,是当前分层强化学习要研究的主要内容。
一般来说,影响任务分层控制的因素主要有:子任务的划分、学习状态的表示、搜索策略的应用、分层状态的感知以及Agent数量的多少等,本文从学习状态的表示与聚类、子任务的抽象与划分、搜索策略的通信与应用三个角度出发,围绕分层强化学习的自动分层算法进行讨论,文中主要完成了以下几项研究工作:
(1)提出了基于BP神经网络的分层强化学习算法——BMAXQ算法。该算法利用BP神经网络的非线性处理能力,使Agent能够对子任务进行自动分层,实现了各分层的并行学习。同时也分析了BMAXQ算法的复杂度及其自动分层能力,用仿真实验探讨了此算法在解决动态连续环境下分层强化学习问题的实际效果。
(2)以Option方法与FCM方法的结合为切入点,研究了基于优化模糊C均值算法的分层强化学习方法。该方法由三部分所组成:状态空间的聚类算法、子目标的发现算法以及Option的构建算法。状态空间的聚类算法用于将样本空间划分成若干个网格单元,计算并提取出各网格单元的凝聚点,用提取到的网格凝聚点初始化FCM的聚类中心,进而对样本数据进行模糊聚类;子目标的发现算法在聚类后的样本空间上,采用状态单向值识别出有用子目标;Option构建算法利用已发现的有效子目标构造出整个option集合。实验证明文中提到的分层强化学习方法能够有效提高Agent的预判能力,适合于动态环境下的学习。
(3)提出了适合于连续状态空间下的多Agent分层强化学习的半马氏博弈模型SMG,该模型能够有效表示多Agent系统的分层学习任务,以及联合动作的时间性与顺序性;同时给出了此模型对应的MAHRL协同框架,分别对协作子任务和非协作子任务进行形式化描述,阐述了多Agent分层强化学习系统的工作流程;最后给出了MAHRL协同框架的核心——基于Pareto占优解的分层强化学习算法。仿真实验验证了文中所提到的SMG模型、MAHRL协同框架和基于Pareto占优解的分层强化学习算法的有效性和优越性。
(4)提出了一种适合于离散状态空间下的多Agent强化学习的时序描述逻辑系统TL-SI,对该逻辑系统的语法、语义及其判定算法做了详细阐述,并且对TL-SI逻辑系统的判定算法的相关性质(包括可靠性、完备性、可判定性、复杂度等)做了证明。最后,将TL-SI逻辑与国内外相关研究工作做了比较,指出TL-SI逻辑系统的优缺点及下一步可做的扩展及优化工作。TL-SI逻辑系统以基于描述逻辑的行动理论为指导,将时序逻辑TL和描述逻辑SI有机结合在一起来,实现了对多Agent强化学习系统的行为动作的语法描述、语义解释和推理判定。
分层强化学习中自动分层算法的解决可以有效提高Agent的学习速度,加强Agent对外界环境的自适应能力,完善Agent间的交互能力和协作能力,为大规模空间和复杂非线性任务下的强化学习研究提供解决方法。该课题的研究成果可以为今后的分层强化学习研究提供理论基础和技术支持。