论文部分内容阅读
抽象技术允许系统忽略与当前决策无关的一些细节,而仅仅只考虑那些有关的或重要的因素,是用于解决“维数灾”问题的一种重要技术。在强化学习领域,存在着两类主要的抽象技术:过程抽象与状态抽象。过程抽象指的是忽略掉一个复杂动作的执行细节,而把它当作一个整体(抽象动作)来看待。状态抽象指的是忽略掉状态向量中与当前决策不相关的特征,以达到状态空间压缩的效果。就状态抽象技术而言,虽然它已经取得了一定的进展,但仍然存在着许多问题。针对多维连续状态空间的离散化精度问题,构造了一种基于自组织神经网络的状态抽象方法,它将自组织神经网络、资格迹及Actor/Critic强化学习框架进行了有机的集成。该方法的特点如下:利用自组织神经网络并结合智能体自身在线获取到的数据来离散化连续状态空间,以获得良好的量化精度;同时,自组织神经网络的工作机制也利于智能体自主地在线量化连续空间;将量化空间的自组织特性和资格迹技术相结合以调整强化学习的性能指标。针对目前的层次强化学习框架还缺乏面向问题的表达能力这一问题,对SMDPs问题进行了分类,定义了HAM-可分解概念,明确了HAM机、HAM-可分解及策略耦合SMDPs这三者之间的关系,并证明了HAM框架适合解决策略耦合SMDPs问题。实际上,上述框架表明了HAM的策略耦合观点,它从问题的角度来描述层次强化学习方法。在HAM的策略耦合基础上,针对一类具有有向无环图形式的策略耦合SMDPs问题,提出了一种层次分解方法。该方法充分利用了HAM体系中的CALL状态与CHOICE状态这两个核心概念。与其他方法相比,该方法在构造层次时所需的信息较少,而且各层子任务单一,允许执行的动作集有限;同时,各层间相对独立的特点便于使用状态抽象技术加快学习速度。在HAM策略耦合观点的基础上,提出了基于HAM的同态变换方法,可以有效地解决基于子过程的状态抽象方法的抽象能力有限及HAMs模型本身存在的联合状态空间这一问题,并进行了理论分析与实验验证。在此基础上,从实用的观点出发,总结了应用同态变换进行状态抽象的几个重要的观点,并且还讨论了近似同态变换与Bootstrapping技术、部分同态变换等实用技术。从层次强化学习方法应该满足面向问题的求解这一基本需求的角度出发,在上述提出的主要概念与理论的基础上,给出了一个统一的框架:它初步支持问题的建模分析与计算求解;允许同时使用多种抽象机制;并且能够同时学习层次最优策略和递归最优策略。同时,还提出了一种NPCs行为设计方法,并在一个实际的游戏平台——Quake2平台上,采用该方法为NPCs设计了移动行为,表明了本文提出的方法可以应用于实际问题。