强化学习中状态抽象技术的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:teamworkhlc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
抽象技术允许系统忽略与当前决策无关的一些细节,而仅仅只考虑那些有关的或重要的因素,是用于解决“维数灾”问题的一种重要技术。在强化学习领域,存在着两类主要的抽象技术:过程抽象与状态抽象。过程抽象指的是忽略掉一个复杂动作的执行细节,而把它当作一个整体(抽象动作)来看待。状态抽象指的是忽略掉状态向量中与当前决策不相关的特征,以达到状态空间压缩的效果。就状态抽象技术而言,虽然它已经取得了一定的进展,但仍然存在着许多问题。针对多维连续状态空间的离散化精度问题,构造了一种基于自组织神经网络的状态抽象方法,它将自组织神经网络、资格迹及Actor/Critic强化学习框架进行了有机的集成。该方法的特点如下:利用自组织神经网络并结合智能体自身在线获取到的数据来离散化连续状态空间,以获得良好的量化精度;同时,自组织神经网络的工作机制也利于智能体自主地在线量化连续空间;将量化空间的自组织特性和资格迹技术相结合以调整强化学习的性能指标。针对目前的层次强化学习框架还缺乏面向问题的表达能力这一问题,对SMDPs问题进行了分类,定义了HAM-可分解概念,明确了HAM机、HAM-可分解及策略耦合SMDPs这三者之间的关系,并证明了HAM框架适合解决策略耦合SMDPs问题。实际上,上述框架表明了HAM的策略耦合观点,它从问题的角度来描述层次强化学习方法。在HAM的策略耦合基础上,针对一类具有有向无环图形式的策略耦合SMDPs问题,提出了一种层次分解方法。该方法充分利用了HAM体系中的CALL状态与CHOICE状态这两个核心概念。与其他方法相比,该方法在构造层次时所需的信息较少,而且各层子任务单一,允许执行的动作集有限;同时,各层间相对独立的特点便于使用状态抽象技术加快学习速度。在HAM策略耦合观点的基础上,提出了基于HAM的同态变换方法,可以有效地解决基于子过程的状态抽象方法的抽象能力有限及HAMs模型本身存在的联合状态空间这一问题,并进行了理论分析与实验验证。在此基础上,从实用的观点出发,总结了应用同态变换进行状态抽象的几个重要的观点,并且还讨论了近似同态变换与Bootstrapping技术、部分同态变换等实用技术。从层次强化学习方法应该满足面向问题的求解这一基本需求的角度出发,在上述提出的主要概念与理论的基础上,给出了一个统一的框架:它初步支持问题的建模分析与计算求解;允许同时使用多种抽象机制;并且能够同时学习层次最优策略和递归最优策略。同时,还提出了一种NPCs行为设计方法,并在一个实际的游戏平台——Quake2平台上,采用该方法为NPCs设计了移动行为,表明了本文提出的方法可以应用于实际问题。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
随着时代的发展和科技的进步,我国计算机技术水平较以往有了巨大的进步,并为更多用户提供了高效便利的网络服务,但是,在计算机呈现出迅猛发展的同时,一些不安全的网络因素也
民国时期作为中国农业近代化的重要转型时期,由于受到帝国主义和封建势力的双重压迫,我国农业出现持续而急剧的衰落。农民普遍贫穷、农村资本外流和大量农民为求生计“离村”另
对比分析了汉英民族思维方式的差异,及在两种语言表达方式上所造成的不同影响,提出了汉民族在英语学习过程中如何避免思维差异的影响,学习地道的英语.
写作要遵循文体规范,写出的文章才能发挥它应有的作用。影响文体的重要因素是语体。因此,掌握公文文体写作规范,有必要研究一下公文文体的语体要求。如何掌握公文文体的语体
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
外婆走了,虽然肝癌晚期的病痛将她折磨得不成人形,但她走的很安详,在这月圆之日,在子女的声声呼唤中,眼角流下的两行清泪是她与子女最后的告别。她,去了天堂吧!远离了人世间的痛苦
本文系统研究了大型互联非线性系统分散控制中的一些前沿和热点问题:大型互联非线性系统的鲁棒分散状态反馈和输出反馈控制问题、大型互联非线性时滞系统的鲁棒控制问题、大型
郁达夫小说具有浓厚的抒情性特征,这种抒情性功能是通过郁达夫小说叙事的样式来实现的。郁达夫小说在叙事上具有“叙事的琐事化”和“琐事的情意化”的特征。他的小说不追求完