分层强化学习中自动分层算法的研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:a522920779a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在强化学习的实际应用中,“维数灾难”问题一直困扰着其发展。虽然“维数灾难”问题是由待解决问题的本质所决定的,无法从根本上进行消除,但是却可以从方法上加以克服。分层强化学习通过时间抽象形成分层控制策略,简化了复杂问题的处理,为解决“维数灾难”问题提供了一个良好的方法。但是典型的分层强化学习方法要求设计者具有较完备的先验知识,并事先给定任务的抽象机制和分层结构,这在实际应用中往往是无法满足的。如何使Agent在与环境的交互过程中自动发现并抽象出子任务,实现任务的分层控制,是当前分层强化学习要研究的主要内容。   一般来说,影响任务分层控制的因素主要有:子任务的划分、学习状态的表示、搜索策略的应用、分层状态的感知以及Agent数量的多少等,本文从学习状态的表示与聚类、子任务的抽象与划分、搜索策略的通信与应用三个角度出发,围绕分层强化学习的自动分层算法进行讨论,文中主要完成了以下几项研究工作:   (1)提出了基于BP神经网络的分层强化学习算法——BMAXQ算法。该算法利用BP神经网络的非线性处理能力,使Agent能够对子任务进行自动分层,实现了各分层的并行学习。同时也分析了BMAXQ算法的复杂度及其自动分层能力,用仿真实验探讨了此算法在解决动态连续环境下分层强化学习问题的实际效果。   (2)以Option方法与FCM方法的结合为切入点,研究了基于优化模糊C均值算法的分层强化学习方法。该方法由三部分所组成:状态空间的聚类算法、子目标的发现算法以及Option的构建算法。状态空间的聚类算法用于将样本空间划分成若干个网格单元,计算并提取出各网格单元的凝聚点,用提取到的网格凝聚点初始化FCM的聚类中心,进而对样本数据进行模糊聚类;子目标的发现算法在聚类后的样本空间上,采用状态单向值识别出有用子目标;Option构建算法利用已发现的有效子目标构造出整个option集合。实验证明文中提到的分层强化学习方法能够有效提高Agent的预判能力,适合于动态环境下的学习。   (3)提出了适合于连续状态空间下的多Agent分层强化学习的半马氏博弈模型SMG,该模型能够有效表示多Agent系统的分层学习任务,以及联合动作的时间性与顺序性;同时给出了此模型对应的MAHRL协同框架,分别对协作子任务和非协作子任务进行形式化描述,阐述了多Agent分层强化学习系统的工作流程;最后给出了MAHRL协同框架的核心——基于Pareto占优解的分层强化学习算法。仿真实验验证了文中所提到的SMG模型、MAHRL协同框架和基于Pareto占优解的分层强化学习算法的有效性和优越性。   (4)提出了一种适合于离散状态空间下的多Agent强化学习的时序描述逻辑系统TL-SI,对该逻辑系统的语法、语义及其判定算法做了详细阐述,并且对TL-SI逻辑系统的判定算法的相关性质(包括可靠性、完备性、可判定性、复杂度等)做了证明。最后,将TL-SI逻辑与国内外相关研究工作做了比较,指出TL-SI逻辑系统的优缺点及下一步可做的扩展及优化工作。TL-SI逻辑系统以基于描述逻辑的行动理论为指导,将时序逻辑TL和描述逻辑SI有机结合在一起来,实现了对多Agent强化学习系统的行为动作的语法描述、语义解释和推理判定。   分层强化学习中自动分层算法的解决可以有效提高Agent的学习速度,加强Agent对外界环境的自适应能力,完善Agent间的交互能力和协作能力,为大规模空间和复杂非线性任务下的强化学习研究提供解决方法。该课题的研究成果可以为今后的分层强化学习研究提供理论基础和技术支持。
其他文献
可再生能源的综合利用对我国社会经济的可持续发展和环境保护起着重要的作用。太阳能和风能是可再生能源中利用比较广泛的两种。太阳能和风能在资源条件和技术应用上都有很好的互补特性,在电能作为能量主要能量消耗形式的当今社会,综合考虑太阳能和风能在多方面的互补特性而建立起来的风光互补发电系统是一种经济合理的供电方式。该供电方式在解决边远地区的能源供应问题中发挥着积极的作用。由于风能和光能的随机性、间歇性,为满
随着数据库和网络技术的迅速发展,XML已经成为网络上信息表达和数据交换的事实标准。随着XML数据的不断增长,尤其是大规模XML数据的出现,如何对这些XML数据进行有效的管理和
随着计算机网络的快速发展,网络安全越来越受到人们的关注。公钥认证技术提供了对公钥的真实性和有效性的担保,目前存在三种公钥认证方式:基于证书的方式、基于身份的方式和基于
随着三维扫描和捕捉设备以及计算机建模工具的发展,可变形三维物体数据变得容易获取,并在广泛的领域得到应用。怎样对这些可变形三维物体进行统计建模以辅助应用已成为一个研究
神经网络机器翻译(neural machine translation,NMT)是一种新的基于编码-解码网络框架的机器翻译模型,其在各种翻译任务中都表现出了远远优于传统方法的性能。由于GPU内存和
传统分布式系统监控技术多关注位于同一物理区域内的分布式系统。随着分布式系统逐渐开始部署于全球不同地区形成广域分布式系统,目前的监控技术在安全性、网络通信及监控的
作为一个客户端的应用程序,浏览器是用户和因特网之间进行交互的一个重要平台。现在存在许多与浏览器密切相关的恶意攻击,对用户浏览器安全造成了严重的威胁。此外Web2.0因功能
随着信息技术的快速发展,各行各业积累了大量的数据,如何帮助用户从这些数据中提取人们感兴趣的、隐含的、对决策有潜在价值的知识,已经成为信息技术领域的热点问题。作为一
单摄像机的应用由于视野范围有限、视角单一等原因暴露出不少弊端,无法实现大场景的监控,也存在着难以解决的遮挡问题。因此,多摄像机的出现则成为必然,随之而来的关于多摄像
信息技术在图书馆中的应用使得图书馆的工作面貌发生了本质的变化。面对从日常管理中产生的海量数据,图书馆管理者迫切希望从中获取有效信息来指导管理者决策。传统的图书馆