分层强化学习几个关键技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:weixiant241
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种从与环境交互中学习的机器学习技术,是目前机器学习研究中最活跃的方向之一。强化学习所面临的一个突出问题是大空间和复杂非线性任务带来的“维度灾难”问题。分层强化学习通过时间抽象形成分层控制来简化问题的处理,从而为强化学习解决“维度灾难”问题提供了一个很好的方法,因此,分层强化学习的研究受到了研究者的广泛关注,并成为强化学习的热点研究领域。 本文针对分层强化学习中的几个关键问题,包括子目标自动发现、动态抽象、背景知识与交互经验的综合利用、分层多Agent强化学习,以及空间参数表示与处理等,进行了深入的研究。本文的创造性研究成果主要有: (1)提出了面向Option的K—聚类Subgoal发现算法,该算法能通过对在线获取的少量路径数据进行聚类的方法抽取出Subgoal,与其它状态访问计数式Subgoal发现算法相比,该算法具有使用的数据量少、能自动判断环境中瓶颈类Subgoal的存在性,能有效地发现状态空间中有用的Subgoal,具有计算开销小和收敛速度快等优点。 (2)提出了基于捷径发现的Option强化学习算法,该算法首先根据经验建立起状态转移图模型,然后从中发现状态空间中的捷径,并利用捷径创建option。算法所建立的状态转移图模型能增量处理 Agent交互的历史经验,利用该图模型所蕴含的信息和捷径可改进经典的强化学习算法,改进option创建过程中所使用的“经历重放”,使它不再需要Agent交互的原始路径记录。该算法具有优良的在线性能,使得它能很好地满足动态option和临时option创建的要求。 (3)提出了一种基于Agent交互经验和事务处理结构的分层多Agent强化学习模型和算法,该模型能很好地将背景知识、Agent交互经验和分层强化学习等技术有机地结合起来,能有效处理多Agent的合作和竞争问题。实验显示,基于该模型设计的算法具有良好的学习性能、交互性能和协调性能。 (4)提出了基于遗传算法框架的强化学习算法GARL,该算法结合遗传算法的模式理论,利用基因空间分割,对Agent的动作空间进行划分,从而改善强化学习在大规模复杂问题上的可操作性和收敛性。从理论上对算法的收敛性和复杂性进行了分析,给出了该算法收敛的两个定理,并进一步从理论和实验两方面分析了分割对GARL性能的影响,给出了分割模式取值的一个指导范围。
其他文献
随着数字图像的迅速增加,图像检索等应用受到了广泛的关注。这些应用必须面对的一个主要难题是图像固有的歧义性。同样一幅图像所表达的内容含义会因用户和情境的不同而存在差
本文论述了软件工程辅助工具集成研究与开发,主要内容包括:  (1)全面介绍了CASE的基本理论、软件过程的概念。讨论了当前常用软件工程辅助工具的现状。  (2)重点讨论了现行
本文对断层医学图像插值技术进行了研究。文章利用小波变换可聚集到信号的任意细节的特点,把二维信号分解为高频子图和低频子图,设计出了两种基于小波变换理论的断层图像间匹配
粗糙集理论作为一个处理模糊、不确定性问题的新型数学工具,自上个世纪80年代由波兰数学家Z.Pawlak提出以来,在机器学习、知识获取、模式识别、模糊控制、数据挖掘等领域得到了
随着物联网技术的快速发展和应用,作为物联网技术的枢纽部件物联网网关,其实现技术也被日益重视和迅速发展,物联网网关也因此从功能上得到了不断地完善,从性能上得到了不断地提高
随着医学成像技术迅速发展,使得以此为基础的计算机辅助诊断系统研究成为该领域的热门课题,而医学图像分割是计算机辅助诊断系统中的一个重要组成部分。医学图像分割是医学图像
基于Internet的三维实时图形引擎在三维可视化与虚拟世界领域有着广泛的应用。这些应用随互联网的发展逐渐普及后,人们对虚拟场景复杂度和真实感的要求一直不断超过网络带宽和
本文主要研究了作为IP组播中视频点播服务手段之一的Patching(补丁流)技术,可以怎样灵活运用于应用层组播来提供更好的广域网上的流媒体服务。至今,已有若干应用层组播算法采用
网格被定义为一个广域范围的,无缝的集成和协同计算环境.网格技术可以充分利用资源,为应用和用户提供高性能的服务.目前,在最新的网格标准WSRF中,网格技术与Web service技术已紧密
根据参与决策的agent的行为,多agent决策通常可以分为两类:一类是所有agent之间都没有利益冲突的多agent集体决策;另一类是这些agent之间既有共同利益、又存在竞争关系的多agent