基于确定性异策略的Actor-Critic强化学习算法研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:fengwei27149
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是人工智能研究领域中一个热门的方向,被广泛应用在机器人控制,人机交互等领域。深度强化学习将深度神经网络与强化学习相结合,在原有的强化学习方法上对智能体以及环境的预输入做特征提取。Actor-Critic算法作为深度强化学习的一个经典算法,在解决连续空间的问题上有着良好的表现。但是传统的Actor-Critic算法中Critic网络使用的是单一的Q-learning输出序列,智能体状态和动作之间存在着较强的关联性。在高维复杂的交互环境中,会导致估计得到的奖励值序列与真实值之间存在较大差异,智能体无法获得更高的环境奖励回报值,无法学习到最优策略。并且传统Actor-Critic算法在训练智能体学习的过程中,难以将策略评估和策略改进都运行到收敛,在计算最优策略时,也存在函数逼近误差不断累积和波动性较大的问题。鉴于上述强化学习的研究背景与传统Actor-Critic算法中存在的问题,本文在确定性异策略的Actor-Critic算法框架基础上,提出一种延迟策略最大熵优势Actor-Critic强化学习算法(DAAC),具体的研究工作如下:(1)改进Actor-Critic算法框架。在传统的Actor-Critic算法框架基础上增加一个Critic网络来计算智能体的动作优势函数,并与另一个Critic网络计算的状态值函数进行聚合运算,得到最终的状态动作值函数,有效降低了函数估计值与真实值的差异。(2)将最大熵模型应用在Actor-Critic算法中。在改进的Actor-Critic算法框架基础上引入最大熵模型,对算法在每一个实验回合中的策略迭代过程进行优化,使得策略评估和策略改进可以运行到收敛的状态,并且在计算策略的过程中,调节环境的奖励值函数和熵的平衡关系,将值函数和策略迭代进行联合优化。(3)延迟Critic网络的策略更新。通过设置一个阈值系数来延缓Critic网络的更新速度,限制目标网络的变化速率,同时阈值系数也可以调整目标网络在算法计算策略更新中的比重,有效降低了值函数估计值与策略之间的耦合性。本文的实验在高维复杂的机器人模拟仿真平台中进行,通过对比各个算法的环境奖励值和损失值随时间步数的变化曲线,得出DAAC算法有效降低了训练过程的波动性,提高了收敛性并使智能体学习到获得更高奖励值的策略。
其他文献
视频监控是船舶交通领域的主要监管手段,但是受雾、雨、雪等恶劣天气的影响,难以全天候监控,而现有的清晰化算法研究多是针对单一的恶劣天气,能处理多种恶劣天气的算法模型并不多见。因此,设计一个能够自动感知恶劣天气类型,并能自适应去雾、去雨或者去雪的处理方法是很有必要的。本文构建了自适应视频图像清晰化处理系统,该系统可自动对低能见度环境进行感知,利用感知信息,自适应选择和控制视频图像处理算法,以获取与环境
学位
随着地理信息定位技术的发展,用户的生活中开始广泛应用基于位置的服务(Location-based Services LBS),LBS系统的主要目标是获取用户的位置,并向使用者提供即时的信息以便用户做出决策。LBS在诸如车辆导航,医疗保障,用户购物方面都有着重要的应用价值。然而,传统的LBS只是专注于路网距离一个维度,例如,传统的LBS只能查找距离用户最近的酒店而无法查找到距离用户距离近且价格低的酒
学位
因比特币表现出的稳定性和可靠性,具有去中心化、防篡改等技术特性的区块链技术被揭示,并立即得到高度重视。区块链本质上是一个分布式账本,类似分布式数据库,但又有根本区别:去中心化的运行模式。随着区块链应用从数字货币、溯源等迅速扩展到各个领域,已有技术支撑的早期区块链技术方案的容量局限性问题越来越明显,区块链核心技术亟待创新与突破,特别是以公链吞吐量大幅提升和时延降低为代表。现有的扩容技术中,分片技术被
学位
在工业界产品用户体验设计实践中,用户人群划分是一个重要环节。传统的用户人群划分方法存在数据客观性不足、数据分析耗时费力以及过度依赖用户体验工程师主观判断等问题,影响了人群划分的质量。上述传统用户人群划分方法中存在的问题如何借助目前快速发展的用户数据采集工具来加以解决,是一个值得探索的课题。本文针对上述存在问题,选择了游戏、购物两个具有代表性的应用领域,针对每个领域采用迭代方式进行了两轮案例研究,在
学位
随着监控设备的普及,作为智能安保、目标追踪等任务的重要辅助手段,行人重识别近年来被广泛研究。然而行人重识别任务在提取身份相关特征时存在的信息丢失问题会使得行人身份信息提取不够充分,进而影响行人重识别模型的准确度。基于局部特征的行人重识别方法能保留更多的局部重要特征,对遮挡问题也有较好的效果,但应对下采样导致的信息丢失问题存在不足。结合不同分辨率特征的方法在检测和分割任务中已广泛使用且被证明对下采样
学位
微颗粒存在于生活中的各个领域,在海洋生态领域中,微塑料会严重威胁海洋中生物和人类的生命健康。在船舶运输领域中船舶压载水携带的微藻细胞会严重影响当地的水域生态系统,因此微颗粒的检测对人类的生命健康和海洋生态系统平衡都具有非常重要的意义,而传统的微颗粒检测设备由于其操作复杂、体积较大、价格昂贵等因素不适合对微颗粒的快速检测,因而研发一套便携、高效的微颗粒检测设备具有十分重要的意义。本文提出了一种基于多
学位
在这个网络资源膨胀的时代,网络上的数据呈现出数据量大、表达多样和价值密度低等特征,数据的歧义性影响人们对于信息的辨别和理解。为了解决实体的语义歧义问题,实体链接技术被提出,其目标是根据文档中指称的上下文语义信息,链接一个文档的指称到一个知识库的相应实体。为了提高链接的准确率,实体链接方法需要同时考虑指称和候选实体之间的局部兼容性以及与文档中其它实体之间的一致性。本文针对当前大多数实体链接方法在获取
学位
在移动互联网和大数据迅速发展的时代,海量数据都是以自然语言的形式进行存储,这些数据蕴含着巨大的价值,但同时又存在大量歧义性。词义消歧可增强计算机使用和理解自然语言的能力,在机器翻译、文本分类、信息检索等领域应用越来越广泛。词义消歧已经演变成自然语言处理中亟待解决的重要课题。本文针对在整合词典知识的神经网络词义消歧模型中,存在忽略歧义词上下文和词义定义间层级交互作用的问题,构建基于混合神经网络的多粒
学位
图像配准在许多计算机视觉任务中起着重要的作用,例如海冰漂移跟踪等研究。但是图像受光照或成像条件等因素的影响,会产生一定的非线性变化灰度差异。例如遥感图像间由于数据来源、极化方式、分辨率等存在较大差异,使得待配准图像具有不同程度的非线性变化灰度差异。甚至于在不同光谱、不同波段的遥感图像中出现局部反色的情况。这种灰度差异往往呈现非线性变化,导致提取的同位置特征不能有效的进行匹配。针对非线性变化灰度差异
学位
为了辅助解决人口老龄化带来的人力不足问题,智能家居中的老年人日常行为识别系统应运而生。研究者通过在老年人的居住环境中部署相关传感器,获取其日常活动——比如睡觉、吃饭、吃药等信息,并利用行为识别知识处理这些信息,识别老年人日常行为,及时发现老年人日常行为中的异常。近年来,研究者们在智能家居日常行为识别领域取得了一定的成绩,但是还存在一些问题:(1)以往的研究方法大多统计传感器出现的频次,把频次进行相
学位