面向强化学习问题的近端策略优化算法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:lhtlunwen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,强化学习逐渐成为人工智能领域中的研究热点之一,并在机器人控制、棋类游戏、电子游戏等众多领域取得了令人瞩目的成绩。策略单调提升的优化算法是当前强化学习中的一个重要研究分支,在离散型和连续型控制任务中都取得了良好的性能表现。在此类算法模型进行更新学习的过程中,通常使得学习策略单调提升,但由于其策略代理目标函数的特殊结构,在训练中可能会导致算法更新缓慢,并且过高的方差会影响算法的收敛速度。本文针对近端策略优化算法中收敛表现不稳定、样本利用率低、经验指导不准确以及方差偏高等问题,提出了一系列改进目标策略函数的近端策略优化算法。主要研究可以概括为以下三个方面:(1)基于自适应置信区间的近端策略优化算法。近端策略优化算法在解决实际控制任务时,对目标值函数进行限制,并在原始值和截断值之间选择较小的进行学习更新,来防止策略更新过快。但过度的限制会导致目标策略与当前策略无限接近,最终使算法停滞不前,更新缓慢。针对上述问题,本文提出一种能使置信域区间自适应改变的机制,根据策略更新的幅度自适应判断其置信区间,提高算法的稳定性。在部分Atari 2600游戏环境中对该算法进行了验证,实验结果表明算法的更新速度得到一定的提升。(2)基于自指导动作选择的近端策略优化算法。近端策略优化算法是一种经典的策略单调提升算法,作为同策略算法不能对经验样本进行利用,因此导致算法样本利用率低。针对上述问题,本文提出一种基于自指导动作选择的近端策略优化算法。该方法不仅根据重要性采样权重对样本经验进行利用,而且增加一个同步更新的经验池存放自身优秀样本经验,并利用该经验池学习到的自指导网络对动作选择进行指导,最终大大提升了经验样本利用率。在部分Mujoco任务环境中对该算法进行了验证,实验结果表明算法能有效指导智能体朝着高奖赏回报的方向学习更新。(3)基于生成对抗网修正的近端策略优化算法。在近端策略优化方法中,优势函数为每一个智能体当前状态下的动作值提供优势估计的相对度量,以此判断该动作值是否具有优势。为了使智能体获得更为准确的决策能力,本文提出将生成对抗网络中生成器构成的主观度量作为优势函数提供真实度量的辅助,判别器则根据真实环境和生成器使用随机梯度上升来更新。将该算法应用于连续性控制任务中,实验表明利用生成对抗网修正优势函数,可以提高算法的性能,并在一定程度上降低了算法的方差。本文提出的三种算法分别有效的解决了近端策略优化算法中更新缓慢导致收敛表现不稳定、经验样本利用率低、智能体决策不准确以及方差偏高等问题。算法的总体性能得到了有效地提升。
其他文献
随着便携式移动设备的迅速普及,一种基于位置服务的众包模式——空间众包已经从衣食住行各方面融入了人们的生活。分配机制作为空间众包的核心研究方向,深深影响着平台收益和用户体验。然而现有研究分配机制的工作大都集中在面向欧式空间的两类对象(请求和工人)参与的分配问题上,而忽略了实际应用中存在的底层路网信息和提供各种服务的第三方兴趣点(商家),所以本文研究了两个面向路网的三类对象参与的分配算法。本文的主要研
学位
构建具有内在独立价值的现代司法程序离不开程序的五大构成要素,即:对立面、决定者、对话、信息和证据、结果。其中对话要素不仅仅是现代司法程序的构成要素之一,还是整个司法程序构成要素中的核心要素。现代司法的过程本质上是当事人之间、当事人与法官之间进行对话和交涉的过程,完善我国当前的对话程序建设,不仅有助于法院公正裁判,还能确保当事人在对话程序中得到尊重感和满足感,从而提高当事人对案件的接受度,实现当事人
学位
随着法治观念深入人心与个人权利意识的觉醒,作为基本人格权之一的隐私权应当得到妥善保护逐渐成为了社会共识,各国对隐私权的保护也逐渐到位。但近些年,网络技术与新兴媒体飞速发展为我们生活带来便利的同时,也为各类侵权行为打开了方便之门,对公众人物隐私权的侵犯是近几年来愈演愈烈值得我们重点关注的话题。认可公众人物隐私权应当得到保护的同时,也不能否认因公众人物的特殊属性对其隐私权进行限制的合理性。理论上,公众
学位
在证券虚假陈述责任纠纷中,上市公司有责任的相关董事往往因为其具体决策和实施了证券虚假陈述行为,而需与上市公司一同承担民事赔偿责任。但立法对该民事责任的性质却未进一步的明确,导致在董事责任的范围和构成要件的认定上,理论和实务界仍存在一定的争议。责任的承担在于义务的违反,在上市公司信息披露的过程中,董事既承担了法定的信义义务和信息披露的保证义务,亦承担了不得侵害第三人合法权益的侵权法上的义务,因此该责
学位
近年来,随着网络经济的发展,计算机网络在企业日常生产经营中正扮演着越来越重要的角色,大量诸如反向刷单、删除源代码、恶意修改线上商品价格等一系列利用计算机网络破坏企业生产经营的失范行为也层出不穷。虽然上述行为因在手段与对象上具备不同于传统罪状的网络特性而使其在接受犯罪评价时遇到诸多“不适”困境,但究其本质二者实际上属性相同,上述差异的形成很大程度上归因于传统解释观点将本罪罪状表述中大量的时代性要素也
学位
在我国社会信用缺失严重的情况下,司法性失信惩戒机制是执政者解决社会信用问题的重要制度安排,其对解决执行难问题、提升司法公信力、建设社会信用体系具有重要意义。司法性失信惩戒机制,指的是司法机关对违反法律规定的失信行为人进行司法处置,并向社会公开以及向其他惩戒主体共享信用信息,以实现司法性惩戒、行政监管性惩戒与市场性惩戒联合的惩戒机制。其运行涉及司法性惩戒的实施、信用信息的共享、司法性联合惩戒的落实及
学位
司法与技术的结合一直受到法学界和实务界关注和研究,特别是近些年来,网络信息技术与司法的深度融合提出了智慧司法这种新兴审判方式。智慧司法在司法信息化基础上,借助“人工智能+”对传统司法进行改革,其出现和运用既有学理支撑,也适应了现实需要。但是,无论在实践层面还是理论层面,智慧司法都尚不完善,难以达到人们的预期。因此如何更好地推动智慧司法的发展,发挥其技术层面优势,是我们需要关注和解决的问题。本文尝试
学位
元学习是一种新的机器学习方法,用于解决小样本学习与复杂问题,并作为实现通用人工智能的方式和基础。元学习研究取得了一定进展,但仍存在许多急需解决的问题,如无法在样本数极少的情况下完成对模型参数的准确更新,自适应过程难以充分利用数据特征信息,以及难以避免模型分类器参数初始化的值对性能波动性的影响。针对这些问题,我们将适用于处理高维复杂数据的李群引入元学习,李群能够在还原数据在高维空间中几何结构的基础上
学位
随着信息时代的发展,互联网行业已经成为经济发展的主要推动力,反垄断执法需要不断与时俱进才能更好地迎接互联网等新兴行业。2016年“滴滴优步”的合并是否应当进行事先申报引发热议,至今官方尚无结论。作为典型案例,它体现出我国现行经营者集中申报制度亟待完善,尤其是申报标准对互联网行业涵盖不足的问题。互联网行业呈现网络效应、用户注意力竞争、创新竞争、双边平台等不同于传统行业的特性,由此形成竞争不再与价格紧
学位
随着自身免疫疾病发病率的上升,及时并准确地对其诊断成为研究人员亟待解决的问题。在诊断与抗核抗体相关的自身免疫疾病中,需要判读用病人血清培养的HEp-2细胞间接免疫荧光(Indirect ImmunoFluorescence,IIF)图像的染色模式。传统的做法是依靠医生直接来判读IIF图像的染色模式,其正确性依赖于医生的经验和专业知识。因而,利用人工来判读不仅具有主观性,而且具有高代价性。为此,医学
学位