基于有界动作策略的强化学习探索方法

来源 :广东工业大学 | 被引量 : 1次 | 上传用户:jianghladros
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着传统的连续控制技术的发展,包括PID(Proportional Integral Derivative)控制,以及 SLAM(Simultaneous Localization and Mapping)技术,使得机器人连续控制类任务在简单条件下能够达到很高的控制精度,比如多关节手臂推物体任务,多关节手指抓取固定大小物体任务。然而,传统的控制方法参数较多,需要做大量的手工试验,而且对于复杂环境性能较差。强化学习作为一种利用环境反馈来学习一个策略去完成特定任务的机器学习方法,能够很好的解决传统控制方法的上述问题,但由于强化学习对环境给予的数据的利用率并不高,训练时间较长,因此,提出一种能够提升现有强化学习算法的数据利用率的方法,具有重要的意义。在强化学习中,对于连续动作空间的控制类任务,一般使用动作空间无界的高斯策略表示agent的策略,即用一个高斯分布去表示agent对环境的当前状态所选择的动作的概率。然后接受环境给予的反馈,采用策略梯度类,例如Reinforce算法,TRPO(Trust Region Policy Optimization)算法,PPO(Proximal Policy Optimization)算法等估计策略梯度样本从而更新策略。然而,使用动作空间无界的高斯策略来表示现实中有界动作空间的agent策略将会带来边界效应,使得估计策略梯度样本的偏差较大,并且,为了鼓励agent去探索当前状态下并未尝试过的动作,动作策略的高斯分布的方差需要维持在一个范围内,这将使得采样点较为分散,使得估计的策略梯度的样本方差较大,训练收敛速度较慢。本文提出了一种动作空间有界的策略,称为逻辑高斯策略,并在理论上证明了它对比原有的高斯策略,既能消除原有的边界效应,又能够降低采样过程策略梯度样本间的方差。实验结果表明,使用有界的逻辑高斯策略表示agent策略,在不论简单和复杂的连续控制类型任务,都能够有效提升策略梯度类算法例如TRPO算法和PPO算法的性能,加快训练时的收敛速度。
其他文献
进口测控一体弧形闸门存在安装条件苛刻、价格昂贵、很难适应泥沙含量大的黄河水灌溉渠系等问题,迫切需要开发适合我国国情的测控一体弧形闸门。掌握过闸水流的水力特性,是成
<正>01|宋老师专业观点浩瀚而神秘的海洋.给了地球最美丽的色彩和无尽的资源。人们在探索海洋的过程中.发现蕴藏在海底深处的生物竟然对肌肤有着超越想象的修护功效。无论是
媒介碎片化的加剧、数字技术的发展以及17号限广令的下发都在不断削弱着传统广告的效果,植入式广告正成为我国广告行业新宠。植入式广告指那些隐匿广告目的并与节目内容巧妙
等离子体助燃技术兴起于军用航空领域,并逐步应用于能源、汽车、环保等领域,成为一个极具发展潜力的学科,引起了越来越多的国内外研究团队的关注。等离子体助燃技术的研究难
中国是着名丝绸古国,“丝绸之路”闻名与此,自古以来蚕桑业在中国的农业中都是重要的部分,远在七千多年前我国就有养蚕抽丝的记载。目前,世界80%的产丝量都是由我国产出。蚕蛹蛋
中国古代"亲亲相隐"是一种亲情伦理立法,现代东西方主要国家法律都确认由亲属身份而自然获得的某些例外特权,这是一种亲属权利立法。我国现行法律在否定"亲亲相隐"的亲情伦理
国家对测土配方施肥方式的大力提倡,给掺混肥工业提供了广阔的发展空间,于此同时,客户对掺混肥生产设备要求也越来越严格。本文就是在这样一个背景下,根据掺混肥生产设备的发展趋
以<全国普通高等学校体育课程教学指导纲要>的课程定位与目标规定为依据,以提升课程教学质量为指归,集中论述了普通高校体育课程教学亟待解决的三个理论与实践问题,即教与学&
随着多媒体的发展,语言不再是日常信息传播的唯一形式载体,而图片、声音等多种模态要素越来越发挥着重要的作用,多模态话语分析由此应运而生。但尚属于起步阶段,大多数研究集
常规弹药制导化改造过程中转速的测量尤为关键。针对常规弹转速高的特点,提出一种基于捷联式单轴磁传感器的常规弹药转速测量方法。在建立了弹丸质点外弹道模型、载体磁场模