基于层级深度强化学习的间歇控制算法

来源 :现代计算机:中旬刊 | 被引量 : 0次 | 上传用户：zhaoshuang1989

【摘要】

：

DDPG算法是一种端到端的深度强化学习算法,主要用于解决仿真任务。DDPG能够在具有高维度动作空间的任务中取得接近人类的水平,然而当任务的复杂性提高时,DDPG存在收敛时间长

【作者】

：

李广源史海波孙杳如

【机构】

：

同济大学电子与信息工程学院计算机科学与技术系

【出处】

：

现代计算机:中旬刊

【发表日期】

：

2018年35期

【关键词】

：

DDPG HDDPG 运动控制确定性策略梯度强化学习间歇控制

【基金项目】

：

国家自然科学基金(No.91748122).

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

DDPG算法是一种端到端的深度强化学习算法,主要用于解决仿真任务。DDPG能够在具有高维度动作空间的任务中取得接近人类的水平,然而当任务的复杂性提高时,DDPG存在收敛时间长和最终效果差的问题。为了提高在复杂任务环境中算法的收敛速度和最终效果,提出一种基于间歇控制框架的层级深度确定性策略梯度算法(HDDPG)用于完成仿真任务。首先在间歇控制原则下对复杂的任务进行策略上的分解,分解后的子任务间具有层级的架构和较为单一的优化目标,然后在最小转换原则下使用DDPG算法针对多个层级任务寻找最优解。使用DDPG和HD-DPG算法分别在轨迹追踪仿真任务中进行对比实验,实验结果证明在复杂连续运动控制任务上HDDPG相对DDPG算法具有更快的收敛速度和更好的实验结果。

其他文献

福利多元主义视角下社区戒毒制度的反思与改良

社区戒毒相对于强制隔离戒毒的"惩罚性"而言是一种"社会性"的福利制度,但在合理性、戒毒效果评估等方面还存在诸多缺陷,在实践运行中还存在"行政化主导""缺乏社会力量民主参

期刊

社区戒毒福利多元主义强制戒毒医疗模式道德模式

空中飞行目标三维航迹的分析与仿真

高技术条件下的空中对抗,为了能够对敌方目标的航迹和状态进行有效预测,需要对其三维航迹进行分析与仿真。国内外对目标航迹进行分析与模拟时,多数将其看成简单的直线运动或

期刊

飞行目标航迹分析数学模型仿真

长三角地区电子信息产业产学研合作创新网络研究

经济全球化背景下,创新在经济发展中的影响日新月异。创新网络作为区域间创新要素共享、创新主体合作、创新成果转化的重要载体,引起经济学、地理学等学科学者的广泛关注。电子信息产业作为影响全球经济和国家竞争力的主导产业,已被我国确定为国家重点扶持的高新技术产业和战略性新兴产业。长三角地区作为我国经济发展最具活力的区域,其电子信息产业的发展在全国电子信息产业中地位举足轻重,但同时也存在产业创新能力差、产品附

学位

长三角地区电子信息产业产学研合作创新网络

基于可视化技术的网络协议分析

研究TCP／UDP协议过程分析方法以及基于可视化技术的协议实现过程．实现一个基于Linux和GTK＋网络协议分析软件。通过对TCP／UDP协议的可视化分析，追溯网络数据的传输过程．将网络数据之

期刊

协议分析协议可视化TCP/UDP协议Protocol Analysis Protocol Visualization TCP/UDP Protocoi

macOS平台系统调用监测技术应用研究及通用框架实现

随着macOS系统的越来越流行,各种针对macOS系统的攻击行为和恶意软件越来越多,安全形势越来越严峻。而macOS系统的安全研究相对不足。系统调用是操作系统用户空间与内核空间

学位

macOS系统调用hooking行为监测恶意软件

基于层级深度强化学习的间歇控制算法

其他学术论文