【摘 要】
:
DDPG算法是一种端到端的深度强化学习算法,主要用于解决仿真任务。DDPG能够在具有高维度动作空间的任务中取得接近人类的水平,然而当任务的复杂性提高时,DDPG存在收敛时间长
【机 构】
:
同济大学电子与信息工程学院计算机科学与技术系
【基金项目】
:
国家自然科学基金(No.91748122).
论文部分内容阅读
DDPG算法是一种端到端的深度强化学习算法,主要用于解决仿真任务。DDPG能够在具有高维度动作空间的任务中取得接近人类的水平,然而当任务的复杂性提高时,DDPG存在收敛时间长和最终效果差的问题。为了提高在复杂任务环境中算法的收敛速度和最终效果,提出一种基于间歇控制框架的层级深度确定性策略梯度算法(HDDPG)用于完成仿真任务。首先在间歇控制原则下对复杂的任务进行策略上的分解,分解后的子任务间具有层级的架构和较为单一的优化目标,然后在最小转换原则下使用DDPG算法针对多个层级任务寻找最优解。使用DDPG和HD-DPG算法分别在轨迹追踪仿真任务中进行对比实验,实验结果证明在复杂连续运动控制任务上HDDPG相对DDPG算法具有更快的收敛速度和更好的实验结果。
其他文献
社区戒毒相对于强制隔离戒毒的"惩罚性"而言是一种"社会性"的福利制度,但在合理性、戒毒效果评估等方面还存在诸多缺陷,在实践运行中还存在"行政化主导""缺乏社会力量民主参
高技术条件下的空中对抗,为了能够对敌方目标的航迹和状态进行有效预测,需要对其三维航迹进行分析与仿真。国内外对目标航迹进行分析与模拟时,多数将其看成简单的直线运动或
经济全球化背景下,创新在经济发展中的影响日新月异。创新网络作为区域间创新要素共享、创新主体合作、创新成果转化的重要载体,引起经济学、地理学等学科学者的广泛关注。电子信息产业作为影响全球经济和国家竞争力的主导产业,已被我国确定为国家重点扶持的高新技术产业和战略性新兴产业。长三角地区作为我国经济发展最具活力的区域,其电子信息产业的发展在全国电子信息产业中地位举足轻重,但同时也存在产业创新能力差、产品附
研究TCP/UDP协议过程分析方法以及基于可视化技术的协议实现过程.实现一个基于Linux和GTK+网络协议分析软件。通过对TCP/UDP协议的可视化分析,追溯网络数据的传输过程.将网络数据之
随着macOS系统的越来越流行,各种针对macOS系统的攻击行为和恶意软件越来越多,安全形势越来越严峻。而macOS系统的安全研究相对不足。系统调用是操作系统用户空间与内核空间