【摘 要】
:
随着强化学习算法在机器人场景上的应用与发展,此类算法表现出了巨大的潜力;同时,模拟框架的出现为基于强化学习算法的机器人训练任务提供了一个便利的训练方式。但是,大多数强化学习训练任务仍然是在单物理节点上运行,物理节点的性能成为了限制训练任务执行效率的一个瓶颈,迫切需要寻找一种途径解决单物理节点的性能限制问题;同时,强化学习算法在分布式平台上运行时会因为物理网络的延迟增加时间消耗,因此,有必要对通信开
论文部分内容阅读
随着强化学习算法在机器人场景上的应用与发展,此类算法表现出了巨大的潜力;同时,模拟框架的出现为基于强化学习算法的机器人训练任务提供了一个便利的训练方式。但是,大多数强化学习训练任务仍然是在单物理节点上运行,物理节点的性能成为了限制训练任务执行效率的一个瓶颈,迫切需要寻找一种途径解决单物理节点的性能限制问题;同时,强化学习算法在分布式平台上运行时会因为物理网络的延迟增加时间消耗,因此,有必要对通信开销进行优化。本文在国内外已有研究的基础之上,设计并实现了一个面向机器人模拟与强化学习的分布式训练平台Re-Ray(即分布式框架Ray的remake版本),为各种强化学习算法在机器人模拟框架上的训练任务提供了一个通用性平台。然后,本文基于进化策略算法提出了ES-RPRS算法,为强化学习算法在分布式场景下的优化提供了新的思路。主要研究工作如下:(1)基于开源的分布式框架Ray,设计并实现了一个面向机器人模拟的分布式训练平台Re-Ray,其主要服务于强化学习算法在机器人模拟应用的训练任务。Re-Ray平台的重点工作:首先,基于分布式框架Ray提出了本平台Re-Ray的架构设计;然后,分别从应用层、分布式框架Ray的适应性修改、多种模拟框架的整合与修改、容器层四个方面完成了训练平台Re-Ray的设计与实现;最后通过实验的对比分析,验证了Re-Ray平台的各方面性能表现。Re-Ray平台既能够为用户提供更丰富的模拟机器人种类与场景,又为用户提供了使用上的便利性。(2)在分布式平台Re-Ray基础之上,针对分布式训练平台网络延迟问题,提出了ES-RPRS算法,该算法能够在提高训练速度的同时具备较低的计算复杂度和高并行性。本文根据分布式场景下对算法的原子性等要求,以及进化策略算法的并行性特点,取消了工作节点间交换内容中的扰动参数,由各工作节点借助共享的随机因子生成扰动参数。在不影响训练效果的情况下,通过削减网络通信开销达到了加速训练任务的目的。最后,对ES-RPRS算法在超参数搜索方面的应用效果进行了测试与验证。
其他文献
随着目前移动互联网技术的高速发展,智能移动终端在消费市场中迅速崛起,成为人们生活中不可或缺的生产生活工具。安卓(Android)作为一。款面向移动端的智能操作系统,自2011年
小学班主任是小学班级教育工作的组织者和领导者,是学生管理工作的责任人,是帮助小学生德、智、体、能全面发展的指导教师,是联系班级中各科教师的纽带,是沟通学校与各种学生组织、家庭和社会的桥梁。作为小学班主任就必须具备足够的胜任力来完成班主任这个工作,从而促进教育的发展,学生的发展。因此本文从“小学班主任胜任力”这一角度,选取延吉市小学班主任作为调研对象,对小学班主任胜任力现状进行调查,从中发现问题,并
新测序技术的数据产生能力已经超越著名的摩尔定律,当前基因组数据正以12-18个月10倍以上的速度增长。数据处理所耗费的时间、人力与经济开销在整个测序流程中所占的比重越来
随着信息时代的来临,人工智能从学术研究转变为应用驱动,智能系统用于认知、识别、分析和决策等方面,其本质和最终目标是模拟人类意识与思维的过程。由于大量数据、复杂的深
目标覆盖问题是无线传感网络(WSNs)中的一个基本问题。以往对目标覆盖问题的研究,大多基于0/1圆盘感知模型,这种监测模型是一种理想化的模型。近年来,人们提出了一种更加符合实际应用场景的概率感知模型。在基于概率感知模型的传感网络中,目标通常需要多个传感器联合监测,因此0/1圆盘感知模型并不适用于概率目标覆盖问题。此外,传统WSNs中的传感器节点由有限容量的电池供电,网络寿命受到能源的限制。随着能量
恶意检测是预测在线社交网络(OSN)中异常帐户或节点的问题。由于该问题适用于多种任务(例如恶意URL或用户内容分类),因此已引起计算机安全领域研究人员的广泛关注,识别恶意帐
近年来,随着生命科学技术不断发展,特别是在高通量测序技术(通常称为下一代测序,Next Generation Sequencing,NGS)的飞速发展推动下,生命科学中生成的数据量大大增加,基因组
近年来,随着经济的快速发展和人口的日益膨胀,汽车数量急剧增加,汽车在给人们提供便利的同时,也给道路交通系统带来严峻挑战,如:交通堵塞,事故频发等,这些都给人们的生命财产
人脸线条画是一种使用简单线条绘制的人脸肖像。在艺术创作、动画网页制作和刑侦安防等领域中,矢量格式的人脸线条画有着广泛的需求。虽然目前与人脸肖像画生成相关的研究已经非常丰富,但在将人脸图像转换为线条矢量图这方面的工作相对空缺。本文研究基于草图提取的人脸矢量化算法,旨在将输入的人脸图像转换为线条画风格的矢量图。本文聚焦于保持线条矢量图中人脸的面部特征及其可编辑性,首次提出双阶段的人脸矢量化算法:第一阶
煤矿资源在推动我国经济发展中具有重要作用,保证矿区的安全生产是矿区作业的首要工作,而准确高效地获取矿区地物信息则能有效辅助安排和部署矿区的安全生产工作。矿区地物类