【摘 要】
:
针对传统深度强化学习中移动机器人在稀疏奖励环境下只有在规定时间步内到达目标位置才能得到积极奖励,中间过程的每一步都是负面奖励的路径规划问题.提出了基于改进深度Q网络的路径规划方法,在移动机器人在探索过程中,对以真实目标为条件的轨迹进行采样,在经验回放过程中,把移动机器人已经到达的状态来代替真正的目标,这样移动机器人可以获得足够的积极奖励信号来开始学习.通过深度卷积神经网络模型,将原始RGB图像作为输入,通过端对端的方法训练,利用置信区间上界探索策略和小批量样本的方法训练神经网络参数,最后得到上、下、左、右
【机 构】
:
沈阳化工大学计算机科学与技术学院 沈阳110142;辽宁省化工过程工业智能化技术重点实验室 沈阳110142
论文部分内容阅读
针对传统深度强化学习中移动机器人在稀疏奖励环境下只有在规定时间步内到达目标位置才能得到积极奖励,中间过程的每一步都是负面奖励的路径规划问题.提出了基于改进深度Q网络的路径规划方法,在移动机器人在探索过程中,对以真实目标为条件的轨迹进行采样,在经验回放过程中,把移动机器人已经到达的状态来代替真正的目标,这样移动机器人可以获得足够的积极奖励信号来开始学习.通过深度卷积神经网络模型,将原始RGB图像作为输入,通过端对端的方法训练,利用置信区间上界探索策略和小批量样本的方法训练神经网络参数,最后得到上、下、左、右4个动作的Q值.在相同的仿真环境中结果表明,该算法提升了采样效率,训练迭代更快,并且更容易收敛,避开障碍物到达终点的成功率增加40%左右,一定程度上解决了稀疏奖励带来的问题.
其他文献
通过分析电力行业对北斗卫星导航系统的应用需求,综合考虑保障北斗地基增强站点的基建、交通、供电、通信及建站征地和后续运维等因素,文章提出将站点选址在变电站内,并通过在35 kV、110 kV和220 kV不同电压等级变电站内进行电磁干扰测试和分析,论证了在复杂电磁环境下变电站内建设北斗地基增强站的可行性,并对现行的北斗地基增强站国家标准内的相关技术指标提出排除建议.
针对当前变电站巡检作业中所面临的现场作业安全和人员到位情况管控难等问题,文章提出了一种基于北斗定位的变电站作业人员行为安全管控系统.该系统首先利用先进的三维激光扫描技术对变电站进行三维建模,构建三维数字地图,再利用超宽带UWB+北斗的一体化定位技术,实现变电站作业人员室内外高精度定位,最后将智能手环、北斗定位终端与电力工作票创新结合,将手环、北斗定位终端与工作负责人以及工作班成员进行一一关联,从而实现对变电站作业人员的实时定位、行为安全的实时监测,远程有效管控整个作业现场情况,把控作业安全风险.
温度参数是电力系统运行状态中需要监控的重要物理量之一,光纤温度传感相较于其他温度传感技术,具有耐腐蚀、抗电磁干扰、低能耗、无源、易部署等诸多优势.文章分析了基于光纤的多种温度测量和传感技术原理、发展及其各自适用的应用场景,讨论了光纤测温技术在电力系统的工程使用情况,得出不同光纤测温技术的应用优势,并展望了光纤测温技术在电力系统应用的发展趋势.
风险预警是系统安全的关键,急需开发与当前大规模风险预警要求相适应的分析计算系统.文章提出了基于故障率和云平台的电网实时风险预警系统策略,从软件和硬件角度提高大规模风险预警的准确性和实时性,分析设备工况变化情况下的实时故障率,将高风险设备逐一进行N–1安全校核,构建实时预想事故集合,进而通过对预想事故的分析实现电网风险预警,并在基于Docker技术的云平台中实现.最后通过运行实例验证了该策略的有效性和快速性.