基于深度强化学习的小行星探测器跳跃轨迹规划研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:qwertasdfg122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
小行星的微重力环境使得传统的轮式探测器难以完成小行星表面勘测任务,而采用跳跃移动方案的探测器可以轻易越过各类障碍物,能够很好地适应小行星环境,以更低的能源消耗探测更大的范围。但目前的跳跃式小行星探测器相关研究中很少有对其跳跃轨迹规划进行研究,尤其缺乏大范围转移的探测器连续跳跃轨迹规划研究。因此,本文在深入研究深度强化学习后将其应用于跳跃轨迹规划研究,针对平坦地面情况和避障任务分别设计了相应的人工神经网络,使用深度强化学习算法进行训练,并进行了仿真测试验证。论文主要研究内容如下:将小行星探测器设计为在质心处安装有三轴正交飞轮的理想刚性立方体,对探测器在小行星表面的跳跃移动过程进行了建模,并完成了在无控条件下的跳跃移动仿真,分析表明探测器在碰撞前的状态是改变跳跃轨迹的决定因素。接着分析了基于碰撞点速度方向的简单跳跃轨迹控制策略,指出其转向角度难以精确控制,且在长远距离的跳跃移动中会由于碰撞导致速度下降,难以完成跳跃移动任务,因此需要对探测器的跳跃轨迹规划进行进一步的研究。在深入研究深度强化学习算法的基础上,基于深度确定性策略梯度算法框架设计了相应的网络结构,对探测器的跳跃轨迹规划策略进行学习。考虑到深度强化学习所需的大量数据与仿真计算的高耗时之间的冲突,将在探测器跳跃轨迹规划任务中并不重要的空中飞行过程进行合理简化,有效减少了仿真所需时间。若仅对探测器到达目标进行奖赏,会使奖赏值过于稀疏,不利于训练,因此针对跳跃移动任务设计了合理的单步奖赏值,加速了训练过程。将小行星表面视作理想的平坦地面,采用前馈神经网络作为策略网络,使用深度强化学习算法进行大量仿真数据的训练后,在仿真测试中表现出了良好的性能,能有效的在任意初始位置与速度完成向目标点的跳跃移动。接着考虑了小行星表面存在的地形崎岖区域,将其视作探测器所要避免与地面接触的障碍区域,要求跳跃轨迹规划策略具有避障能力。基于此,引入了价值迭代网络的思想,使用价值迭代网络对含有障碍区域位置信息的栅格地图进行处理,提取出有效的避障特征,再和探测器的其余特征融合。在对嵌有价值迭代网络的策略网络进行训练后,仿真测试结果表明通过引入价值迭代网络,使网络学习到的策略具有了一定的避障能力,其在各项任务中表现都超过了前述的前馈神经网络。
其他文献
文章用基于保险深度的指标对我国保险地区差异进行测算,运用基尼系数的子群分解在八大区域的基础上进行地区差异内部与区域之间的分解,找到影响地区保险差异的重点地区。同时,测
以次贷危机前后的中美股票市场为研究对象,以小波多尺度相关系数为研究工具,分析中美股市间的市场同步现象,检验两种不同渠道的风险传染模式对我国资本市场的影响。研究表明,中美
秦代法制多以血腥、黑暗、残酷的形象出现,而在文献资料中深入研究后,发现秦代也有法文明的一面。文章侧重对秦代的刑罚执行制度进行梳理,以现今视角来看,其刑罚实施上确有残
综述了聚合物基磁性复合材料的组成、制备、用途,介绍了作者的最新研究情况,并研讨了今后聚合物基磁性复合材料的发展、应用前景及制备方法的发展方向.
据“British Plastics & Rubbes”,2007,(May):24报道,土耳其从美国Cincinnati Milacron(辛辛那提·米拉克隆)挤出系统公司引进塑木复合材料(wPc)专用挤出生产线,主机TC86型锥型双螺
应用流动可视化技术,考察了低密度聚乙烯熔体流径突然收缩轴对称口模时的入口收敛流型。发现在口模入口前区的两侧存在明显的环流区;环流区长度(LV)随着挤出速率和流道收缩比的增加
索票索证是确保流通环节保健食品质量、防止销售假冒伪劣产品的重要措施。经营企业在购进保健食品时,必须要索取供货商的资质、产品相关证明材料及有效的票据,这也是保健食品日
报纸
目前,高职院校体育教学存在诸多的问题,主要表现在:体育师资力量不足与教学观念落后;体育教学内容与方法单一:体育教学培养目标与社会需求不协调等方面。要走出困境,高职院校就必须
破产法作为市场经济的宪法,具有公平、公正、效率的价值。破产制度的清算程序、重整程序和和解程序在处置僵尸企业过程中发挥着重要作用。在处置僵尸企业过程中应注意解决好
作为目前我国公共服务和基础设施领域中的一种管理运营和项目投融资模式,社会资本和政府合作(PPP)发挥了非常关键的作用。PPP项目存在项目公司和设计施工单位一体化、设计和