论文部分内容阅读
小行星的微重力环境使得传统的轮式探测器难以完成小行星表面勘测任务,而采用跳跃移动方案的探测器可以轻易越过各类障碍物,能够很好地适应小行星环境,以更低的能源消耗探测更大的范围。但目前的跳跃式小行星探测器相关研究中很少有对其跳跃轨迹规划进行研究,尤其缺乏大范围转移的探测器连续跳跃轨迹规划研究。因此,本文在深入研究深度强化学习后将其应用于跳跃轨迹规划研究,针对平坦地面情况和避障任务分别设计了相应的人工神经网络,使用深度强化学习算法进行训练,并进行了仿真测试验证。论文主要研究内容如下:将小行星探测器设计为在质心处安装有三轴正交飞轮的理想刚性立方体,对探测器在小行星表面的跳跃移动过程进行了建模,并完成了在无控条件下的跳跃移动仿真,分析表明探测器在碰撞前的状态是改变跳跃轨迹的决定因素。接着分析了基于碰撞点速度方向的简单跳跃轨迹控制策略,指出其转向角度难以精确控制,且在长远距离的跳跃移动中会由于碰撞导致速度下降,难以完成跳跃移动任务,因此需要对探测器的跳跃轨迹规划进行进一步的研究。在深入研究深度强化学习算法的基础上,基于深度确定性策略梯度算法框架设计了相应的网络结构,对探测器的跳跃轨迹规划策略进行学习。考虑到深度强化学习所需的大量数据与仿真计算的高耗时之间的冲突,将在探测器跳跃轨迹规划任务中并不重要的空中飞行过程进行合理简化,有效减少了仿真所需时间。若仅对探测器到达目标进行奖赏,会使奖赏值过于稀疏,不利于训练,因此针对跳跃移动任务设计了合理的单步奖赏值,加速了训练过程。将小行星表面视作理想的平坦地面,采用前馈神经网络作为策略网络,使用深度强化学习算法进行大量仿真数据的训练后,在仿真测试中表现出了良好的性能,能有效的在任意初始位置与速度完成向目标点的跳跃移动。接着考虑了小行星表面存在的地形崎岖区域,将其视作探测器所要避免与地面接触的障碍区域,要求跳跃轨迹规划策略具有避障能力。基于此,引入了价值迭代网络的思想,使用价值迭代网络对含有障碍区域位置信息的栅格地图进行处理,提取出有效的避障特征,再和探测器的其余特征融合。在对嵌有价值迭代网络的策略网络进行训练后,仿真测试结果表明通过引入价值迭代网络,使网络学习到的策略具有了一定的避障能力,其在各项任务中表现都超过了前述的前馈神经网络。