论文部分内容阅读
目前国内外大型船舶平台越来越多地依赖计算机仿真技术对作战问题进行研究,而JZJ作为大型船舶的直接战斗力,其在作战任务中站位间的转运效率与策略对战斗力有着很大的影响。为了减少人为操作的工作量,提高某大型军工演示系统的智能性,论文借助深度强化学习的思路,而没有使用传统的人工规划路径的方式。论文通过大量的算法训练,使程序自动训练出符合JZJ运动学模型并满足出库、入库JZJ位姿要求的站位间转运策略,并将转运策略应用在了实际的作战仿真演示系统中。论文首先设计实现二维场景建模工具,可以将原始仿真甲板环境迁移到强化学习环境中,为算法中场景和JZJ建模,对场景进行基于甲板实体布局的区域划分,并设计符合JZJ运动学模型的训练单位;之后根据构建强化学习中基本元素的不同方式,提出两种基于深度强化学习的研究方法,分别是动态栅格先直后曲的方法和角度区间内随机游走的方法。这两种方法分别根据JZJ最小转弯半径动态栅格化场景和求解JZJ转运时的单步转向角度区间来保证最终的转运策略符合JZJ运动学规范;接下来针对每一个研究方法,论文设计实现了两种不同的基于强化学习方法的站位间转运策略训练算法,在栅格化方法中分别使用Q-Learning和Sarsa(lambda)的算法思想得到转运的折线路径,然后使用论文中所完成的折线变曲线通用算法获得较优的转运策略。在另一个研究方法中,论文设计实现了基于DQN和DDPG的深度强化学习算法,通过算法对JZJ在甲板场景中的自由游走过程的大量训练,学习出相对较优的站位间转运策略;最后通过大量实验对两种研究方法中不同强化学习算法的训练效率与训练效果进行对比,并设计路径可视化评价工具对算法结果进行直观展示,最终建立策略评价函数对转运策略中的七个因素进行归一化评价。经过大量实验与项目中的实际应用,论文设计并实现的基于深度强化学习的站位间转运策略算法满足仿真中各方面的需求,大大减少了人工编排路径的工作量,有效提升了原有仿真演示系统的智能性。