论文部分内容阅读
摘 要:陆军作为一个历史悠久的兵种,同样也是我国人民解放军的主力部队之一,其作战策略极为重要。鉴于此,本文对深度强化学习的重要性进行阐述,通过强化学习的特点作用进行分析,又对深度强化学习下的陆军分队战术的模式进行分析,并且提出了几点的建议,此次研究的主要目的是为了强化学习方式,相应建立神经网路结构,促进其拥有更加正确科学的预测,便利深入的对陆军分队战术决策进行研究。
关键词:深度强化学习;陆军分队战术;战术决策研究
前言:随着时代的发展以及科技的普及运用,军事方面也越来越重视信息技术的使用,陆军分队战术决策问题一直是非常关键的难题,需要考虑如何准确科学的规划行动方案,如何在多种策略中进行高效率的筛选,最终选择出能符合当时作战环境的行为方案,并且能够实现总体回报利益最大值。目前,强化学习的应用帮助指挥人员作出智能的判断,准确反映现场状态与情形,并快速准确提供决策方案,极大的节省了时间以及人力。
一、深度强化学习的必要性
强化学习在信息科学领域又称评价学习,是一项机器学习方法,一般应用于智能机器人的计算分析问题等领域,强化学习也是一种计算机反映从周围状态到做出反应行动的学习过程现象,以利于寻求最佳行为策略,从而获得最大利益回报指数,强化学习是并不是直接呈现正确的行为,而是根据状态反映出的信号去智能计算对应的动作,且对动作有一定的评价体系。在陆军分队战术决策中,深度强化学习是非常有必要的,因其产生自心理学的动作理论,其神经网络反映大脑在作反馈的运行系统,根据现场状态环境实时的更新其深度网络,有利于指挥员积累经验,正确有效的指导陆军分队作出连续的动作,为陆军分队战术问题提供决策参考。
二、深度强化学习下的陆军分队战术模式分析
(一)基于马尔可夫决策下的陆军分队战术
陆军分队战术在决策事务上通过深度学习方式,可以达到分散武装空间与持续性状态时段共同得到深度强化的学习过程,马尔可夫决策的简称是MDP,其决策过程是通过马尔可夫原理理论的任意变换动态的模式的一种最佳决策过程,一般根据某一时段的情况,在多种可行方案里选择最优的进行,具有随机性和时效性,是决策领域中最为主要依靠的方法,也可称为马尔可夫任意动态计划。基于马尔可夫决策下的在陆军分队战术决策中可分为四种模式A、S、P、R,既states(现状式);action(动作反应);P是在某状态下采取某种行动后,又会回到原来状态的几率;R是某种状态下采取一定的行动之后得到的总体回报,还有一种表示某种状态下采取一定的行动之后得到的即使回报是r,
马尔可夫决策就是实现陆军分队作战的利益回报最大化,陆军作战行动演练中,现场环境与队伍移动的交互状态,每过一段时间陆军可以根据周围环境表现出一个状态S,再作出相应的行动A,接着演练会得到下一个A1、S1以及相应的回报r,这样便会寻求到最好的方法,指的就是队伍演练中的到最大的总体回报,通过马尔可夫决策能够达到深度强化学习的目标,从而找到最佳的解决策略。
(二)逆向强化学习下的陆军分队战术
强化学习是指在要求总体回报指数最大化时的一种最优方法,在求解过程中立即回报是人为给定的,但立即回报很难指定无法得到回报函数。而逆向强化学习就是将以往的学习经验知识,在重新进行利用创新,可以通过逆向强化帮助设计回报函数等情况。通过陆军分队作战实际过程当中可以得出,分散武装空间与持续性状态时段会因其取值发生变化,进而不断的呈现向上增长趋势,但在众多任务中,尤其是复杂的任务中,面对范围广错综复杂的情况想要找到最佳解决策略是非常困难的,就算是采用大面积搜索对于普通的计算机也是很大的挑战。因此,通常情况下陆军战术决策相关人员不会简单直接的去计算机查找,大多都会根据个人的陆军作战演练经验,将以往的各种战术策略进行优化总结,像这样重新利用过去的信息资源,就是回报函数问题,陆军分队作战策略会产生大量的作战数据信息,其中涉及到非常多珍贵的高质的从状态到做出反应动作一系列的典范数据,这些都体现了陆军分队决策人员的优秀智慧。在逆向强化学习中,陆军分队作战时的状态s和相应反映行为a都是给定的,分队在根据给定的策略进行实施时,就会出现一个策略轨迹,为作战指挥员提供一个计算机智能化下的决策作为参考,相当于在一定的回报函数中找到最大利益回报点,该最大回报的策略轨迹和典范轨迹相同。
(三)陆军分队战术基于DQN及仿真下的决策推演
基于DQN下的陆军分队作战基本原理就是,通过建立深度网络,指导分队作战策略环境中的决策函数,基于回报函数不停的求解最佳的函数,最终取得高质量高回报的策略轨迹数据,深度强化学习的基础就是陆军分队作战的模拟真实的场景,也称为仿真演练,其应当包括的内容有,一是二D或者三D的地貌形态,二是作战分队必备的设定其中有射击距离、射击命中率、切换枪弹时间以及枪械噪音后坐力等,三是作战人员可见程度、伤害模型以及枪械射击的声音传播程度等。在仿真演练过程当中可以改变原有脚本,增加新的突发事故,比如可以将一方队伍人数增多,另一方队伍人数损伤,还可以在交通要塞制造堵塞等,以此来锻炼陆军的应急能力和作战技能。将特殊作战分队决策作为研究问题的对象,其策略问题可以看成是通过一系列的射击动作下蹲进行选择,最后完成清除任务到达目的地的过程,也是强化学习目的的一种方式。
结论:在此次研究中,主要闡述了深度强化学习的必要性,并对深度强化学习下的陆军分队战术模式分析,主要包括:基于马尔可夫决策下的陆军分队战术:、逆向强化学习下的陆军分队战术、陆军分队战术基于DQN及仿真下的决策推演。通过MDP决策过程分析,加强强化学习与逆向强化学习的应用,完善强化学习的系统以及体制,最终保证陆军作战的指挥策略的准确性以及科学性,望此次研究的内容能为实际提供帮助。
参考文献:
[1]茅洁,谷倩.深度学习优化作战战术算法的丛林项目技战术决策研究[J].运动,2016,10(18):5-6.
[2]李洪兴.美国陆军提高战术分队的赛博能力[J].现代军事,2016,6(4):25-25.
[3]唐凯,柏彦奇.陆军战术级装备保障系统仿真概念模型六视图体系结构研究[J].军械工程学院学报,2015,4(5):1-6.
[4]张伟,何天鹏.陆军合成分队中侦察无人机的机动仿真研究[J].兵器装备工程学报,2015,36(9):5-9.
[5]陈希亮,张永亮.基于高度强化学习的陆军分队战术决策问题研究[J].军事运筹与系统工程,2017,7(3).
关键词:深度强化学习;陆军分队战术;战术决策研究
前言:随着时代的发展以及科技的普及运用,军事方面也越来越重视信息技术的使用,陆军分队战术决策问题一直是非常关键的难题,需要考虑如何准确科学的规划行动方案,如何在多种策略中进行高效率的筛选,最终选择出能符合当时作战环境的行为方案,并且能够实现总体回报利益最大值。目前,强化学习的应用帮助指挥人员作出智能的判断,准确反映现场状态与情形,并快速准确提供决策方案,极大的节省了时间以及人力。
一、深度强化学习的必要性
强化学习在信息科学领域又称评价学习,是一项机器学习方法,一般应用于智能机器人的计算分析问题等领域,强化学习也是一种计算机反映从周围状态到做出反应行动的学习过程现象,以利于寻求最佳行为策略,从而获得最大利益回报指数,强化学习是并不是直接呈现正确的行为,而是根据状态反映出的信号去智能计算对应的动作,且对动作有一定的评价体系。在陆军分队战术决策中,深度强化学习是非常有必要的,因其产生自心理学的动作理论,其神经网络反映大脑在作反馈的运行系统,根据现场状态环境实时的更新其深度网络,有利于指挥员积累经验,正确有效的指导陆军分队作出连续的动作,为陆军分队战术问题提供决策参考。
二、深度强化学习下的陆军分队战术模式分析
(一)基于马尔可夫决策下的陆军分队战术
陆军分队战术在决策事务上通过深度学习方式,可以达到分散武装空间与持续性状态时段共同得到深度强化的学习过程,马尔可夫决策的简称是MDP,其决策过程是通过马尔可夫原理理论的任意变换动态的模式的一种最佳决策过程,一般根据某一时段的情况,在多种可行方案里选择最优的进行,具有随机性和时效性,是决策领域中最为主要依靠的方法,也可称为马尔可夫任意动态计划。基于马尔可夫决策下的在陆军分队战术决策中可分为四种模式A、S、P、R,既states(现状式);action(动作反应);P是在某状态下采取某种行动后,又会回到原来状态的几率;R是某种状态下采取一定的行动之后得到的总体回报,还有一种表示某种状态下采取一定的行动之后得到的即使回报是r,
马尔可夫决策就是实现陆军分队作战的利益回报最大化,陆军作战行动演练中,现场环境与队伍移动的交互状态,每过一段时间陆军可以根据周围环境表现出一个状态S,再作出相应的行动A,接着演练会得到下一个A1、S1以及相应的回报r,这样便会寻求到最好的方法,指的就是队伍演练中的到最大的总体回报,通过马尔可夫决策能够达到深度强化学习的目标,从而找到最佳的解决策略。
(二)逆向强化学习下的陆军分队战术
强化学习是指在要求总体回报指数最大化时的一种最优方法,在求解过程中立即回报是人为给定的,但立即回报很难指定无法得到回报函数。而逆向强化学习就是将以往的学习经验知识,在重新进行利用创新,可以通过逆向强化帮助设计回报函数等情况。通过陆军分队作战实际过程当中可以得出,分散武装空间与持续性状态时段会因其取值发生变化,进而不断的呈现向上增长趋势,但在众多任务中,尤其是复杂的任务中,面对范围广错综复杂的情况想要找到最佳解决策略是非常困难的,就算是采用大面积搜索对于普通的计算机也是很大的挑战。因此,通常情况下陆军战术决策相关人员不会简单直接的去计算机查找,大多都会根据个人的陆军作战演练经验,将以往的各种战术策略进行优化总结,像这样重新利用过去的信息资源,就是回报函数问题,陆军分队作战策略会产生大量的作战数据信息,其中涉及到非常多珍贵的高质的从状态到做出反应动作一系列的典范数据,这些都体现了陆军分队决策人员的优秀智慧。在逆向强化学习中,陆军分队作战时的状态s和相应反映行为a都是给定的,分队在根据给定的策略进行实施时,就会出现一个策略轨迹,为作战指挥员提供一个计算机智能化下的决策作为参考,相当于在一定的回报函数中找到最大利益回报点,该最大回报的策略轨迹和典范轨迹相同。
(三)陆军分队战术基于DQN及仿真下的决策推演
基于DQN下的陆军分队作战基本原理就是,通过建立深度网络,指导分队作战策略环境中的决策函数,基于回报函数不停的求解最佳的函数,最终取得高质量高回报的策略轨迹数据,深度强化学习的基础就是陆军分队作战的模拟真实的场景,也称为仿真演练,其应当包括的内容有,一是二D或者三D的地貌形态,二是作战分队必备的设定其中有射击距离、射击命中率、切换枪弹时间以及枪械噪音后坐力等,三是作战人员可见程度、伤害模型以及枪械射击的声音传播程度等。在仿真演练过程当中可以改变原有脚本,增加新的突发事故,比如可以将一方队伍人数增多,另一方队伍人数损伤,还可以在交通要塞制造堵塞等,以此来锻炼陆军的应急能力和作战技能。将特殊作战分队决策作为研究问题的对象,其策略问题可以看成是通过一系列的射击动作下蹲进行选择,最后完成清除任务到达目的地的过程,也是强化学习目的的一种方式。
结论:在此次研究中,主要闡述了深度强化学习的必要性,并对深度强化学习下的陆军分队战术模式分析,主要包括:基于马尔可夫决策下的陆军分队战术:、逆向强化学习下的陆军分队战术、陆军分队战术基于DQN及仿真下的决策推演。通过MDP决策过程分析,加强强化学习与逆向强化学习的应用,完善强化学习的系统以及体制,最终保证陆军作战的指挥策略的准确性以及科学性,望此次研究的内容能为实际提供帮助。
参考文献:
[1]茅洁,谷倩.深度学习优化作战战术算法的丛林项目技战术决策研究[J].运动,2016,10(18):5-6.
[2]李洪兴.美国陆军提高战术分队的赛博能力[J].现代军事,2016,6(4):25-25.
[3]唐凯,柏彦奇.陆军战术级装备保障系统仿真概念模型六视图体系结构研究[J].军械工程学院学报,2015,4(5):1-6.
[4]张伟,何天鹏.陆军合成分队中侦察无人机的机动仿真研究[J].兵器装备工程学报,2015,36(9):5-9.
[5]陈希亮,张永亮.基于高度强化学习的陆军分队战术决策问题研究[J].军事运筹与系统工程,2017,7(3).