基于深度强化学习的陆军分队战术决策问题研究

来源 :科学与财富 | 被引量 : 0次 | 上传用户：MaoZeDongNiMaBi2005

【摘要】

：

【作者】

：

李阔方晨昕王哲

【出处】

：

科学与财富

【发表日期】

：

2018年7期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：陆军作为一个历史悠久的兵种，同样也是我国人民解放军的主力部队之一，其作战策略极为重要。鉴于此，本文对深度强化学习的重要性进行阐述，通过强化学习的特点作用进行分析，又对深度强化学习下的陆军分队战术的模式进行分析，并且提出了几点的建议，此次研究的主要目的是为了强化学习方式，相应建立神经网路结构，促进其拥有更加正确科学的预测，便利深入的对陆军分队战术决策进行研究。
　　关键词：深度强化学习；陆军分队战术；战术决策研究
　　前言：随着时代的发展以及科技的普及运用，军事方面也越来越重视信息技术的使用，陆军分队战术决策问题一直是非常关键的难题，需要考虑如何准确科学的规划行动方案，如何在多种策略中进行高效率的筛选，最终选择出能符合当时作战环境的行为方案，并且能够实现总体回报利益最大值。目前，强化学习的应用帮助指挥人员作出智能的判断，准确反映现场状态与情形，并快速准确提供决策方案，极大的节省了时间以及人力。
　　一、深度强化学习的必要性
　　强化学习在信息科学领域又称评价学习，是一项机器学习方法，一般应用于智能机器人的计算分析问题等领域，强化学习也是一种计算机反映从周围状态到做出反应行动的学习过程现象，以利于寻求最佳行为策略，从而获得最大利益回报指数，强化学习是并不是直接呈现正确的行为，而是根据状态反映出的信号去智能计算对应的动作，且对动作有一定的评价体系。在陆军分队战术决策中，深度强化学习是非常有必要的，因其产生自心理学的动作理论，其神经网络反映大脑在作反馈的运行系统，根据现场状态环境实时的更新其深度网络，有利于指挥员积累经验，正确有效的指导陆军分队作出连续的动作，为陆军分队战术问题提供决策参考。
　　二、深度强化学习下的陆军分队战术模式分析
　　（一）基于马尔可夫决策下的陆军分队战术
　　陆军分队战术在决策事务上通过深度学习方式，可以达到分散武装空间与持续性状态时段共同得到深度强化的学习过程，马尔可夫决策的简称是MDP，其决策过程是通过马尔可夫原理理论的任意变换动态的模式的一种最佳决策过程，一般根据某一时段的情况，在多种可行方案里选择最优的进行，具有随机性和时效性，是决策领域中最为主要依靠的方法，也可称为马尔可夫任意动态计划。基于马尔可夫决策下的在陆军分队战术决策中可分为四种模式A、S、P、R，既states（现状式）；action（动作反应）；P是在某状态下采取某种行动后，又会回到原来状态的几率；R是某种状态下采取一定的行动之后得到的总体回报，还有一种表示某种状态下采取一定的行动之后得到的即使回报是r，
　　马尔可夫决策就是实现陆军分队作战的利益回报最大化，陆军作战行动演练中，现场环境与队伍移动的交互状态，每过一段时间陆军可以根据周围环境表现出一个状态S，再作出相应的行动A，接着演练会得到下一个A1、S1以及相应的回报r，这样便会寻求到最好的方法，指的就是队伍演练中的到最大的总体回报，通过马尔可夫决策能够达到深度强化学习的目标，从而找到最佳的解决策略。
　　（二）逆向强化学习下的陆军分队战术
　　强化学习是指在要求总体回报指数最大化时的一种最优方法，在求解过程中立即回报是人为给定的，但立即回报很难指定无法得到回报函数。而逆向强化学习就是将以往的学习经验知识，在重新进行利用创新，可以通过逆向强化帮助设计回报函数等情况。通过陆军分队作战实际过程当中可以得出，分散武装空间与持续性状态时段会因其取值发生变化，进而不断的呈现向上增长趋势，但在众多任务中，尤其是复杂的任务中，面对范围广错综复杂的情况想要找到最佳解决策略是非常困难的，就算是采用大面积搜索对于普通的计算机也是很大的挑战。因此，通常情况下陆军战术决策相关人员不会简单直接的去计算机查找，大多都会根据个人的陆军作战演练经验，将以往的各种战术策略进行优化总结，像这样重新利用过去的信息资源，就是回报函数问题，陆军分队作战策略会产生大量的作战数据信息，其中涉及到非常多珍贵的高质的从状态到做出反应动作一系列的典范数据，这些都体现了陆军分队决策人员的优秀智慧。在逆向强化学习中，陆军分队作战时的状态s和相应反映行为a都是给定的，分队在根据给定的策略进行实施时，就会出现一个策略轨迹，为作战指挥员提供一个计算机智能化下的决策作为参考，相当于在一定的回报函数中找到最大利益回报点，该最大回报的策略轨迹和典范轨迹相同。
　　（三）陆军分队战术基于DQN及仿真下的决策推演
　　基于DQN下的陆军分队作战基本原理就是，通过建立深度网络，指导分队作战策略环境中的决策函数，基于回报函数不停的求解最佳的函数，最终取得高质量高回报的策略轨迹数据，深度强化学习的基础就是陆军分队作战的模拟真实的场景，也称为仿真演练，其应当包括的内容有，一是二D或者三D的地貌形态，二是作战分队必备的设定其中有射击距离、射击命中率、切换枪弹时间以及枪械噪音后坐力等，三是作战人员可见程度、伤害模型以及枪械射击的声音传播程度等。在仿真演练过程当中可以改变原有脚本，增加新的突发事故，比如可以将一方队伍人数增多，另一方队伍人数损伤，还可以在交通要塞制造堵塞等，以此来锻炼陆军的应急能力和作战技能。将特殊作战分队决策作为研究问题的对象，其策略问题可以看成是通过一系列的射击动作下蹲进行选择，最后完成清除任务到达目的地的过程，也是强化学习目的的一种方式。
　　结论：在此次研究中，主要闡述了深度强化学习的必要性，并对深度强化学习下的陆军分队战术模式分析，主要包括：基于马尔可夫决策下的陆军分队战术：、逆向强化学习下的陆军分队战术、陆军分队战术基于DQN及仿真下的决策推演。通过MDP决策过程分析，加强强化学习与逆向强化学习的应用，完善强化学习的系统以及体制，最终保证陆军作战的指挥策略的准确性以及科学性，望此次研究的内容能为实际提供帮助。
　　参考文献：
　　[1]茅洁，谷倩.深度学习优化作战战术算法的丛林项目技战术决策研究[J].运动，2016，10（18）：5-6.
　　[2]李洪兴.美国陆军提高战术分队的赛博能力[J].现代军事，2016，6（4）：25-25.
　　[3]唐凯，柏彦奇.陆军战术级装备保障系统仿真概念模型六视图体系结构研究[J].军械工程学院学报，2015，4（5）：1-6.
　　[4]张伟，何天鹏.陆军合成分队中侦察无人机的机动仿真研究[J].兵器装备工程学报，2015，36（9）：5-9.
　　[5]陈希亮，张永亮.基于高度强化学习的陆军分队战术决策问题研究[J].军事运筹与系统工程，2017，7（3）.

其他文献

香港理工大学护理本科教育见闻及启示

摘要：香港理工大学护理本科教育有一定特色，着重于理论和实践相交叉的教学模式，让护生在专业和实践能力上都能相互发展。该文通过介绍香港理工大学护理学院的课程目标、课程、课程类型、学分要求等方面来分析其课程设置的特点，例如混合式学习和以问题为导向的教学方法等。结合我国护理教育的现状，借鉴香港理工大学护理本科教育的先进经验，将护理理论和实践交叉式结合；把人文关怀内化于护理教育中；创新教学方法，鼓励采用以问

期刊

浅析计量装置与电力系统自动化的应用

摘要：随着我国经济的发展，现如今我国在各个领域都取得了卓越的成就，而一直以来，要保障经济持续发展，电力系统自动化必须得不断提升，才能保障电力系统高效正常地运行，使人们的日常生活已经工业生产等各方面都能有条不紊地进行。而要实现电力系统自动化的进步，那么相应的电量计量装置是必不可少的，本文将从计量装置和电力系统自动化的概念、计量装置对实现电力系统自动化的作用、电力系统自动化的发展、应用等方面来对计量装

期刊

市政公用工程项目管理中存在的问题及解决措施

摘要：在现代的城市建设之中，市政公用工程项目是其中最为基础的一部分，市政公用工程项目的施工质量不仅会对城市居民的生活造成较大的影响，而且还会影响到城市的发展，因此加强市政公用工程项目的管理工作显得十分的重要。本文首先对当前我国市政公用工程项目管理中存在的问题展开探讨，然后针对其中表现出来的问题结合笔者自身的实际工作经验，提出相应的解决措施。　　关键词：市政公用工程；项目管理；问题；措施　　当前我

期刊

建立耕地保护的土地管理新机制

摘要：我国是一个农业大国，有着大面积的耕地，所以建立耕地保护的土地管理新机制对于我国的耕地保护以及农业的发展都有着非常重要的影响。耕地保护的工作直接影响着我国的粮食供给。随着我国经济社会的发展，我国的人口数量也呈现出一种不断上升的趋势。但是由于农民意识、政府制度和征收工作的影响，我国对于耕地保护制度的落实存在着不到位的情况，而这种情况的存在严重的影响了农民的生活，也对于我国农业的发展造成了一定

期刊

无轨胶轮车在煤矿辅助运输系统中的应用探讨

摘要：无轨胶轮车在当前很多煤炭企业中都得到了较为理想的运用，其作为煤矿辅助运输系统中比较重要的一个基本类型，确实表现出了较为突出的作用价值，能够明显提升传统煤矿辅助运输效率，优势较为明显。本文就重点围绕着无轨胶轮车在煤矿辅助运输系统中的有效应用进行了简要分析论述，希望能够具备一定参考价值。　　关键词：无轨胶轮车；煤矿辅助运输系统；应用　　引言　　随着当前我国煤炭企业的不断发展，重点从煤矿开采的各个

期刊

建设冶金工程实践教育示范中心的实践与探索

摘要：炼工程作为一个新兴的产业，需要大量优秀的工程师，为了工程师的培养我们应该从四个方面开展，即目标定位、体系建设、平台建设和培养机制从这四个方面着手，四然后再对冶金工程实践教育示范中心的建设思路展开探讨，构建了"三层次、四结合、五模块"的实验教学体系，搭建了"基础、综合、创新"三层次的实验平台，为培养人才建立一个良好的平台，从而实现人才的培养。　　关键词：卓越工程师；实践教育示范中心；冶金工程

期刊

数学活动的初心

摘要：数学课堂设计目标是为了提高孩子学习数学的能力，锻炼其数学思维，提高数学逻辑能力等数学的核心素质，而有效的数学活动就是为了让数学课堂高效达到课堂目标。所以在数学活动的设计中，要坚持数学活动的初心是高效课堂。　　数学活动是为了使课堂教学能有效的开展，并高效完成其教学目标而展开的教学方式。数学课程标准“要求学生的情感态度是积极参与数学活动，对数学有好奇心和求知欲”。有效的数学活动能积极调动学生

期刊

关于运行质量安全检查工作的认识和思考

摘要：本文从基层运行检查工作中的一个检查实例入手，反映了基层业务单位运行质量安全检查工作在质量安全管理体系（QSMS）建设中起的重要作用，也反映出空管运行安全管理工作近几年来的发展变化。　　关键词：运行质量安全检查错忘漏；完善制度；安全标准化；质量安全管理体系　　0 引言　　自2011年4月至今，我作为气象中心的安全检查员，一直参加中心每月一次的运行质量安全检查，几年过去，我对这项工作的认

期刊

创新教育引入健美操课程教学中的实践性研究

摘要：创新是国家民族进步的不竭动力，教育是培养创新精神的第一阵地，是国家实现创新发展的主要动力源泉，创新教育决定民族未来。本文通过采用文献资料法、访谈法、特尔菲法、数理统计法对创新教育引入健美操课程教学进行了实践性研究，主要是通过调整课程结构、改革教学方法，优化教学评价方式等来达到创新教育的核心目的，注重启发，创设自主，鼓励创新，让学生成为学习的主人，成为创新的主体。　　关键词：创新教育；健

期刊

基于虚拟仪器的数据采集与分析系统研究与设计

摘要：虚拟仪器为测量工作的发展开拓了新的方向。基于此，本文分别从系统结构设计、接口总线设计两方面，分析基于虚拟仪器的数据采集与分析系统的总线设计，并从硬件设计、软件设计两方面，阐述数据采集与分析系统的详细设计流程，以期为虚拟仪器与数据采集、处理工作的融合奠定理论基础。　　关键词：虚拟仪器；数据采集与分析系统；信号发生器　　前言：传统测量工具的功能及使用要求限制了信号分析工作的发展。在铁路信号

期刊

基于深度强化学习的陆军分队战术决策问题研究

其他学术论文