基于强化学习的战时保障力量调度策略研究

来源 :系统工程与电子技术 | 被引量 : 0次 | 上传用户:cc023061227
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能化后装保障调度是当前军事领域的研究热点之一,其中复杂多变的战场环境要求战时保障具有良好的自适应性.针对此问题,提出了基于马尔可夫决策过程的强化学习模型,能够主动学习最佳派遣策略,根据历史数据和当前态势预判后续变化.为了考虑不确定事件的影响,在模型求解算法中增加了基于概率统计模型的仿真流程;为了减少随机事件带来的计算复杂性,利用决策后状态变量重新设计了贝尔曼迭代方程;为了解决状态空间的维度灾问题,提出了基于基函数组合的近似函数.仿真实验表明,强化学习能力的引入能够显著提高战时保障调度性能.
其他文献
在军事领域中,机载多输入多输出(multiple input multiple output,MIMO)雷达既要探测机动目标,又要防止被截获接收机侦收.针对这一问题,提出了低截获的单基地非均匀阵列MIMO雷达改进多信号分类(multiple signal classification,MUSIC)算法.通过对MIMO雷达匹配滤波后的接收信号进行降维处理、白化处理、时频分析、时频点筛选、正交联合对角化等信号处理,实现了低信噪比(signal to noise ratio,SNR)、低信号持续时间下的方向角估
地面无人平台(unmanned ground vehicle,UGV)已成为各国军事装备自动化和智能化的发展方向,针对UGV仿真系统存在人类智能融合度低、功能不完善和不便于进行算法测试等问题,通过引入人在回路的输入模型,设计了一种具有更强智能性的UGV仿真系统.该仿真系统以机器人操作系统(robot operating system,ROS)架构为基础进行设计,主要由基于人在回路的人机交互界面和仿真场景构成.为了验证该仿真系统的有效性,搭建了集成测试环境,对UGV三角协同编队和操控员调配UGV纵向编队进行
陆军防空旅装备体系贡献率评估理论对陆军防空旅装备体系演化系列工程的建设具有重要意义.以陆军防空旅装备体系贡献率评估目的 为基础,系统分析了陆军防空旅装备体系贡献率评估概念与内涵、评估方法、评估案例,为陆军防空旅装备体系贡献率评估模型的构建与评估方法的应用打下了理论基础.
在传统作战环的研究中,通常考虑目标、传感、打击和指控4类节点的关系,缺少通信网络对作战体系影响的分析.为此,本文研究了在通信网络信息支援下,作战体系分层模型的构建,并利用超网络理论对各层分别建模,并对信息流、物质流和能量流进行形式化描述.最终形成物理域、信息域和认知域的3层网络模型.同时基于武器装备体系功能和属性的多样性,将其映射到作战网络,选取7种网络模式和典型杀伤链作为研究对象,并根据各打击节点构成边的特性,给出相应的战技性能指标.对于进一步分析作战网络中的信息协同和共享具有重要意义.