深度强化学习算法在智能军事决策中的应用

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：hhzzmm

【摘要】

：

深度强化学习算法能够很好地实现离散化的决策行为,但是难以运用于高度复杂且行为连续的现代战场环境,同时多智能体环境下算法难以收敛。针对这些问题,提出了一种改进的深度确定策略梯度(DDPG)算法,该算法引入了基于优先级的经验重放技术和单训练模式,以提高算法收敛速度;同时算法中还设计了一种混合双噪声的探索策略,从而实现复杂且连续的军事决策控制行为。采用Unity开发了基于改进DDPG算法的智能军事决策仿真平台,搭建了蓝军步兵进攻红军军事基地的仿真环境,模拟多智能体的作战训练。实验结果显示,该算法能够驱动多作战智

【作者】

：

况立群李思远冯利韩燮徐清宇

【机构】

：

中北大学大数据学院,北方自动控制技术研究所仿真装备部

【出处】

：

计算机工程与应用

【发表日期】

：

2021年20期

【关键词】

：

深度强化学习深度Q网络深度确定策略梯度智能军事决策多智能体

【基金项目】

：

国家部委预研项目。

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

自适应广义全变差的图像泊松去噪算法

针对医学、天文图像中的泊松噪声,基于广义全变差的图像泊松去噪模型,结合交替迭代极小化方法,提出一种自适应广义全变差的图像去噪算法。该算法利用广义交叉验证技术,使得模型中的正则化参数在算法迭代过程中可以自动更新。数值实验结果验证了该算法的有效性与可行性。

期刊

图像去噪泊松噪声广义交叉验证交替极小化

基于YOLOv5的违章建筑检测方法

针对无人机图像中违章建筑多为小目标且存在部分遮挡目标导致的检测速率慢、误检率高的问题,提出一种基于YOLOv5网络的违章建筑检测方法。在原来的批量标准化模块开始和结束处分别添加中心和缩放校准增强有效特征并形成更稳定的特征分布,加强网络模型的特征提取能力。用平滑处理后的KL(Kullback-Leibler)散度损失函数替换原损失函数置信度中的交叉熵,进一步提高模型的泛化性能。对YOLOv5的主干特

期刊

神经网络YOLOv5违章建筑检测批量标准化KL散度

深度强化学习算法在智能军事决策中的应用

其他学术论文