强化学习在多阶段装备组合规划问题中的应用

来源 :国防科技大学学报 | 被引量 : 0次 | 上传用户：lhbneil

【摘要】

：

针对多阶段武器装备组合规划中的选择难、规划难问题,提出基于多目标优化算法以及强化学习技术的混合优化方法。在各个阶段以装备组合效能最大和成本最小为准则,构建单阶段多目标优化模型,并设计基于非支配排序遗传算法的求解算法以生成各阶段的Pareto解,在此基础上建立多阶段的组合优化模型。通过强化学习的Q-Learning方法,在各阶段的Pareto解中采用探索或者利用两种模式,生成各阶段的装备组合,并指导下一阶段的装备选型,从而生成整个周期内的规划方案。通过对比实验分析,验证了所提模型和算法的有效性,能够为多阶段

【作者】

：

张骁雄丁松李明浩丁鲲王龙义余江

【机构】

：

国防科技大学第六十三研究所,浙江财经大学经济学院,国防科技大学系统工程学院,西南电子电信技术研究所

【出处】

：

国防科技大学学报

【发表日期】

：

2021年5期

【关键词】

：

武器装备组合规划非支配排序遗传算法强化学习 Q-LEARNING

【基金项目】

：

国家自然科学基金资助项目(71901215,71901191),国防科技大学校科研计划资助项目(ZK20-46)。

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

蒙特卡洛剖分投影法的爆震弹破片平均比动能评估

为了评估爆震弹封装壳体破片致死、致伤半径,并削弱其平均比动能,基于蒙特卡洛剖分投影法建立破片平均比动能计算模型。通过LS-DYNA及自编程联合仿真方法对爆震弹自然破片、半预制破片比动能计算模型进行仿真求解,获得了全破片全时域的质量分布、初始速度、垂直靶分布、平均比动能阈值及安全半径等指标。结果表明:在相同装药参数下,半预制破片相比于自然破片,质量分布、初始速度阈值更低且更集中;在小于等于2.5 m范围内半预制破片平均比动能阈值比自然破片更低,大于2.5 m后半预制破片平均比动能阈值比自然破片更高。相比于自

期刊

自然破片半预制破片壳体破碎飞散模型平均比动能蒙特卡洛剖分投影法

高速SpaceFibre总线节点的系统设计

为了实现SpaceFibre总线节点的高效数据传输,针对网络协议中关键问题和技术提出了一种基于现场可编程门阵列(Field Programmable Gate Array,FPGA)的SpaceFibre总线节点系统设计方案。其中,采用了轮询仲裁算法,解决了多路虚拟通道中流量控制字的申请冲突;设计了基于服务质量机制的高效处理状态机,实现了多路虚拟通道的服务质量调度;提出了一种并行的分区存储架构和重发控制算法,实现了基于错误检测隔离恢复机制的错误恢复;采用了不同的数据并行处理方案,实现了多种数据格式的循环冗

期刊

SpaceFibreSPACEWIRE服务质量错误检测隔离恢复高速总线

北斗系统星载原子钟周期性波动的频谱分析校正方法

在建立卫星导航系统星座自主守时时间基准时,必须消除星载原子钟钟差数据中包含的周期性波动,以免将其引入系统时间。针对这一问题,基于国际卫星导航服务组织(International GNSS Service,IGS)提供的北斗系统星载原子钟钟差产品,提出了一种基于频谱分析的星载原子钟周期性波动校正方法。通过比较校正前后钟差数据的频率稳定度性能差异,确认该方法能够消除由环境因素引起的钟差数据周期性波动。北斗系统各类卫星星载原子钟的性能在校正后都得到了提升。地球同步轨道卫星星载原子钟的万秒频率稳定度提升50%左右

期刊

北斗卫星导航系统星载原子钟频率稳定度周期性波动

液压水锤效应引起液体喷溅特性及其影响因素试验研究

为研究液压水锤效应引起的液体喷溅特性及其影响因素,进行了高速破片撞击充液容器的试验,测试了液体内的空腔振荡特性、压力分布特性和容器外的液体喷溅特性。试验结果表明:液压水锤效应引起的液体喷溅有两个不同的阶段。第一个阶段发生在空腔生长到最大体积后的400~700μs内,喷溅液体的头部呈箭状;在第二个阶段出现多次形状相似的脉动喷溅,且单次脉动均发生在每次空腔溃灭之后,喷溅液体具有伞状头部与线状尾部。液体内的压力和侵彻孔的形态共同影响液体的喷溅速度,相对喷溅速度与破片的撞击速度成反比。喷溅液体在运动过程中存在速度

期刊

液压水锤充液容器高速撞击液体喷溅

强化学习在多阶段装备组合规划问题中的应用

其他学术论文