强化学习在多阶段装备组合规划问题中的应用

来源 :国防科技大学学报 | 被引量 : 0次 | 上传用户:lhbneil
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对多阶段武器装备组合规划中的选择难、规划难问题,提出基于多目标优化算法以及强化学习技术的混合优化方法。在各个阶段以装备组合效能最大和成本最小为准则,构建单阶段多目标优化模型,并设计基于非支配排序遗传算法的求解算法以生成各阶段的Pareto解,在此基础上建立多阶段的组合优化模型。通过强化学习的Q-Learning方法,在各阶段的Pareto解中采用探索或者利用两种模式,生成各阶段的装备组合,并指导下一阶段的装备选型,从而生成整个周期内的规划方案。通过对比实验分析,验证了所提模型和算法的有效性,能够为多阶段
其他文献
为了评估爆震弹封装壳体破片致死、致伤半径,并削弱其平均比动能,基于蒙特卡洛剖分投影法建立破片平均比动能计算模型。通过LS-DYNA及自编程联合仿真方法对爆震弹自然破片、半预制破片比动能计算模型进行仿真求解,获得了全破片全时域的质量分布、初始速度、垂直靶分布、平均比动能阈值及安全半径等指标。结果表明:在相同装药参数下,半预制破片相比于自然破片,质量分布、初始速度阈值更低且更集中;在小于等于2.5 m范围内半预制破片平均比动能阈值比自然破片更低,大于2.5 m后半预制破片平均比动能阈值比自然破片更高。相比于自
为了实现SpaceFibre总线节点的高效数据传输,针对网络协议中关键问题和技术提出了一种基于现场可编程门阵列(Field Programmable Gate Array,FPGA)的SpaceFibre总线节点系统设计方案。其中,采用了轮询仲裁算法,解决了多路虚拟通道中流量控制字的申请冲突;设计了基于服务质量机制的高效处理状态机,实现了多路虚拟通道的服务质量调度;提出了一种并行的分区存储架构和重发控制算法,实现了基于错误检测隔离恢复机制的错误恢复;采用了不同的数据并行处理方案,实现了多种数据格式的循环冗
在建立卫星导航系统星座自主守时时间基准时,必须消除星载原子钟钟差数据中包含的周期性波动,以免将其引入系统时间。针对这一问题,基于国际卫星导航服务组织(International GNSS Service,IGS)提供的北斗系统星载原子钟钟差产品,提出了一种基于频谱分析的星载原子钟周期性波动校正方法。通过比较校正前后钟差数据的频率稳定度性能差异,确认该方法能够消除由环境因素引起的钟差数据周期性波动。北斗系统各类卫星星载原子钟的性能在校正后都得到了提升。地球同步轨道卫星星载原子钟的万秒频率稳定度提升50%左右
为研究液压水锤效应引起的液体喷溅特性及其影响因素,进行了高速破片撞击充液容器的试验,测试了液体内的空腔振荡特性、压力分布特性和容器外的液体喷溅特性。试验结果表明:液压水锤效应引起的液体喷溅有两个不同的阶段。第一个阶段发生在空腔生长到最大体积后的400~700μs内,喷溅液体的头部呈箭状;在第二个阶段出现多次形状相似的脉动喷溅,且单次脉动均发生在每次空腔溃灭之后,喷溅液体具有伞状头部与线状尾部。液体内的压力和侵彻孔的形态共同影响液体的喷溅速度,相对喷溅速度与破片的撞击速度成反比。喷溅液体在运动过程中存在速度