【摘 要】
:
针对传统调度算法在高危多变环境下实现多目标在线调度所面临的困境,提出基于深度强化学习的调度优化算法,并应用于大规模舰载机出动回收多目标在线调度问题中。该方法以减小
【基金项目】
:
国家自然科学基金(61701009),教育部-中国移动科研基金(MCM20180503)资助项目
论文部分内容阅读
针对传统调度算法在高危多变环境下实现多目标在线调度所面临的困境,提出基于深度强化学习的调度优化算法,并应用于大规模舰载机出动回收多目标在线调度问题中。该方法以减小舰面位移、减少会遇次数、均衡设备利用率和稳定调度周期作为调度决策目标,依照马尔可夫决策过程(MDP),构造以舰载机和各设备状态作为输入,调度行为动作作为输出,带权特征向量作为奖赏的在线调度即时决策模型。搭建用于训练的优化深度强化学习网络,改进动作选择策略和网络结构以提升性能,从而实现在线调度决策优化。实验结果表明,利用该方法得到的决策模型能够在线
其他文献
在分析低轨卫星通信系统中不同链路所需波束类型的基础上,将所需波束类型归纳为宽波束和可切换点波束两大类,进而提出了用一副相控阵天线来实现这两种波束的方式。以16×
利用三维软件建立可换头麻花钻模型,结合刀具材料和受载荷情况,应用ANSYS软件进行静力学分析和屈曲分析。通过对不同进给量下可换头麻花钻的静力学分析,得到可换头麻花钻在不
针对低轨卫星通信过程中功率受限的约束以及宽带业务需求的不断增长,研究了一种宽带传输技术。首先,分析了离散傅里叶变换扩频正交频分复用技术的宽带传输能力以及低峰均比特
多元低密度奇偶校验(Non-binary Low-density Parity-check,NB-LDPC)码在中短码情况下性能优于传统二元LDPC码,更接近香农限。针对多元LDPC码码率兼容(Rate-compatible)的问
随着互联网用户数量的迅速增长,Web服务面临着巨大的访问压力,对Web服务器持续提供服务提出了更高的要求。当负载过重时可能会导致服务器宕机等严重状况,从而影响Web服务器对