基于深度强化学习的对手建模方法研究综述

来源 :系统仿真学报 | 被引量 : 0次 | 上传用户:wangshaohua11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习是一种兼具深度学习特征提取能力和强化学习序列决策能力的智能体建模方法,能够弥补传统对手建模方法存在的非平稳性适应差、特征选取复杂、状态空间表示能力不足等问题。本文首先将基于深度强化学习的对手建模方法分为显式建模和隐式建模两类,按照类别梳理相应的理论、模型、算法以及适用场景。随后介绍基于深度强化学习的对手建模技术在不同领域的应用情况,最后总结亟需解决的关键问题以及发展方向,旨在为基于深度强化学习的对手建模方法提供较全面的研究综述。
其他文献
欧洲志愿服务与福利国家演变历程紧密相连,贯穿其萌芽及发展各阶段。当福利国家陷入困境后,福利多元主义思潮兴起,志愿服务理论也掀起了新高潮。欧洲志愿服务在实践中弥补了福利国家部分功能,并逐渐拥有稳健的运行及支持体系。本文旨在考察福利国家及欧洲志愿服务发展的历史进程,梳理两者之间的理论联系,阐述当今欧洲志愿服务组织运行及支持体系,进而剖析其发展趋势,以期对我国志愿服务发展提供借鉴。
近年来,我国老龄化愈发严重且下肢失能患者人数逐年增多,人工护理已经无法满足需求,使用辅助机器人完成老年人及失能患者的日常生活辅助是当下研究的一个热点。当使用环境中同时存在多台辅助机器人时,多台辅助机器人的路径规划与避障是一个首要解决的问题。多机器人系统具有较高的动态性,因此传统的路径规划方法不在适用于多机器人系统中,如何让多机器人系统中的路径规划变得更智能是当今研究的重点。近年来机器学习的热度越来
天地一体化网络是近年来新兴的以天基网络为主体,地面网络为基础,结合空中网络的一体化信息网络,其可为陆、海、空、天各类用户提供随遇接入、全球覆盖、按需服务、安全可靠的信息服务。大力发展天地一体化网络信息服务能力以适应各种场景下的业务需求对于信息时代掌握全球空间资源具有战略性的经济、社会和军事意义,也是谋求新技术、新产业领先优势,实现全球化信息服务的必然选择。随着卫星通信技术及移动通信技术的快速发展,
无线通信系统的信道开放性使其极易受到外部恶意干扰、通信链路质量难以保证,针对以上问题,本文设计了一种基于深度强化学习的多域联合干扰规避决策方法。该方法联合频域、功率域、调制编码域三个域的抗干扰手段进行干扰规避,在考虑系统性能的同时实现可靠通信。首先,将联合智能干扰规避问题建模为一个马尔可夫决策过程(MDP, Markov Decision Process),动作空间包含切换信道、功率控制、改变调制
随着移动设备大规模接入网络,能量消耗急剧增长,追求高能效是无线通信系统发展的趋势。设备直连(Device to Device,D2D)通信能够提高数据传输速率以及频谱利用率,为了应对设备能量有限的情况,引入无线携能技术(Simultaneous Wireless Information and Power Transfer,SWIPT)缓解设备能耗,结合SWIPT的D2D通信可以有效改善系统能效。
针对三体对抗场景中的攻防博弈问题,提出了基于深度强化学习的智能博弈策略,包括适用于进攻弹的攻击策略以及适用于目标/防御弹的主动防御策略。在经典三体对抗研究的基础上引入强化学习算法,提高了算法训练的目的性,同时在奖励函数设计中考虑了攻防对抗双方的奖惩条件。应用深度强化学习算法对攻防双方智能体进行训练,并得到收敛的博弈策略。仿真结果表明,通过训练获得的进攻弹的攻击策略能够根据战场态势合理规划机动行为,
志愿服务正成为推动中国社会转型、参与社会治理的一股重要力量,其志愿性、公益性和无偿性的特征也使该议题在新时代情境下具有持续的生命力。因此,本文以志愿服务组织为研究对象,梳理传统志愿服务组织研究的脉络和线索,对比“自上而下”与“自下而上”两类志愿服务组织在制度结构下的形成路径、讨论视域及其行动过程中的组织逻辑与动员路径的特点,并讨论其在社会治理中所发挥的作用、功能。在此基础上反思信息时代和风险社会双
下一代通信网络的蓬勃发展对于高质量通信服务提出了前所未有的要求。凭借着灵活部署和视距传输等诸多优势,无人机通信有望在未来的无线通信系统中扮演关键角色。总结以往文献,空地一体化网络中的无人机应用研究,可根据无人机在网络中的地位大致分为两种场景:无人机辅助的无线网络通信场景,其中无人机作为部署在空中的基础设施;以及蜂窝网络辅助的无人机通信场景,其中无人机作为获得服务的空中用户。本文考虑将两种主流研究思
针对协同电子战中跳频通信干扰协同决策难题,通过构建“整体优化、逐站决策”的协同决策模型,基于深度强化学习技术,设计了在Actor-Critic算法架构下融合优势函数的决策算法,并在奖励函数中嵌入专家激励机制以提高算法的探索能力,采用集中式训练方法优化决策网络,使算法能够输出资源利用率最高的干扰方案,并大幅提高决策效率.仿真结果表明,相比于现有智能决策算法,本文算法给出的干扰方案能够节约8%干扰资源
随着人工智能技术的发展,智能终端已经可以通过频谱感知、通信效果检测分析等方式智能地改变通信手段,进而实现高效率抗干扰,这给传统干扰带来了巨大挑战。而深度强化学习在复杂场景中的探索效率高,面对高难度任务的能力强大,在军事干扰领域应用前景广阔。基于此,介绍深度强化学习、智能干扰方法这两个基本问题的研究现状和存在的难点问题,总结并提出未来基于深度强化学习的智能干扰方法的研究前景和技术展望。