多机器人对抗系统的策略研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：liongliong603

【摘要】

：

【作者】

：

刘润之

【出处】

：

西安电子科技大学

【发表日期】

：

2020年02期

【关键词】

：

机器人强化学习卷积神经网络递归神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

科技时代,大到战场对抗,小到各类比赛的战术战略,不再完全是人力资源决策,而是新的决策方式的竞争。在国防系统中,作战系统的兵力部署策略,兵力对抗模拟,物资资源运输优化等方面,均会涉及到战略层的策略研究。如何让机器人在竞争中获得更高效更及时的战略控制,以及控制传到每个机器人个体上如何操作,实现真正意义上快速学习进化的智能机器人对抗系统,也是未来智能体发展的趋势。传统机器人智能体领域存在:环境观察不全导致系统不稳定,学习网络复杂耗费大量时间等问题。现在绝大多数方法和系统,仅针对单智能体控制领域而设计,无法有效解决上述问题。本文引入强化学习,卷积神经网络,递归神经网络等方法实现机器人自对抗系统。本文主要的研究内容如下:(1)研究分析目前国内外机器人多智能体领域的现状,发现其在智能体环境观察、智能体信息交流、智能体自对抗方面存在问题,目前大多方法仅为单智能体设计。引入卷积神经网络,将其作为本文策略方法的训练基础;引入递归神经网络在本文策略算法中,搭建机器人智能体间进行信息传递反馈的通道;引入强化学习方法,为机器人智能体策略方法提供理论基础和策略设计基础。(2)针对传统智能体算法中缺少反馈机制,无法知道其它智能体的变动问题。本文提出一种改进的基于递归神经网络的信息反馈方法。该方法引入递归神经网络的反馈机制进行智能体消息交流。主要步骤为:在机器人智能体运动期间向其它智能体传递消息,该消息包含机器人智能体观察信息、梯度信息、激活函数等信息。本文方法能够到达进一步加快机器人智能体在训练期间的收敛速度,尽可能避免因智能体环境局部观察所导致的经验池失效,环境不稳定问题的效果。(3)针对目前多智能体领域中缺少的集中策略方式,本文提出一种改进的基于单智能体学习策略的扩展方法。该方法引入强化学习作为智能体策略学习的基础,将单智能体领域中策略梯度算法扩展,引入卷积神经网络进行学习训练。主要步骤为,多机器人智能体集中学习,独立执行任务,在执行任务期间使用本文提出的智能体间信息交流方法。达到合作模式,竞争模式,边合作边竞争模式的最优策略选择。(4)设计6个实验场景,分别对多智能体间合作模式,多智能体间竞争模式,多智能体边合作边竞争模式进行分析比对,通过实验数据证明本文信息反馈机制与扩展方法的合理有效。

其他文献

以复合调节剂合成溶聚丁苯橡胶的研究

　　以正丁基锂为引发剂，环己烷为溶剂，采用SDBS/THF为复合调节剂，制备了溶聚丁苯橡胶(SSBR)；研究了聚合物微观结构对聚合物性能的影响。结果表明：复合调节剂使聚合物链中乙烯基含

会议

溶聚丁苯橡胶合成工艺复合调节剂微观结构性能表征

肤光粉外洗治疗慢性湿疹的临床研究

目的:探讨肤光粉外洗治疗慢性湿疹的临床疗效。方法:本研究将符合纳入标准的90例慢性湿疹患者完全随机分为治疗组和对照组,分别给予肤光粉外洗和地塞米松乳膏外擦,两组均同时

会议

高压电缆中间接头轴向传热的实验研究

高压电缆接头加载电流达到稳态时,电缆接头及附近本体导体沿轴向存在温度分布梯度,载荷能力和玻璃钢保护壳的引入对此温度分布存在影响.为研究载荷能力和破璃钢保护壳的引入

期刊

高压电缆接头轴向传热稳态温升实验玻璃钢保护壳载荷能力

船舶生活污水的排放规范及处理方式

MARPOL73/78公约的附则Ⅳ＂防止船舶生活污水污染规则＂对生活污水的排放做出了明确的规定。每艘国际航行的营运船舶,必须采用装设生活污水收集储存装置（集污舱）、生活污水粉碎消毒

期刊

生活污水粉碎消毒生物处理活性污泥膜分离

温肾涤痰汤治疗多囊卵巢综合征64例疗效观察

期刊

多囊卵巢综合征温肾涤痰汤中医治疗

温室蔬菜白粉病综合防治技术

白粉病是一种常见病害,是一种能严重危害在温室培养的蔬菜病害,特别在黄瓜、西葫芦、甜瓜等瓜类作物上危害极为严重,在番茄、茄子和辣、甜椒上也经常发生。阐述了其发病规律

期刊

温室蔬菜白粉病防治技术

烤烟中的烟碱和去甲基烟碱

综述了国内外有关烤烟生长期烟碱、去甲基烟碱形成及相互转化关系的研究结果.烟碱、去甲基烟碱的形成受品种、自然条件和栽培措施等的影响;烟碱、去甲基烟碱之间的转化受多种

期刊

烤烟烟碱去甲基烟碱烟叶品质安全性

N掺杂锐钛矿TiO2可见光催化活性的第一性原理研究

随着计算机科学的迅猛发展和量子化学算法的不断改进,材料计算在物理研究中占有越来越重要的位置。材料计算不仅可以用来解释实验现象,更为重要的是还可以预测材料的性能以开

学位

密度泛函理论N掺杂TiO2光催化活性

石家庄市南茵河CRD规划建设研究

在京津冀协同发展和城市转型发展的大背景下,文章通过借鉴相关案例,结合石家庄市实际发展情况,遵循城市中央休闲娱乐区内在的基本规律和基本特征,从发展定位、开发业态、开发

期刊

城市中央休闲娱乐区CRD南茵河石家庄市

人的发展与社会可持续发展的双向互动

社会可持续发展的核心是人的发展，它应体现为人自身的可持续性全面发展、社会关系的持续协调发展和社会整体与人类文明的全面进步，人的发展与社会可持续发展之间有着重要的互动

期刊

社会可持续发展人的发展人与自然人与社会

多机器人对抗系统的策略研究

与本文相关的学术论文