多机器人对抗系统的策略研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:liongliong603
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技时代,大到战场对抗,小到各类比赛的战术战略,不再完全是人力资源决策,而是新的决策方式的竞争。在国防系统中,作战系统的兵力部署策略,兵力对抗模拟,物资资源运输优化等方面,均会涉及到战略层的策略研究。如何让机器人在竞争中获得更高效更及时的战略控制,以及控制传到每个机器人个体上如何操作,实现真正意义上快速学习进化的智能机器人对抗系统,也是未来智能体发展的趋势。传统机器人智能体领域存在:环境观察不全导致系统不稳定,学习网络复杂耗费大量时间等问题。现在绝大多数方法和系统,仅针对单智能体控制领域而设计,无法有效解决上述问题。本文引入强化学习,卷积神经网络,递归神经网络等方法实现机器人自对抗系统。本文主要的研究内容如下:(1)研究分析目前国内外机器人多智能体领域的现状,发现其在智能体环境观察、智能体信息交流、智能体自对抗方面存在问题,目前大多方法仅为单智能体设计。引入卷积神经网络,将其作为本文策略方法的训练基础;引入递归神经网络在本文策略算法中,搭建机器人智能体间进行信息传递反馈的通道;引入强化学习方法,为机器人智能体策略方法提供理论基础和策略设计基础。(2)针对传统智能体算法中缺少反馈机制,无法知道其它智能体的变动问题。本文提出一种改进的基于递归神经网络的信息反馈方法。该方法引入递归神经网络的反馈机制进行智能体消息交流。主要步骤为:在机器人智能体运动期间向其它智能体传递消息,该消息包含机器人智能体观察信息、梯度信息、激活函数等信息。本文方法能够到达进一步加快机器人智能体在训练期间的收敛速度,尽可能避免因智能体环境局部观察所导致的经验池失效,环境不稳定问题的效果。(3)针对目前多智能体领域中缺少的集中策略方式,本文提出一种改进的基于单智能体学习策略的扩展方法。该方法引入强化学习作为智能体策略学习的基础,将单智能体领域中策略梯度算法扩展,引入卷积神经网络进行学习训练。主要步骤为,多机器人智能体集中学习,独立执行任务,在执行任务期间使用本文提出的智能体间信息交流方法。达到合作模式,竞争模式,边合作边竞争模式的最优策略选择。(4)设计6个实验场景,分别对多智能体间合作模式,多智能体间竞争模式,多智能体边合作边竞争模式进行分析比对,通过实验数据证明本文信息反馈机制与扩展方法的合理有效。
其他文献
  以正丁基锂为引发剂,环己烷为溶剂,采用SDBS/THF为复合调节剂,制备了溶聚丁苯橡胶(SSBR);研究了聚合物微观结构对聚合物性能的影响。结果表明:复合调节剂使聚合物链中乙烯基含
目的:探讨肤光粉外洗治疗慢性湿疹的临床疗效。方法:本研究将符合纳入标准的90例慢性湿疹患者完全随机分为治疗组和对照组,分别给予肤光粉外洗和地塞米松乳膏外擦,两组均同时
会议
高压电缆接头加载电流达到稳态时,电缆接头及附近本体导体沿轴向存在温度分布梯度,载荷能力和玻璃钢保护壳的引入对此温度分布存在影响.为研究载荷能力和破璃钢保护壳的引入
MARPOL73/78公约的附则Ⅳ"防止船舶生活污水污染规则"对生活污水的排放做出了明确的规定。每艘国际航行的营运船舶,必须采用装设生活污水收集储存装置(集污舱)、生活污水粉碎消毒
白粉病是一种常见病害,是一种能严重危害在温室培养的蔬菜病害,特别在黄瓜、西葫芦、甜瓜等瓜类作物上危害极为严重,在番茄、茄子和辣、甜椒上也经常发生。阐述了其发病规律
综述了国内外有关烤烟生长期烟碱、去甲基烟碱形成及相互转化关系的研究结果.烟碱、去甲基烟碱的形成受品种、自然条件和栽培措施等的影响;烟碱、去甲基烟碱之间的转化受多种
随着计算机科学的迅猛发展和量子化学算法的不断改进,材料计算在物理研究中占有越来越重要的位置。材料计算不仅可以用来解释实验现象,更为重要的是还可以预测材料的性能以开
在京津冀协同发展和城市转型发展的大背景下,文章通过借鉴相关案例,结合石家庄市实际发展情况,遵循城市中央休闲娱乐区内在的基本规律和基本特征,从发展定位、开发业态、开发
社会可持续发展的核心是人的发展,它应体现为人自身的可持续性全面发展、社会关系的持续协调发展和社会整体与人类文明的全面进步,人的发展与社会可持续发展之间有着重要的互动