论文部分内容阅读
科技时代,大到战场对抗,小到各类比赛的战术战略,不再完全是人力资源决策,而是新的决策方式的竞争。在国防系统中,作战系统的兵力部署策略,兵力对抗模拟,物资资源运输优化等方面,均会涉及到战略层的策略研究。如何让机器人在竞争中获得更高效更及时的战略控制,以及控制传到每个机器人个体上如何操作,实现真正意义上快速学习进化的智能机器人对抗系统,也是未来智能体发展的趋势。传统机器人智能体领域存在:环境观察不全导致系统不稳定,学习网络复杂耗费大量时间等问题。现在绝大多数方法和系统,仅针对单智能体控制领域而设计,无法有效解决上述问题。本文引入强化学习,卷积神经网络,递归神经网络等方法实现机器人自对抗系统。本文主要的研究内容如下:(1)研究分析目前国内外机器人多智能体领域的现状,发现其在智能体环境观察、智能体信息交流、智能体自对抗方面存在问题,目前大多方法仅为单智能体设计。引入卷积神经网络,将其作为本文策略方法的训练基础;引入递归神经网络在本文策略算法中,搭建机器人智能体间进行信息传递反馈的通道;引入强化学习方法,为机器人智能体策略方法提供理论基础和策略设计基础。(2)针对传统智能体算法中缺少反馈机制,无法知道其它智能体的变动问题。本文提出一种改进的基于递归神经网络的信息反馈方法。该方法引入递归神经网络的反馈机制进行智能体消息交流。主要步骤为:在机器人智能体运动期间向其它智能体传递消息,该消息包含机器人智能体观察信息、梯度信息、激活函数等信息。本文方法能够到达进一步加快机器人智能体在训练期间的收敛速度,尽可能避免因智能体环境局部观察所导致的经验池失效,环境不稳定问题的效果。(3)针对目前多智能体领域中缺少的集中策略方式,本文提出一种改进的基于单智能体学习策略的扩展方法。该方法引入强化学习作为智能体策略学习的基础,将单智能体领域中策略梯度算法扩展,引入卷积神经网络进行学习训练。主要步骤为,多机器人智能体集中学习,独立执行任务,在执行任务期间使用本文提出的智能体间信息交流方法。达到合作模式,竞争模式,边合作边竞争模式的最优策略选择。(4)设计6个实验场景,分别对多智能体间合作模式,多智能体间竞争模式,多智能体边合作边竞争模式进行分析比对,通过实验数据证明本文信息反馈机制与扩展方法的合理有效。