论文部分内容阅读
搜索环境的复杂化使得多智能体在搜索过程中存在搜索效率低以及搜索重复等诸多问题,而移动多智能体系统相对灵活,能充分体现人类社会智能,更适应开放和动态的实际环境。为此,本文研究出一种基于强化学习的多智能体系统来实现对目标群体的协同搜索,使其在脱离人工干预的情况下正常运作,对提高多智能体协同合作的搜索效率具有现实意义。本学位论文以多智能体高效协同搜索为目标,在移动自组织网络路由协议改进的基础上结合强化学习的方法以及特殊的搜索覆盖策略来实现。首先设计一种基于优化链路状态协议改进的更适用于多智能体目标搜索任务的自组织网络路由协议,然后设计一种基于传统深度确定性策略梯度算法优化的多智能体协作方法,最后设计一种基于强化学习的移动多智能体区域覆盖搜索策略。本文的工作创新主要体现在以下三个方面:(1)结合移动多智能体自组织网络的特点,分析多智能体自组织网络拓扑结构的特性,设计一种基于优化链路状态协议改进的更适用于目标搜索场景的多智能体自组织网络路由协议,同时基于该协议对多智能体系统做了优化并进行了路由协议性能测试,测试表明改进后的协议降低了网络拓扑变化时的丢包率,提高了多智能体系统通信机制的效率。(2)通过将改进的Actor-Critic算法嵌入到传统深度确定性策略梯度算法并应用于多智能体的迭代步骤中,设计出一种基于深度确定性策略梯算法改进的移动多智能体协同策略,使其更适用于复杂多变的多智能体目标搜索环境。使用open AI提供的Gym包所创建的实验环境进行测试,测试结果表明改进后的算法相比现存方法在相同环境下能够发现各种物理和信息层面上的合作策略,具有更高的鲁棒性。(3)利用贝叶斯规则对每个智能体进行目标存在概率图的设计与更新,继而提出一种多智能体区域目标检测更新算法,对每个智能体所观测到的目标信息进行概率图融合从而获得目标群体存在的准确位置。同时设计出一种多智能体区域覆盖搜索算法以使得整个多智能体网络在搜索过程中既能保持连通又能保持搜索的高效性。最后在Matlab上进行仿真,实验结果表明在经过多次不断的迭代之后,移动多智能体系统在网络稳定性以及区域覆盖策略方面对目标群体的搜索工作都得到了显著的改进。