基于强化学习的移动多智能体自组织协同目标搜索

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:lilac_cs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索环境的复杂化使得多智能体在搜索过程中存在搜索效率低以及搜索重复等诸多问题,而移动多智能体系统相对灵活,能充分体现人类社会智能,更适应开放和动态的实际环境。为此,本文研究出一种基于强化学习的多智能体系统来实现对目标群体的协同搜索,使其在脱离人工干预的情况下正常运作,对提高多智能体协同合作的搜索效率具有现实意义。本学位论文以多智能体高效协同搜索为目标,在移动自组织网络路由协议改进的基础上结合强化学习的方法以及特殊的搜索覆盖策略来实现。首先设计一种基于优化链路状态协议改进的更适用于多智能体目标搜索任务的自组织网络路由协议,然后设计一种基于传统深度确定性策略梯度算法优化的多智能体协作方法,最后设计一种基于强化学习的移动多智能体区域覆盖搜索策略。本文的工作创新主要体现在以下三个方面:(1)结合移动多智能体自组织网络的特点,分析多智能体自组织网络拓扑结构的特性,设计一种基于优化链路状态协议改进的更适用于目标搜索场景的多智能体自组织网络路由协议,同时基于该协议对多智能体系统做了优化并进行了路由协议性能测试,测试表明改进后的协议降低了网络拓扑变化时的丢包率,提高了多智能体系统通信机制的效率。(2)通过将改进的Actor-Critic算法嵌入到传统深度确定性策略梯度算法并应用于多智能体的迭代步骤中,设计出一种基于深度确定性策略梯算法改进的移动多智能体协同策略,使其更适用于复杂多变的多智能体目标搜索环境。使用open AI提供的Gym包所创建的实验环境进行测试,测试结果表明改进后的算法相比现存方法在相同环境下能够发现各种物理和信息层面上的合作策略,具有更高的鲁棒性。(3)利用贝叶斯规则对每个智能体进行目标存在概率图的设计与更新,继而提出一种多智能体区域目标检测更新算法,对每个智能体所观测到的目标信息进行概率图融合从而获得目标群体存在的准确位置。同时设计出一种多智能体区域覆盖搜索算法以使得整个多智能体网络在搜索过程中既能保持连通又能保持搜索的高效性。最后在Matlab上进行仿真,实验结果表明在经过多次不断的迭代之后,移动多智能体系统在网络稳定性以及区域覆盖策略方面对目标群体的搜索工作都得到了显著的改进。
其他文献
要实现孟建柱部长强调的“公安机关要积极回应人民群众的新期待,努力实现人民群众的新要求”,就要坚持民生为本。在此,结合晋江实际,提出以改善民生为切入点,维护和促进社会稳定、
论及不当得利纠纷,举证责任问题往往相伴相随。无论是抽象的理论证成,抑或具象的实证分析,都有着将上述问题类型化、标准化的倾向,这样的思维进路固然值得期许,但同样会造成
在实施社区和农村警务战略中,普遍存在警务室建成后警力下不去、警务室开不了门、警务运作不好等问题,城乡社区警务工作缺少有效的运作抓手和相应的切入载体。福建省三明市公