【摘 要】
:
近年来,随着人工智能技术的不断发展,研究者在单智能体深度强化学习领域取得了许多优秀的成果。为了解决复杂的团队任务,研究人员将深度强化学习方法应用到了多智能体领域。地标覆盖任务是最常见的多智能体协同问题之一,在国防、物流、车间等领域均有重要应用。多智能体系统中,内部智能体同时与环境交互,且智能体之间相互影响,受邻居智能体的位置、运动速度等因素影响较大,导致很多单智能体深度强化学习算法在多智能体系统中
【基金项目】
:
国家重点研发计划“面向定制式木工家具制造的机器人自动化生产示范线”子课题“多工位执行机构智能优化调度与协同”,项目编号:2018YFB1308305;
论文部分内容阅读
近年来,随着人工智能技术的不断发展,研究者在单智能体深度强化学习领域取得了许多优秀的成果。为了解决复杂的团队任务,研究人员将深度强化学习方法应用到了多智能体领域。地标覆盖任务是最常见的多智能体协同问题之一,在国防、物流、车间等领域均有重要应用。多智能体系统中,内部智能体同时与环境交互,且智能体之间相互影响,受邻居智能体的位置、运动速度等因素影响较大,导致很多单智能体深度强化学习算法在多智能体系统中难以收敛,学习效果不佳。针对以上问题,本文主要进行以下研究,具体内容如下。首先,针对多智能体系统环境非平稳的问题,本文提出一种基于最大熵的模型MECT(Maximum Entropy Covering Task),用以解决多智能体地标覆盖的任务。该模型采用演员-评论家(Actor-Critic,AC)算法框架,将AC算法框架与集中训练,分散执行框架相结合。在训练过程中输入所有智能体对环境的观察信息,训练出能近似拟合真实Q值的Critic网络。在策略选择时,智能体只需根据自身行为即可选择最优动作。在增强策略学习的随机性上引入了最大熵函数,并优化了智能体奖励值公式。在Open AI提供的多粒子环境下进行算法性能实验,对比了MADDPG、MAAC、DQN三种算法,验证了改进模型的高效性,并对多智能体学习效率进行了分析。其次,为了降低算法复杂度和特征矩阵的计算量,本文在MECT模型基础上重新搭建了网络结构,提出了一种基于图卷积网络的智能体覆盖地标任务的模型GCNMAL(Graph Convolutional Network Multi-Agent Landmark)。将环境中的智能体和地标构建成了一个图结构,该结构以智能体和环境中的地标作为顶点。此外,使用多层感知机网络(MLP)聚合所有邻居节点的相对位置信息,同时进行智能体自身状态更新,以图卷积网络平均池化方法聚合所有环境信息以及智能体自身信息。最后,在多粒子环境下与MECT模型MADDPG、MAAC、DQN算法进行实验对比,验证了该方法的优越性,并对多智能体学习效率进行了分析。
其他文献
网络异常流量检测是保证网络信息安全的重要手段,准确、快速的检测出具体的异常流量类型对于维护网络安全至关重要。支持向量机(SVM)已经成为异常检测中一种常用的工具。然而,SVM多用于解决两类分类问题,无法识别异常流量的具体攻击类型,如何有效地将其推广到多类分类,并利用SVM实现异常流量的检测是一个重要研究问题。因此,针对上述问题,本文的主要研究工作如下。首先,本文具体分析了网络流量产生过程及其采集方
随着视频理解研究的不断深入和应用范围的不断扩大,行为识别任务逐渐成为相关领域的研究热点之一。大多数应用场景中计算资源有限,为了追求高准确率,目前的行为识别方法趋向于使用越来越复杂的结构,这极大地限制了行为识别在现实生活中的应用。因此,本文对基于深度学习的行为识别方法做了详细研究,在保证准确率的同时,着力降低方法的复杂度,以满足行为识别方法在现实生活中的应用条件,具体完成如下工作。首先,针对部分轻量
复杂网络是建模和分析复杂系统的有效工具,在理解复杂行为中起到关键作用。链路预测是预测复杂网络中未来连边或未知连边的一种方法。目前链路预测相关研究大多侧重于无向网络领域的链路预测,然而真实网络中的连边往往是有向的,直接简单地将无向网络指标用在有向网络上会降低预测精度。针对有向网络链路预测仅考虑单一互惠链接结构,却忽视了节点在网络中的其他拓扑结构因素,导致预测精确度较低的问题,提出基于互惠链路计数加权
交流异步电机具有结构简单、成本低廉、可靠性高等优点,被广泛地应用于工农业、制造业等社会生产生活的各个领域。然而交流异步电机具有多变量、非线性、强耦合等特征,且易受各种不确定因素的影响,给交流异步电机的分析和控制带来了一定的挑战。为了提高交流异步电机位置系统的动、静态性能和鲁棒稳定性,并在一定程度上简化系统的控制结构,本文主要进行了以下几个方面的研究工作:首先,基于坐标变换理论和矢量控制思想,建立了
图像超分辨率技术旨在将低分辨率图像重建成高分辨率图像,它是计算机视觉领域的热点问题,同时也非常具有挑战性和开放性。在医学,监控,遥感等行业领域都有非常广泛的应用前景。近年来随着深度学习的发展,基于深度学习的图像超分辨率算法获得了比传统算法更好的效果。通过对国内外研究现状的深入分析,发现目前许多算法对图像特征的利用不够完善,重建后的图像缺乏细节纹理信息,感知质量不高。本文在已有的基于深度学习的图像超
随着互联网技术的突飞猛进,自然界中的复杂系统可以抽象为复杂网络。如何准确有效地发现复杂网络中的重叠社区,快速实现功能划分,是当今世界复杂网络领域的问题。现阶段复杂网络分为无属性复杂网络和属性复杂网络。无属性复杂网络重叠社区发现算法大都基于结构划分,然而这些算法的准确率及稳定性有待提高。部分属性复杂网络重叠社区发现算法忽略属性信息,具有较大的信息损失。部分算法虽然充分利用了结构、属性信息,但是具有较
人们的工作学习越来越离不开网络。网络给人们的生活带来便利的同时,网络漏洞攻击,如拒绝服务攻击、突发访问、蠕虫病毒等也威胁着人们的隐私和财产安全。流量异常检测在检测和预防潜在威胁方面发挥着越来越重要的作用。在流量异常检测领域,已经有大量的研究成果,但是仍然存在一些问题,例如对未知攻击类型检测率低和对少数类别识别率不高等。本文针对其中的一些难题进行研究,主要研究内容如下:首先,基于迁移成分分析的流量异
随着基于位置的社交网络(Location Based Social Network,LBSN)不断地快速进步,个性化兴趣点推荐也逐渐流行,它可以帮助用户发现其可能感兴趣的位置。然而,由于兴趣点推荐是一种隐式反馈,使得用户-兴趣点之间交互存在困难,如果没有对用户签到行为进行“区别对待”,会导致对用户偏好的挖掘不够准确,而且由于用户的签到数量在整个位置社交网络中只占很小的比例,使得签到数据存在高稀疏性
随着人工智能的兴起,以脑机接口(Brain Computer Interface,BCI)为桥梁的脑神经科学研究正迅速展开。其中对虚拟现实场景下空间认知脑电信号的分析成为该领域研究热点,通过空间认知训练前后脑电信号变化可以有效评估认知能力训练效果。目前,在空间认知脑电信号研究方面取得了不少进展,主要包括脑电信号的特征提取以及后续的数据分类。但是仍然存在着不足,主要体现在计算不同通道之间的耦合特征强
近年来,因果特征选择已逐渐成为机器学习和因果发现领域的研究热点。它通过将特征预测与因果发现联系在一起来识别目标属性(Target attribute,T)的马尔可夫毯(Markov Blanket,MB)。本文针对当前因果特征选择无法应用于动态特征空间,而面向流特征的特征选择无法挖掘出T的MB或只识别出T的PC集(Parents and Children)的问题,从在线学习MB的角度,提出一个面向