非中心化多智能体强化学习中的协作算法研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:cnars
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度强化学习已经在游戏人工智能,自动控制等领域取得了很大的成功。然而,现实世界中许多任务场景包含多个智能体。“中心训练-分散执行”框架由于其结构简单并且优化效率高,逐渐成为求解多智能体强化学习问题的主流算法。本文首先对当前对强化学习算法和多智能体强化学习算法进行综述,尤其对多智能体强化学习中存在的问题进行分析。之后针对“中心训练-分散执行”框架下的协作多智能体强化学习算法,在理论框架,中心化值函数估计以及多智能体全局信用分配问题上做了如下工作:(1)在协作多智能体强化学习场景下,提出了一个通用的“中心训练-分散执行”优化框架,并分析了其理论性质。所提出的优化框架不仅能够涵盖众多当前主流的多智能体强化学习算法,并且通过“中心贪心假设”与值函数估计方式的解耦,能够指导我们设计更为灵活高效的多智能体强化学习算法;(2)针对多智能体强化学习中的中心化值函数估计问题,提出了一个无需重要性采样的异策略值函数估计算子,ISF-SARSA(λ),并进一步提出了一种新的多智能体强化学习算法,ISF-SQMIX。所提出的ISF-SARSA(λ)算子具有很好的理论性质并可作为一种通用的值函数估计方式推广到多种多智能体强化学习算法,ISF-SQMIX算法则能在多个复杂场景下取得先进的性能,并具有很好的样本有效性和稳定性;(3)针对多智能体强化学习中的全局信用分配问题,提出了一种新的全局信用分配机制——奖励高速路网络(reward highway network,RHWNet)。这一算法在不增加算法优化复杂度的前提下通过在奖励分配机制上引入奖励高速路连接使得智能体在决策时能够考虑其自身所分得的奖励及部分全局奖励信号。RHWNet算法不仅在多个复杂场景下取得明显性能提升,并且能够高效利用交互产生的样本进行学习。
其他文献
近年来,由于医疗从业人员培养周期等方面的限制,医疗效率和质量的提升变得缓慢。海量的电子健康系统(EMR)的数据中隐藏大量信息,为获取医学知识提供了新的途径。因此,如何通过挖掘EMR数据的潜在医学知识来治疗疾病成为进一步提升医疗水平的关键。本文旨在开发治疗引擎,其利用资深医生提供的治疗记录和满意治疗结果患者的电子病历提供的知识预测药物处方,从而提升医疗决策质量,避免意外医疗事故发生。然而这并非易事,
学位
期刊
特征选择是模式识别与数据挖掘的关键问题之一,它是削减假设空间大小、降低数据维度的重要方法。随着信息技术的极速发展,获取完整的有标记数据集变得更加困难,实践中常常需要处理部分标记信息缺失的数据集。半监督特征选择即是应用于上述半监督学习场景的特征选择技术,可以同时利用有标记数据和无标记数据进行特征选择。它一方面可以挖掘全体数据样本的结构、分布信息,另一方面也可以利用有标签样本数据标签提供的类别信息。不
学位
在传统机器学习研究中,学习对象仅由一个类别标记来描述其语义信息。在许多实际应用中,学习对象往往与多个类别标记相关联。多标记学习是解决该类任务的一种学习框架,并已成功地应用到了许多实际任务中。在多标记学习的实际任务中,精确标注对象的多个标记往往代价高昂且异常困难。更高效的标注方式是标注者仅粗略地赋予每个对象一个候选标记集合。该候选集包含数目未知的相关标记,并且往往掺杂着一些不相关的标记。这种方式降低
学位
在众多的室内定位技术中,基于图像的定位技术有很大的应用前景。然而基于图像的室内定位技术目前存在一些局限。首先基于图像的定位需要大量的计算和存储资源,不能部署在计算和存储资源有限的移动端。而部署在服务器端,网络延迟或不可用将导致用户无法获得位置信息或产生较大的定位延迟。其次基于图像指纹的定位方法构建和维护图像库需要消耗大量的成本。为了克服基于图像的室内定位方法中存在的限制,本论文提出了一种实时性和轻
学位
近年来,随着4G/5G蜂窝网络和智能手机的普及,各种新兴的移动视频应用(如抖音)的使用量迅速增加。根据思科的报告,全球移动数据流量在过去几年增长迅速,其中移动视频流量占了一半以上。在日益拥挤的无线网络中,流畅和高质量的视频可能无法保证,进一步可能会导致移动用户体验质量降低。因此,在有限的无线网络资源下,如何提高视频质量和用户体验是一个很大的挑战。目前,蜂窝网络正朝着小基站的异构性和密集部署的方向发
学位
随着5G网络的不断推进,无线网络物理层监测在网络运营中发挥着越来越关键的作用。同时,无线信号地图,作为一种分析网络状态的有效方式而备受关注。在构建无线信号地图时,感知区域广且需要长时间更新,传统方式费时费力,已无法满足此应用的需求。而群智感知系统在效率与成本上更具优势,成为了构建城市级无线信号地图的最佳选择。在设计群智感知系统时,通常以数据质量和感知成本作为主要依据。本文主要研究了构建无线信号地图
学位
目前,深度生成对抗网络(GANs)已经成为人工智能领域研究热点之一,其在图像,语音,自然语言处理等基础领域都有着广泛的应用。但是生成对抗网络一直存在着训练不稳定和模式坍塌两大缺点。为了解决这两个问题,研究人员将Wasserstein距离引入到生成对抗网络中代替失效的相对熵度量,并且引入Wasserstein距离的对偶形式来近似计算分布之间的距离,从而在GANs模型架构中引入了评函数的结构,以此提出
学位
通过国有企业中国化工集团并购瑞士先正达典型案例,分析双方并购达成动因,对并购前存在的估值定价风险、并购中存在的支付风险和融资风险及并购后存在的整合风险进行研究分析,提出充分了解被并购方,借助专业第三方机构合理估值;避免单一支付方式,选择有利汇率节点;优化企业融资结构,保证融资渠道多样化;强化资源整合能力,促进整合方案科学化等与各项风险相对应的防范措施。
期刊
人脸表情能够传达重要的非语言信息,是情绪的直接体现。学会识别表情就是学会了人际交往的重要技巧,可以帮助了解对方的意愿、健康状况、情绪波动、好恶情况等等。因此,如果计算机能自动识别人脸表情,那就可以被广泛应用于生活中的各个方面,如人机交互系统、互联网教育、虚拟现实、智能监控、广告的精准推送、疾病的预防、紧急危害事件的预测等。目前在实验室场景下的人脸表情识别技术已经达到很高的准确率。但这种技术若是应用
学位