动态博弈环境下的隐式对手建模方法

来源 :大连理工大学 | 被引量 : 0次 | 上传用户：shujun2000

【摘要】

：

【作者】

：

赵天昊

【机构】

：

大连理工大学

【出处】

：

大连理工大学

【发表日期】

：

2021年01期

【关键词】

：

对手建模机器博弈多智能体强化学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

智能决策是人工智能领域的重要发展方向之一,可在博弈环境中基于强化学习方法来实现。传统强化学习方法中一般将参与交互的其他智能体即对手看作环境的一部分,由于未考虑对手的行为特征,可能会导致误判而影响决策结果。因此对博弈中参与交互的对手进行建模成为研究的一个热点问题。当前的对手建模技术多数都着眼于固定的对手策略,而在现实中的对手策略通常是动态变化的。采取动态策略的对手智能体在博弈时,其策略的变化会导致智能体的收益下降。此外,大多数的建模技术都是显式建模,此方法分离了建模和规划的过程,对预测信息的利用需要大量的领域知识。本文提出了动态对手策略条件下的隐式智能体建模方法,将对手建模融入到博弈智能体的强化学习训练中,利用对手的行为信息优化智能体的决策。本文主要创新点及贡献如下:首先,在博弈环境中对对手特征进行隐式建模,将对手模型编码至神经网络模型中,通过融合双路输出得到最终动作估值以提高模型更新效率。具体地,本文提出了两种包含对手模型的Q网络模型。一种是采用全连接方式整合状态网络和对手网络;另一种是通过权重网络对多个次级专家子网络进行整合。由于不需要特定的领域知识进行学习,本模型具有较强的泛化能力。其次,针对当前强化学习算法中因最大化操作而产生的过度估计问题,本文对算法中动作选择过程和动作估值过程进行解耦,分别使用不同的网络进行动作的选择和对动作进行估值,从而可以避免动作价值的过度估计问题。最后,构建了两个博弈测试环境:模拟足球游戏和知识问答游戏。实验结果表明,引入对手建模能够有效解决动态博弈环境中由于对手动态策略所导致的收益不稳定问题,且相较于基准模型,基于本文对手模型及学习算法的博弈智能体能够取得更好的决策表现,证明了本文对手模型及学习算法的有效性。

其他文献

基于PVDF压电薄膜传感器的损伤识别研究

船舶等海洋工程结构物长期服役于海洋环境中,工作环境复杂恶劣,船舶在运转期间的安全问题始终是关注的热点。结构健康监测技术（Structural Health Monitoring,SHM）能够在结构服役期间监测结构运行状态,在结构发生损伤的早期识别损伤的存在,能够节省大量人力、物力资源,避免重大的经济财产损失。因此,近年来船舶等海洋工程结构健康监测技术得到了众多学者的研究。结构损伤识别层次是结构健康

学位

结构健康监测损伤识别组合式压电薄膜传感器应变曲率模态运行模态分析

水下无线传感网络移动节点定位及目标跟踪关键技术研究

近年来,海洋环境保护、资源的开发利用等需求越来越高,水下无线传感器网络作为探索和利用海洋的关键技术之一,也成为了一个研究热点。而水下传感器网络节点的位置信息是网络能够有效工作的关键之一。水下环境由于水流等因素比陆地环境更为复杂,且由于射频信号在水下传输衰减过大,不能用于水下信息的中长距离传输,只能考虑水声,因此,陆地无线传感器网络的技术不能直接应用于水下传感器网络。水下节点定位的主要问题:一是节点

学位

水下传感器网络节点定位目标跟踪空洞边缘能量均衡

基于CNN的图像多特征提取与快速匹配

图像匹配通过特征检测和描述,寻找不同图像的相同区域,从而完成识别、配准和检索等任务。本文主要针对无人机视觉导航任务,传统图像匹配方法SIFT在困难条件下（如图像模糊）匹配性能不足等问题开展研究。考虑到基于卷积神经网络（CNN）的学习型描述子具有更大的描述区域以及对困难条件的强适应能力,与SIFT手工设计描述子性能互补。本文基于传统和深度特征相结合的SIFT-HardNet方法,针对SIFT-Har

学位

图像匹配视觉导航CNNSIFT-HardNet特征融合快速匹配

基于卷积神经网络的非聚焦模糊检测

非聚焦模糊区域检测是为了检测图像中非聚焦模糊区域和聚焦清晰区域,是一种像素级任务,在自动聚焦、图像恢复等计算机视觉领域有着广泛的应用。近年来,深度卷积神经网络在非聚焦模糊检测任务中展示出了强大的特征提取能力,取得了很大的进展。然而,大多数基于卷积神经网络的方法总是依赖于昂贵的像素级标签。为了降低标签成本,本文提出利用框级标签完成像素级的非聚焦模糊检测任务。框级标签能够提供非聚焦区域大致位置的线索,

学位

非聚焦模糊区域检测弱监督框级标签全监督镂空填充交互式学习

基于BP神经网络的重力坝深层抗滑稳定分析

深层抗滑稳定分析是重力坝抗震计算中的一项重要内容,采用有限元方法进行深层抗滑稳定计算需要在计算模型中预先设置滑动面,当重力坝坝基深层存在多个缓倾角和软弱结构面时,不仅整个有限元模型建模和网格剖分将面对较大的困难,而且会面临局部单元质量降低的问题。本文提出了一种基于BP神经网络的重力坝深层抗滑稳定有限元分析方法。该方法无需在有限元计算模型中设置滑动面,结合BP神经网络算法根据坝基深层空间应力关系拟合

学位

混凝土重力坝粘弹性人工边界BP神经网络应力拟合抗滑计算

六足机器人自由步态规划与运动控制研究

六足机器人作为一类高冗余、多自由度的足式机器人,在适应性、可靠性、运动性能等方面具有其他类型机器人无法比拟的优势,但是过于复杂的非线性结构为六足机器人运动控制与步态规划研究带来了挑战。为了保证六足机器人运动控制的准确性,提高六足机器人环境适应能力,进而实现六足机器人完全自主行走,六足机器人的步态规划与控制问题成为近十年来足式机器人研究领域的关键问题。本文首先对六足机器人国内外研究现状进行了分析,从

学位

六足机器人混沌神经网络自由步态深度强化学习优先级采样

基于深度学习的数字图像信息隐藏分析研究

移动通信和互联网技术的普及给人们通信生活带来极大便利的同时,也使得通信隐私问题越来越受关注,以隐蔽安全通信为目的的信息隐藏技术研究也越来越多,作为其对抗技术,信息隐藏分析技术的研究也愈受重视。随着近年来深度学习与图像信息隐藏分析技术的结合,信息隐藏分析检测性能越来越好,但目前深度信息隐藏分析模型研究主要集中于数据匹配条件下性能提升,本文面向数据源失配场景和模型效率提升,进行了以下方面的研究:在空域

学位

信息隐藏分析深度学习数据源失配域自适应对抗训练模型压缩对抗样本

基于信息粒化的区间时间序列补偿预测研究

时间序列模型运用数据信息开展系统状态的预测与分析,在工业、经济和医疗等诸多领域取得了广泛的应用。随着建模数据规模和复杂程度的日益加剧,人们希望时间序列模型不仅能够预测未来时刻的信息,还能提供考察对象在某一时间段内的变化趋势,进而对模型结果提供一定的语义解释。本文将使用信息粒化技术探讨时间序列数据的粒度表示、区间时间序列的建模和预测结果的评估等内容,主要工作包括:首先,运用信息粒化技术将时间序列数据

学位

区间时间序列信息粒宽度学习系统分段补偿模型

机器学习在比例边界有限元法中的应用研究

21世纪以来,随着计算机运算能力的大幅度提高,神经网络在诸如土木工程、生物学、图像识别等多种领域中得到了越来越多的重视。近些年,众多行业和领域在机器学习研究中也投入了越来越多的精力和资金,在作为世界经济发展的支柱型行业之一的建筑与土木工程领域中,传统计算技术正在与机器学习算法相融合,从而推动技术进步和基础产业的升级换代。另一方面,比例边界有限元方法作为一种新发展的半解析计算科学,其与机器学习的结合

学位

机器学习比例边界有限元优化算法硬化模型弹塑性

基于深度学习的交通标志检测研究与应用

交通标志检测技术是目标检测领域的一个热点和难点。实际场景中,道路街景复杂多样,交通标志在整张图片中的占比非常小,在进行特征提取时交通标志自身的特征往往会被周围的背景和其他小尺寸目标,例如广告牌等物体不断稀释,导致实际场景中检测效果较差。另外,交通标志检测系统通常搭载在智能汽车等移动平台上,需要在极低时延内对前方标志做出快速准确地识别,而现有方法很难在检测精度和检测速度上做到均衡。针对上述问题,本文

学位

交通标志检测特征融合注意力机制Atlas 200 DK

动态博弈环境下的隐式对手建模方法

其他学术论文