基于交互式动态影响图的多Agent序贯决策问题求解

来源 :厦门大学厦门大学 | 被引量 : 0次 | 上传用户：lisong459

【摘要】

：

不确定性环境的决策和规划是人工智能领域研究的基本问题之一。交互式动态影响图（Interactive Dynamic Influence Diagrams，I-DIDs）直观地表示了多Agent决策的基本要素，包括决策

【作者】

：

田乐

【机构】

：

厦门大学

【出处】

：

厦门大学厦门大学

【发表日期】

：

2014年期

【关键词】

：

多Agent系统交互式动态影响图等价模型改进算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

不确定性环境的决策和规划是人工智能领域研究的基本问题之一。交互式动态影响图（Interactive Dynamic Influence Diagrams，I-DIDs）直观地表示了多Agent决策的基本要素，包括决策、不确定性、目标以及Agent之间如何相互影响，成为求解多Agent决策的新工具。I-DIDs模型涵盖了多Agent合作，中立或竞争的问题。I-DIDs模型求解受信度表示的复杂性和策略空间的复杂性两个高复杂度问题的困扰，只能求解很小规模的问题。为了求解问题的需要，更多情况是为I-DIDs设计一些切实可行的近似求解算法。论文首先为一般的I-DIDs问题设计高效的近似算法。(1)针对I-DIDs精确求解的困难，提出了基于相对熵的区别模型更新(Discrimative Model Update，DMU)改进算法。该近似算法比DMU算法更快的识别行为等价模型，迅速压缩行为等价模型，避免模型空间随决策周期的增加指数倍增长，有效的节省了内存空间，提高了求解效率。实验结果印证了基于相对熵的近似算法在多Agent求解上的诸多优势。(2)提出了基于N步前瞻搜索的近似行为等价算法。该算法改变了以往算法需要事先生成完整策略树，然后比较行为等价模型的做法。该算法将策略生成问题建模为选择动态决策网络的部分解的问题，并在此基础上提出了求解I-DIDs的快速近似算法。在实验结果中，N步前瞻算法在运行时间上比之前的算法更快，能够对大规模决策问题进行近似最优的求解。　　在以上工作基础上，分别对多Agent合作与竞争两种环境下，I-DIDs模型求解展开详细探讨。　　在合作的多Agent环境下，通信是减少环境的不确定性，提高决策质量的重要技术手段，将通信行为引入I-DIDs模型既是对I-DIDs的发展，也使得I-DIDs成为解决多Agent合作决策问题的新工具。本文针对当前COM-IDIDs仅适合单向通信（告诉或者查询类型）这一局限，采用同步类型通信方式，构建了双向通信的COM-IDIDs模型。该模型能直观的表示通信行为与其它决策变量之间的关系。在算法求解过程中，将I-DIDs的一些精确算法进一步拓展应用到COM-IDIDs模型的求解工作中，并结合通信的期望值设计COM-IDIDs的求解算法，从而提高了COM-IDIDs的求解效率。　　目前I-DIDs和COM-IDIDs的所有算法及其验证都是假设其他Agent的真实模型包含于被考虑的候选模型空间。然而在实际问题中，特别是竞争环境，由于不愿意共享信息，以及信息的缺乏，不能保证其他Agent的真实模型存在于被考虑的模型空间中，导致求解质量下降，因此探索和了解其他Agent的真实模型对提高I-DIDs的求解质量有重要的作用，这类问题也被称为对手建模问题。本文应用I-DIDs作为一种新的对手建模语言，直观描述和刻画了对手模型的变化。由于贝叶斯学习方法在识别真实模型存在的一些不足之处，本文提出了基于互信息识别对手模型的方法，当其他Agent的真实模型不在模型空间的情况，该算法能够识别一个与真实模型相关的模型。

其他文献

基于物联网的矿山井下架空人车监控系统的研究

本设计中研究的主要内容是针对矿山井下架空人车运行过程中所遇到的实际问题并对相应问题提出相应的解决方案。为提高井下运输系统调度工作的直观性、科学性、实时性与生产过

学位

监控系统节点网络运输安全惯性导航定位

多传感器信息融合技术及其在组合导航系统中的应用

随着自动化、智能化技术的发展,在工业、军事、科研等领域中所使用的传感器的种类和数量越来越多.没有任何一种传感器可以保证在任何时候都能提供全面和准确无误的信息.信息

学位

分布式Kalman滤波数据融合多传感器GPS/INS组合导航

移动agent技术及其在网络管理系统中的应用研究

随着网络规模的扩大、复杂性的提高和网络应用的增多,人们对网络管理(特别是复杂、异构网络的管理)的要求也越来越高.一个好的网络管理系统应有助于网络发挥其最大的效用,为

学位

移动agent网管系统SNMP

基于ADP的锅炉燃烧系统的控制研究

为了倡导我国提出的“可持续发展”战略决策,实现锅炉的节能减排、提高效率、保护环境的目的,我们需要针对锅炉燃烧系统进行优化控制。而锅炉燃烧系统是一个复杂的多变量非线

学位

锅炉燃烧系统近似动态规划启发式动态规划执行依赖启发式动态规划优化控制

武器装备效能仿真评估与优化方法研究

效能是评价武器装备能力的重要指标,效能的评估与优化在武器装备全生命周期中具有重要作用,仿真是武器装备效能评估与优化的主要手段。本文针对如何开展武器装备效能仿真评估

学位

武器装备效能仿真评估组合评估仿真优化拉丁超立方采样

平均电流控制多通道交错并联磁集成Buck变换器

当今世界面临着能源危机与环境污染两大问题,使得人们越来越清醒地认识到节能环保类产品的重要性。电源作为电子设备的动力来源,对其进行深入研究并加以利用对人类的可持续发

学位

多通道交错并联磁集成技术小信号建模平均电流控制Buck变换器

端到端的Internet拥塞控制研究

随着Internet用户和各种各样的网络服务的迅速发展,Internet变得日益繁忙,流量急剧增加。由于网络资源的瓶颈约束以及Internet的流量突发性,很容易导致网络产生拥塞现象。特

学位

英特网拥塞控制TCP协议主动队列管理稳定性非线性

永磁同步电动机的鲁棒平滑跟踪控制

随着大功率开关器件、数字专用集成电路的不断问世和控制理论的不断进步，交流伺服系统得到了迅速发展，其中永磁同步电动机及其驱动理论和应用的研究成为交流调速系统研究的一个焦点。总的来说，永磁同步电动机的伺服控制方法分为线性 PID 控制和非线性控制两大类。线性控制算法简单、易于实现，但不能满足更高精度的动态性能场合的控制要求；近年来，各国学者和研究人员纷纷致力于非线性控制的研究，已经取得...

学位

永磁同步电动机伺服系统 PID平滑轨迹跟踪滤波器 DSP

基于Internet网的温室远程信息管理系统研究与实现

本文以实际的生产为背景，研究了温室信息管理系统的网络化问题，并给出了基于Internet的温室信息管理系统的设计方案与实现，主要完成了以下几方面的工作：1、针对国内温室管理系统

学位

温室管理信息管理面向对象可视化技术计算机网络

具有数字图像识别的电器安全检测嵌入式系统

本文基于一套多功能智能电器安全测试仪，在低压启动，功率测量两个方面在原有的基础上重新设计了硬件，不但精简了原来的硬件电路，而且提高了电路的稳定性。重新设计了软件，使其电压

学位

电器安全测试仪组合低压启动功率测量数字图像处理与识别

基于交互式动态影响图的多Agent序贯决策问题求解

其他学术论文