基于交互式动态影响图的多Agent序贯决策问题求解

来源 :厦门大学 厦门大学 | 被引量 : 0次 | 上传用户:lisong459
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不确定性环境的决策和规划是人工智能领域研究的基本问题之一。交互式动态影响图(Interactive Dynamic Influence Diagrams,I-DIDs)直观地表示了多Agent决策的基本要素,包括决策、不确定性、目标以及Agent之间如何相互影响,成为求解多Agent决策的新工具。I-DIDs模型涵盖了多Agent合作,中立或竞争的问题。I-DIDs模型求解受信度表示的复杂性和策略空间的复杂性两个高复杂度问题的困扰,只能求解很小规模的问题。为了求解问题的需要,更多情况是为I-DIDs设计一些切实可行的近似求解算法。论文首先为一般的I-DIDs问题设计高效的近似算法。(1)针对I-DIDs精确求解的困难,提出了基于相对熵的区别模型更新(Discrimative Model Update,DMU)改进算法。该近似算法比DMU算法更快的识别行为等价模型,迅速压缩行为等价模型,避免模型空间随决策周期的增加指数倍增长,有效的节省了内存空间,提高了求解效率。实验结果印证了基于相对熵的近似算法在多Agent求解上的诸多优势。(2)提出了基于N步前瞻搜索的近似行为等价算法。该算法改变了以往算法需要事先生成完整策略树,然后比较行为等价模型的做法。该算法将策略生成问题建模为选择动态决策网络的部分解的问题,并在此基础上提出了求解I-DIDs的快速近似算法。在实验结果中,N步前瞻算法在运行时间上比之前的算法更快,能够对大规模决策问题进行近似最优的求解。  在以上工作基础上,分别对多Agent合作与竞争两种环境下,I-DIDs模型求解展开详细探讨。  在合作的多Agent环境下,通信是减少环境的不确定性,提高决策质量的重要技术手段,将通信行为引入I-DIDs模型既是对I-DIDs的发展,也使得I-DIDs成为解决多Agent合作决策问题的新工具。本文针对当前COM-IDIDs仅适合单向通信(告诉或者查询类型)这一局限,采用同步类型通信方式,构建了双向通信的COM-IDIDs模型。该模型能直观的表示通信行为与其它决策变量之间的关系。在算法求解过程中,将I-DIDs的一些精确算法进一步拓展应用到COM-IDIDs模型的求解工作中,并结合通信的期望值设计COM-IDIDs的求解算法,从而提高了COM-IDIDs的求解效率。  目前I-DIDs和COM-IDIDs的所有算法及其验证都是假设其他Agent的真实模型包含于被考虑的候选模型空间。然而在实际问题中,特别是竞争环境,由于不愿意共享信息,以及信息的缺乏,不能保证其他Agent的真实模型存在于被考虑的模型空间中,导致求解质量下降,因此探索和了解其他Agent的真实模型对提高I-DIDs的求解质量有重要的作用,这类问题也被称为对手建模问题。本文应用I-DIDs作为一种新的对手建模语言,直观描述和刻画了对手模型的变化。由于贝叶斯学习方法在识别真实模型存在的一些不足之处,本文提出了基于互信息识别对手模型的方法,当其他Agent的真实模型不在模型空间的情况,该算法能够识别一个与真实模型相关的模型。
其他文献
本设计中研究的主要内容是针对矿山井下架空人车运行过程中所遇到的实际问题并对相应问题提出相应的解决方案。为提高井下运输系统调度工作的直观性、科学性、实时性与生产过
随着自动化、智能化技术的发展,在工业、军事、科研等领域中所使用的传感器的种类和数量越来越多.没有任何一种传感器可以保证在任何时候都能提供全面和准确无误的信息.信息
随着网络规模的扩大、复杂性的提高和网络应用的增多,人们对网络管理(特别是复杂、异构网络的管理)的要求也越来越高.一个好的网络管理系统应有助于网络发挥其最大的效用,为
为了倡导我国提出的“可持续发展”战略决策,实现锅炉的节能减排、提高效率、保护环境的目的,我们需要针对锅炉燃烧系统进行优化控制。而锅炉燃烧系统是一个复杂的多变量非线
效能是评价武器装备能力的重要指标,效能的评估与优化在武器装备全生命周期中具有重要作用,仿真是武器装备效能评估与优化的主要手段。本文针对如何开展武器装备效能仿真评估
当今世界面临着能源危机与环境污染两大问题,使得人们越来越清醒地认识到节能环保类产品的重要性。电源作为电子设备的动力来源,对其进行深入研究并加以利用对人类的可持续发
随着Internet用户和各种各样的网络服务的迅速发展,Internet变得日益繁忙,流量急剧增加。由于网络资源的瓶颈约束以及Internet的流量突发性,很容易导致网络产生拥塞现象。特
随着大功率开关器件、数字专用集成电路的不断问世和控制理论的不断进步,交流伺服系统得到了迅速发展,其中永磁同步电动机及其驱动理论和应用的研究成为交流调速系统研究的一个焦点。总的来说,永磁同步电动机的伺服控制方法分为线性 PID 控制和非线性控制两大类。线性控制算法简单、易于实现,但不能满足更高精度的动态性能场合的控制要求;近年来,各国学者和研究人员纷纷致力于非线性控制的研究,已经取得...
本文以实际的生产为背景,研究了温室信息管理系统的网络化问题,并给出了基于Internet的温室信息管理系统的设计方案与实现,主要完成了以下几方面的工作:1、 针对国内温室管理系统
本文基于一套多功能智能电器安全测试仪,在低压启动,功率测量两个方面在原有的基础上重新设计了硬件,不但精简了原来的硬件电路,而且提高了电路的稳定性。重新设计了软件,使其电压