论文部分内容阅读
不确定性环境的决策和规划是人工智能领域研究的基本问题之一。交互式动态影响图(Interactive Dynamic Influence Diagrams,I-DIDs)直观地表示了多Agent决策的基本要素,包括决策、不确定性、目标以及Agent之间如何相互影响,成为求解多Agent决策的新工具。I-DIDs模型涵盖了多Agent合作,中立或竞争的问题。I-DIDs模型求解受信度表示的复杂性和策略空间的复杂性两个高复杂度问题的困扰,只能求解很小规模的问题。为了求解问题的需要,更多情况是为I-DIDs设计一些切实可行的近似求解算法。论文首先为一般的I-DIDs问题设计高效的近似算法。(1)针对I-DIDs精确求解的困难,提出了基于相对熵的区别模型更新(Discrimative Model Update,DMU)改进算法。该近似算法比DMU算法更快的识别行为等价模型,迅速压缩行为等价模型,避免模型空间随决策周期的增加指数倍增长,有效的节省了内存空间,提高了求解效率。实验结果印证了基于相对熵的近似算法在多Agent求解上的诸多优势。(2)提出了基于N步前瞻搜索的近似行为等价算法。该算法改变了以往算法需要事先生成完整策略树,然后比较行为等价模型的做法。该算法将策略生成问题建模为选择动态决策网络的部分解的问题,并在此基础上提出了求解I-DIDs的快速近似算法。在实验结果中,N步前瞻算法在运行时间上比之前的算法更快,能够对大规模决策问题进行近似最优的求解。 在以上工作基础上,分别对多Agent合作与竞争两种环境下,I-DIDs模型求解展开详细探讨。 在合作的多Agent环境下,通信是减少环境的不确定性,提高决策质量的重要技术手段,将通信行为引入I-DIDs模型既是对I-DIDs的发展,也使得I-DIDs成为解决多Agent合作决策问题的新工具。本文针对当前COM-IDIDs仅适合单向通信(告诉或者查询类型)这一局限,采用同步类型通信方式,构建了双向通信的COM-IDIDs模型。该模型能直观的表示通信行为与其它决策变量之间的关系。在算法求解过程中,将I-DIDs的一些精确算法进一步拓展应用到COM-IDIDs模型的求解工作中,并结合通信的期望值设计COM-IDIDs的求解算法,从而提高了COM-IDIDs的求解效率。 目前I-DIDs和COM-IDIDs的所有算法及其验证都是假设其他Agent的真实模型包含于被考虑的候选模型空间。然而在实际问题中,特别是竞争环境,由于不愿意共享信息,以及信息的缺乏,不能保证其他Agent的真实模型存在于被考虑的模型空间中,导致求解质量下降,因此探索和了解其他Agent的真实模型对提高I-DIDs的求解质量有重要的作用,这类问题也被称为对手建模问题。本文应用I-DIDs作为一种新的对手建模语言,直观描述和刻画了对手模型的变化。由于贝叶斯学习方法在识别真实模型存在的一些不足之处,本文提出了基于互信息识别对手模型的方法,当其他Agent的真实模型不在模型空间的情况,该算法能够识别一个与真实模型相关的模型。