论文部分内容阅读
复杂的动态决策问题是人工智能领域中复杂系统研究的一个重要组成部分。本文基于贝叶斯技术和决策理论,提出一种具有更强知识表示能力的动态决策模型——多Agent动态影响图,用于动态环境中的多智能体建模;探讨了多Agent动态影响图概率分布的近似计算方法、推理算法,以及多智能体的协作问题。全文主要内容及创新之处如下:(1)给出了影响图的一种结构分解方法,将影响图分解成概率网络结构部分和效用结构部分;提出一种融合结构先验知识的MDL评分标准以降低传统MDL评分标准对数据的依赖性,并基于该评分标准提出一种PS-EM算法用于概率网络结构部分的模型选择;通过将联合效用函数表示成各个局部效用函数的和,进而构造一种用于学习局部效用函数的BP神经网络实现影响图效用结构部分的学习。实验结果表明了该模型选择方法的有效性。(2)通过对相关概率决策模型的分析,将多Agent影响图在时间上进行扩展,提出一种新决策模型——多Agent动态影响图(MADIDs),用于表示动态环境中多Agent协作关系。为了有效地计算MADIDs的概率分布,以Agents之间的策略相关性为指导,给出一种概率分布的分层分解方法,并基于KL差分对近似分布的误差进行了分析。(3)针对MADIDs的1.5片联合树精确推理算法计算复杂性高和BK近似推理算法误差大的问题,提出一种扩展的BK(EBK)算法。EBK算法通过对MADIDs的概率分布进行分层分解来提高推理的计算效率,通过引入分割团来减小算法的推理误差,并且添加了效用结点和决策结点的推理。针对粒子滤波推理算法计算上维数过高和因式粒子滤波推理算法误差过大的问题,将粒子滤波和联合树推理算法的优点相结合,提出了一种联合树因式粒子推理(JFP)算法。JFP算法将MADIDs的概率分布转变成局部因式形式以提高计算效率,并利用联合树来传播因式粒子以减少推理误差。在仿真足球机器人中的一个局部协作模型上,对上面的各种算法进行了实验验证。(4)在基于协作图实现多Agent协作方法的基础上,将角色引入协作图中给出了一种扩展的协作图,以减少协作中的通信。给出一种基于MADIDs的多Agent协作方法,通过环境的推理和局部效用的计算实现协作。通过对对手建模避免局部协作的通信。