论文部分内容阅读
合作型多智能体决策技术研究给定的一组智能体如何协调彼此的动作,与环境进行交互,共同完成一个长远的目标。合作型多智能体决策技术有相当多的应用背景。例如,机器人足球队,球员之间相互配合,共同为赢得比赛丽努力:机器人营救,多个机器人相互协调,以最快的速度,营救地震后的幸存者。本论文重点研究合作型多智能体决策技术中的三个课题:1)值函数分解;2)合作型多智能体协调技术;3)合作型多智能体强化学习技术。本论文研究的主要内容及取得的成果有以下几方面:
1.研究了合作型多智能体系统值函数分解技术,提出了一种基于角色特定上下文的值函数分解方法。该方法将系统值函数近似为一些局部值函数的和。每个局部值函数只包含需要协调彼此动作的一小部分智能体。提出的值函数分解方法紧致地描述了系统中智能体之间的协调关系,降低了“维数诅咒”带来的影响。
2.研究了合作型多智能体协调技术,证明了在合作型多智能体系统中,Pareto最优同时也是Nash平衡,并提出了构造合作型多智能体协调算法的一般方法。在此基础之上,提出了一种基于模拟退火的合作型多智能体协调算法。理论分析和实验都表明该算法比主流的合作型多智能体协调算法有更高的效率。
3.提出了一种新颖的多智能体Q学习算法。该算法运用值函数分解技术,有效地减少了学习过程中需要访问的状态一动作对。实验表明,在学习到几乎相同的值函数时,本文提出的学习算法的收敛速度比传统的多智能体强化学习算法快4倍。