论文部分内容阅读
近年来,多Agent学习已经成为人工智能和机器学习研究方向发展最迅速的领域之一.将强化学习和BDI思维状态模型相结合,形成针对多Agent的动态协作模型.在此模型中,个体最优化概念失去其意义,因为每个Agent的回报,不仅取决于自身,而且取决于其它Agent的选择.模型采用AFS神经网络对输入状态空间进行压缩,提高强化学习的收敛速度.与此同时,利用模拟退火算法启发性地指明动作空间搜索方向,使其跳出局部最小点,避免迭代步数的无限增长.理论分析和在机器人足球领域的成功应用,都证明了基于BDI框架的多Agent动态协作模型的有效性.