论文部分内容阅读
强化学习是一种无监督学习方法,使智能体能够在环境模型未知的情况下利用环境奖赏发现最优的行为序列,因此被广泛用于智能体系统中。Q-学习算法是最易理解和目前广为使用的一种无模型强化学习方法,但标准的Q-学习算法应用于智能体系统时本身存在一些问题。首先,强化学习在与环境交互时,不得不采用试探的方法来学习策略,同时智能体仅仅靠外部的评价来调整自己的行为,这势必要经过一个漫长的学习过程。其次标准的Q-学习算法通常用于处理离散状态的问题,但是智能体系统所处的环境通常是状态空间连续的。如何解决在连续状态环境下多智能体学习问题,也是许多学者研究的课题。基于此本文针对Q-学习算法在智能体系统中应用时遇到的这些问题,对Q-学习算法进行了一些改进和扩充,改善其在智能体系统中应用的学习效果。本文的主要研究工作如下:首先,针对强化学习学习速度慢的缺点,本文提出一种基于启发知识的Q-学习算法,该算法在标准的Q-学习算法中加入具有启发知识的函数来影响学习过程中智能体动作选择,从而加快智能体在复杂环境中的学习速度。仿真结果表明,相比较于标准的Q-学习算法,智能体通过学习可以更快学习到正确决策,有效提高了智能体学习速度。同时,提出一种具有启发知识的并行Q-学习算法,在该算法中,参与学习的各智能体独立的执行基于启发知识的Q-学习算法,智能体通过交流学习成果、融合启发知识、共享学习结果,提高整个多智能体系统的学习效率。将算法应用在多智能体仿真环境中,取得了较好的学习效果。最后,提出了一种结合模块化学习的模糊Q-学习算法,解决连续状态空间下的多智能体强化学习问题。算法利用模糊推理对状态空间进行泛化,同时采用了模块化的方法,将复杂的任务进行分解以减小状态空间的规模,提高学习效率。并且应用一种非均匀的表示结构来设计强化函数,对不同的动作给予不同的奖励和惩罚。最后将提出的算法应用在多智能体捕猎的仿真环境中,从仿真的曲线中可以明显的看出来,捕猎智能体的移动步数逐渐达到平稳,有效的完成了学习过程,系统整体性能达到了最优。