论文部分内容阅读
游戏人工智能系统是游戏软件中的重要组成部分,其应用旨在帮助游戏中的虚拟角色不断适应游戏环境的变化,产生对玩家来说足够合理的行为反应,使虚拟角色更加智能。游戏人工智能系统从架构上可以分为感知系统、行动系统以及决策系统等主要部分,其中行动系统是基本模块,决策系统是核心模块,它们决定了游戏人工智能的水平,进而影响游戏玩家体验。为了提高游戏人工智能在游戏软件中的使用效率及稳定性,本文主要研究游戏人工智能中的寻路技术及行为决策技术。针对游戏中寻路算法效率低的问题,研究如何加快寻路算法的速度并改进算法的适用性。为使游戏角色的行为决策能适应游戏环境变化,在行为树中引入强化学习算法,并研究如何改进强化学习算法,获取其在行为树中的稳定控制策略以及提高强化学习算法在行为树中控制效率。本文的主要研究工作体现在以下三个方面:(1)针对A*算法在游戏寻路中效率低的问题,提出了一种基于路径复用的A*寻路算法。首先根据游戏寻路的特点,改进算法的启发函数,减少算法对无用节点的探索,使寻路朝着正确的方向进行。然后通过设置锚点,利用路径复用的思想进一步减少寻路过程中的节点探索及算法的资源消耗,从而提高算法的寻路速度。其次通过为动态物体设置移动优先级缓解A*算法不适用于动态寻路的问题。最后通过寻路实验对比,验证了改进的寻路算法提高了A*算法在游戏寻路中的效率。(2)针对行为树决策编码复杂且缺乏学习机制的问题,首先将强化学习的思想运用到行为树设计中,使行为树根据游戏环境变化调整其结构以适应环境。然后分析了强化学习在行为树中控制不稳定及学习效率低的问题,提出了一种稳定型强化学习算法,改进强化学习算法的状态值更新方式及奖赏函数,并利用状态值递增准则和动作连续性准则去除不利于算法收敛的动作,以提高算法的控制精度,使算法获得稳定控制策略。最后通过行为树实验对比,验证了稳定型强化学习算法在行为树中能获得稳定控制策略,并在一定程度上提高算法的学习效率。(3)针对强化学习在行为树中学习效率低的问题,提出了一种基于定性动作的Option算法。首先从分时的角度分析了强化学习探索策略效率低的原因。然后通过定义定性动作与次优定性动作判断准则,实现分步探索策略;利用层次化的思想分层学习行为树系统的次优策略与最优策略,缓解行为树系统最终优化程度与算法学习速度之间的矛盾,在保证算法控制精度的同时提高算法的收敛速度。最后通过行为树实验对比,验证了基于定性动作的Option算法在行为树中能较快收敛,并获得稳定的控制效果,提高了强化学习算法在行为树中控制效率。