论文部分内容阅读
完备信息博弈已经有很多比较成功的解决方案。博弈双方根据当前棋局创建一个部分的博弈树,利用估值函数对叶结点进行估值,通过估值的结果来进行搜索,找到一个根结点的最佳走步。这是很多的人工智能程序的核心架构。非完备信息博弈问题的解决技术和完备信息有很大的差异,应用于完备信息的技术不一定能够成功的应用到非完备信息博弈中。在非完备信息博弈中,博弈双方仅拥有当前游戏状态的部分知识。在信息不明了的情况下,随机策略成为一个可行的选择。在随机策略中,对局面估值的准确性提出了更高的要求。在博弈系统中采用比较普遍的方法是静态估值方法。静态估值法,要求设计人员对下棋方法有较多的了解,能充分判断棋局局面中的某一特征在形势判断中所起的重要程度(即相应的分值),并给整个局面比较准确的评分。但是面对成千上万的局面,即使是大师也不可能一一做出精确的形势判断,特别是在对局的开始阶段,棋局的优劣更难以判断。而且,如果对大量的棋局状态进行存储,就要求有大的存储空间及快速的搜索算法。对此,本文采用Q-学习方法来解决静态估值函数存在的问题。Q-学习是机器学习领域强化学习技术的一种。传统的学习技术通过预测值和真实结果之间的差值来调整描述状态的各种参数,而Q-学习根据连续的预测之间的差值来调整。对现实生活中的大多数预测问题来说,Q-学习相对于传统方法而言需要更少的内存,更低的计算时间复杂度。Q-学习侧重于对运算效率的提升,结果优于传统学习方法。本文探讨了Q-学习在非完备信息机器博弈估值函数中的应用,并针对Q-学习存在收敛速度慢和结果容易陷入局部最优这两个特点,结合时序差分预测和模拟退火算法,来加快收敛速度和达到探索结果全局最优,实现了一个具有自学习能力的非完备信息博弈系统。本文的主要研究成果和创新之处在于:1.针对Q-学习收敛速度慢的特点,结合时序差分预测,并且动态调整参数,来实现初期信息的收集以加快学习,后期加快收敛速度;2.在Q-学习中,引入模拟退火中的Metropolis准则,对非最优解进行探索,使学习结果全局最优;3.实现了基于Q-学习的估值函数的非完备信息机器博弈系统,可以动态调整智能体的行为,以获得最优的走步。4.开发了基于腾讯游戏大厅的四国军棋测试系统,生产大量棋局。并且建立了棋局库,对游戏的初局和后期进行了研究。