论文部分内容阅读
完备信息博弈一直是机器博弈的主要研究方向,而机器博弈是人工智能的重要领域,是检验人工智能发展水平的重要指标之一。在完备信息博弈中,简单而深邃的围棋在计算机中的处理具有极高的复杂性,是检验机器博弈水平的重要手段。围棋机器博弈的研究成果可以应用到人工智能的其他领域,包括金融决策和运动控制等。2016年Deepmind团队推出的Alpha Go一举战胜了围棋世界冠军李世石,但这并不代表围棋问题已经被完美地解决,围棋博弈中还有很多值得研究的问题。蒙特卡洛树搜索算法的一个重要步骤为模拟,在给定的时间内,模拟的次数越多,蒙特卡洛树搜索算法的结果越准确,返回的结果可参考性越高。模拟中需要策略进行快速走子,传统的方法采用基于模式的方法进行快速走子,但是基于模式的快速走子存在一些问题:模式存储在内存中,每次需要对棋盘中的模式进行统计比对,会耗费大量的时间;基于模式的方法在快速走子时的准确率不高,影响模拟的结果。为了解决上述问题,本论文采用深度学习与蒙特卡洛树搜索算法结合的方法,用深度学习对棋谱进行学习得到网络层数较多的策略网络和网络层数较少的快速走子网络,用策略网络结合蒙特卡洛树搜索算法对博弈树进行搜索,并且针对用模式进行快速走子方法的缺陷提出了利用训练的快速走子网络来进行快速走子的方法。该方法利用3至5层卷积神经网络进行快速走子满足蒙特卡洛树搜索算法中模拟时对快速走子时间的要求,且较于传统的基于模式的方法在对棋谱的预测上准确率更高,使得模拟的结果更有参考价值。另外,使用快速走子网络能够更好地利用GPU资源,且不需要对模式进行统计和比对,提升了蒙特卡洛树搜索算法中模拟的速度。本论文将快速走子网络方法应用在围棋博弈的蒙特卡洛树搜索算法中,实现了基于深度学习和蒙特卡洛树搜索算法的围棋博弈智能体,利用本论文实现的智能体与传统的基于模式的蒙特卡洛树搜索算法智能体对弈,验证了算法的有效性。