论文部分内容阅读
以AlphaGo Zero与Alpha Zero为代表,深度强化学习在棋类游戏博弈中取得了重要的成就,但是目前的相关算法多依赖于强大的计算资源的支持。本文以减轻对算力的依赖并提升算法性能为目标,主要讨论了如何改进计算机棋类博弈游戏中深度强化学习算法的反馈机制和神经网络,以及相关改进对网络性能的影响等问题。论文提出了一种混合深度强化学习模型,该模型采用Q-Learning和Sarsa(λ)相结合的Q表中Q值的更新方式。并在围棋和久棋的博弈环境上结合UCT算法进行了实验,相比于单独使用Q-Learning或Sarsa(λ)的算法,本文提出的学习模型取得了更高的学习效率。在久棋博弈的实验中,通过检测损失率、总对弈次数、自对弈时间以及在自对弈期间构建的重要棋形等几个参数的对比,验证了该算法在久棋中的有效性。在围棋博弈实验中,本文中提出的算法与分别与单独使用Q-Learning算法和Sarsa(λ)算法进行了 60次的自对弈训练。然后使用基于本文算法的程序与基于Q-Learning算法和Sarsa(λ)算法的程序进行了对弈比赛,比赛结果显示本文提出的算法在围棋博弈中也具有有效性。论文还提出了称为“最大—平均输出层”的新型神经网络结构,用于替换CNN中间的几层卷积层。使用替换后的网络结构编程实现了一个基于深度Q学习的围棋程序,与层数相当的ResNet18改进型在相同的强化学习模型和博弈程序框架下,分别训练并对弈。结果基于新型网络结构的围棋程序以7:3击败了参照程序,验证了含有“最大—平均输出层”网络结构的性能。论文基于微软的.Net Framework 4.7.2框架,采用微软的Cognitive Toolkit深度学习库,分别设计并实现了基于深度强化学习的围棋和久棋博弈程序。