论文部分内容阅读
计算机博弈是人工智能研究领域一个重要的分支,也是博弈理论研究的热点方向之一。博弈论按照博弈的参与者是否掌握所有的局面信息可以分为完备信息博弈和非完备信息博弈。其中完备信息博弈的研究水平已经接近或者超过人类的博弈水平,而非完备信息博弈由于未知信息太多导致其发展相对缓慢,有更为广阔的研究空间。近些年来,人工智能技术逐渐成熟,计算机分布式计算及集群技术也不断发展,非完备信息博弈迎来了发展的大好机会。估值算法是非完备信息博弈中的一个重要的组成部分,估值算法对博弈中的不同策略进行评估,通过评估结果的高低来判断策略的好坏。估值算法是机器博弈系统中的核心,是区分不同计算机博弈程序优劣的关键因素之一,能够直接反应计算机博弈体的智能水平。德州扑克是典型的非完备信息博弈牌类游戏,具有一定的代表性,本文主要以计算机德州扑克为实验对象,研究非完备信息博弈下的估值算法。在博弈问题中,人工神经网络算法一般用来预测对手的动作,本文在前人的研究基础上,改进了人工神经网络估值算法模型,利用博弈专家的玩法记录来训练该模型,进而学习专家的博弈策略并为自己动作的做参考。只学习单一专家博弈策略的系统容易被对手建立模型,对手有针对性的攻击会导致博弈系统性能变差。因此,本文提出了通过抽样的方式来向多个博弈专家进行学习,并在抽样的过程中引入权值更新和动态调整,一定程度上提高了博弈体的智能水平。随着计算机运算能力的提高,基于人工神经网络算法的深度神经网络算法获得了广泛的关注,深度神经网络结构具有多个隐藏层,每个隐藏层包括多个隐藏节点,与浅层网络相比,它具有更强大的建模能力与表征能力。本课题利用深度神经网络算法来预测博弈中对手的行为。本课题将人工神经网络估值算法和德州扑克博弈相结合,最后实现了一个计算机德州扑克博弈程序并参加了2014年AAAI计算机德州扑克大赛,取得了第三名的成绩。