论文部分内容阅读
人机博弈是人工智能的一个重要研究领域,其中不完全信息的人机博弈能够模拟现实复杂世界中不确定环境下的决策,因此越来越受到关注。四国军棋是一种典型的不完全信息游戏,其特点是不仅需要在对手和同盟棋子信息不确定的情况下做出决策,而且需要考虑与同盟的合作问题。目前四国军棋人机博弈研究存在的两个主要问题是:一、尽管针对四国军棋本身特点进行了搜索算法的研究,但是搜索的深度和结果,都还是难以令人满意;二、由于基础性研究还不够深入,目前没有好的评价函数。这两大瓶颈严重地影响了四国军棋人机博弈系统智能水平的高低。因此,有必要从其它方面入手对四国军棋开展研究。本文围绕四国军棋的人机博弈展开深入的研究与分析,主要工作如下:1)参考围棋的定式库技术、中国象棋和国际象棋的开局库技术和残局库技术,将定式库技术引入四国军棋的人机博弈研究。设计与实现了四国军棋的定式库以及相应的定式库开发系统,并在人机博弈系统中使用定式库技术来进行最优策略的决策。定式库技术在四国军棋博弈系统中的应用,降低了博弈系统对搜索算法的依赖,避免系统单纯依靠搜索算法而犯战略上的低级错误。2)针对棋手所用布局的倾向性和范围性,本文提出了一种基于样本的策略指导方法——开局匹配算法。该算法主要应用于开局阶段,根据开局阶段获得的少量信息,对待选的样本库进行快速地筛选,从而得到当前布局的假想布局,指导最优策略的决策。3)针对四国军棋的不完全信息特征,提出了四国军棋的蒙特卡罗算法。该算法通过单样本条件下的最优策略在整体样本条件下的模拟游戏,选出表现最好的策略作为最优策略。四国军棋的蒙特卡罗算法通过模拟游戏将不确定因素从评价函数中剥离出来,为评价函数的设计提供了新的思路。4)由于原有实验平台Nhope V1&V2版本所采用的系统框架主要侧重于博弈搜索,而且其智能模块的过程化的编程方式也使其可扩展性受到限制。定式库技术、开局匹配技术与原有的系统框架存在冲突,同时,为了增强实验平台的可扩展性,本文设计与实现了Nhope V3。Nhope V3实验平台在设计的过程中采用了面向对象的设计方法,同时注重结构设计的天然性和合理性,使得新的实验平台易于理解和扩展。