基于深度学习和蒙特卡洛树搜索的围棋博弈研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:mjynht
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
完备信息博弈一直是机器博弈的主要研究方向,而机器博弈是人工智能的重要领域,是检验人工智能发展水平的重要指标之一。在完备信息博弈中,简单而深邃的围棋在计算机中的处理具有极高的复杂性,是检验机器博弈水平的重要手段。围棋机器博弈的研究成果可以应用到人工智能的其他领域,包括金融决策和运动控制等。2016年Deepmind团队推出的Alpha Go一举战胜了围棋世界冠军李世石,但这并不代表围棋问题已经被完美地解决,围棋博弈中还有很多值得研究的问题。蒙特卡洛树搜索算法的一个重要步骤为模拟,在给定的时间内,模拟的次数越多,蒙特卡洛树搜索算法的结果越准确,返回的结果可参考性越高。模拟中需要策略进行快速走子,传统的方法采用基于模式的方法进行快速走子,但是基于模式的快速走子存在一些问题:模式存储在内存中,每次需要对棋盘中的模式进行统计比对,会耗费大量的时间;基于模式的方法在快速走子时的准确率不高,影响模拟的结果。为了解决上述问题,本论文采用深度学习与蒙特卡洛树搜索算法结合的方法,用深度学习对棋谱进行学习得到网络层数较多的策略网络和网络层数较少的快速走子网络,用策略网络结合蒙特卡洛树搜索算法对博弈树进行搜索,并且针对用模式进行快速走子方法的缺陷提出了利用训练的快速走子网络来进行快速走子的方法。该方法利用3至5层卷积神经网络进行快速走子满足蒙特卡洛树搜索算法中模拟时对快速走子时间的要求,且较于传统的基于模式的方法在对棋谱的预测上准确率更高,使得模拟的结果更有参考价值。另外,使用快速走子网络能够更好地利用GPU资源,且不需要对模式进行统计和比对,提升了蒙特卡洛树搜索算法中模拟的速度。本论文将快速走子网络方法应用在围棋博弈的蒙特卡洛树搜索算法中,实现了基于深度学习和蒙特卡洛树搜索算法的围棋博弈智能体,利用本论文实现的智能体与传统的基于模式的蒙特卡洛树搜索算法智能体对弈,验证了算法的有效性。
其他文献
如果说一个人有一个健康的体魄,那么很大程度上是因为他经常做运动,运动使人健美和健康。初创的企业亦是同理,只有在不断地运动中保持活力,保持心情流通顺畅,才是除病去疾的
随着城市用电负荷不断增加,新建变电站进居民区成为必然的发展趋势。但在变电站建设过程中,不可避免的会对周围环境造成不同程度的影响,从目前形势中可了解到,政府规划信息对
随着现在人们生活物质水平的逐渐提升,人们对精神 文化的需求日益迫切,通过让赣南采茶戏走进校园并且很好地传 承和保护当前我国的非物质文化遗产。通过将本土音乐与民族地 区
自改革开放以来,我国经济、社会得到了极大地发展,人民物质生活水平得到了极大地提升。但是在高速发展的背后,由于我国以煤碳为主的能源结构,加之不合理的产业结构和相对滞后
<正> “中原文化和荆楚文化是中国文化的两大主流,在荆楚文化中,有一个重要支流——梅山文化,长期被人忽视,默默无闻。”近年来,随着改革开放的不断深入,意识形态中左倾思想
会议
当前西方体育课程模式背景下,校园武术专项化教学有利于我国传统文化在校园中的传播与发展。太极拳作为一项典型的传统运动项目,已经在健身领域发挥了极其重要的作用。将传统
目的:探讨BOLD-fMRI联合DTI-FT神经导航技术在手术切除额顶叶胶质瘤中保护运动功能的临床价值。方法:将176例额顶叶胶质瘤切除术患者随机分为导航组(91例)和对照组(85例):导
本文立足于乡村产业转型的基础上,面对新的生产活动会带来新的空间增长的现实需求,运用景观生态学原理,在时空维度下,采用生活景观、生产景观与服务性景观三类景观影响因子,
【目的】石漠化综合治理引起的土地利用变化改变了土壤呼吸条件和地表植被,进而对生态系统的碳储量功能产生影响。本文为揭示区域不同发展模式下石漠化综合治理对碳储量功能