基于深度强化学习的棋类博弈研究

来源 :中央民族大学 | 被引量 : 2次 | 上传用户:yy04081406
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以AlphaGo Zero与Alpha Zero为代表,深度强化学习在棋类游戏博弈中取得了重要的成就,但是目前的相关算法多依赖于强大的计算资源的支持。本文以减轻对算力的依赖并提升算法性能为目标,主要讨论了如何改进计算机棋类博弈游戏中深度强化学习算法的反馈机制和神经网络,以及相关改进对网络性能的影响等问题。论文提出了一种混合深度强化学习模型,该模型采用Q-Learning和Sarsa(λ)相结合的Q表中Q值的更新方式。并在围棋和久棋的博弈环境上结合UCT算法进行了实验,相比于单独使用Q-Learning或Sarsa(λ)的算法,本文提出的学习模型取得了更高的学习效率。在久棋博弈的实验中,通过检测损失率、总对弈次数、自对弈时间以及在自对弈期间构建的重要棋形等几个参数的对比,验证了该算法在久棋中的有效性。在围棋博弈实验中,本文中提出的算法与分别与单独使用Q-Learning算法和Sarsa(λ)算法进行了 60次的自对弈训练。然后使用基于本文算法的程序与基于Q-Learning算法和Sarsa(λ)算法的程序进行了对弈比赛,比赛结果显示本文提出的算法在围棋博弈中也具有有效性。论文还提出了称为“最大—平均输出层”的新型神经网络结构,用于替换CNN中间的几层卷积层。使用替换后的网络结构编程实现了一个基于深度Q学习的围棋程序,与层数相当的ResNet18改进型在相同的强化学习模型和博弈程序框架下,分别训练并对弈。结果基于新型网络结构的围棋程序以7:3击败了参照程序,验证了含有“最大—平均输出层”网络结构的性能。论文基于微软的.Net Framework 4.7.2框架,采用微软的Cognitive Toolkit深度学习库,分别设计并实现了基于深度强化学习的围棋和久棋博弈程序。
其他文献
摩擦摆支座(Friction pendulum bearing,FPB)作为传统的球面滑动隔震装置(Spherical sliding bearing,SSB),是一种具有自复位特性的隔震支座,具有高承载力、高稳定性等优势,然而传统的FPB存在限位复位能力不足的缺点。形状记忆合金(Shape Memory Alloy,SMA)作为一种新型智能材料,其具有形状记忆效应、超弹性以及高阻尼等特性,被广泛
刑罚的适用要奉行因时制宜原则最早见之于《尚书·吕刑》:“刑罚世轻世重,惟齐非齐,有伦有要”。历代统治者对“刑罚世轻世重”的具体理解都体现了“乱世刑重,治世刑轻”的观
数字参考咨询服务是未来图书馆发展的需要。本文通过对河北省47所高职高专院校图书馆数字参考咨询服务情况的调查分析,从服务方式、服务内容和馆员队伍三个方面分析了服务现
本文结合药物分析的学科特点,树立《中国药典》的指导地位、重视案例教学、采用PBL教学手段、加强实验环节及采用多媒体教学手段等,探索如何提高药物分析教学质量。
建筑业是国民经济的支柱产业,在国民经济中占据举足轻重的地位。我国经济进入新常态与“一带一路”倡议的提出,推动着我国建筑业企业走出国门参与到国际竞争中去。然而要在竞
目的:观察四逆越左丸加味治疗胃食管反流病的临床疗效。方法:将胃食管反流病患者98例随机分为两组,治疗组50例服用四逆越左丸加味,对照组48例采用西药治疗。结果:治疗组治愈3
为探寻桃同株叶片杂色材料PCM-1的突变机制,建立了桃PCM-1G和PCM-1R DNA样品的基因池,用256对甲基化敏感扩增多态性(MSAP)选择性扩增引物进行全基因组甲基化MSAP分析。筛选出23