基于强化学习的海克斯棋博弈算法研究与实现

来源 :智能计算机与应用 | 被引量 : 0次 | 上传用户：habits

【摘要】

：

本文旨在研究如何将强化学习模型合理地应用在海克斯棋博弈算法中,并给出程序实现方案。以蒙特卡洛树搜索生成数据集训练卷积神经网络的方式,使得模型能够在不断自我对弈的过

【作者】

：

张芃芃孟坤杨震栋

【机构】

：

北京信息科技大学计算机学院

【出处】

：

智能计算机与应用

【发表日期】

：

2020年3期

【关键词】

：

强化学习蒙特卡洛树搜索海克斯棋计算机博弈 reinforcement learningMonte-Carlo tree searchHex gamecom

【基金项目】

：

北京信息科技大学2019年促进高校内涵发展-大学生科研训练项目(5101923400)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文旨在研究如何将强化学习模型合理地应用在海克斯棋博弈算法中,并给出程序实现方案。以蒙特卡洛树搜索生成数据集训练卷积神经网络的方式,使得模型能够在不断自我对弈的过程中,修正自身选择动作的策略,更新模型参数,从而达到提升棋力的目的。实验结果表明,通过强化学习算法能够准确地评估海克斯棋的局面,并有效地选择有利的落子位置,使得海克斯棋博弈系统获得高质量的决策能力。

其他文献

基于区块链的服装产业协同制造溯源研究

目前服装产业协同制造过程中存在参与主体众多且分散、很难建立起服装产业协同制造各方的信任关系等问题。针对这些问题,本文对服装产业协同制造业务场景进行调研,分析并总结

期刊

区块链共识信任服装产业溯源block chainconsensus trustthe traceability of clothing industry

轮毂电机驱动汽车差动助力转向与稳定性协调控制

针对轮毂电机驱动汽车,本文建立了整车模型和差动助力转向系统模型,根据轮毂电机驱动汽车可以独立控制左右转向轮输出力矩的特性,通过控制汽车左右转向轮的差动力矩来实现减

期刊

轮毂电机驱动汽车差动助力转向稳定性控制hub motor driven vehicledifferential power steering system

番泻叶治疗胸腰椎骨折便秘的观察及护理

便秘是指大便秘结不通，排便间隔时间延长，粪便坚硬，排便坚涩不畅的一种病症。胸腰椎骨折早期常并发严重的腹胀和便秘，不仅增加患者的痛苦，而且延缓疾病的愈合。我院2004年10月～2007

期刊

便秘番泻叶护理

基于Android系统的微信语音数据司法取证研究

当下互联网技术发展迅速,各项工作均在迈向信息化道路。2017年年末全国各地逐步地展开了监察体制改革工作,改革以来,通过对手机信息的提取、分析、整理,对案件的审查调查有着

期刊

ANDROID系统微信语音取证司法取证Android systemWeChat voice forensicsjudicial forensics

基于PCA-LSTM模型的城市轨道交通短时客流预测

城市轨道交通的进出站客流量具有较大的不确定性和复杂性,尤其是短期客流预测,一直是地铁客流预测中的一个研究热点和难点。AFC设备能准确读取刷卡数据,实现历史和实时进出站

期刊

短期预测客流PCALSTMshort-term forecastpassenger flowPCALSTM

基于强化学习的海克斯棋博弈算法研究与实现

其他学术论文