【摘 要】
:
本文旨在研究如何将强化学习模型合理地应用在海克斯棋博弈算法中,并给出程序实现方案。以蒙特卡洛树搜索生成数据集训练卷积神经网络的方式,使得模型能够在不断自我对弈的过
【基金项目】
:
北京信息科技大学2019年促进高校内涵发展-大学生科研训练项目(5101923400)
论文部分内容阅读
本文旨在研究如何将强化学习模型合理地应用在海克斯棋博弈算法中,并给出程序实现方案。以蒙特卡洛树搜索生成数据集训练卷积神经网络的方式,使得模型能够在不断自我对弈的过程中,修正自身选择动作的策略,更新模型参数,从而达到提升棋力的目的。实验结果表明,通过强化学习算法能够准确地评估海克斯棋的局面,并有效地选择有利的落子位置,使得海克斯棋博弈系统获得高质量的决策能力。
其他文献
目前服装产业协同制造过程中存在参与主体众多且分散、很难建立起服装产业协同制造各方的信任关系等问题。针对这些问题,本文对服装产业协同制造业务场景进行调研,分析并总结
针对轮毂电机驱动汽车,本文建立了整车模型和差动助力转向系统模型,根据轮毂电机驱动汽车可以独立控制左右转向轮输出力矩的特性,通过控制汽车左右转向轮的差动力矩来实现减
便秘是指大便秘结不通,排便间隔时间延长,粪便坚硬,排便坚涩不畅的一种病症。胸腰椎骨折早期常并发严重的腹胀和便秘,不仅增加患者的痛苦,而且延缓疾病的愈合。我院2004年10月~2007
当下互联网技术发展迅速,各项工作均在迈向信息化道路。2017年年末全国各地逐步地展开了监察体制改革工作,改革以来,通过对手机信息的提取、分析、整理,对案件的审查调查有着
城市轨道交通的进出站客流量具有较大的不确定性和复杂性,尤其是短期客流预测,一直是地铁客流预测中的一个研究热点和难点。AFC设备能准确读取刷卡数据,实现历史和实时进出站