基于Self-Play的五子棋智能博弈机器人

来源 :浙江大学 | 被引量 : 0次 | 上传用户:lzflivecn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能领域的发展,深度学习,强化学习等算法被广泛应用于解决各种游戏博弈问题,通过训练神经网络来得到各种游戏的人工智能算法,人工智能来到了一个新的发展水平。本篇文章基于强化学习和深度神经网络,实现了从零开始学习五子棋博弈的人工智能算法,在此基础上,本文结合计算机视觉与自动化机械手臂,搭建了完整的五子棋智能博弈机器人系统。本文基于强化学习的Actor-Critic基本架构搭建模型,使用蒙特卡洛树搜索进行探索,使用神经网络作为函数逼近器,通过基于价值(value based)的更新方法学习价值评估函数,通过基于策略(policy based)的更新方法学习策略函数。本文通过Self-Play从零开始训练神经网络,整个训练过程无需借助任何人类棋手经验。随后分别通过与蒙特卡洛树搜索对战,与人类棋手对弈来检验算法的博弈水平。本文提出了针对博弈游戏的注意力机制,用以提升策略-价值网络的收敛速度,提高算法的博弈水平。本文通过对照实验验证了注意力机制的正确性和有效性。在此基础上,使用深度卷积神经网络构建视觉系统,实现了从棋盘状态图像自动提取棋盘特征,预测注意力机制中的焦点位置的功能,使得五子棋博弈算法不再依赖于手动输入人工特征,也不再需要除当前棋盘图像以外的任何其他信息即可做出决策,实现了由棋盘图像-策略的端到端决策过程。最后本文将五子棋智能博弈算法,视觉系统与自动化机械手臂进行整合,实现了五子棋博弈的智能机器人系统。本文制定了智能博弈机器人系统进行人机对弈的完整流程,并通过实验验证了系统的基本功能,证明了机器人系统设计的合理性与有效性。
其他文献
地籍管理是土地管理的核心,随着计算机和网络技术的突飞猛进,运用现代化手段进行地籍管理成为必然趋势。基础数据是地籍信息管理的血液,建立满足地籍管理信息系统要求的数据
自1985年国家将扩大机电产品出口作为外贸发展的一项战略方针以来,我国的机电产品出口取得高速发展。机电产品进口也随着国民经济的发展而不断增长。 1985年,我国机电产品对
总结30年改革发展经验,参考全民健身计划的出台背景和实施经验,国民休闲战略应从纳入国家宏观政策和"十二五"发展规划入手,按照"边试点、边总结、边推广"的路径起步,以度假区、休
<正>在注册计量师的学习教材中,介绍了3种判别异常值的统计方法,但有时我们会因为狄克逊准则公式多、难记而放弃。下面我给大家介绍一下狄克逊准则的规律,这样记住狄克逊准则
一体化课堂评价是一体化教学的重点和难点问题。以汽车维修专业的一体化课程为例,通过建立基于COMET职业能力测评模型的"课堂教学职业能力评价体系",一方面动态跟踪学生的职
目的探究重睑术修复整形应用于上睑皮肤松弛患者的临床疗效,并对这类人群整形策略积累循证经验。方法选取整形外科2010年5月至2014年2月收治的88例上睑皮肤松弛患者,利用随机
目的:研究离体情况下受低剂量照射的血液或骨髓细胞悬液,经离心后所得到的上层相(以下简称:“低剂量照射血浆”和“刺激液”)对正常细胞或辐射损伤细胞能否产生低剂量辐射兴奋
随着计算机网络技术和信息技术的进步,智能家居得到了迅速的发展。智能家居是在互联网影响之下物联化的体现,它作为物联网在家庭中的典型应用,倡导了一种健康舒适、快捷便利
针对永磁同步电机驱动系统,提出矢量控制结合转子磁场定向矢量控制的理论,采用模型参考自适应构造电机转速观测器,间接得到转速的估算值,并在空载、带载、突加以及突减负载的
男性勃起功能障碍是指男性持续性或反复发作的难以达到和维持阴茎勃起来完成性交和满意的性活动的病理现象。前列腺癌作为男性常见的恶性肿瘤,对男性性功能有着显著的影响。
会议