【摘 要】
:
围棋,拥有上千年的历史,由于其具有天文数字的状态空间和决策空间,计算机在可接受的时间范围内能够穷举得出的盘面数量非常少。也因此,在2016年以前,人类普遍认为计算机围棋将很难战胜职业棋手,被认为是最复杂的智力游戏。计算机围棋的发展也经过了多年的演变,从早期的极大极小值算法,到蒙特卡洛树搜索算法,再到alphaGo、AlphaGo Zero的深度学习方法,计算机围棋的水平终于得到了飞跃般的提升。本文
论文部分内容阅读
围棋,拥有上千年的历史,由于其具有天文数字的状态空间和决策空间,计算机在可接受的时间范围内能够穷举得出的盘面数量非常少。也因此,在2016年以前,人类普遍认为计算机围棋将很难战胜职业棋手,被认为是最复杂的智力游戏。计算机围棋的发展也经过了多年的演变,从早期的极大极小值算法,到蒙特卡洛树搜索算法,再到alphaGo、AlphaGo Zero的深度学习方法,计算机围棋的水平终于得到了飞跃般的提升。本文主要阐述如何将“AlphaGo Zero”增强学习的模式,移植于我国的神威·太湖之光超级计算机(以下简称“神威”)中,使其可以在神威的CPU超算集群中,进行不需要人力干涉的增强学习完整流程。该流程也在实际的运行中得到了验证,并将在本文中对于具体的运行流程与运行结果做出介绍、分析、总结。在本论文的研究工作中,核心工作主要分为三部分:1、根据神威超算集群的特点,设计并实现增强学习的整体流程;2、对于蒙特卡洛树搜索算法的原理进行深入探讨与研究,并在不影响算法有效性的前提下进行优化;3、运行完整流程,根据实际运行中遇到的问题,及时做出调整与完善。本论文也将主要围绕这三部分的工作进行研究与讨论。在项目的实施过程中,主要也遇到了两方面的困难:一方面,神威的超算集群,只拥有大量的CPU计算资源,在进行深度学习算法时,其运算速度远低于GPU及TPU。另一方面,由于神威集群结构的特殊性,在“AlphaGo Zero”论文中所写的蒙特卡洛树搜索算法,并不适用于本项目,这一问题也需要在具体实现中对其进行不断地探索与改进。
其他文献
当下,国民经济快速发展,国家及相关部门对于公路建设的投入也在不断加大,其建设的要求和标准也更高。因此为了确保公路的整体稳定性和安全性,降低运输的总成本,延续公路的使
函数值域是函数的重要性态之一,它和函数定义域一样,对于研究函数的图象和性质以及解决某些实际问题起着基础的作用。而求函数值域的问题涉及的知识面广、方法灵活多样,加之
<正>【背景材料】中国(上海)自由贸易试验区,简称上海自由贸易区或上海自贸区,是中国政府设立在上海的区域性自由贸易园区,属中国自由贸易区范畴,是中国内地第一个自由贸易试
为了全面推进素质教育,深化教育教学改革,进一步规范、完善学校教育教学管理工作,创建和谐、奋进的教学环境,学校首先应抓好教学管理。教学管理的主要内容包括“教”、“学”、“
<正>继"两个中心"战略和自贸区设立后,"新国十条"为上海保险业带来了前所未有的发展机遇。仅从保险深度和保险密度看,上海已经超过了"新国十条"的要求,但是与保障全面、功能
目的观察一种以三氯羟基二苯醚和乙醇为主要成分的复方消毒凝胶的杀菌效果和实际消毒效果。方法采用载体定量杀菌试验和现场消毒试验方法,对该消毒凝胶杀菌效果进行检测。结
电视综艺节目是最具影响力、传播力,最受观众喜爱的电视节目形式之一。当前的电视综艺节目,应以习近平总书记倡导的"用明德引领风尚"为宗旨,以"真、善、美"为艺术创作标准,提
文章分析了英国在反垄断和监管跨国兼并方面的最新变化和制度创新。英国监管跨国并购的特色是在宏观上重点关注政策措施的落实和程序的正常运作。本文还对英国管理跨国兼并的
<正>随着经济大环境的改变,倚靠"人海战术"的保险营销员体制饱受诟病。2012年,中国保监会发布了《关于坚定不移推进保险营销员管理体制改革的意见》,强调了推进保险营销员管