Q-学习在非完备信息机器博弈中的应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:popularmp3007008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
完备信息博弈已经有很多比较成功的解决方案。博弈双方根据当前棋局创建一个部分的博弈树,利用估值函数对叶结点进行估值,通过估值的结果来进行搜索,找到一个根结点的最佳走步。这是很多的人工智能程序的核心架构。非完备信息博弈问题的解决技术和完备信息有很大的差异,应用于完备信息的技术不一定能够成功的应用到非完备信息博弈中。在非完备信息博弈中,博弈双方仅拥有当前游戏状态的部分知识。在信息不明了的情况下,随机策略成为一个可行的选择。在随机策略中,对局面估值的准确性提出了更高的要求。在博弈系统中采用比较普遍的方法是静态估值方法。静态估值法,要求设计人员对下棋方法有较多的了解,能充分判断棋局局面中的某一特征在形势判断中所起的重要程度(即相应的分值),并给整个局面比较准确的评分。但是面对成千上万的局面,即使是大师也不可能一一做出精确的形势判断,特别是在对局的开始阶段,棋局的优劣更难以判断。而且,如果对大量的棋局状态进行存储,就要求有大的存储空间及快速的搜索算法。对此,本文采用Q-学习方法来解决静态估值函数存在的问题。Q-学习是机器学习领域强化学习技术的一种。传统的学习技术通过预测值和真实结果之间的差值来调整描述状态的各种参数,而Q-学习根据连续的预测之间的差值来调整。对现实生活中的大多数预测问题来说,Q-学习相对于传统方法而言需要更少的内存,更低的计算时间复杂度。Q-学习侧重于对运算效率的提升,结果优于传统学习方法。本文探讨了Q-学习在非完备信息机器博弈估值函数中的应用,并针对Q-学习存在收敛速度慢和结果容易陷入局部最优这两个特点,结合时序差分预测和模拟退火算法,来加快收敛速度和达到探索结果全局最优,实现了一个具有自学习能力的非完备信息博弈系统。本文的主要研究成果和创新之处在于:1.针对Q-学习收敛速度慢的特点,结合时序差分预测,并且动态调整参数,来实现初期信息的收集以加快学习,后期加快收敛速度;2.在Q-学习中,引入模拟退火中的Metropolis准则,对非最优解进行探索,使学习结果全局最优;3.实现了基于Q-学习的估值函数的非完备信息机器博弈系统,可以动态调整智能体的行为,以获得最优的走步。4.开发了基于腾讯游戏大厅的四国军棋测试系统,生产大量棋局。并且建立了棋局库,对游戏的初局和后期进行了研究。
其他文献
当前,机器人已广泛应用在工业领域,并逐步向家用、服务业、军事等领域扩展。但是在向多领域深层次的扩展过程中,机器人技术的研究与发展面临着巨大的挑战。尤其是在具有多个
高级持续性威胁(APT)是指精通复杂技术的入侵者利用多种入侵向量(如网络、物理和欺诈),借助丰富资源创建机会实现自己目的的行为。近年来,APT事件频频发生,例如RSA SecurID事
随着网络信息量成爆炸式地增长,人们要在信息海洋中找寻自己需要的信息是十分困难的。这些信息大多数是以网页文本的形式存放的,它们种类繁杂,缺乏组织,现有的以搜索引擎为代
我国高校信息化始于二十世纪八十年代,早期的信息系统建设大多以部门为单位实施,各个系统的实现平台、实现语言各不相同,形成了许多的“信息孤岛”。随着高校信息化建设的不
随着高性能计算机系统的运算速度从P级向E级迈进,高功耗已成为影响系统可扩展性的一个重要因素。CMOS电路的功耗由动态功耗和静态功耗两部分组成,静态功耗随着半导体工艺水平
无线传感器网络能实时监测、感知、采集和处理各种监测对象的信息,在军事、环境监测和工业生产等方面具有十分广阔的应用前景,是当前国际上备受关注的研究热点之一。而如何利
在当今信息时代,网络安全问题已成为人类共同面临的挑战。国内,网络安全问题也受到越来越多的关注,具体表现为:计算机系统受病毒感染和破坏的情况极其严重;电脑黑客活动的严
在人脸识别领域中,如何进行有效的特征提取一直是研究人员不断探索的方向。人脸识别因受多种因素影响,使得识别结果达不到预期效果,这些影响因素包括:光照变化,表情,姿态,装
随着现代信息科学技术的发展,中医现代化受到有关部门和学者越来越多的关注和研究,利用现代科学技术实现中医现代化,使得祖国医学能够更好地传播和发展。面诊是祖国医学望诊
随着虚拟化技术的高速发展,其已广泛应用到服务器整合、集群计算、多操作系统配置、硬件及内核开发等领域。调度算法是虚拟化技术中分配处理器资源的重要方法,对虚拟机的磁盘