Q-学习在非完备信息机器博弈中的应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：popularmp3007008

【摘要】

：

完备信息博弈已经有很多比较成功的解决方案。博弈双方根据当前棋局创建一个部分的博弈树,利用估值函数对叶结点进行估值,通过估值的结果来进行搜索,找到一个根结点的最佳走

【作者】

：

林靖

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2009年期

【关键词】

：

Q-学习非完备信息博弈时序差分预测模拟退火

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

完备信息博弈已经有很多比较成功的解决方案。博弈双方根据当前棋局创建一个部分的博弈树,利用估值函数对叶结点进行估值,通过估值的结果来进行搜索,找到一个根结点的最佳走步。这是很多的人工智能程序的核心架构。非完备信息博弈问题的解决技术和完备信息有很大的差异,应用于完备信息的技术不一定能够成功的应用到非完备信息博弈中。在非完备信息博弈中,博弈双方仅拥有当前游戏状态的部分知识。在信息不明了的情况下,随机策略成为一个可行的选择。在随机策略中,对局面估值的准确性提出了更高的要求。在博弈系统中采用比较普遍的方法是静态估值方法。静态估值法,要求设计人员对下棋方法有较多的了解,能充分判断棋局局面中的某一特征在形势判断中所起的重要程度(即相应的分值),并给整个局面比较准确的评分。但是面对成千上万的局面,即使是大师也不可能一一做出精确的形势判断,特别是在对局的开始阶段,棋局的优劣更难以判断。而且,如果对大量的棋局状态进行存储,就要求有大的存储空间及快速的搜索算法。对此,本文采用Q-学习方法来解决静态估值函数存在的问题。Q-学习是机器学习领域强化学习技术的一种。传统的学习技术通过预测值和真实结果之间的差值来调整描述状态的各种参数,而Q-学习根据连续的预测之间的差值来调整。对现实生活中的大多数预测问题来说,Q-学习相对于传统方法而言需要更少的内存,更低的计算时间复杂度。Q-学习侧重于对运算效率的提升,结果优于传统学习方法。本文探讨了Q-学习在非完备信息机器博弈估值函数中的应用,并针对Q-学习存在收敛速度慢和结果容易陷入局部最优这两个特点,结合时序差分预测和模拟退火算法,来加快收敛速度和达到探索结果全局最优,实现了一个具有自学习能力的非完备信息博弈系统。本文的主要研究成果和创新之处在于:1.针对Q-学习收敛速度慢的特点,结合时序差分预测,并且动态调整参数,来实现初期信息的收集以加快学习,后期加快收敛速度;2.在Q-学习中,引入模拟退火中的Metropolis准则,对非最优解进行探索,使学习结果全局最优;3.实现了基于Q-学习的估值函数的非完备信息机器博弈系统,可以动态调整智能体的行为,以获得最优的走步。4.开发了基于腾讯游戏大厅的四国军棋测试系统,生产大量棋局。并且建立了棋局库,对游戏的初局和后期进行了研究。

其他文献

机器人分布计算框架中的实时性保证机制的研究与实现

当前,机器人已广泛应用在工业领域,并逐步向家用、服务业、军事等领域扩展。但是在向多领域深层次的扩展过程中,机器人技术的研究与发展面临着巨大的挑战。尤其是在具有多个

学位

机器人分布计算框架ROSDDS实时性中间件

基于hadoop的APT建模与流量预处理技术研究与实现

高级持续性威胁(APT)是指精通复杂技术的入侵者利用多种入侵向量(如网络、物理和欺诈),借助丰富资源创建机会实现自己目的的行为。近年来,APT事件频频发生,例如RSA SecurID事

学位

APTUML建模NetFlowHadoop采集聚合

基于个性化搜索的网页特征提取相关技术的研究

随着网络信息量成爆炸式地增长,人们要在信息海洋中找寻自己需要的信息是十分困难的。这些信息大多数是以网页文本的形式存放的,它们种类繁杂,缺乏组织,现有的以搜索引擎为代

学位

中文信息处理特征抽取分词词典权重计算网页特征描述个性化

基于SOA构建数字化校园主题数据库的研究与应用

我国高校信息化始于二十世纪八十年代,早期的信息系统建设大多以部门为单位实施,各个系统的实现平台、实现语言各不相同,形成了许多的“信息孤岛”。随着高校信息化建设的不

学位

SOAESBWeb服务数据共享和交换

高性能计算机互连网络低功耗设计模拟与实现

随着高性能计算机系统的运算速度从P级向E级迈进,高功耗已成为影响系统可扩展性的一个重要因素。CMOS电路的功耗由动态功耗和静态功耗两部分组成,静态功耗随着半导体工艺水平

学位

高性能计算互连网络低功耗设计功耗模拟器

安全高效的无线传感器网络路由协议研究

无线传感器网络能实时监测、感知、采集和处理各种监测对象的信息,在军事、环境监测和工业生产等方面具有十分广阔的应用前景,是当前国际上备受关注的研究热点之一。而如何利

学位

无线传感器网络能量高效性路由协议可证明安全

企业数据网安全防护体系的研究与实现

在当今信息时代,网络安全问题已成为人类共同面临的挑战。国内,网络安全问题也受到越来越多的关注,具体表现为:计算机系统受病毒感染和破坏的情况极其严重;电脑黑客活动的严

学位

计算机网络网络攻击安全防御

表情与光照变化下几种人脸识别方法的研究与改进

在人脸识别领域中,如何进行有效的特征提取一直是研究人员不断探索的方向。人脸识别因受多种因素影响,使得识别结果达不到预期效果,这些影响因素包括:光照变化,表情,姿态,装

学位

人脸识别LBP算法表情人脸识别红外与可见光融合彩色人脸识别

彩色人脸图像颜色校正及其在肝病诊断中的应用研究

随着现代信息科学技术的发展,中医现代化受到有关部门和学者越来越多的关注和研究,利用现代科学技术实现中医现代化,使得祖国医学能够更好地传播和发展。面诊是祖国医学望诊

学位

面诊颜色校正人脸病理区域提取颜色特征提取模式分类

基于SMP架构的半虚拟化CPU调度算法研究

随着虚拟化技术的高速发展,其已广泛应用到服务器整合、集群计算、多操作系统配置、硬件及内核开发等领域。调度算法是虚拟化技术中分配处理器资源的重要方法,对虚拟机的磁盘

学位

负载平衡半虚拟化对称多处理器调度算法

Q-学习在非完备信息机器博弈中的应用

其他学术论文