竞争型扩展式非完美信息博弈算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:chuanqi111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实世界中的博弈,如兵棋推演、商业竞争、体育竞技以及日常生活中的牌类游戏等,多具有多人竞争、多次交互以及非完美信息等性质。数学上,这类问题可以被建模为竞争型扩展式非完美信息博弈(CEF-IIG:Competitive Extensive-Form Imperfect-Information Game)。鉴于这类博弈问题的广泛存在性,其求解算法具有重要的应用价值。此外,这类问题非常复杂,其求解方法与人工智能的多个领域密切相关,如树搜索、在线优化、深度学习等,因此,研究相关求解算法对促进相关领域发展也具有重要的理论意义。这类问题的复杂性主要体现在三个方面:其一,竞争型博弈的参与者之间存在对抗关系,因此无法用普通最优化方法求解;其二,扩展式博弈的性质决定了其博弈规模和求解难度与交互次数呈指数增长关系;其三,非完美信息博弈意味着博弈过程中玩家无法获得全局信息,因此用于完美信息博弈(如围棋)的相关算法不再适用。目前,求解CEF-IIG的主流方法是遗憾最小化。其中,反事实遗憾最小化算法(CFR:Counterfactual Regret Minimization)是当前实践性能最好的算法,已被成功应用于大规模德州扑克博弈。而在线凸优化算法(OCO:Online Convex Optimization)是一类经典遗憾最小化算法,其于近几年被应用于CEF-IIG,且相关理论发展迅速。遗憾最小化算法目前仍然存在数个关键问题亟待解决:1)理论与实践不一致问题。一方面,CFR算法的实际收敛速度显著快于理论速度;另一方面,OCO算法的理论优势未能转化为实践优势。2)收敛慢问题。传统遗憾最小化算法需要迭代非常多次才能获得一个可接受的近似解,在实践应用中难以令人满意。3)在大规模博弈中效率低问题。传统方法计算消耗大,存储需求高,且依赖基于模型的采样方法,导致无法应用于更多难以建模的大规模博弈问题。针对这些问题,本文研究面向竞争型扩展式非完美信息博弈的遗憾最小化算法。具体地,针对理论与实践不一致问题,本文研究建立CFR算法与OCO算法之间的等价关系,以为改进CFR算法的理论结果和OCO算法的实践性能开辟新的研究路径;针对收敛慢问题,本文研究自适应乐观OCO算法,以同时提高OCO算法的理论和实践收敛速度;针对在大规模博弈中效率低问题,本文研究高效的基于无模型采样和神经网络的CFR算法。本文的主要工作和创新点总结如下:针对理论与实践不一致问题,本文建立并证明了 CFR算法与OCO算法的等价关系,为CFR算法的性能优势提供了新的理论解释,同时,提高了 OCO算法的实践性能。具体地,本文设计了一种新型的OCO算法,并证明了它与CFR算法等价。该等价关系可以将CFR算法解释为一种自适应OCO算法,从而在理论上间接解释了其性能优势。其次,本文借鉴CFR算法的自适应性,提出了一种基于“未来策略”的OCO算法,并在多种CEF-IIG上深入研究了其收敛性质。结果表明,新型基于未来策略的OCO算法不仅显著快于传统OCO算法,在某些CEF-IIG上甚至快于当前最先进的CFR算法。针对收敛慢问题,本文推广现有乐观OCO算法,提出了一种具有显著理论优势的自适应改进算法,在此基础上,结合前一工作,提出了一种高效的基于未来策略的自适应算法。具体地,本文推广了现有乐观OCO算法,使其具有自适应能力,并且通过改进其正则化函数,显著改善了其可利用度上界(对博弈深度的依赖从指数级降低到多项式级)。其次,本文基于OCO与CFR算法的等价关系,提出了一种高效的基于未来策略的自适应乐观OCO算法,并且证明它在一定条件下等价于一种基于预测的CFR算法,从而为后者提供了新的理论解释。实验结果表明,本文提出的自适应乐观OCO算法显著好于同类算法,并且基于未来策略的自适应乐观OCO算法在多种CEF-IIG上快于基于预测的CFR算法。针对在大规模博弈中效率低问题,本文提出了一种基于无模型采样和神经网络的CFR算法,在避免有模型采样所带来的问题的同时,显著提高了训练效率。具体地,本文提出了一种具有递归性质的新型CFR算法并证明了其收敛性。该算法的特点是不需要跟踪每个决策点的累积反事实遗憾。基于新型CFR算法,本文提出了一种基于无模型采样和神经网络的CFR算法。该算法不需要近似累积反事实遗憾,而只需要近似一种非累积的递归替代价值,因而其训练效率显著高于其他同类算法。在大规模博弈的实验结果表明,新算法不仅训练效率更高,其性能也达到甚至超过了当前最优算法的水平。
其他文献
为了满足空间多元化数据的高速传输需求,本文对SpaceFibre高速总线网络进行了研究,针对路由网络中的数据转发冲突,提出了一种SpaceFibre路由系统设计方案.其中,配置端口实现了网络参数的实时配置和状态的实时反馈;路由端口实现了基于虚拟通道机制的QoS调度,为不同数据源提供不同服务;路由交换模块中利用全连接结构实现了虚拟网络间的互联,并针对虚拟网络中的数据交换冲突,设计了一种基于优先级等待
期刊
极值图论最早的一个定理是由Mantel在1907年提出。他证明了n个顶点且不包含三角形作为子图的边数最多的图一定是K[n/2],[n/2],一个两部分大小尽可能相等的完全二部图。1941年Turan将这个定理推广到了不包含一般的t-团(t个点的完全图)作为子图,证明了对给定顶点数目且不包含t-团作为子图的边数最多的图一定是每两部分大小尽可能相等的(t-1)-部完全图。由于Turán的开创性工作,对
学位
近年来,大量的视觉数据通过互联网不断产生,尤其是社交媒体平台和其.他存储库的流行,使人们对视觉内容的兴趣迅速增长,也为基于内容的图像检索CBIR(Content Based Image Retrieval)带来了新挑战。CBIR实现了在各种图像数据库中进行相似内容搜索,在工业界有着广泛的应用场景,如搜索引擎(Google、百度)的以图搜图功能,电商网站(淘宝、Amazon、eBay)的相似商品搜索
学位
职业兴趣是个体进行职业选择的重要依据,并直接影响其入职后的工作态度和行为。然而,目前我国员工职业兴趣与工作环境匹配的整体情况未能尽如人意。人们常发现当他们作为一名新员工真正踏进自己选择的职业时,现实的工作环境并不能满足他们的职业兴趣。长此以往,职业兴趣与工作环境不匹配或匹配度较低的员工可能会有一系列的负面表现,如较高的离职意愿及较低的工作满意度和工作绩效。更重要的是,在如今模糊多变的职业环境下,由
学位
伽玛射线暴,简称伽玛暴(Gamma-ray bursts,GRBs)是一种宇宙中某一处伽玛光子迅速上升然后又快速衰退的暂现现象。这种现象的持续时标从几毫秒秒到几分钟不等,其各向同性光度通常在1046-55 erg s-1。根据伽玛暴的持续时标(T90),我们一般将伽玛暴分为两类:其中一类的持续时标小于两秒,称为短时标伽玛暴,简称短伽玛暴或短暴,来自于双致密星的并合;另一类的持续时标大于两秒,称为长
学位
随着互联网的蓬勃发展,人们的新闻阅读习惯逐渐从报纸、电视等传统媒体转向互联网,网络新闻越来越成为用户日常获取新闻信息的主要来源。由于网络上每天都有海量的新闻报道产生,用户面临着严重的信息过载(Information Overload)的问题,个性化新闻推荐是解决新闻信息过载、实现用户个性化信息获取的重要方法,对于新闻服务提供商改善用户体验至关重要。与传统的电影、音乐和餐厅等其他推荐领域不同,新闻推
学位
随着高分子胶体制备技术的日趋成熟,各向异性聚合物胶体粒子已经成为人们获得有序功能材料的重要构筑基元之一。聚合物胶体粒子形成的胶体晶体在光子晶体、药物运输、多孔材料等领域有着广阔的应用前景,因而受到了人们广泛的关注。兼具软形变和表面各向异性的聚合物补丁胶体粒子具有更加独特的物理和化学性质,能够组装得到新颖的微纳米结构。因此,聚合物补丁胶体粒子自组装为设计和获得具有特定功能的胶体晶体提供了新的思路。在
学位
体外诊断通过对体液和组织等样本中的目标物进行体外检测,从而获得临床检验所需的指标和信息,其对于指导临床形成正确的治疗方案具有重要意义。病原微生物感染和肿瘤药敏是体外诊断的重点关注对象,但目前体外诊断领域缺乏在单细胞水平进行病原微生物诊断和抗癌药物药效评估的定性和定量检测方法,无法有效提高诊断的时效性与准确性。单细胞拉曼光谱技术是利用共聚焦显微拉曼光谱仪对单细胞的拉曼散射光谱进行采集和分析的技术手段
学位
利用分子束外延技术(MBE)自下而上生长的Ⅲ族氮化物(氮化镓GaN、氮化铝AlN、氮化铟InN及其合金材料)纳米线不仅具有连续可调的禁带宽度、易被n或p型掺杂,因其独特的一维形态结构,还具有晶格失配容忍度高(无需遵循严苛的晶格匹配规则即可在多种异质衬底上外延生长)、晶体质量高、比表面积大、纳米线尺寸可控等特点,被广泛应用于制备纳米光电和电子器件。特别地,由于其独特的一维几何形状和大的比表面积优势,
学位
作为一类新型的结晶多孔材料,共价有机骨架(COFs)由于其可以预先设计和调控的结构,使其在众多研究领域发挥了极大的作用。近年来,COFs在生物医学尤其是抗肿瘤应用中也展现出了巨大潜力。研究者已将其用于抗癌药物的运输以及光学治疗,并展现出可观的治疗效果。然而,传统的COFs合成方法反应条件苛刻,无法有效调控产物的形貌和尺寸,在一定程度上限制了其在生物医学领域的进一步应用。此外,单一的肿瘤治疗手段存在
学位