【摘 要】
:
近些年,随着人类的科技不断发展与进步,人工智能已经深入人们的生活。人们生活中遇到的很多问题都是博弈问题,如何使用人工智能高效的解决生活中的博弈问题成为了众多学术研究问题之一。根据当前主体观测到的信息完全与否,可将博弈问题分为完备信息博弈和非完备信息博弈。目前已经有很多研究者针对完备信息博弈进行研究,然而在实际应用场景中大部分遇到的博弈问题都是非完备信息博弈,因此针对非完备信息博弈的研究具有重大的意
论文部分内容阅读
近些年,随着人类的科技不断发展与进步,人工智能已经深入人们的生活。人们生活中遇到的很多问题都是博弈问题,如何使用人工智能高效的解决生活中的博弈问题成为了众多学术研究问题之一。根据当前主体观测到的信息完全与否,可将博弈问题分为完备信息博弈和非完备信息博弈。目前已经有很多研究者针对完备信息博弈进行研究,然而在实际应用场景中大部分遇到的博弈问题都是非完备信息博弈,因此针对非完备信息博弈的研究具有重大的意义。非完备信息博弈的特征是玩家在博弈的过程中无法获得完备的信息,只能观测到部分局面信息,使得研究更加复杂、更具挑战性。解决非完备信息博弈的传统方法是部分可观策马尔可夫决策和博弈搜索树算法,但是在状态空间大、信息不完备的情况下并不能快速收敛,做不到准确、高效地预测其他玩家状态和行为。一般博弈算法的研究会与一个特定游戏环境进行结合从而对算法进行对比和验证,因此斗地主作为一个非完备信息博弈的场景十分适合作为研究的环境。本文针对非完备信息博弈算法展开研究并基于斗地主游戏对算法进行了改进,提出了一个新颖的非完备信息博弈算法,主要的工作如下:本文基于斗地主将蒙特卡洛树搜索和深度强化学习算法进行改进。为了解决蒙特卡洛树搜索在非完备信息博弈中的问题,使用随机打乱其余两位玩家手牌的方式来改进模拟阶段,将蒙特卡洛树搜索改进为斗地主蒙特卡洛树搜索。为了将深度强化学习的优势应用到斗地主中,将深度Q网络和深度卷积Q网络两种算法改进为斗地主深度Q网络和斗地主深度卷积Q网络并应用到斗地主中。本文提出了一种新颖的非完备信息博弈算法(Landlord Deep Recurrent MCTS,LLDRMCTS),该算法通过将斗地主蒙特卡洛树搜索算法中的默认策略替换为斗地主深度卷积Q网络,巧妙地减少了蒙特卡洛树搜索状态空间大的问题,同时也保留了节点选择的高效性,从而在少量模拟次数下获得高质量的模拟结果。并通过分析现有的深度强化学习训练方式,提出一种新颖的蒙特卡洛树搜索与深度强化学习结合的交叉训练框架,使斗地主蒙特卡洛树搜索在斗地主深度卷积Q网络引导下不断提高博弈能力,进一步提高了LLDRMCTS的模拟能力。本文通过大量的锦标赛实验验证了改进的算法和提出的算法均在斗地主游戏上有着较好的博弈效果。通过对比实验验证了我们提出的训练方式有着不错的训练效果。最后可视化的展示了随机博弈对局的决策步骤,详细的描述了每个步骤。
其他文献
随着交通基础设施建设向高原山区延伸,桥梁系统的运营条件日益复杂。近年来,泥石流灾害引发的桥毁人亡事故不断攀升,探究泥石流对桥梁的冲击作用及其破坏机理具有重要意义。以往关于泥石流冲击力和桥梁抗冲击的研究主要以定性和估算为主,亟需展开泥石流冲击动力作用和桥梁服役性能的研究。本文建立了泥石流冲击桥梁系统的“两相流”数值模型,确定了泥石流冲击力公式,并分析了冲击作用下桥梁的易损性和动力响应。主要研究内容如
天一热,墙角的牵牛花慢慢绽开了。可是,仔细观察的同学可能会发现,明明昨天是紫色的牵牛花,怎么过了一天就变成红色或者蓝色的了,是谁施了魔法?在蒙蒙博士的带领下,我们一起做个简单的科学实验,你就能找到其中的原因。实验材料:牵牛花、小苏打、白醋、水、玻璃杯实验步骤:第一步:往一个玻璃杯里倒入一些白醋。
目的:观察自拟清热解毒化瘀汤联合持续性血液净化治疗重症急性胰腺炎的临床疗效。方法:选取2020年1月—2020年10月本院收治的68例重症急性胰腺炎患者,按照随机数字表法随机分为对照组和观察组,每组34例;两组患者均给予常规基础治疗,对照组患者给予持续性血液净化,观察组在对照组的基础上给予自拟清热解毒化瘀汤经胃管给药治疗,10 d后观察疗效;治疗前后检测患者血清WBC、淀粉酶、高敏C反应高蛋白(h
目的探讨急性重症胰腺炎(SAP)患者实施围胰腺区域性微创治疗的临床效果。方法选取2018年2月至2020年5月本院接诊的90例SAP患者,按随机数字表法分为微创组和常规组,每组45例。微创组行围胰腺区域性微创治疗,常规组行开腹手术治疗。比较两组临床疗效、生化指标[血尿淀粉酶(UAMY)、血清淀粉酶(AMS)、肿瘤坏死因子(TNF-α)]及并发症发生率。结果微创组治疗总有效率为95.56%,高于常规
随着各国对武器装备要求的逐步提高,高空长航时无人机越来越受到重视。其飞行空间大、飞行时间长的特点使其能够持久地作战侦察、收集情报、执行打击任务。飞翼布局由于具有独特的布局形式,在气动特性、结构性能和隐身性能上都有很大优势,更适合作为高空长航时无人机的气动布局。本文采用基于涡格法编写的气动计算软件与优化软件mode FRONTIER进行搭接,构建了针对飞翼布局设计的初步优化平台。利用该平台,根据总体
随着各行各业对无线信道的竞争越发激烈,无线电频谱的资源也是越来越少。可用的频段几乎涉及了2MHz到300GHz的所有频段,工作频率只能朝着更高的频谱范围进行探索。工作频率越来越高,让基于电子设备的传统测频方法面临着巨大的挑战,因此,基于光子辅助型的微波测频技术应运而生。该技术弥补了传统电子技术瞬时带宽受限的不足成为了热点。“光频梳”因其在频域上的梳状频谱特性而得名,是目前为止最精确的频率测量工具。
美术馆既是承载文化输出功能的展览类建筑,也是城市中重要的公共活动空间。现有的建筑设计逻辑主要以基地环境和甲方需求为出发点,由建筑师水平保证设计质量。因此在设计过程中往往不会从游客视角出发进行设计考虑,导致建筑在建成后的实际使用中存在诸多缺陷。本文选用大数据与虚拟现实两种技术作为研究手段,利用大数据(数据量大、时间跨度长、数据多元性强)和虚拟现实(及时反馈、沉浸式体验)的各自优势对现有美术馆案例进行
随着我国地铁建设的快速发展,愈发需要自动化地铁隧道巡检手段保证日常巡检的频率和效果。中小型地铁隧道巡检车具有自带动力、搬运方便、操作简单等优势,是实现地铁隧道自动巡检的较优选择。本文针对中小型巡检车设计了一套自动化程度较高的控制系统,选定控制硬件并设计了相应安装结构,设计了走行控制、实时定位和安全预警三方面的控制算法,实现了各模块的控制软件程序,使巡检车能够搭载巡检人员和检测设备安全完成巡检任务。
运用薄片观察、测录井数据以及试油试采数据,明确大牛地气田上古生界石炭系太2段优质储层的控制因素,利用建模软件petrel和测井数据反演实现不同粒度岩相累积厚度和不同成岩相累积厚度的平面分布预测,结合储层含气性分布,总结出优质储层的分布规律。研究表明:致密气优质储层分布呈现"岩相控制优质储层分带性"和"成岩相主导区带内优质储层再分布"的特点。溶解成岩相和发育于粗粒岩相中的钙质胶结交代成岩相控制高产气
本文报道一例有阿司匹林加重性呼吸系统疾病病史的患者,出现嗜酸性粒细胞性肠炎及复发性急性胰腺炎。此病例有多系统受累的临床表现及嗜酸性粒细胞浸润的组织学表现,故临床疑诊为嗜酸性肉芽肿性多血管炎,而此病出现胰腺炎表现的病例报道少见。另外,患者出现胰腺假性囊肿,在囊肿穿刺引流后出现迟发假性动脉瘤出血,经血管造影栓塞治疗后成功止血,术后1年复查病情稳定。在诊断和处理的过程中有许多值得学习之处,故在此报导。