基于NFSP和ISMCTS的多人非完备信息机器博弈研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yingzhao1121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器博弈是检验人工智能发展水平的一个重要标准,其研究成果能够解决许多现实问题。根据参与者能否完全掌握博弈状态,机器博弈分为完备信息机器博弈和非完备信息机器博弈。多人非完备信息机器博弈问题广泛存在于现实世界中:小到人与人之间的牌类博弈,大到国与国之间的军事博弈。因此,研究多人非完备信息机器博弈具有十分重要的意义。近年来,随着深度神经网络的发展,研究人员将神经网络应用在多人非完备信息机器博弈上,并取得了一定的成果。但是,用于训练神经网络的博弈数据来源于人类数据,需要人为进行收集和清洗。神经虚拟自博弈(Neural Fictitious Self-Play,NFSP)算法虽然能够通过神经网络不断地进行自博弈来产生博弈数据,并将数据用于训练和强化神经网络,但是其强化学习部分是深度Q学习网络,需要长时间才能收敛,且在具有庞大策略空间的博弈下表现不佳。此外,神经虚拟自博弈在自博弈过程中的决策并没有对隐藏信息进行分析和考虑,导致决策水平较低,不利于神经网络博弈水平的提升。信息集蒙特卡洛树搜索(Information Set Monte Carlo Tree Search,ISMCTS)是非完备信息博弈下的一种博弈树搜索算法,解决了传统博弈树搜索算法存在的策略融合、耗费计算资源等问题,但是其在博弈树搜索的扩展阶段和模拟阶段采用的是随机策略,需要进行大规模的搜索才能获得最优策略。针对上述问题,本文研究并提出了一种基于NFSP-ISMCTS的多人非完备信息机器博弈算法,算法中的博弈模型能够通过不断地进行自博弈和训练来提高自身的博弈水平。NFSP-ISMCTS算法把原本神经虚拟自博弈的强化学习部分的深度Q学习网络替换成信息集蒙特卡洛树搜索,并将强化学习的博弈树搜索和监督学习的神经网络相结合来进决策,用神经网络的输出策略代替博弈树搜索原本的随机策略,并限制博弈树的规模以提高树搜索效率,从而提高了自博弈过程中的决策水平,解决了上述神经虚拟自博弈和信息集蒙特卡洛树搜索存在的问题。为提高博弈树搜索的效率,本文使用改进的上限置信区间(Upper Confidence Bound,UCB)算法来平衡树节点的探索(Exploration)和利用(Exploitation)。为进一步提高自博弈过程中的决策水平,NFSP-ISMCTS算法的自博弈过程中采用完备信息博弈方式,将隐藏信息公开来进行博弈,则信息集蒙特卡洛树搜索无需对信息进行抽样,从而避免不必要的信息猜测和树搜索,使得搜索更有目的性。在模型训练阶段,只筛选出获胜玩家的博弈数据对神经网络进行训练,该方法不仅避免了神经网络学习到导致博弈失败的策略,加快了神经网络的博弈水平的提升,同时也避免了对博弈数据进行复杂的筛选。本文将NFSP-ISMCTS算法应用在二打一扑克上,优化了二打一扑克的神经网络模型,实现了相应的二打一扑克智能体,进行了对比实验来比较该智能体其它算法实现的二打一扑克智能体的博弈水平。实验表明,基于NFSP-ISMCTS算法实现的二打一扑克智能体在无需先验知识的情况下,能够通过自博弈来提升自身的博弈水平,且达到了一个较高的博弈水平,并具有合作意识。实验结果也表明了本文提出的NFSP-ISMCTS算法为构建多人非完备信息机器博弈下高博弈水平智能体提供了一种有效的方法。
其他文献
调制识别技术是指在非合作通信场景下,以识别目标信号的调制类型为目标的一种技术。调制识别技术广泛应用于民用无线电监测以及军用电子对抗等领域,是通信领域一个重要的研究分支。传统识别器识别效果依赖于决策理论、信号特征和分类器的选择,识别精度也受限于复杂电磁环境。然而深度学习方法能够针对原始数据充分发挥特征提取能力,避免了人工特征提取,其识别准确度也比经典算法高。本文对基于深度学习的通信信号调制识别技术进
随着计算机视觉技术和人工智能技术的发展,快速提取自然场景中的文字需求也急剧增加,捕获和识别这些文字有助于理解和分析图像,而靠人工去手动读取图像中的文本不仅耗费大量时间和精力,而且也容易出错。因此,自然场景图像中的文本检测识别成为当下热门的研究话题之一。目前文本检测与识别在现实生活中有着广泛的应用,例如手机设备上的拍照翻译软件,可以拍摄异国街道或路牌上的文字,将一种语言实时翻译为另一种语言,提供导游
计算机博弈作为近代计算机技术和博弈理论结合的产物,已成为当前人工智能领域最热门的研究方向之一。完全信息博弈因其具有广泛的场景实用性成为计算机博弈的主要研究方向。近几年随着人工智能技术的发展,深度学习和强化学习领域的相关算法已被广泛用以解决各类完全信息博弈问题。特别的,通过神经网络训练与强化学习算法的结合演化出的众多人工智能算法已应用于多种博弈类游戏中,如完全信息博弈代表之一的围棋。由Deep Mi
大型天线在战略预警、深空探测、射电天文领域具有重要的价值和广阔的应用前景。随着探测分辨率和灵敏度要求的提升,大型天线正朝着:高增益、高频段、高指向精度和交流伺服的方向发展。然而,结构参数和环境因素与伺服控制系统相互耦合,成为制约大型天线性能提升的一个关键问题。针对这一问题,本文系统研究了交流伺服驱动大型天线的机电动力学建模、参数辨识和自适应控制方法,具体内容包括:针对传统天线伺服系统简化模型存在难
红外弱小目标跟踪是红外搜索跟踪系统的核心技术之一,深受学者们的关注,且算法研究十分具有挑战性。通过算法对超远距离、复杂背景中运动的目标进行探测和锁定,对轨迹进行关联分析,可以显著提升弱小目标探测率,降低虚警率,使军事系统提前做出预警。良好的目标检测算法是发现目标的基石,鲁棒的目标跟踪算法是得到准确运动路径的保障,精准的轨迹关联算法是判断目标的决定因素。本文以预警红外弱小目标序列为背景,对杂乱背景下
机器人技术与机器人产业已经成为社会经济发展的重要支柱。七自由度机械臂由于其灵活、重量轻以及适用场合多样等特点,是机器人未来发展的重要方向。本文以具有球腕结构的七自由度机械臂为对象,研究了七自由度机械臂的运动学解析解、动力学解析解以及控制方法,并通过仿真验证了这些算法的准确性与可行性。研究取得的主要内容有:(1)对七自由度机械臂的构型进行了分类和比较,从中选取了具有球腕关节的构型作为研究对象。通过建
天线作为无线通信系统的组成部分,一直承担着收发电磁波的重要责任。现如今,随着通信需求的不断提高,天线阵的出现和设计也越来越精细复杂。对于庞大且复杂的天线阵结构,优化设计研究所耗费的计算资源如计算时间、内存消耗等也随之增大。本文旨在利用机器学习能够拟合复杂非线性函数的同时计算耗时还低的优势,将天线阵优化设计与机器学习相结合,降低传统天线优化设计的成本。本文的主要研究工作为将机器学习方法应用于天线阵优
在当今各个现代化行业中,应变监测技术都有着广泛的应用需求,如结构健康监测领域需要应变监测技术确保结构在可允许的范围内使用。然而目前的应变传感器多数采用有线有源的技术方案,难以适用于封闭空间、高温高压以及机械动力旋转部件等恶劣测量场合,对于上述场合的应变测量,只能使用无线无源应变传感器。因此关于无线无源应变传感器的研究很有意义。常见的电容式无线无源应变传感器结构复杂、高工艺要求等不足限制了其使用场合
车辆、舰船、飞行器等运输载体在工作过程中受外界环境影响较大,将不可避免产生颠簸、震荡等现象,从而导致运输载体上的导航、侦察和稳瞄等设备无法正常工作。稳定平台能够通过实时检测并主动补偿运输载体的位姿变化,实现隔离扰动,从而保证安装于载体的设备在外部干扰作用下具有稳定的工作环境。本文研究的2-UPS/U并联机构是一种典型的少自由度并联机构,能够绕空间定点实现两个方向的自由转动,具有刚度大、承载力强和控
近年来软体机器人逐渐成为了机器人领域研究的热点。软体执行器作为软体机器人的重要组成单元,具有柔性好和适应性强等优点,被广泛应用于物体抓持和医疗服务等领域。然而,由于软体执行器具有材料非线性和几何非线性,其运动学建模一般是结合实验得出含有大量经验参数的数值化公式,难以进行参数优化分析。本文为了建立一种描述气动软体执行器弯曲变形的数学模型,首先利用简化的Yeoh模型建立了其主动弯曲变形模型,然后基于链