【摘 要】
:
机器博弈一直是人工智能领域最具挑战的研究方向之一,也被称为人工智能领域的试金石。机器博弈根据博弈者是否能获取所有场面信息,分为完备信息机器博弈与非完备信息机器博弈。生活中存在的绝大多数博弈问题都是非完备信息博弈,例如商品定价、买卖合作等。因此,研究非完备信息博弈问题具有十分重大的现实意义。非完备信息博弈中存在隐藏信息,博弈的复杂度相较于完备信息博弈更高,因而难以将传统用于处理完备信息博弈的方法直接
论文部分内容阅读
机器博弈一直是人工智能领域最具挑战的研究方向之一,也被称为人工智能领域的试金石。机器博弈根据博弈者是否能获取所有场面信息,分为完备信息机器博弈与非完备信息机器博弈。生活中存在的绝大多数博弈问题都是非完备信息博弈,例如商品定价、买卖合作等。因此,研究非完备信息博弈问题具有十分重大的现实意义。非完备信息博弈中存在隐藏信息,博弈的复杂度相较于完备信息博弈更高,因而难以将传统用于处理完备信息博弈的方法直接应用于非完备信息博弈中。深度强化学习方法能够克服传统方法的技术缺陷,为求解具有高复杂度的非完备信息博弈问题的最优策略提供了全新的选择。因此,本文以四人竞技麻将为研究对象,对深度强化学习中的PPO算法存在的问题进行了改进,用于解决非完备信息机器博弈中麻将的出牌决策问题,并构建了麻将出牌决策模型。本文的主要工作和创新点如下:1.设计了一种四人麻将特征编码方法。结合了博弈搜索树算法获取四人麻将的前瞻信息,将四人麻将博弈的场面信息与前瞻信息进行了分类,并对不同类别的信息采用不同的编码方式。采用该特征编码方法得到类图片维度的特征矩阵,并将该特征矩阵作为麻将出牌决策模型的输入。通过实验表明,这种特征编码方法使麻将出牌决策模型有效提取博弈的场面信息并具备一定的前瞻性。2.设计了一种适用于麻将出牌决策模型的奖励函数。奖励函数在麻将出牌决策模型中起到至关重要的作用,它决定了模型的更新方向。在四人竞技麻将只有在每局游戏结束时才能计算得分,并且得分的方差较大,直接以得分作为奖励函数的值是稀疏且无法使用的。为解决该问题,本文结合知识的方法给出了中间步奖励,并对得分做了优化处理,以此设计了一种四人竞技麻将的奖励函数。3.提出了一种结合多种PPO优势的改进算法。这种算法结合了经典PPO1算法(能够根据KL散度直接控制模型训练时新老策略的差异)和PPO2算法(使用Clip函数计算简洁快速)的优势,能够避免PPO1算法计算复杂度高与PPO2算法中Clip函数控制新老策略差异失效的问题,实验验证了改进的PPO算法具有更好的性能。将该算法与改进的卷积神经网络相结合构建麻将出牌决策模型,并使用设计的训练策略对其进行训练,最后得到了高水平的麻将出牌决策模型。4.设计了一种多模式非完备信息博弈智能竞技平台。该平台实现了对博弈环境、博弈场景以及博弈对象的配置与管理。通过简单配置,能完成不同麻将决策模型之间的博弈,并保存了博弈对战数据与回放记录。博弈对战数据能够用来分析决策模型的博弈行为和博弈性能,回放记录能够为模型的改进提供了可视化参考。
其他文献
新古典主义建筑的现代转型尝试是现代建筑思想产生的重要启蒙阶段,虽然它在中、西方建筑史中对应的具体时间不同,但无疑都起到了承上启下的关键作用。本文提取了中西方新古典主义时期共同存在的理性主线并分析其内涵的流变,在结构理性的视野下,对照西方新古典主义建筑的思想演变脉络,从本体性、表现性和适应性三个方面分析了中国新古典主义时期传统建筑结构现代转型的思想演变特征,以结构理性观念为切入点,揭示了中国新古典主
<正>乡村文化是农民在特定地域环境下、在长期生产生活中创造形成并传承下来的区域性文化,它们的组合就是中华农耕文明。因此,乡村文化传承必然是在对传统优秀文化继承的基础上的以弘扬传统乡土文化为支撑的创新发展。其中,随着时代的发展尤其是互联网的兴起,在线艺术教育越来越成为乡村文化传承的一种重要方式。为挖掘乡村传统文化中包括大量对艺术设计专业有价值的元素,
目的 银屑病是一种慢性、复发性、全身炎性反应疾病,与遗传相关。在遗传倾向上,一些环境因素,包括细菌感染、抗生素治疗或饮食的变化,可以导致肠道菌群的变化。越来越多的证据表明,肠道和皮肤之间存在联系,即肠-皮肤轴,该轴同样存在于银屑病患者中。肠道菌群的失调可能会改变系统免疫,导致体内平衡失调和皮肤功能受损。阐明肠道微生物与宿主之间的相互作用有助于了解银屑病的发病机制,为开发新型的微生物靶向治疗提供基础
木质素是自然界仅次于纤维素的第二大可再生资源,是一种由苯基丙烷单元交联而成的具有芳香族特性的复杂高分子,其含有酚羟基、醇羟基、羰基等活性基团,可部分替代多元醇而成为聚氨酯合成原料之一。此外,由于其芳香族大分子特性和丰富的碳含量,木质素还展现出优异的热稳定性能和更高的成炭能力。在本论文中,分别利用三种木质素单体磷-氮膨胀型阻燃剂、“三源一体”木质素基磷-氮膨胀型阻燃剂、可膨胀石墨协同木质素基磷-氮膨
<正>试题(2015年四川·内江卷)(1)填空:(a+b)(a-b)=;(a-b)(a~2+ab+b~2)=;(a-b)(a~3+a~2b+ab~2+b~3)=;(2)猜想:(a-b)(an-1+an-2b+abn-2+bn-1)=其中n为正整数,且n≥2(3)利用(2)猜想的结论计算:2~9-2~8+2~7-…+2~3-2~2+2.原解答略.本文给出如下几点思考.一、设想——多思追问如果去掉试题
“新文科”建设具有战略性、创新性和融合性的特征,这对应用型大学数字媒体艺术人才的培养提出了更高的要求。数字媒体艺术专业天然具有“新文科”建设的优势,但部分高校存在人才培养定位不清、培养模式趋同等问题,因此进行特色化人才培养势在必行。以北京联合大学数字媒体艺术专业“舞台影像设计实验班”近年来面向北京文化展演领域开展的特色人才培养探索为例,分析并阐述了在人才培养目标制定、课程体系规划、学生实践创新等方
教学不是教师教会了什么,而是学生可以学会什么.学历案强调学生的学习过程,也就是学生的学习经验方案.它以发展学生的独立思考、自主学习为核心,充分体现以学生为主体地位的学习方式.学生扮演着主导者的角色,在这个过程中增强学生的学习体验,使得数学思维能力在自主研发的前提下得到深入的提升,让学习真正的发生.
<正>在大庆市的铁人王进喜纪念馆里,展放着一顶前进帽。这顶前进帽是“铁人”王进喜曾经戴过的,它见证了王进喜参加1959年全国工交群英会的难忘经历,见证了“铁人”为国分忧的思想境界,也见证了大庆精神(铁人精神)的诞生过程。据这顶前进帽的捐赠者、王进喜的弟弟王进邦介绍,帽子是王进邦1963年到大庆工作时哥哥送给他的。当时王进喜还告诉王进邦,这也是他1959年登上天安门时戴过的帽子。
<正>在初中数学教学过程中,教师使用项目式学习模式,利用自主探究项目为学生创建自主研究的学习空间,可以激发学生的学习热情,提高学生学习的积极性。教师在推行项目式学习模式的过程中,应充分地观察和记录学生的课堂表现,带领学生进入数学知识的世界,使学生体会数学探究的乐趣,从而提高数学课堂的教学效率和教学质量,为学生综合学习能力的提升打好基础。