增强学习模型解决博弈均衡问题的研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:zhongqiwen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从博弈论(GameTheory)诞生以后,由于其解决对策、决策问题的指导性,许多学科领域都引入了博弈论的思想。而博弈论中Nash均衡的思想也成为解决许多策略选择问题重要依据和途径。如何能在博弈问题中更好的利用Nash均衡的思想和方法,使我们得到更优的策略,并将其应用于具体的实际问题从而获得更佳的收益,这正是本文所讨论的。 首先,我们引入了增强学习算法的思想。增强学习算法的历史要追溯到计算机科学和控制论的早期。近来主要致力于机器学习和人工智能领域。增强学习算法的主要思想是在一个不断重复进行的决策过程或者类似的决策过程中,分析每次的决策和得到的收益以及对以后决策过程的影响,总结出一定的关于这个(类)决策过程的规律,得到一定的决策策略以指导以后的决策,从而使得决策者能够获得一个更好的收益。 有了增强学习算法的思想,我们希望能将这一思想用于对博弈中Nash均衡的求解问题。我们将一个博弈看作一个近似的重复博弈,把博弈中的每一个参与人看作一个使用增强学习算法思想的Agent。然后将这个博弈问题重复的进行,把每一次博弈过程(参与人的选择和收益)记录到博弈的历史中,通过每一个Agent对博弈历史利用评估函数进行评估,然后调整这个博弈的策略。最终通过对策略的“学习”,每一个Agent的策略收敛到某一个策略上,这个策略能使Agent获得一个更好的收益(评估函数评估)。而依据Nash均衡的思想,这个策略就是这个博弈的Nash均衡。这也为我们提供了一种求博弈Nash均衡的方法。 最后,我们将运用增强学习算法思想求解Nash均衡的方法来解决一个实际的博弈问题——带约束的质量服务路由,给出了一个基于增强学习算法的路由模型和算法。我们将每一个交换节点都看做一个Agent,并且它们都利用增强学习算法的思想来对路由选择的策略进行“学习”,根据路由的历史(选择和所产生的消耗)来调整路由策略以使得网络能更好的满足约束,提高服务质量。这样,每一个交换节点都不需要保存网络的结构和变化情况,只需根据路由的历史就能判断出网络的情况,并且作出调整。
其他文献
随着图像传感器、计算机网络、分布式计算技术的发展,基于摄像头网络的视频监控技术正日渐成熟,并越来越广泛地应用于智能家居、智慧交通、公共安全等各个领域。由于在上述视频
随着互联网技术的发展和应用需求的变化,基于Web应用系统构建的电子商务和政务系统已经逐渐成为企事业单位信息汇集、交流和处理的主要平台。当越来越多的资源被投入到Web应用
随着信息技术的发展和网络经济的快速进步,传统的商业模式发生了根本性变化。在很多行业,由于产品和服务的商品化,企业之间的竞争更加激烈;而且客户期望也在快速变化,对产品和服务
在实际的无线传感器网络应用中,节点通常需要了解其所有邻居节点的状态以做出相应的决策。为了获得邻居节点的信息,节点可以采取轮询的方式依次和每个邻居通信,或者采用TDMA的方
全球性的网络化、信息化进程正改变着人们的生活和工作方式。电子政务成为现今政府信息化建设的重要之举。如何建立一个电子政务原型,能适合于各个政府部门,也是现在政府信息化
SIP称为会话初始化协议,是由IETF组织于1999年提出的一个基于IP网络,特别是在Internet这样一种结构的网络环境中,实现即时通讯应用的一种信令协议。SIP凭借其简单、灵活、分布式
社区宽带综合业务网络系统是由中国科学院软件研究所研制的基于交换式以太网技术解决计算机网络、电话网络和电视网络三网融合的网络系统,属于用户驻地网的范畴。它为社区提供
目前,人类已进入以网络为中心的信息时代,大范围内的信息共享与分布式事务成为计算机应用的迫切需求,越来越多的应用要存取分布在不同网络结点上的、不同种类数据源中的数据。虚
由于Profibus已经成为中国的行业标准,并且Profibus总线技术是目前自动化领域炙手可热的控制方式,因此本文选了Profibus通讯技术作为研究方向。本文旨在通过对现场总线知识的理
需求演化是软件项目中出现最频繁、对软件开发影响最大的风险之一。频繁的需求演化会造成软件质量下降、进度延期或成本超支等严重后果,而组织良好的需求演化能够有效的提高软