论文部分内容阅读
自从博弈论(GameTheory)诞生以后,由于其解决对策、决策问题的指导性,许多学科领域都引入了博弈论的思想。而博弈论中Nash均衡的思想也成为解决许多策略选择问题重要依据和途径。如何能在博弈问题中更好的利用Nash均衡的思想和方法,使我们得到更优的策略,并将其应用于具体的实际问题从而获得更佳的收益,这正是本文所讨论的。
首先,我们引入了增强学习算法的思想。增强学习算法的历史要追溯到计算机科学和控制论的早期。近来主要致力于机器学习和人工智能领域。增强学习算法的主要思想是在一个不断重复进行的决策过程或者类似的决策过程中,分析每次的决策和得到的收益以及对以后决策过程的影响,总结出一定的关于这个(类)决策过程的规律,得到一定的决策策略以指导以后的决策,从而使得决策者能够获得一个更好的收益。
有了增强学习算法的思想,我们希望能将这一思想用于对博弈中Nash均衡的求解问题。我们将一个博弈看作一个近似的重复博弈,把博弈中的每一个参与人看作一个使用增强学习算法思想的Agent。然后将这个博弈问题重复的进行,把每一次博弈过程(参与人的选择和收益)记录到博弈的历史中,通过每一个Agent对博弈历史利用评估函数进行评估,然后调整这个博弈的策略。最终通过对策略的“学习”,每一个Agent的策略收敛到某一个策略上,这个策略能使Agent获得一个更好的收益(评估函数评估)。而依据Nash均衡的思想,这个策略就是这个博弈的Nash均衡。这也为我们提供了一种求博弈Nash均衡的方法。
最后,我们将运用增强学习算法思想求解Nash均衡的方法来解决一个实际的博弈问题——带约束的质量服务路由,给出了一个基于增强学习算法的路由模型和算法。我们将每一个交换节点都看做一个Agent,并且它们都利用增强学习算法的思想来对路由选择的策略进行“学习”,根据路由的历史(选择和所产生的消耗)来调整路由策略以使得网络能更好的满足约束,提高服务质量。这样,每一个交换节点都不需要保存网络的结构和变化情况,只需根据路由的历史就能判断出网络的情况,并且作出调整。