论文部分内容阅读
提出基于VCG机制的动态频谱分配博弈模型,解决了认知无线网络环境存在的信息约束限制、分布式特性和频谱分配动态、复杂性问题;提出一种基于动态频谱分配的部分可观察马尔可夫决策过程(POMDP)强化学习算法.认知用户通过对历史信息的观察、统计,为提高竞拍策略的奖赏值而进行不断的学习获取最优竞拍策略.将POMDP强化学习转变为信度状态马尔可夫决策过程(belief MDP)最优策略学习.采用值迭代算法求解信度状态MDP模型的解.仿真结果表明,基于POMDP强化学习算法可显著改善认知用户的行为,提高动态频谱分配性能