基于POMDP强化学习的动态频谱分配算法

来源 :北京邮电大学学报 | 被引量 : 0次 | 上传用户:alx0890
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出基于VCG机制的动态频谱分配博弈模型,解决了认知无线网络环境存在的信息约束限制、分布式特性和频谱分配动态、复杂性问题;提出一种基于动态频谱分配的部分可观察马尔可夫决策过程(POMDP)强化学习算法.认知用户通过对历史信息的观察、统计,为提高竞拍策略的奖赏值而进行不断的学习获取最优竞拍策略.将POMDP强化学习转变为信度状态马尔可夫决策过程(belief MDP)最优策略学习.采用值迭代算法求解信度状态MDP模型的解.仿真结果表明,基于POMDP强化学习算法可显著改善认知用户的行为,提高动态频谱分配性能
其他文献
提出了一种新的具有良好奇周期相关特性的最佳离散信号——奇周期最佳几乎二进序列偶.奇周期最佳几乎二进序列偶中2个序列中均有一个元素为“0”元素,其他元素取值均为“+1”或
实际的无线通信系统中,传输延时是表征系统性能的重要参数.本文根据速率兼容打孔turbo码的特性,提出了一种新的混合自动重传请求(HARQ)的递增冗余方法.该方法根据当前的信道
为了对收发相关频率选择性多入多出(MIMO)衰落信道容量进行研究,提出了基于区域近似多簇几何双反射信道模型,推导出了多簇收发相关信道的相关系数和收发相关MIMO信道容量的表达式
为评价地图匹配辅助导航参考地图的导航性能,本文定义的统计特征参数新增加了数据采集平台采样周期和测量精度2个参数.用数值仿真的方法进行了导航精度试验.其地图匹配算法采
在接收用户配置单天线的多输入多输出广播系统(MIMO BC)中,提出了一种利用干扰提高系统容量的低复杂度预编码方法.该方法将多用户系统转化为若干个独立的两用户或单用户系统,在
详细阐述了业务控制点(SCP)实现基于移动网络增强型逻辑的客户化应用(CAMEL)的短消息业务控制功能的总体方案设计,短消息业务控制功能呼叫状态模型(SMS SCSM)自动机和新增业
为了实现对偏振模色散(PMD)效应所造成系统性能损伤的动态有效补偿,通过对PMD补偿方式的简要分析,给出了一种将电域特定频率分量功率作为控制信号的PMD光域自适应补偿实验系统.在