Sarsa(λ)算法相关论文
局部路径规划是水下机器人(AUV)导航任务中的难点。自适应性是AUV所必须具有的关键能力。强化学习被认为是获耳义未知环境下自主机......
大状态空间值函数的激励学习是当今国际激励学习领域的一个热点和难点问题.将记忆心理学中有关遗忘的基本原理引入值函数的激励学......
在对资格迹理论研究的基础上,提出了一种延迟快速强化学习算法DFSARSA(λ)(延迟快速SARSA(λ)算法).算法的主要思想是通过对资格迹......
分析了折扣激励学习存在的问题,对MDPs的SARSA(λ)算法进行了折扣的比较实验分析,讨论了平均奖赏常量对无折扣SARSA(()算法的影响。......
随着通信用户数量的不断增长,低功率基站逐渐出现负载不均衡问题,小区边缘用户受到的干扰逐步增加,从而导致整个小区的通信质量降......
本文提出了一种基于5要素试错更新算法SARSA(λ)强化学习的随机最优自动发电控制方法.该方法不依赖任何系统模型和先验知识并通过......
在功率受限的机会频谱接入(OSA)研究中,大多使用完全可观测马尔可夫决策过程(MDP)对环境建模,以提高物理层或介质访问控制(MAC)层指标,但由......
目前针对认知无线电网络中TCP协议的研究大多假设次用户的感知是完美的,且未综合考虑TCP协议参数和感知时间等因素对TCP性能的影响......
强化学习作为一种重要的机器学习方法,已经被广泛应用于许多单智能体和多智能体系统。强化学习的性能受所使用的学习算法及其参数的......
期刊
命名数据网络由于缓存的作用及多路径和多播的传输特点,使得传统的拥塞控制策略不再适用。从命名数据网络转发策略的角度出发,结合......
期刊
本文在基于智能体学习的基础上,以RoboCup2D为实验平台,对多智能体强化学习及协作问题进行研究,研究内容如下:单智能体的控球策略......