基于双估计器的改进Speedy Q-learning算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:whw123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Q-learning算法是一种经典的强化学习算法,更新策略由于保守和过估计的原因,存在收敛速度慢的问题。Speedy Q-learning算法和Double Q-learning算法是Q-learning算法的两个变种,分别用于解决Q-learning算法收敛速度慢和过估计的问题。文中基于Speedy Q-learning算法Q值的更新规则和蒙特卡洛强化学习的更新策略,通过理论分析及数学证明提出了其等价形式,从该等价形式可以看到,Speedy Q-learning算法由于将当前Q值的估计函数作为历史Q值的
其他文献
目的观察鼻内镜下治疗顽固性鼻出血的效果分析。方法对医院2008年1月~2010年1月间的60例顽固性鼻出血患者的临床资料进行回顾性分析。结果本组60例患者中,治愈的有53例,治愈率为
由于数据在不同视图之间的分布比较复杂,传统的单视图离群点检测方法不再适用于多视图离群点的检测,使得多视图离群点检测成为一个颇具挑战性的研究课题。多视图离群点可分为
随着现代物流行业等应用领域的快速发展,多旅行商问题得到了越来越多的关注。针对多起点闭回路多旅行商问题(Multiple depots Multiple Traveling Salesman Problem,MMTSP),
同一类商品下,观点词对中包含的观点目标和观点词通常有着很强的观点依赖联系,因此可以通过对评论句子中单词间的观点依赖联系进行分析来提取观点词对。首先,构建评论句子的
<正>1研究目的运动性猝死是运动实践中的常见现象,然而其机制不明。本文通过对运动性猝死大鼠的运动皮质细胞形态学改变及凋亡调控相关因子bax、bcl-2及BDNF的表达变化进行研
会议
1月14日,国务院召开常务会议,决定设立国家新兴产业创业投资引导基金,助力创业创新和产业升级;部署加快发展服务贸易,以结构优化拓展发展空间。会议认为,设立国家新兴产业创业投资
国内的房地产行业经过几十年的成长发展逐渐走向成熟,同时随着市场环境的变化,企业管理体系规范化程度低,调控政策的不确定性等因素也面临着自身转型与革新。除了企业自身制