基于双估计器的改进Speedy Q-learning算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户：whw123

【摘要】

：

Q-learning算法是一种经典的强化学习算法,更新策略由于保守和过估计的原因,存在收敛速度慢的问题。Speedy Q-learning算法和Double Q-learning算法是Q-learning算法的两个变

【作者】

：

郑帅罗飞顾春华丁炜超卢海峰

【机构】

：

华东理工大学信息科学与工程学院

【出处】

：

计算机科学

【发表日期】

：

2020年7期

【关键词】

：

Q-LEARNING Double Q-learning Speedy Q-learning 强化学习 Q-learningDouble Q-learningS

【基金项目】

：

国家自然科学基金(61472139),华东理工大学2017年教育教学规律与方法研究项目(ZH1726107)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Q-learning算法是一种经典的强化学习算法,更新策略由于保守和过估计的原因,存在收敛速度慢的问题。Speedy Q-learning算法和Double Q-learning算法是Q-learning算法的两个变种,分别用于解决Q-learning算法收敛速度慢和过估计的问题。文中基于Speedy Q-learning算法Q值的更新规则和蒙特卡洛强化学习的更新策略,通过理论分析及数学证明提出了其等价形式,从该等价形式可以看到,Speedy Q-learning算法由于将当前Q值的估计函数作为历史Q值的

其他文献

鼻内镜下治疗顽固性鼻出血的临床疗效观察

目的观察鼻内镜下治疗顽固性鼻出血的效果分析。方法对医院2008年1月～2010年1月间的60例顽固性鼻出血患者的临床资料进行回顾性分析。结果本组60例患者中，治愈的有53例，治愈率为

期刊

顽固性鼻出血鼻内镜鼻腔黏膜鼻肿瘤

东风内燃机车油水泵试验台单片计算机自动检测

期刊

内燃机车油泵水泵试验台单片机自动检测

高阶多视图离群点检测

由于数据在不同视图之间的分布比较复杂,传统的单视图离群点检测方法不再适用于多视图离群点的检测,使得多视图离群点检测成为一个颇具挑战性的研究课题。多视图离群点可分为

期刊

多视图离群点检测多视图学习异常检测张量表示低秩表示Multi-view outlier detectionMulti-view learningAno

求解MMTSP的模糊聚类单亲遗传算法

随着现代物流行业等应用领域的快速发展,多旅行商问题得到了越来越多的关注。针对多起点闭回路多旅行商问题(Multiple depots Multiple Traveling Salesman Problem,MMTSP),

期刊

多旅行商问题单亲遗传算法模糊C均值聚类旅行商问题Multiple traveling salesman problemPartheno-genetic

基于依赖联系分析的观点词对协同抽取

同一类商品下,观点词对中包含的观点目标和观点词通常有着很强的观点依赖联系,因此可以通过对评论句子中单词间的观点依赖联系进行分析来提取观点词对。首先,构建评论句子的

期刊

观点词对观点依赖联系分析注意力机制神经网络Opinion pairOpinion dependency relation analysisAttenti

过度疲劳状态下运动性猝死大鼠运动皮质bax与bcl-2及BDNF的表达变化

<正>1研究目的运动性猝死是运动实践中的常见现象,然而其机制不明。本文通过对运动性猝死大鼠的运动皮质细胞形态学改变及凋亡调控相关因子bax、bcl-2及BDNF的表达变化进行研

会议

国务院设立国家新兴产业创投引导基金

1月14日，国务院召开常务会议，决定设立国家新兴产业创业投资引导基金，助力创业创新和产业升级；部署加快发展服务贸易，以结构优化拓展发展空间。会议认为，设立国家新兴产业创业投资

期刊

新兴产业创投引导基金国务院国家创业投资引导基金创业创新创新型企业产业升级

我国房地产项目开发中的决策性思维研究

国内的房地产行业经过几十年的成长发展逐渐走向成熟,同时随着市场环境的变化,企业管理体系规范化程度低,调控政策的不确定性等因素也面临着自身转型与革新。除了企业自身制

学位

房地产开发土地投资产品定位产品决策

物质的量的概念及其应用（上）

期刊

物质量计量单位

《单片机与嵌入式系统应用》2005年总目录

期刊

嵌入式系统单片机《单片机与嵌入式系统应用》

基于双估计器的改进Speedy Q-learning算法

与本文相关的学术论文