多步强化学习算法的收敛性分析

来源 :计算机与数字工程 | 被引量 : 0次 | 上传用户：slie726

【摘要】

：

在强化学习(Reinforcement Learning)算法理论中,最近有学者提出了一个新的估值算法[Q(σ)],这里[σ]是采样度(degree of sampling),这是一个介于全采样(full-sampling)和非

【作者】

：

杨瑞

【机构】

：

天津大学数学学院

【出处】

：

计算机与数字工程

【发表日期】

：

2019年7期

【关键词】

：

强化学习值函数估计优化时间差分 reinforcement learningvalue function estimateoptimizationtemp

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在强化学习(Reinforcement Learning)算法理论中,最近有学者提出了一个新的估值算法[Q(σ)],这里[σ]是采样度(degree of sampling),这是一个介于全采样(full-sampling)和非采样(no-sampling)的新方法。[Q(σ)]统一了Sarsa和Expected Sarsa等传统算法,但是[Q(σ)]的提出者只在实验上验证了算法的有效性。该文对[Qσ]的收敛性作了理论分析,证明了在一定条件下[Q(σ)]是收敛的。

其他文献

词汇层面的语际借用及其成因

对词汇层面的语际借用,包括其界定、分类和某些特征作了泛语言学上的描述,并从语言、社会、文化以及民族文化心理等方面探讨了词汇层面的语际借用发生的原因.

期刊

词汇层面语际借用借词成因外来语interlingual borrowing loanwords causes

补中益气汤新用

补中益气汤出自李东垣<脾胃论>,由黄芪、人参、白术、陈皮、升麻、柴胡、当归、炙甘草组成,具有补中益气、升阳举陷之功.笔者以此方加减治疗结肠动力紊乱、排尿性晕厥,慢性前

期刊

补中益气汤结肠疾病排尿性晕厥前列腺炎

Ⅳ型指深屈肌腱撕脱性损伤1例报道并术式讨论

1病例资料患者男,37岁,因高处坠落致右手环指疼痛、活动受限8 h于2019年5月10日入院。自诉于8 h前在家爬梯子时不慎坠落,坠落时右手抓住梯子,用力过猛,落地后即感右手疼痛、

期刊

指深屈肌腱损伤骨折经骨道并发症

指动脉顺行V-Y岛状皮瓣修复指腹缺损

目的评价指动脉顺行"V-Y"岛状皮瓣修复手指指腹缺损的临床疗效。方法2015年3月-2018年6月,应用指动脉顺行"V-Y"岛状皮瓣修复手指指腹缺损20例,均有末节指骨外露,缺损面积最小

期刊

指腹缺损指动脉“V-Y”岛状皮瓣修复Finger pulp defectV-Y island flap of digital arteryRepair

MEMS惯性器件典型参数测试技术研究

论文介绍了MEMS的概念及典型MEMS器件的基本工作原理,选取了某款MEMS陀螺器件作为测试研究对象,分析了其测试参数,按照参数的特性对各个参数进行了分类,并研究了器件的典型参

期刊

MEMSPXI测试MEMSPXItest

多步强化学习算法的收敛性分析

其他学术论文