多步强化学习算法的收敛性分析

来源 :计算机与数字工程 | 被引量 : 0次 | 上传用户:slie726
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在强化学习(Reinforcement Learning)算法理论中,最近有学者提出了一个新的估值算法[Q(σ)],这里[σ]是采样度(degree of sampling),这是一个介于全采样(full-sampling)和非采样(no-sampling)的新方法。[Q(σ)]统一了Sarsa和Expected Sarsa等传统算法,但是[Q(σ)]的提出者只在实验上验证了算法的有效性。该文对[Qσ]的收敛性作了理论分析,证明了在一定条件下[Q(σ)]是收敛的。
其他文献
对词汇层面的语际借用,包括其界定、分类和某些特征作了泛语言学上的描述,并从语言、社会、文化以及民族文化心理等方面探讨了词汇层面的语际借用发生的原因.
补中益气汤出自李东垣<脾胃论>,由黄芪、人参、白术、陈皮、升麻、柴胡、当归、炙甘草组成,具有补中益气、升阳举陷之功.笔者以此方加减治疗结肠动力紊乱、排尿性晕厥,慢性前
1病例资料患者男,37岁,因高处坠落致右手环指疼痛、活动受限8 h于2019年5月10日入院。自诉于8 h前在家爬梯子时不慎坠落,坠落时右手抓住梯子,用力过猛,落地后即感右手疼痛、
目的评价指动脉顺行"V-Y"岛状皮瓣修复手指指腹缺损的临床疗效。方法2015年3月-2018年6月,应用指动脉顺行"V-Y"岛状皮瓣修复手指指腹缺损20例,均有末节指骨外露,缺损面积最小
论文介绍了MEMS的概念及典型MEMS器件的基本工作原理,选取了某款MEMS陀螺器件作为测试研究对象,分析了其测试参数,按照参数的特性对各个参数进行了分类,并研究了器件的典型参