一种多动机强化学习框架

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户：tiancai9550

【摘要】

：

以Q学习为代表的传统强化学习方法都是维持一个状态与动作的映射表．这种状态-动作的二层映射结构缺乏灵活性，同时不能有效地使用先验知识引导学习过程．为了解决这一问题，提出了一

【作者】

：

赵凤飞覃征

【机构】

：

清华大学计算机科学与技术系

【出处】

：

计算机研究与发展

【发表日期】

：

2013年2期

【关键词】

：

强化学习多动机 Q学习 MMQ—unique算法 MMQ-voting算法 reinforcement learning multi-motive Q lea

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

以Q学习为代表的传统强化学习方法都是维持一个状态与动作的映射表．这种状态-动作的二层映射结构缺乏灵活性，同时不能有效地使用先验知识引导学习过程．为了解决这一问题，提出了一种基于多动机强化学习（MMRL）的框架．MMRL框架在状态与动作间引入动机层，将原有的状态-动作二层结构扩展为状态-动机-动作三层结构，可根据经验设置多个动机．通过动机的设定实现了先验知识的利用，进而加快了强化学习的进程，提高了强化学习的灵活性．实验表明，通过合理的动机设定，多动机强化学习的学习速度较传统强化学习有明显提升．

其他文献

综合护理干预在0级糖尿病足中的疗效评价

目的:探讨综合护理干预在0级糖尿病足中的疗效。方法:选取我院收治的0级糖尿病足患者186例,随机分为观察组和对照组,每组93例。对照组给予常规护理,观察组给予综合护理干预,

期刊

0级糖尿病足综合护理血糖健康知识自我护理依从性diabetic foot in grade 0comprehensive nursingblood g

结合全局特征的命名实体属性值抽取

关注非结构化文本中命名实体属性值的抽取问题.当前主流有监督属性值抽取方法仅使用局部特征,抽取效果有限,开展了利用文本全局特征改善属性值抽取的研究.通过适用于中文属性

期刊

实体属性属性值抽取命名实体全局特征平均感知机

浅议我国锌与锌盐市场

从有色金属市场行情入手，分析了国内外金属锌市场近年来的走势，同时研究了我国锌盐市场的变化情况，最后做了金属锌与锌盐市场未来短期内的行情预测。

期刊

金属锌锌盐市场metallic zinc zinc salt market

新型空心砌块的节能性和经济性

随着能源供需矛盾的日益突出，国家推出了一系列的节能减排政策和促进新型墙体材料研制和使用的政策。近些年来，市场上出现了多种新型墙体材料，人们对墙体材料的节能性能日益关注

期刊

新型空心砌块节能性经济性

面向高性能计算的众核处理器轻量级错误恢复技术研究

随着半导体技术进步,单个芯片上集成大量核心的众核处理器已经广泛应用于高性能计算领域.相比多核处理器,众核处理器能提供更好的计算密度和能效比,但同时也面临越来越严重的

期刊

众核处理器错误恢复容错瞬态错误高性能计算many-core processor error recovery fault-tolerant trans

一种多动机强化学习框架

其他学术论文