基于线性动态跳帧的深度双Q网络

来源 :计算机学报 | 被引量 : 0次 | 上传用户：syy1116

【摘要】

：

深度Q网络模型在处理需要感知高维输入数据的决策控制任务中性能良好.然而,在深度Q网络及其改进算法中基本使用静态的跳帧方法,即动作被重复执行固定的次数.另外,优先级经验

【作者】

：

陈松章晓芳章宗长刘全吴金金闫岩

【机构】

：

苏州大学计算机科学与技术学院,南京大学计算机软件新技术国家重点实验室,吉林大学符号计算与知识工程教育部重点实验室

【出处】

：

计算机学报

【发表日期】

：

2019年11期

【关键词】

：

深度强化学习深度Q网络动态跳帧优先级经验重放 deep reinforcement learningDeep Q-Networkdynamic frame

【基金项目】

：

国家自然科学基金项目(61472262,61502329,61772355,61876119),江苏省自然科学基金面上项目(BK20181432),吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172014K04,93K172017K18),苏州市重点产业技术创新-前瞻性应用研究项目(SYG201807)资助.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

深度Q网络模型在处理需要感知高维输入数据的决策控制任务中性能良好.然而,在深度Q网络及其改进算法中基本使用静态的跳帧方法,即动作被重复执行固定的次数.另外,优先级经验重放是对均匀采样的一种改进,然而目前各个研究仅将样本的时间差分误差作为评价优先级的标准.针对这两个问题,该文提出一种基于线性动态跳帧和改进的优先级经验重放的深度双Q网络.该算法使得跳帧率成为一个可动态学习的参数,跳帧率随网络输出Q值的大小线性增长,Agent将根据当前状态和动作来动态地确定一个动作被重复执行的次数,并利用经验池中样本的每个动作

其他文献

2010，上海世博会上的电影元素

博览会是人类的聚会，人们从世界各地汇聚一处，展示各自的发明与技艺，夸耀各自的故乡和祖国。世博会集人类文明之大成，因而具备了无与伦比的感染力。世博会不仅广泛反映人类经济和

期刊

世博会电影元素数字投影机新形式电影多媒体技术表现

加快数字化建设电影强国

自2009年下半年以来，国务院相继出台《文化产业振兴规划》、《关于促进电影产业繁荣发展的指导意见》等重要文件，为电影产业的发展创造了积极有利的政策环境。尤其是今年年初，国

期刊

电影产业数字化建设国务院办公厅《指导意见》跨越式发展文化产业数字电影

功能性和差别化纺织品聚酯原料的工业化生产

本文介绍了在一头多尾弹性聚合装置(一套酯化装置带多条缩聚生产线)和间歇聚合装置中功能性和差别化纺织品聚酯原料的工业化生产。改性组分的溶液制备系统及其在齐聚物中的加

期刊

功能性差别化聚酯原料

睢宁县滥伐林木的原因及对策

介绍了近年来睢宁县滥伐林木呈现的特点，分析了林木遭滥伐的原因，提出相应的对策。

期刊

滥伐林木特点原因对策江苏睢宁

东南亚常见害鼠种类及其检索

目的了解越南、老挝、柬埔寨、缅甸、泰国、马来西亚、印度尼西亚、菲律宾等东南亚常见害鼠的种类及其检索要点。方法根据文献资料，介绍东南亚国家常见害鼠的种类，并描述我国尚

期刊

害鼠种类特征检索Pest rodent Species Feature Key

基于线性动态跳帧的深度双Q网络

其他学术论文