一种基于智能调度的可扩展并行强化学习方法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:oikikukka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对强化学习在大状态空间或连续状态空间中存在的"维数灾"问题,提出一种基于智能调度的可扩展并行强化学习方法——IS-SRL,并从理论上进行分析,证明其收敛性.该方法采用分而治之策略对大状态空间进行分块,使得每个分块能够调入内存独立学习.在每个分块学习了一个周期之后交换到外存上,调入下一个分块继续学习.分块之间在换入换出的过程中交换信息,以使整个学习任务收敛到最优解.同时针对各分块之间的学习顺序会显著影响学习效率的问题,提出了一种新颖的智能调度算法,该算法利用强化学习值函数更新顺序的分布特点,基于多种调度策略加权优先级的思想,把学习集中在能产生最大效益的子问题空间,保障了IS-SRL方法的学习效率.在上述调度算法中融入并行调度框架,利用多Agent同时学习,得到了IS-SRL方法的并行版本——IS-SPRL方法.实验结果表明,IS-SPRL方法具有较快的收敛速度和较好的扩展性能.
其他文献
<正>写字一直是小学语文教学的重要内容,《义务教育语文课程标准》(2011年版)(以下简称《课程标准》)对写字在语文教学中的地位进行了重新定位,把写字作为全面提高学生的语文
<正>犬瘟热是由犬瘟热病毒感染引起的一种高度接触性传染性病毒病。犬患犬瘟热后,有时会留下一些后遗症,双后肢瘫痪即其中之一。现报告一例京八犬患犬瘟热后引起的双后肢瘫痪
目的了解肝血管瘤切除术后患者并发症的发生情况,并探讨其相关危险因素。方法回顾性分析2005-2010年在东方肝胆外科医院行肝血管瘤切除术治疗的946例患者的资料,统计患者年龄
针对重庆来福士广场南塔不对称的外框柱立面造型进行了P-Δ影响分析、稳定性屈曲验算以复核结构稳定性及安全性,对曲线引起的水平变形进行了复核。针对结构平面及立面开洞,通
《汉蒙对照自然科学名词术语丛书—生物学》是1992年编辑出版的一部以基础生物学名词术语为主的综合性生物学词典。词典选收了脊椎动物、无脊椎动物、解剖学、组织胚胎学、生理学、遗传学、植物分类与形态学等生物学各科基本的、重要的、常见的名词术语外还录入了医学、农学、畜牧学上的常用名词术语。词典出版使用已27年,在这二十多年期间随着自然环境的变化、人类社会的发展、科学技术的进步,动植物种类和分布甚至是名称都
糖槭蚧又名扁平球坚蚧、东方盔蚧、水木坚蚧、褐盔蜡蚧,属昆虫纲同翅目蜡蚧科。主要寄主有桃、杏、李、葡萄、梨、苹果、沙果、核桃等果树。其发生面 Sugar maple scale, al
本文针对当前计算机机房设备报修过程中的流程简单、工作效率低、责任不清等问题,运用用例模型描述机房设备报修管理系统的主要功能,开发语言选择Java,数据访问层采用My Bati
【正】 在《语言研究》1982年第1期上,马学良先生和我曾发表了一篇题为《说"哪儿上的"及其"的"》的文章。在该文中,我们提出汉语中存在一个表已然义的"的_b"(以下均只作"的_b
期刊
被称为&#39;中国重汽历史上一次前所未有的革命性突破&#39;的人事改革制度,日前公布了中层干部竞聘的结果,中国重汽新任中层领导干部集体亮相,他们将在重汽下一轮改革中发挥
从防汛抗旱指挥决策的内容出发,本文分析了3S技术在防汛抗旱指挥决策中的作用,包括数据获取与管理、空间信息可视化、数字高程模型、空间分析、实时监控、遥感监测等技术对防