一种优先级扫描的Dyna结构优化算法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户：jenjen1985

【摘要】

：

不确定环境的时序决策问题是强化学习研究的主要内容之一，agent的目标是最大化其与环境交互过程中获得的累计奖赏值．直接学习方法寻找最优策略的算法收敛效率较差，而采用Dyna结

【作者】

：

孙洪坤刘全傅启明肖飞高龙

【机构】

：

苏州大学计算机科学与技术学院,符号计算与知识工程教育部重点实验室（吉林大学）

【出处】

：

计算机研究与发展

【发表日期】

：

2013年10期

【关键词】

：

强化学习时序决策优先级扫描 Dyna结构 Dyna—PS reinforcement learning sequential decision makin

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

不确定环境的时序决策问题是强化学习研究的主要内容之一，agent的目标是最大化其与环境交互过程中获得的累计奖赏值．直接学习方法寻找最优策略的算法收敛效率较差，而采用Dyna结构将学习与规划并行集成，可提高算法的收敛效率．为了进一步提高传统Dyna结构的收敛速度和收敛精度，提出了Dyna—PS算法，并在理论上证明了其收敛性．该算法在Dyna结构规划部分使用优先级扫描算法的思想，对优先级函数值高的状态优先更新，剔除了传统值迭代、策略迭代过程中不相关和无更新意义的状态更新，提升了规划的收敛效率，从而进一步提升了

其他文献

肛裂的治疗：902例回顾

期刊

肛裂治疗药物治疗纤维化

针刺配合调息法治疗呃逆疗效观察

目的：观察针刺足三里、太冲穴，配合调息法治疗呃逆的疗效。方法：80例随机分为两组各40例。治疗组针刺双侧足三里、太冲穴，配合调息行针，行呼吸补泻法。对照组针刺膈俞、内关、中脘

期刊

呃逆针刺调息法

清正廉洁是领导干部的立身之本

领导干部要自觉接受监督。不受制约的权力,必然导致腐败,监督是一种制约的手段。讳言监督制约的领导干部,如不警醒,迟早要吞下自己酿成的苦果,这样的典型已经很多,教训很深刻

期刊

领导干部监督制约接受党内监督自觉人民群众清正廉洁权力机关党员党章

中美基础研究投入比较

在这个以创新为主题的时代，科技成为经济增长的主要推动力。对于基础研究的重要性，各国已经形成了共识，普遍认同基础研究是创新的源头，国家综合国力的竞争已明显前移到基础研究。

期刊

基础研究经济增长创新型综合国力财政资本

推进文化创意产业促生地方经济增长新动力研究

科学技术的高速发展,网络信息化时代的降临,使得地域性文化相互交融。人们对于外来文化态度的转变,从最初的新奇与排斥到现在的辩证看待。人们逐渐开始关注我国地域文化的高

期刊

文化创意产业地方经济新动力

冯有为履职系列谈之四一定得为老百姓说话办事

当了18年人大代表的冯有为,在谈起当代表的体会时深有感触地说:"刚开始当人大代表时,更多的是一种荣誉感。随着时间的推移,这种荣誉感越来越淡化,责任感却越来越强。一个工人

期刊

人大代表老百姓人民代表大会制度人代会荣誉感工人师傅社会责任感淡化选民期望

论建设工程施工合同中价款优先受偿权

随着我国的高速发展建设,建设工程施工合同案件越来越多,同时建设工程施工合同案件事实认定往往较为复杂。《最高人民法院关于审理建设工程施工合同纠纷案件适用法律问题的

期刊

建设工程施工合同建设工程价款优先受偿权

基于逆序信号驱动的紧密衔接综合调度算法

针对以往综合调度中紧密衔接调度算法只能处理单一紧前工序的情况，使算法具有局限性问题，提出基于逆序信号驱动的紧密衔接综合调度算法．该算法先建立设备和调度2个子系统，并通过

期刊

紧密衔接多紧前工序逆序调度信号驱动综合调度no-wait non-sole immediate predecessor process rever

新农村建设要有软环境和硬机制

在全面建设社会主义新农村进程中，水、电、通讯、资源等基础设施是为“硬环境”，提高办事效率和服务质量即为“软环境”。而为加快经济发展相应配套的管理制度和监督制约则是硬

期刊

“软环境”机制建设新农村建设社会主义新农村经济发展全面建设发展步伐基础设施服务质量办事效率

我的建议引发知分填报高考志愿

2005年6月初,福建省25万考生顺利结束了高考。与往年不同的是,今年的考生可以安稳地休息和放松几天了,对未来的定位和对高校的选择都留给6月25日高考分数出来以后,因为,今年

期刊

考生填报志愿建议高考志愿福建省高校招生改革人大代表家长

一种优先级扫描的Dyna结构优化算法

与本文相关的学术论文