一种优先级扫描的Dyna结构优化算法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:jenjen1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不确定环境的时序决策问题是强化学习研究的主要内容之一,agent的目标是最大化其与环境交互过程中获得的累计奖赏值.直接学习方法寻找最优策略的算法收敛效率较差,而采用Dyna结构将学习与规划并行集成,可提高算法的收敛效率.为了进一步提高传统Dyna结构的收敛速度和收敛精度,提出了Dyna—PS算法,并在理论上证明了其收敛性.该算法在Dyna结构规划部分使用优先级扫描算法的思想,对优先级函数值高的状态优先更新,剔除了传统值迭代、策略迭代过程中不相关和无更新意义的状态更新,提升了规划的收敛效率,从而进一步提升了
其他文献
目的:观察针刺足三里、太冲穴,配合调息法治疗呃逆的疗效。方法:80例随机分为两组各40例。治疗组针刺双侧足三里、太冲穴,配合调息行针,行呼吸补泻法。对照组针刺膈俞、内关、中脘
领导干部要自觉接受监督。不受制约的权力,必然导致腐败,监督是一种制约的手段。讳言监督制约的领导干部,如不警醒,迟早要吞下自己酿成的苦果,这样的典型已经很多,教训很深刻
在这个以创新为主题的时代,科技成为经济增长的主要推动力。对于基础研究的重要性,各国已经形成了共识,普遍认同基础研究是创新的源头,国家综合国力的竞争已明显前移到基础研究。
科学技术的高速发展,网络信息化时代的降临,使得地域性文化相互交融。人们对于外来文化态度的转变,从最初的 新奇与排斥到现在的辩证看待。人们逐渐开始关注我国地域文化的高
当了18年人大代表的冯有为,在谈起当代表的体会时深有感触地说:"刚开始当人大代表时,更多的是一种荣誉感。随着时间的推移,这种荣誉感越来越淡化,责任感却越来越强。一个工人
随着我国的高速发展建设,建设工程施工合同案件越来越多,同时建设工程施工合同案件事实认定往往较为复杂。 《最高人民法院关于审理建设工程施工合同纠纷案件适用法律问题的
针对以往综合调度中紧密衔接调度算法只能处理单一紧前工序的情况,使算法具有局限性问题,提出基于逆序信号驱动的紧密衔接综合调度算法.该算法先建立设备和调度2个子系统,并通过
在全面建设社会主义新农村进程中,水、电、通讯、资源等基础设施是为“硬环境”,提高办事效率和服务质量即为“软环境”。而为加快经济发展相应配套的管理制度和监督制约则是硬
2005年6月初,福建省25万考生顺利结束了高考。与往年不同的是,今年的考生可以安稳地休息和放松几天了,对未来的定位和对高校的选择都留给6月25日高考分数出来以后,因为,今年