基于模拟退火策略的Sarsa强化学习方法

来源 :计算机仿真 | 被引量 : 8次 | 上传用户:zglcharmer134
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统强化学习算法(如Sarsa算法)收敛速度缓慢的问题,提出了基于模拟退火策略的Sarsa(SA-Sarsa)算法。在策略选择上使用模拟退火策略替代ε-greedy策略,利用退火速率控制算法的收敛速度,有效克服了Sarsa算法直接通过随机数与贪婪值比较选择策略而导致的陷入局部最优解的问题,达到了保证最优解、提高收敛速度的目的。通过迷宫的路径规划问题仿真,将SA-Sarsa算法与Q-Learning和Sarsa两种传统算法进行了对比,实验表明,SA-Sarsa学习算法在取得同等最优解下探索效率高且
其他文献
内蒙古包头市政府采购中心自划入市公共资源交易中心以来,不断完善程序规则,加强内部管理,在交易业务稳步增长的同时,在经济效益、采购工作、采购机制方面实现了“三大突破”。
案情介绍2016年2月,A市政府采购中心受采购人委托,对A市部分道路现有交通信号灯提升改造维护服务项目以公开招标方式实施了政府采购。该项目的采购内容包括:拆除旧有信号灯,安
案情介绍原告交建集团诉称,原告于2012年9月14日向被告建工集团电汇了29万元投标保证金,并于2012年9月18日参加被告办公楼桩基工程施工项目投标。原告未中标,被告无合法理由
随着我国城市化建设进程加速,城市的交通建设已经成为影响人们日常工作与生活的重要因素。地铁作为城市轨道交通的重要组成部分,对城市交通的运输能力有着很大的提升作用。此
福建省政府办公厅日前印发福建省文化厅、发改委、财政厅、新闻出版广电局、体育局《关于做好政府向社会力量购买公共文化服务工作的实施意见)×以下简称《意见》),要求各级
案情简介2013年12月,A县广播电视台委托招标代理机构就A县传媒中心室内装饰工程施工进行招标。《投标通知书》上载明:对项目负责人要求拟派施工项目负责人不得有在建工程;投标
传统的荷电状态预测方法不准确,为了进一步提高荷电状态预测的准确性,针对电动汽车电池荷电状态的预测,提出了基于灰色多变量模型对锂离子电池的SOC预测进行研究的方法。利用MATLAB中Simulink仿真软件建立实验的仿真模型,并用粒子群优化算法对预测模型中的参数进行了辨识。通过分析电池的放电倍率和电压对荷电状态的影响,研究结果显示,所提出的SOC预测方法具有较高的准确性,其可以用来进行SOC的预测。
为进一步创新政府采购方式,拓宽政府采购渠道,提高政府采购效能,近日,安徽省合肥市政府办公厅发布通知(以下简称“通知”),自2016年5月1日起,正式启用安徽合肥政府采购网上商城。
《经济日报》报道:2016年5月11日至12日,由工业和信息化部、中国工程院共同主办的2016智能制造国际会议在北京召开。参会的中国工程院院士、中国机械工程学会副理事长李培根兴
<正> 近几年来,随天津市和临近地区人口增长和经济发展,极大地改变了自然环境,带来一系列生态问题,土壤沙化就是其中之一。 土壤沙化是沙漠化的初级阶段,程度有别,本质相同。