【摘 要】
:
针对非线性系统控制中具有的连续状态和未知系统模型的问题,提出一种基于ET-RBF(资格迹和径向基函数)的Sarsa学习控制策略.由于经典强化学习在面临连续状态空间的泛化时会出
【机 构】
:
中国矿业大学计算机科学与技术学院,江苏徐州,221116中国矿业大学计算机科学与技术学院,江苏徐州221116;中国科学院计算技术研究所智能信息处理重点实验室,北京100190;
论文部分内容阅读
针对非线性系统控制中具有的连续状态和未知系统模型的问题,提出一种基于ET-RBF(资格迹和径向基函数)的Sarsa学习控制策略.由于经典强化学习在面临连续状态空间的泛化时会出现的“维数灾难”问题,本文利用RBF(Radial Basis Function)网络良好的动态特性及泛化能力,实现状态—动作对的在线估计,同时借鉴TD(λ)算法中的资格迹机制,与在线Satsa学习结合,通过对RBF网络权值向量定义资格迹,将当前的TD Error传播至整个状态空间,保证每个输出只影响与其直接相关的权值w.由于所有被访问状态—动作对对权值w的影响均得以保存在e(t)中,因而相当于在每个迭代周期对所有已访问状态—动作对的Q值进行更新,所以收敛更快.实验中将所提方法应用于具有连续状态的mountain-car控制问题,使学习系统能够在经过5次左右的尝试后,获得小车爬山控制策略,能在平均34步的动作范围内,到达山顶.仿真结果表明基于ET-RBF的Sarsa能够更有效解决具有连续状态的非线性系统的强化学习控制问题.
其他文献
我国经济的发展推动了城乡规划管理水平的不断提升,城市规划的大众化逐渐成为了一种未来发展的必然.为了对现有的硬件资源进行高效利用,对空间数据进行科学规划,消除“信息孤
随着我国经济社会的不断发展,城市化的步伐正在逐步加快,人民对于建筑质量的要求也在随之提升.那么工程质量问题也就成为了广大行业人员需要研究的重要问题.本文通过对当前我
关于固定式气体探测系统问题,目前许多工业安装都没有明确的指导方案。无论国内还是国外,对某一项具体的工业安装,都没有指导方案能决定气体探测器的数量、探测空间和安装位
随着社会的发展,人们对环境保护的要求日益高涨,许多国家和地区投入了大量人力物力,展开了对垃圾资源开发利用的研究工作,其中兴建垃圾发电厂就是一条重要途径,也是实现垃圾
随着社会主义市场经济发展速度的不断提升,作为路桥工程建设中的重要组成部分,工程招投标是否合理、规范将直接影响到工程建设的整体质量,随着有形建筑市场的不断健全和完善,
园林绿化工程不仅具有美化环境、调节所在区域温湿度的功能,还具有极佳的观赏性,可以为游客提供美好的感官体验.设计人员应在绿化工程中巧妙地搭配和运用各种类型的植物,以满
高硬度、形状复杂的金属零件的高精度抛光加工是机械制造中的难题。本文针对这一问题 ,提出了电解刷光的新工艺 ,并从理论上分析了工艺的基本规律。
High-precision machini
10月27日-29日,由华中农业大学水产学院、华中农业大学鳜鱼研究中心、美国俄亥俄州立大学、武汉市鳜鱼产业技术创新战略联盟、淡水水产健康养殖湖北省协同创新中心联合主办的
北京防威智能设备有限公司最新推出的 FW80 0 0网络化智能火灾报警联动控制系统具有以下特点 :1.性能超群的网络功能FW80 0 0网络智能火灾报警控制器提供了性能超群的联网功