非参数化值函数逼近强化学习研究

来源 :南昌大学 | 被引量 : 5次 | 上传用户:huoyong850918
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
值函数逼近是将经典强化学习应用于大规模、连续状态空间的主要思路之一,并由此形成了值函数逼近强化学习研究方向。但目前,其在应用中还普遍存在收敛速度较慢、计算量较大、自适应能力不强等问题,特别是大部分算法的泛化结构及其相关参数均依赖先验知识或通过反复试凑确定,使得算法本身具有较强的领域相关性,若人为设定的泛化偏置与问题不匹配甚至导致算法不能正确收敛,易用性较差。本文针对上述问题,立足已有研究成果提出了一系列非参数化值函数逼近强化学习算法。(1)提出了基于CMAC的非参数化近似策略迭代强化学习(NPAPIRL-CMAC)算法。该算法设计了一种新的基于CMAC的强化学习网络结构,并定义了网络结构的工作机制;基于FUNSample算法实现了样本的自动采集和泛化参数的自动获取,基于FUNT&E算法和FUNBI算法实现了量化编码结构的自动构建,基于量化编码结构单元的构建样本数集合自动计算其平均学习率;基于delta规则实现了值函数逼近器参数和量化编码结构的自动更新;基于广义策略迭代思想实现算法整体步骤,提升了算法的在线计算能力。一级倒立摆平衡控制的仿真实验结果验证了该算法在单个量化编码结构的激活区间数分别取1和2时,强化学习允许误差率在不同取值下的有效性、鲁棒性和快速收敛能力。(2)提出了基于状态聚类的非参数化近似广义策略迭代强化学习(NPAGPIRL-SC)算法。该算法对基于FRBF(Fuzzy RBF)的强化学习网络结构进行了改进,并定义了网络结构的工作机制;基于FUNSample算法实现了样本的自动采集,基于FUNBase算法实现了初始状态基函数及其自适应调整参数的自动构建;基于delta规则实现了值函数逼近器参数和状态基函数的自动更新;基于广义策略迭代思想实现算法整体步骤,提升了算法的在线计算能力。一级倒立摆平衡控制的仿真实验结果验证了该算法在不同离散动作取值下、不同强化学习允许误差率下的有效性、鲁棒性和快速收敛能力。(3)提出了非参数化近似策略迭代并行强化学习(NPAPIRL-P)算法。该算法设计了一种新的并行强化学习网络结构及相应的并行学习方式,其单个学习单元基于NPAGPIRL-SC算法实现。一级倒立摆平衡控制的仿真实验结果验证了该算法在不同离散动作取值下、不同强化学习允许误差率下的有效性和鲁棒性,实验还重点对该算法平衡加速比与效率的能力进行了检验,并与NPAGPIRL-SC算法的实验数据进行对比,结果表明NPAPIRL-P算法具有良好的并行加速性能。(4)提出了基于Dyna框架的非参数化近似策略迭代强化学习(NPAPIRL-Dyna)算法。该算法在NPAGPIRL-SC算法的基础上进行了改进,一是在网络结构中引入了内部状态转移矩阵D,以时间上的相继特征弥补状态基函数仅通过欧式距离从空间上判定输入状态对各状态基函数隶属度的不足;二是利用对状态基函数的访问频次描述环境拓扑特征并构建环境估计模型B和B′,而后基于Dyna框架的模型辨识思想,将学习和规划过程进行了有机整合;三是进一步强化了算法网络结构与参数的自适应调整能力,包括新增结构、合并结构、调整参数等操作。一级倒立摆平衡控制的仿真实验结果验证了该算法在不同强化学习允许误差率下的有效性和鲁棒性,并通过与NPAGPIRL-SC算法的比较验证了基于模型的规划过程对算法效率和精确性的提升确有帮助。
其他文献
随着中国经济的飞速发展,人民生活水平不断提高,建筑工程施工技术不断取得发展进步,人们对住宅和公共建筑的使用功能、质量和安全也提出了更高的要求.在现阶段,钻孔灌注桩作
酪氨酸酶又称为多酚氧化酶,是一种含铜金属酶,广泛的存在于动物、植物和微生物体内,是黑色素形成的主要催化剂。它具有双功能催化作用,既能催化邻位不含取代基的单酚类或多酚类物质的羟基化反应,又能催化邻苯二酚的脱氢反应。在分析领域中,基于酪氨酸酶的催化机理,酪氨酸酶常被用来制备电化学生物传感器对广泛的酚类化合物进行检测。因此在环境污染检测、食品成分检测、医疗保健检测等方面,酪氨酸酶基生物传感器有着很广阔的
随着中国城镇化建设的发展,我国已经成为全球幕墙产业规模最多的国家.建筑幕墙行业的总体发展曲线,一直处于较高的发展水平,从最初的百亿发展到2017年接近6000亿的产业规模,
一项金融资产的价值往往包括两个方面:持有价值和转让价值两部分。当预期一种资产的持有价值远低于转让价值时,购买该资产的行为就是投机。投机的目的是为了未来的转让,而不
在产品设计的初期阶段,人机交互方面无法验证产品模型,很难预料产品后期的使用问题,再加上消费者对产品的使用不断提出新的要求,需要在产品设计的初期就能够预知使用效果。当产品的设计逐渐进入一个较为成熟的阶段即产品设计好以后,如何将产品成功地展示推出并且使用户接受,也成为了产品设计发展阶段中一个很重要的问题。对于企业来说,产品最终的市场占有和销售水平才能够真正地反映产品的成功与否,因此他们除了通过设计团队
本文围绕研制一台以河蟹为生物原形的多足仿生机器人这一目标,对机器人机构本体设计、几何模型的建立、模型的运动学和动力学分析、及运动控制系统的搭建等进行了研究。 首
目的 探讨微炎症状态对南疆农村高血压人群血脂水平的影响,分析其临床意义.方法 选择2018年8-9月来新疆墨玉县扎瓦乡卫生院进行健康体检的所有18~65岁的人员共199名作为研究对
本刊讯 卫生部、北京市委、北京市政府于 2 0 0 3年 3月 2 7日在人民大会堂联合举行韦加宁同志先进事迹报告会。中共中央政治局委员、国务院副总理吴仪 ,中共中央政治局委员
随着航空工业的迅速发展,对飞机制造业中的装配技术提出了高质量、高效率、低成本等生产要求。飞机上的被连接件多为尺寸大、形状复杂的薄壁结构,受力易变形,其制孔质量难以
“办出各自的特色”是现代学校的共同追求,也是现代学校打造品牌的必由之路。但打造学校的办学特色必须因地制宜,开发和选择适合学校发展的特色项目,而弘扬“仁者乐山,智者乐水”的办学理念,就是浙江省海宁市黄湾镇中心小学独有的办学特色。我校立足山水黄湾、水果之乡的地域优势,秉持“继承创新,强化特色,彰显品牌”的发展策略,以“山水精神”为核心,全力打造“仁智”特色教育体系,真正实现了“以特色带动学校发展”的目
期刊