基于ART2的Q学习算法研究

来源 :控制与决策 | 被引量 : 0次 | 上传用户：theonezhaoq

【摘要】

：

为了解决Q学习应用于连续状态空间的智能系统所面临的“维数灾难”问题,提出一种基于ART2的Q学习算法.通过引入ART2神经网络,让Q学习Agent针对任务学习一个适当的增量式的状

【作者】

：

姚明海瞿心昱李佳鹤顾勤龙汤丽平

【机构】

：

浙江工业大学信息工程学院,

【出处】

：

控制与决策

【发表日期】

：

2011年02期

【关键词】

：

ART2 Q学习空间模式增量式未知环境移动机器人两层在线学习仿真实验交互学习移动机器人导航

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为了解决Q学习应用于连续状态空间的智能系统所面临的“维数灾难”问题,提出一种基于ART2的Q学习算法.通过引入ART2神经网络,让Q学习Agent针对任务学习一个适当的增量式的状态空间模式聚类,使Agent无需任何先验知识,即可在未知环境中进行行为决策和状态空间模式聚类两层在线学习,通过与环境交互来不断改进控制策略,从而提高学习精度.仿真实验表明,使用ARTQL算法的移动机器人能通过与环境交互学习来不断提高导航性能. In order to solve the problem of “dimensionality disaster ” faced by Q learning intelligent system applied to continuous state space, a Q learning algorithm based on ART2 is proposed.By introducing ART2 neural network, Q learning agent can learn a proper Incremental clustering of state-space patterns enables the Agent to conduct two-tier online learning of behavioral decision-making and state-space pattern clustering in an unknown environment without any prior knowledge, and improves the control strategy continuously by interacting with the environment Learning accuracy.The simulation results show that the mobile robot using ARTQL algorithm can improve the navigation performance by interacting with the environment.

其他文献

“四位一体”建立“大党建”

“如今社区服务设施配套齐全,小区环境优美整洁,治安好,邻里和谐……我们生活得很舒适!”72岁的张大妈边跳舞边说。“看演出、参加健身锻炼……”每天早晚时分,白塔湖休闲娱

期刊

社区服务社区居委会四位一体驻区单位居民代表党员服务中心党支部活动党员联系白塔湖流动党员

打造学习型党组织推进文化强区建设

建设学习型党组织,是提高党的执政能力、保持党的先进性和纯洁性的必然要求,是我们党增强自我净化、自我完善、自我革新、自我提高能力的必然选择。近年来,自治区文化厅坚持

期刊

文化科学自治区文化厅新兴文化产业文化人才自我净化党员干部干部队伍素质党组织建设经营性文化整体决策

实施科技创新构建电厂节能循环体系

长久以来,电能作为清洁能源,成为生活和生产中不可缺少的能源,全国80％电能为火力发电厂提供,同时电力企业是高耗能工业,我国的能源结构决定了以煤电为主的发电格局.而电厂应注

期刊

节能循环体系高耗能节能减排可持续发展

高压线路带电跨越封网关键施工技术研究

目前,我国电网规模越来越大,形式越来越复杂,在复杂条件下高压线路的建设尤为重要,其中带电跨越架线能够在保障持续可靠供电的前提下完成工程作业.本文从高压输电线路在不停

期刊

高压线路带电跨越施工技术

NB-IOT技术在道路照明智能控制中的应用

城市照明是城市现代化发展水平的重要标志,构建智能化、节能化的城市照明系统是城市照明智能控制中的发展方向.本文主要结合NB-IOT技术,对城市照明中管理监测信息化的作用进

期刊

城市道路照明路灯NB-IOT技术智能控制

高压变频器在超超临界660MW机组凝结水泵中的应用探究

本文主要探究了高压变频器在超超临界660MW机组凝结水泵中的应用.文章主要从高压变频器在超超临界660MW机组凝结水泵在使用中存在的问题,并给予相应的解决措施等方面进行,最

期刊

高压变频器超超临界660MW机组凝结水泵应用探究

TRPV1表达减少损害糖尿病小鼠心脏缺血后功能恢复

目的:糖尿病是冠状动脉粥样硬化性心脏病的一个重要危险因素,临床急性心肌梗死的病人中将近三分之一的病人为糖尿病患者,糖尿病患者心肌梗死发病率高可能与其引起的弥慢性冠

学位

TRPV1CGRP糖尿病缺血后损伤小鼠

矿用一氧化碳检测报警器示值误差的测量结果不确定度评定

本文介绍了矿用一氧化碳检测报警器的测量方法,分析了该检定方法的测量数学模型和测量结果的不确定度分量的来源,计算各标准不确定度分量和扩展不确定度,最后给出了测量结果

期刊

矿用一氧化碳检测报警器不确定度

关于城市轨道交通投融资模式改进策略的思考

城市轨道交通作为城市交通系统的重要组成部分，在众多大城市中广泛建设和运营。传统的政府直接投资模式，或者采取以往的城市轨道交通投融资模式已经不适应新型城镇化背景下大规

期刊

城市轨道交通投融资策略

浅谈水利发电站自动化技术的应用

全文主要对水利发电站自动化的含义以及特征进行了研究分析,并且,通过探讨水利发电站自动化技术的应用现状,来实现水利发电站利益的最大化.

期刊

水利发电站自动化技术应用现状

基于ART2的Q学习算法研究

与本文相关的学术论文