移动机器人模糊Sarsa(λ)学习导航研究

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户：fsp

【摘要】

：

针对复杂未知环境下难以获得完善的模糊导航控制规则以及传统的强化学习算法不能解决连续状态空间和连续动作空间的学习问题,提出了一种模糊强化学习算法.通过将模糊推理系统

【作者】

：

陈卫东关永贞朱奇光赵成龙

【机构】

：

燕山大学信息科学与工程学院,燕山大学国家大学科技园,海军91821部队,

【出处】

：

小型微型计算机系统

【发表日期】

：

2013年11期

【关键词】

：

Sarsa(λ)学习模糊强化学习算法模糊推理系统机器人导航 Sarsa(λ)-learning fuzzy reinforcement learning

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对复杂未知环境下难以获得完善的模糊导航控制规则以及传统的强化学习算法不能解决连续状态空间和连续动作空间的学习问题,提出了一种模糊强化学习算法.通过将模糊推理系统和强化学习算法相结合,设计了一种模糊强化学习系统,一方面,在缺乏专家经验的情况下,利用强化学习中的Sarsa(λ)学习算法来获取模糊逻辑控制器的模糊规则库,另一方面,利用模糊推理系统所具有的广泛逼近性,使机器人在学习时可以遍历到每一个状态动作对.同时将有限的专家经验引入到模糊推理系统,使Sarsa(λ)学习具备一定的先验知识,从而加快学习速度.仿真实验表明,该方法具有较好的实时性和鲁棒性,能够有效解决移动机器人在未知复杂环境中的导航问题. Aiming at the problem that it is difficult to obtain perfect fuzzy navigation control rules in complex unknown environment and the traditional reinforcement learning algorithm can not solve the learning problems of continuous state space and continuous motion space, a fuzzy reinforcement learning algorithm is proposed. By combining fuzzy inference system and reinforcement learning algorithm A kind of fuzzy reinforcement learning system is designed. On the one hand, Sarsa (λ) learning algorithm in reinforcement learning is used to obtain the fuzzy rule base of fuzzy logic controller in the absence of expert experience. On the other hand, The extensive approximation of fuzzy inference system enables the robot to traverse each pair of state actions while learning, and introduce limited expert experience into the fuzzy inference system to make Sarsa (λ) learning possess a certain priori knowledge Speed up the learning speed.The simulation results show that this method has good real-time and robustness and can effectively solve the problem of mobile robot navigation in unknown complex environment.

其他文献

在轨可更换单元的体系架构模型

在轨可更换单元(Orbital Replacement Unit,ORU)体系架构是航天器电子系统能够进行在轨模块内部更换的关键技术之一.传统航天器电子系统硬件模块单元不具备内部可更换性和可

期刊

模块级设计体系结构软硬件协同可重构module-level designsystem architecturehardware-software c

适用于非平衡拓扑ZigBee网络地址分配与路由算法

分析了现有的ZigBee网络地址分配算法在非平衡拓扑下的不足,提出一种适用于该拓扑的混合式地址分配算法(Hybrid Address Assignment Mechanism,HAAM),并进一步设计了基于HAAM

期刊

ZigBee地址分配骨干网络分簇路由OMNeT++仿真ZigBeeaddress assignmentbackbone networkclust

CUDA内存资源池设计避免访问冲突

CUDA内存资源往往存在静态申请与访问的约束,多CPU线程并发执行时会产生资源访问冲突.经建模分析发现,消除资源与设备核函数之间的静态关系可避免该问题.基于资源池模式设计C

期刊

CUDA多线程纹理内存访问冲突内存资源池CUDAmultiple threadstexture memoryaccessing collisio

一种时间复杂度为O(m)的无向超图核值求解算法

阐述了图核的全局信息在结点匹配中的应用,将图核理论扩展到超图上,提出了超图的核等相关概念,并给出了超图核值的形式化描述；分析了超图k水平p-核的构造性属性,给出了求解超

期刊

无向超图核值时间复杂度算法undirected hypergraphcoretime complexityalgorithm

基于RSA公钥体制的非对称数字指纹协议

基于RSA公钥体制提出一种数字作品买卖协议,在该协议中用户首先根据一定的约束条件,产生用来标识自己身份的一串随机变量,用公钥加密后传给发行商,发行商置乱用户发过来的数

期刊

版权保护数字指纹非对称指纹指纹协议盗版追踪copyright protectiondigital fingerprintingasymmetric

一种颜色Petri网的电子商务协议分析方法

针对现有颜色Petri网方法未能分析时限性的缺点,提出一种基于颜色Petri网的电子商务协议分析方法,用于分析可追究性、公平性和时限性三个重要安全属性.针对时限性建立了表示

期刊

形式化分析方法电子商务协议颜色Petri网CPN ToolsKZG协议formal analysisE-commerce protocolscol

轻量级加密算法的低功耗硬件实现与研究

轻量级(lightweight)加密算法是应用于资源有限环境下的一类加密算法.随着射频识别技术(Radio Frequency Identification,RFID)的高速发展,促进了轻量级加密算法向小面积和低

期刊

轻量级加密算法低功耗射频识别技术(RFID)分组密码流密码lightweight encryption algorithmlow powerrad

改进作用力的多智能体聚类算法

针对多智能体聚类算法(FClust)中存在相异智能体朝相同方向一致运动及各智能体朝边缘散化不集中这两个问题,提出一种改进智能体间作用力并增加向心力的多智能体聚类算法AIFCl

期刊

无监督聚类数据可视化多智能体群智能FClustunsupervised clusteringdata visualizationflock of

基于SPH及形状约束的粘弹性流体的实时模拟

模拟粘弹性流体时由于求解Navier-Stokes(NS)方程的粘弹性项或模型复杂很难实现实时性模拟.在基于SmoothedParticle Hydrodynamics (SPH)粒子模拟流体的基础上,利用形状约束

期刊

SPH形状约束粘弹性流体实时模拟SPHshape constraintviscoelastic fluidreal-time simulation

基于统计偏好的边界域重构方法

目前许多挖掘算法都试图使异常信息的影响最小化,或者排除它们,经典粗糙集理论基于正域的属性约简方法也不例外,它直接排除了边界域中样本所包含的信息.如何改变边界域结构,

期刊

粗糙集理论边界域属性约简变精度粗糙集模型rough sets theoryboundary regionattribute reductionva

移动机器人模糊Sarsa(λ)学习导航研究

与本文相关的学术论文