移动机器人模糊Sarsa(λ)学习导航研究

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:fsp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对复杂未知环境下难以获得完善的模糊导航控制规则以及传统的强化学习算法不能解决连续状态空间和连续动作空间的学习问题,提出了一种模糊强化学习算法.通过将模糊推理系统和强化学习算法相结合,设计了一种模糊强化学习系统,一方面,在缺乏专家经验的情况下,利用强化学习中的Sarsa(λ)学习算法来获取模糊逻辑控制器的模糊规则库,另一方面,利用模糊推理系统所具有的广泛逼近性,使机器人在学习时可以遍历到每一个状态动作对.同时将有限的专家经验引入到模糊推理系统,使Sarsa(λ)学习具备一定的先验知识,从而加快学习速度.仿真实验表明,该方法具有较好的实时性和鲁棒性,能够有效解决移动机器人在未知复杂环境中的导航问题. Aiming at the problem that it is difficult to obtain perfect fuzzy navigation control rules in complex unknown environment and the traditional reinforcement learning algorithm can not solve the learning problems of continuous state space and continuous motion space, a fuzzy reinforcement learning algorithm is proposed. By combining fuzzy inference system and reinforcement learning algorithm A kind of fuzzy reinforcement learning system is designed. On the one hand, Sarsa (λ) learning algorithm in reinforcement learning is used to obtain the fuzzy rule base of fuzzy logic controller in the absence of expert experience. On the other hand, The extensive approximation of fuzzy inference system enables the robot to traverse each pair of state actions while learning, and introduce limited expert experience into the fuzzy inference system to make Sarsa (λ) learning possess a certain priori knowledge Speed ​​up the learning speed.The simulation results show that this method has good real-time and robustness and can effectively solve the problem of mobile robot navigation in unknown complex environment.
其他文献
在轨可更换单元(Orbital Replacement Unit,ORU)体系架构是航天器电子系统能够进行在轨模块内部更换的关键技术之一.传统航天器电子系统硬件模块单元不具备内部可更换性和可
分析了现有的ZigBee网络地址分配算法在非平衡拓扑下的不足,提出一种适用于该拓扑的混合式地址分配算法(Hybrid Address Assignment Mechanism,HAAM),并进一步设计了基于HAAM
CUDA内存资源往往存在静态申请与访问的约束,多CPU线程并发执行时会产生资源访问冲突.经建模分析发现,消除资源与设备核函数之间的静态关系可避免该问题.基于资源池模式设计C
阐述了图核的全局信息在结点匹配中的应用,将图核理论扩展到超图上,提出了超图的核等相关概念,并给出了超图核值的形式化描述;分析了超图k水平p-核的构造性属性,给出了求解超
基于RSA公钥体制提出一种数字作品买卖协议,在该协议中用户首先根据一定的约束条件,产生用来标识自己身份的一串随机变量,用公钥加密后传给发行商,发行商置乱用户发过来的数
针对现有颜色Petri网方法未能分析时限性的缺点,提出一种基于颜色Petri网的电子商务协议分析方法,用于分析可追究性、公平性和时限性三个重要安全属性.针对时限性建立了表示
轻量级(lightweight)加密算法是应用于资源有限环境下的一类加密算法.随着射频识别技术(Radio Frequency Identification,RFID)的高速发展,促进了轻量级加密算法向小面积和低
针对多智能体聚类算法(FClust)中存在相异智能体朝相同方向一致运动及各智能体朝边缘散化不集中这两个问题,提出一种改进智能体间作用力并增加向心力的多智能体聚类算法AIFCl
模拟粘弹性流体时由于求解Navier-Stokes(NS)方程的粘弹性项或模型复杂很难实现实时性模拟.在基于SmoothedParticle Hydrodynamics (SPH)粒子模拟流体的基础上,利用形状约束
目前许多挖掘算法都试图使异常信息的影响最小化,或者排除它们,经典粗糙集理论基于正域的属性约简方法也不例外,它直接排除了边界域中样本所包含的信息.如何改变边界域结构,