基于时延Q学习的机器人动态规划方法

来源 :计算机科学与应用 | 被引量 : 0次 | 上传用户:dddddddaaaaaaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主要针对现有机器人动态规划方法环境未知,且收敛性能欠佳的缺点,提出了一种基于时延Q学习的机器人动态规划方法。首先,对机器人规划进行了MDP建模,将其转换为一个可以通过强化学习解决的问题。然后,定义了规划的目标函数,并描述了基于时延Q学习的机器人规划算法。在该算法中采用Rmax方法来初始化所有状态动作对的Q值,使得所有状态动作对都能被探索到,同时通过时延的Q值来减少Q值更新的次数,从而提高Q值更新的效率。仿真实验表明:文中设计的时延Q学习算法能有效地实现移动机器人的路径规划,较其它算法相比,具有收敛效果好和
其他文献
介绍了MAX7456的内部结构和OSD系统的基本组成,并从硬件和软件两个方面阐述了基于MAX7456来搭建模拟电视字幕随屏显示系统的设计过程。
期刊
嘲孔方兄冷飕飕感觉跟着烦恼走,忽律律人心跟着广告走,妖艳艳女人跟着老外走,更那堪齐刷刷的钞票被抢走。恨只恨孔方兄也么哥!恨只恨孔方兄也么哥!蛊惑得人们花天酒地胡乱走。为某
阐述了郓城县气象科技服务发展概况,通过分析科技服务发展面临的新形势及存在的问题,提出推动郓城气象科技服务发展的建议,明确了以“规范管理、健康发展、集约发展、争取地
由于由遥感图像反演海洋内波参数往往仅限于海洋表面纹理信息,或由内波剖面推导内波振幅,难以对内波三维结构进行描述,限制了海洋内波的水下应用。本文提出一种由CCD可见光图
摘 要:为了实现人和机器鱼之间的交流,提出一种基于AVR和51单片机语音控制识别系统设计。在理论分析和实验观察基础上,设计了51单片机主控M-LD3320语音识别模块的语音识别系统,以及AVR主控鱼体产生鱼体波的动力系统。语音识别系统识别到语音,就通过WAP200B无线通讯模块将命令传送给鱼体的动力系统,AVR再根据命令产生相应的鱼体波。实验结果表明,该方案可以实现语音控制机器鱼。  关键词
嵌入式非易失性存储器以其同时具备数据可更改性及掉电保存性而已被越来越广泛的应用于SoC物理设计。文中结合一款电力网控制芯片R36的实际设计案例,分析了该器件的应用特点,
为了探明2013年气候对贵州西部水城县红阳猕猴桃物候期影响。选取水城县北部的勺米、东部的猴场、蟠龙、米箩、西部的杨梅、发耳、鸡场和南部的顺场共8个红阳猕猴桃种植区,利
城市精明增长理论是城市可持续发展理论的重要延续,对我国城市发展具有重要的战略意义。城市精明增长方案的设计与优化可以使其有限资源产生的效益最大化。本文首先基于城市
本文通过对星载51系列单片机定时器常见问题进行分析,归纳出三类典型问题,分别给出解决方案,并在此基础上总结出一套基于C51语言的星载嵌入式软件定时器管理方法,该方法可以
随着我国通讯、电力、UPS等行业的迅猛发展,免维护蓄电池的用量也在快速增加,因此其性能状况的优劣对于保证后备直流电源的正常运行尤为重要,与此同时各种问题也逐渐显现: