基于人工情感的Q-学习算法在机器人行为决策中的应用

来源 :自动化与仪表 | 被引量 : 0次 | 上传用户:iovewpycoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高经典强化学习算法在机器人行为最优控制策略中学习的效率和收敛速度。在利用环境模型提高强化学习速度方法的基础上.将人类情感具有的趋利避害生存机理应用于环境模型经验知识的学习中。提出了基于人工情感的Q-学习算法,并将该算法应用于机器人的行为决策。在有障碍的二维栅格环境下对机器人路径寻优进行了仿真测试.仿真实验结果表明该算法较基于环境模型的Q-学习算法具有更高的学习效率和收敛速度。其改进算法对于提高机器人自主决策能力具有较高的理论意义及推广应用价值。
其他文献
西部地区高层次人才是推进西部大开发战略、实现西部经济社会繁荣发展的关键因素。随着西部大开发不断深入,国家针对西部地区高层次人才培养的扶持政策和人才项目计划相继实
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
第一章总则第一条为加强公安机关和中国人民银行(以下简称双方)对可疑交易线索核查工作的协作与配合,严厉打击洗钱等犯罪活动,制定本规定。第二条双方本着“控制在先,打防结
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
崩岸是由土石组成的河岸、湖岸因受水流冲刷,在重力作用下土石失去稳定沿河岸、湖岸的岸坡产生崩落、崩塌和滑坡等现象。本文针对江河崩岸险情。分析岸坡土质的类型及土层的分
检验部门、科研单位以及高等院校的实验室在进行生产、科研、教学过程中会产生很多废水,废水以有机物、重金属和强酸性物质为主,尤其是有机污染危害大、难治理。但是,目前有