强化学习及其在机器人系统中的应用研究

来源 :广东工业大学 | 被引量 : 29次 | 上传用户:guobihuai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习(RL:Reinforcement Learning),又称增强学习或再励学习,是一种重要的机器学习方法,是近几年来智能控制和人工智能领域的研究热点之一。在各种学习方法中,强化学习具有较强的在线自适应性和对复杂系统的自学能力,它在与环境的交互中,通过试探式的学习收敛到最优的控制策略,这种学习机制已经在非线性控制、人工智能复杂问题求解、机器人控制、优化与调度以及多agent系统中有成功应用。然而,由于各种系统的复杂性和不确定性的限制,强化学习的研究中还存在一些难以解决的问题。如何结合相关的知识表示和计算智能技术,设计合适的学习算法和控制结构,是实现强化学习方法广泛应用的关键。目前的强化学习研究主要都是针对小规模、离散的状态和动作空间,对于在大规模、连续的状态和动作空间下的学习控制还是亟待解决的难题。本文针对大规模、连续的状态和动作空间下的强化学习理论、算法及应用进行研究,因此具有重要的理论意义和应用价值。本文在收集了国内外相关的文献之后,对其进行充分的分析和综合。在此基础上,对强化学习算法及其在机器人系统中的应用进行了较深入的研究。主要研究工作如下:(1)基于递推最小二乘法的多步时序差分学习针对强化学习过程收敛速度缓慢的问题,提出了基于递推最小二乘法的多步时序差分学习(RLS-TD(λ))算法。证明了在满足一定条件下,该算法的权值将以概率1收敛到唯一解,并且得出和证明了值函数估计值的误差应满足的关系式。迷宫游戏的仿真实验表明:与传统强化学习算法相比,RLS-TD(λ)算法实现了在线、递推式的学习,具有计算量小的优点。(2)基于RBF神经网络的强化学习针对基本Actor-Critic学习泛化能力不强的问题,提出了一种基于RBF网络的强化学习算法。证明了该算法在满足一定条件下将以概率1收敛到某矩阵方程的唯一解。该算法通过Actor和Criric共享RBF网络,根据任务复杂度和学习进度进行实时的在线学习。基于该算法,设计了一种具有强化学习机制的自适应PID(AC-PID)控制器设计方法,该方法可以解决传统PID(T-PID)控制器不易在线实时整定参数的不足。仿真实验表明,该算法具有更好的学习泛化能力。(3)基于探索度的改进型模糊Sarsa学习针对强化学习中探索和利用之间难以平衡的问题,在已有的模糊Sarsa学习(FSL)算法基础上,首次提出了一种基于探索度的改进型模糊Sarsa学习(IFSL)算法,证明了IFSL算法中可调节的权向量存在平衡不动点。该算法通过增加自适应学习率产生器和模糊平衡器来控制探索和利用的程度,以提高学习性能。小车爬山问题的仿真实验结果表明,该算法加快了系统的学习收敛速度,具有更优的学习性能。(4)基于蚁群优化的变学习率模糊Sarsa学习针对模糊Sarsa学习中学习因子优化调整的问题,提出了一种基于蚁群优化的变学习率模糊Sarsa学习(ACO-FSL)算法。该算法运用蚁群优化中的信息素水平更新规律来自动调节学习率,把模糊神经网络中模糊推理过程看作是蚂蚁觅食的过程,构造相应的信息素矩阵,从而实现最优策略下行为动作的选择。小车爬山与卡车倒车问题的仿真实验表明:ACO-FSL算法比FSL算法具有更优的学习性能。(5)强化学习在移动机器人路径规划中的应用详细探讨了ACO-FSL算法在移动机器人路径规划中的应用,给出了一种加权回报函数的设计方法,实现了对未知环境状态空间的动态建立,有效克服了移动机器人在路径规划时对全局环境信息或动态障碍物的运动信息的依赖性。仿真实验表明,ACO-FSL算法在学习性能和计算时间方面要优于IFSL算法和FSL算法。最后,对本文进行总结,阐明本研究的创新和主要研究成果,并指明未来进一步研究的问题。
其他文献
[摘 要:初中时期是学生学习生涯的一个核心转折点,老师在这一时期要强化对学生的德育教学,重视学生的心理变化,遵循学生的成长规律,实时帮助学生解决学习和生活中的困境。本文首先分析了农村初中德育管理存在的相关问题,然后提出了对应策略。  关键词:农村;初中德育管理;问题;措施]  在素质教育的飞速发展中,德育工作逐渐受到社会的进一步重视,虽然农村德育工作获取了一定成效,农村初中生综合素质还需提升,可由
摘 要:中职学校计算机专业发展还有很大的提升空间,只要能够及时改变传统计算机专业的教学现状,及时更新计算机设备和计算机软件,严格管理,提高使用效率,这样学生有了良好的实验环境,乐于实践,为加深自己的专业知识修养,适应现代社会快速发展的需求打下良好基础。  关键词:中职;计算机;教学现状;改革  1中职计算机教学现状简析  由于计算机知识的日新月异和中职学校的条件限制,多数教师的知识体系不能及时更新
摘 要:合作学习就是在教学上运用小组活动以最大程度地促进他们自己以及他人的学习。小学英语教学中运用合作学习是非常有效的。合作学习包含合作、竞争、自学三种学习方法,它不仅有利于学习成绩的提高,而且有利于思维能力、内在动机、外在动机、社交能力等的培养。合作学习是师生的共同创造,在课堂上起着容忽视的作用。  关键词:小学英语;合作学习  小学英语教学中,实施合作学习的目的在于改变教师的教学方式和改变学生
自Hurst (1951)提出长记忆性这一特征以来,长记忆模型得到越来越多的学者的广泛关注。长记忆意味着长期相关性,即现在的状态会持续影响到未来,这对于金融风险管理来说是不容
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的探究CT检查应用于子宫肌瘤鉴别诊断的临床的应用价值和意义,为临床诊断提供图像诊断依据。方法选取经术后病理检查确诊为子宫肌瘤患者60例作为研究对象,所有患者均进行CT
目的:探讨转染解聚素-金属蛋白酶17-shRNA(a disintegrin and metalloprotease 17-shRNA,ADAM17-shRNA)的骨髓间充质干细胞(bone marrow mesenehymal stem cells,BMMSC)对乳
预测控制来源于工程实践,具有模型精度要求低、在线计算方便、控制综合效果好的特点,在实践中得到十分成功的应用。随着工业过程控制要求的不断提高,基于单一模型的预测控制
厌氧氨氧化工艺被认为是经济、高效的新型生物脱氮技术。到目前为止,厌氧氨氧化细菌仍没有从培养物中分离纯化,表明厌氧氨氧化细菌可能与其他脱氮微生物协同完成厌氧氨氧化过程。本研究在常温下接种膨胀污泥启动厌氧氨氧化反应器,对接种污泥与厌氧氨氧化污泥中生物脱氮微生物的丰度和多样性进行研究。主要研究成果如下:(1)接种昌吉某污水处理厂的膨胀污泥启动UASB-生物膜反应器(A反应器)。接种乌鲁木齐河西污水处理厂
摘 要:在幼兒园教育教学的所有工作中,教师教学评价工作占据很重要的地位,它不仅能够促进幼儿的成长,还能够提升教师的教学质量等。幼儿教师必须要认识到评价用语的重要性,在教学中多以正面、积极的语言鼓励幼儿,奠定他们的学习信心,使他们能够成长为能够积极面对学习困难,积极主动的儿童。  关键词:幼儿园教学;评价用语;教师  教学评价是教师改善自我,提升自我的方法之一。教学评价的过程实质上就是收集学生对教师