强化学习及其应用研究

被引量 : 21次 | 上传用户:Tianzhh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习作为一种重要的机器学习方法,其最显著的特点是通过与环境交互,利用环境反馈的奖惩,即增强信号来调整和改善自己的行为,最终获得最佳策略。由于该方法具有对环境的先验知识要求低,可以在实时环境中进行在线学习,因此受到许多研究者的关注,同时在智能控制,序列决策等领域也得到了广泛应用。强化学习的根本任务就是学习从状态空间到动作空间的映射,其本质就是用参数化的函数来逼近“状态—动作”的映射关系,而这种映射关系可由状态值函数或状态—动作对值函数来确定。经典的强化学习方法都是建立在以查找表的方式来描述值函数的小规模、离散的状态和动作空间的基础之上。为改善和提高强化学习在大规模的离散状态动作空间和连续状态空间或动作空间的性能,研究者们在强化学习中引入分层学习技术和泛化技术。就分层技术而言,典型的技术有OPTION、HAM(包括PHAM)、MAXQ这三类方法。分层强化学习的关键在于任务的自动分层。由于OPTION方法特别适合于分区或分段子任务的自动划分,并且子任务粒度易于控制。因此OPTION方法在根据状态空间中的瓶颈状态进行任务分层和子任务自动构造中的方法中应用最为广泛。就泛化技术而言,通常是在强化学习中引入具有泛化性能的神经网络技术和模糊推理技术。由于Q-学习具有实现简单,易于理解的优点,因此应用非常广泛。在所有以神经网络或模糊推理系统来逼近Q值函数的方法中都是采用间接逼近的方法,即神经网络或模糊推理系统的输入为状态,只逼近若干个预先选定的离散动作的Q值,动作输出也是基于这些选定的种子动作为基础产生。而种子动作的选择没有任何先验知识,选择的好坏直接影响强化学习系统的学习性能。文章在对强化学习的研究背景和相关理论进行概述和对相关文献综述基础之上,对分层强化学习中基于瓶颈状态的OPTION自动分层技术以及基于神经网络和模糊推理系统Q值函数逼近进行了研究。轮式移动机器人是一种能够在环境中自主移动并完成预定任务的智能系统,在工业、农业、民用以及军事等领域具有广泛的应用前景。在轮式移动机器人的各项研究和应用中,导航是最基本和最重要的问题。由于强化学习具有较强的在线自适应性和对复杂系统的自学习能力,因此其在机器人导航研究中受到了广泛的关注。本文以轮式移动机器人沿墙导航控制为主要研究内容,研究了基于强化学习的移动机器人反应式导航问题。文章的主要内容和成果如下:1.提出了基于禁忌状态的OPTION自动构造方法。在这个方法中,通过在基于瓶颈状态的OPTION的自动分层技术中引入禁忌状态,使得agent在与环境的交互过程中自动构造以瓶颈状态为子目标的OPTION.与相关文献相比该方法的主要特点是不仅能自动搜索到环境中的瓶颈状态,还能自动搜索OPTION的起始状态,自动构造OPTION的起始集,同时在搜索过程中对OPTION的内部策略进行学习。网格环境的仿真实验验证了该方法能够实现OPTION三要素的自动构造。2.为避免种子动作的选择,文章对Q-学习中的动作值函数逼近进行了研究。虽然RBF网络规模较大,但是它具有全局逼近和局部逼近的性能,同时还具有学习速度快的优点,因此文章对采用RBF网络和实现动作值函数直接逼近分别进行了研究,提出了RBFQ强化学习系统,在该系统中网络的输入为状态动作对,输出即为输入的Q值。利用TD误差和当前状态动作对与基函数之间距离对网络结构和参数进行自适应调整,同时将优化技术引入到强化学习中来,以函数优化技术实现贪婪动作的搜索,并用经典的倒立摆平衡控制仿真实验验证了RBFQ方法的有效性。3.由于模糊推理系统具有万能逼近的性质,同时还具有可解释性,便于在系统中嵌入已有经验和知识,因此文章对采用模糊推理系统实现动作值函数直接逼近也进行了研究,提出了AFQL强化学习系统。利用TD误差和当前状态动作对与模糊基函数之间距离实现模糊规则自动构造,以及对模糊规则的前件和后件进行自适应调整。与RBFQ方法一样,以函数优化技术实现系统的输出动作。倒立摆平衡控制仿实验验证了AFQL方法的有效性。4.利用本文提出的AFQL强化学习方法对室内机器人沿墙导航进行了仿真研究,仿真结果验证了本文所提的方法能够实现未知环境中移动机器人沿墙导航,也进一步说明了该方法具有良好的学习效率和泛化性能
其他文献
过共晶铝硅合金具有低膨胀性、高的耐磨性、较小的比重和良好的导热性,但过共晶铝硅合金中普遍存在着初晶硅相粗大问题,严重割裂了基体,恶化了合金的力学性能,限制了其在工业
在距离2020年5G全面商用不到1年时间的背景下,面对激烈的国际国内竞争态势分析了目前国际、国内的5G部署进展情况,针对重点发展的5G应用场景同时从现有5G技术标准、设备支持
为了提升产品的质量、增强产品的市场竞争力,设计与实现了机械加工企业所需的齿轮测量机。根据开发实例,分析了齿轮测量机的功能原理和设计目标,通过对渐开线齿轮的齿形误差
多模态化的英语网络空间教学能够给学生以多感官体验,充分体现以学习者为中心,激发学习者英语学习兴趣,提高英语教学效果。为充分发挥多模态教学模式的最佳效果,高职英语教学实践
对玉米皮固体发酵法生产的裂褶菌胞外多糖的提取工艺进行了探讨,重点考查了料液比、温度、时间对裂褶菌胞外多糖得率的影响,在单因素的基础上,采用二次回归正交旋转组合设计
历来一直有对关税的研究,特别是对纺织品、钢铁等方面关税的研究,但化肥方面由于我国在2000年前主要依赖进口,出口关税是近3年来才开始的,化肥关税政策的研究甚少,随着我国化
优秀的企业战略能够对企业的发展方向和趋势进行一个长期的规划,从而使企业在外部商业环境的变化过程中能够充分发挥其内部的优势,以促使企业保持持久的稳定的发展。因此一个
本文将麦肯锡7S管理模型(Mckinsey 7S Model)(战略、结构、制度、人员、技能、风格和共有的价值观)应用于医院科研发展中,结合医院发展现状,适时调整发展战略,赋予组织机构一
三尖杉、罗汉松和珙桐均属于热带或亚热带植物,三尖杉和罗汉松为裸子植物,珙桐属被子植物,均为国家保护植物,由于3种植物都有良好的药用价值。近年来被大量的砍伐,野生种质资
分析哈氏合金B系列合金的焊接特性,结合在实践中成功焊接哈氏合金B-2的经验,指出焊接时容易出现焊缝金属污染和焊接接头的中温敏化脆化,解决的关键是重视焊前处理和对高温焊缝的