策略梯度增强学习的理论、算法及应用研究

被引量 : 0次 | 上传用户:jill0401
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
增强学习(Reinforcement Learning)又称为强化学习或再励学习,是近年来机器学习和人工智能领域研究的热点之一。与监督学习不同,增强学习不需要给定输入状态下的期望输出,而强调在与环境的交互中进行学习,以极大化(或极小化)从环境获得的评价性反馈信号为学习目标,因此增强学习在求解无法获得教师信号的复杂优化与决策问题中具有广泛的应用前景。作为增强学习领域的一个重要研究方向,策略梯度(Policy gradient)方法克服了基于值函数(Value function)的增强学习算法不能保证收敛、难于引入先验知识等缺陷。但是另一方面,由于在梯度估计过程中方差过大,使得策略梯度算法收敛速度很慢,成为策略梯度增强学习被广泛应用的一个障碍。为此,本文在国家自然科学基金重点项目“未知环境中移动机器人导航控制的理论与方法研究(60234030)”的资助下,重点研究策略梯度增强学习理论、算法及其在月球车运动控制中的应用。在分析了策略梯度增强学习理论框架的基础上,主要研究了两类提高策略梯度学习算法收敛性能的方法,即:回报基线方法和引入先验知识的方法。其中,回报基线方法能够有效地降低策略梯度增强学习的梯度估计方差;而通过引入先验知识不仅可以提高策略梯度增强学习算法的收敛速度,还能克服在学习初期因为初始化策略的随机性而带来的缺陷。文中针对月球车运功控制中的多轮协调问题,提出了一种基于混合策略梯度增强学习的自适应控制方法。本文的创新点和研究成果主要包括:1、在策略梯度增强学习理论框架的研究中,证明了现有策略梯度增强学习算法的梯度估计公式都符合统一的形式。并且在上述理论框架的指导下,对现有的策略梯度算法进行了推广。2、针对部分可观测马氏决策过程(POMDP),研究了策略梯度增强学习中的回报基线方法。提出了一种求解最优回报基线的方法,使得策略梯度估计的方差减小到最小。文中对最优回报基线的性质进行了理论证明,并且提出了一种新的求解POMDP的策略梯度学习算法-Istate-Grbp,该算法通过利用回报基线,减小了梯度估计的方差。仿真实验结果表明,通过减小方差,算法能够有效地提高收敛速度。3、研究了利用模糊推理系统引入先验知识的策略梯度增强学习算法。本文分别针对具有离散行为空间和连续行为空间的马氏决策问题,提出了两种模糊策略梯度增强学习方法(Fuzzy Policy Gradient: FPG)。因为在模糊规则的制定过程中,难以确定的往往是后件参数,因此在本文提出的两种模糊策略梯度算法中,都是利用策略梯度方法调整模糊规则的后件参数。文中证明了这两种模糊策略梯度算法的收敛性,仿真实验表明了算法的有效性。4、提出了利用支持向量机(Support Vector Machine: SVM)引入先验知识的混合策略梯度增强学习方法PG-SVM。PG-SVM算法在策略梯度增强学习的框架下利用SVM来进行初始策略的学习和逼近,从而可以通过训练样本数据来自动引入先验知识。与已有方法相比,PG-SVM算法具有以下几个优点:(1)只要是能够提供样本点的先验知识,就可以很容易地结合到算法中来;(2)在线的策略梯度增强学习算法可以克服学习过程中的各种不确定性;(3)策略函数的结构可以通过SVM算法来确定,因而是数据驱动的,而不是预先定义的。5、针对月球车运动控制中的多轮协调问题,提出了一种基于混合策略梯度增强学习的自适应控制方法。由于月球车本身结构的复杂性,基于模型的经典控制将会有很大的困难,并且经典控制还需要在线估计地形的各种参数。针对这种导师信号难以获取、模糊规则难以制定的复杂优化控制问题,本文提出了一种基于混合式策略梯度增强学习PG-SVM的多轮协调控制方法。对于这种具有高维连续状态和行为空间的复杂问题,以往的增强学习算法不仅特别耗时,并且还需要利用仿真环境。这不仅需要月球车的动力学模型,还需要对月球车的行驶环境进行模拟。而本文提出的PG-SVM增强学习控制方法通过利用基于训练数据的先验知识,极大地缩短了学习时间,并且保证了在学习过程中的在线性能。这使得学习过程可以完全在实车上进行,不需要任何的仿真环境,这对推动增强学习的实用化进程具有重要的意义。最后得到控制器的控制效果是令人满意的。本文的最后一章对今后进一步的研究方向进行了分析和展望。
其他文献
<正>接受化疗或干细胞移植后的患者以及其它原因引起的血小板数量减少或功能异常者,均需要补充血小板,血小板输注是临床治疗因血小板减少或功能障碍所致的出血等疾病的重要手
<正>1949年10月,前苏联汉学家罗果夫曾在北京一个纪念鲁迅逝世十三周年的晚会上说:"人民解放军的力量,不但解放了中国的土地和人民,连死了的鲁迅也被解放了。"许广平对此深表
奶牛维生素A缺乏症是一种营养代谢疾病,该病主要是由于日粮中缺少或含有较少的维生素A及其前体物(胡萝卜素)而引起。病牛表现出机体消瘦、嗜睡、贫血、水肿、骨质疏松、运动紊
介绍了一种玻璃网带退火炉的设计,它采用了逆向热交换的热回收系统。实践表明,其结构合理,节能效果较好,有一定的参考价值。
高碳当量灰铸铁具有良好的铸造性能,但提高强度是一个重要研究课题。综合自适应模糊推理的建模功能和神经网络的学习能力,直接从试验数据中提取推理规则,建立了成分与抗拉强
随着我国教育改革的不断深入,在对学生智力的开发中,人们发现智力水平高的学生学习成绩不一定优秀,更不一定成才。在“知识中心论”、“智力中心论”指导下教育实践的失败说
人文精神是一个古老的话题,人文精神的最基本的含义是对人的价值、人生意义和人类命运的关注,人文精神是一种对全面发展的人格的塑造和肯定。人的意义、人的追求,目的、理想
盐城沿海滩涂湿地细菌宏基因组学的研究对促进江苏沿海滩涂生物资源的可持续开发利用具有重要意义。文章旨在采用不同的提取缓冲液对盐城沿海滩涂湿地土壤的总DNA进行提取,并
商业企业是我国国民经济的重要组成部分,随着商业企业逐渐从劳动密集型向技术密集型转变,使商品流通业面临着一场经营管理思想和管理手段上的变革。因此,建立在真实数据基础之上
钻孔灌注桩作为掩蔽工程,影响其施工成本的因素较多,在地层复杂的区域施工常因充盈系数较大而影响钻孔灌注桩的施工成本控制,通过分析与摸索试验工程桩在施工中对充盈系数的