基于自适应评价者设计方法的学习控制研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：wsb398322830

【摘要】

：

本论文研究基于ACD方法的学习控制，着重研究在不同已知程度的模型信息条件下，如何保证ACD方法的控制性能。本论文工作主要按照无模型信息、模型信息部分已知和模型信息完全已

【作者】

：

文锋

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2005年期

【关键词】

：

ACD方法强化学习瞬时差分动态规划 UUB 神经网络最小二乘方法智能控制系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本论文研究基于ACD方法的学习控制，着重研究在不同已知程度的模型信息条件下，如何保证ACD方法的控制性能。本论文工作主要按照无模型信息、模型信息部分已知和模型信息完全已知三种情况分别展开。　在无模型信息的情况下，主要研究ACD方法中的TD强化学习方法。TD强化学习方法结合了动态规划和Monte-Carlo方法，可以不需要对象模型而通过与对象的直接交互学习到最优策略。但是标准的TD强化学习方法只针对于状态空间离散的情况，要应用于状态空间连续的情况，需要解决连续状态空间的表示问题。本论文研究了使用状态聚类方法对连续空间进行自适应离散化，将其映射到离散状态空间。利用K-均值聚类方法根据数据分布自动调整聚类中心的能力，将其与TD强化学习方法相结合，就得到了两种基于状态聚类的连续TD强化学习方法。对于模型信息部分已知的情况，本论文还提出了一种反馈ACD方法。该方法针对一类特定的非线性系统，利用反馈控制思想直接计算评价者参数，而只有动作网络需要训练。通过Lyapunov分析，可以证明反馈ACD方法的训练过程能保证闭环误差UUB(一致最终有界)。与其他需要模型信息完全已知才能进行理论分析并保证学习过程收敛的ACD方法相比较，反馈ACD方法降低了对于模型信息的要求程度，可以在模型信息部分已知的情况下使用。

其他文献

基于嵌入式Linux的移动工程机械通信终端的设计与实现

本文的工作是由徐州工程机械集团、东南大学、清华大学、重庆交通学院等单位共同承担的国家863基金项目“机群智能化工程机械”研究的一个重要部分，这是因为智能化工程机械实

学位

移动工程机械通信终端无线通信嵌入式系统机群智能化公路施工

腐蚀型缺陷管道剩余寿命预测方法的研究

管道运输在生产中扮演着越来越重要的角色,但是随着管道运营时间的延长,不可避免的会出现腐蚀,最终若管道泄漏,有可能造成重大经济损失。为防止泄漏事故的发生,有必要通过检

学位

腐蚀缺陷灰色理论神经网络组合模型剩余寿命预测

非线性系统的模糊模型预测控制

非线性现象是自然界的基本现象之一,在化工、炼油、石化、冶金、制浆造纸等过程工业的工程系统中,大量存在着反应、精馏、裂解、熔炼、结晶、干燥等单元过程,其相关变量之间

学位

模型预测控制模糊控制非线性系统系统控制器先进控制理论优化控制计算机控制系统填料塔工业控制技术非线性控制系统

基于数据仓库技术银联数据服务平台的设计与实现

当前，社会发展日新月异，全球性的网络化、信息化进程正在改变着人们的生活，同时也给企业的经营方式带来了深刻的影响。在市场竞争日益激烈，不可预测因素逐渐增多的环境中，企业必须

学位

数据仓库数据集成联机分析处理数据立方体银联决策支持系统

基于小波变换的汽车道路实验振动信号分析方法研究

随着社会的发展和科学技术的进步，世界汽车工业取得了另人瞩目的成就。而汽车道路实验是汽车行业内的重要实验，其结果的好坏直接影响汽车的安全、舒适、环保、节能。Fourier变

学位

小波分析阈值去噪功率谱估计道路试验汽车振动信号分析

基于USSD的专有信息查询系统

随着无线通信网络近期的迅速发展,利用无线通信网络以及互联网络的现有资源开展专有信息查询业务成为了必然的趋势。USSD业务(Unstructured Supplementary ServiceData,非结

学位

劳动保障信息查询系统非结构化补充数据业务短消息点对点协议USSD业务应用服务器

基于子空间的焦炉集气管压力预测控制方法研究

焦炭是冶金工业炼铁的主要原料,在炼焦生产过程中,会有大量的副产品荒煤气伴随产生。回收利用荒煤气,不仅能够节约能源,而且降低环境污染,是钢铁生产的重要环节。集气管压力

学位

焦炉集气管压力子空间预估器预测控制拉盖尔函数

机器人视觉导航中的路标提取和路径规划技术研究

随着计算机和机器人技术的发展，人们对于机器人的性能要求也在不断提高，现代机器人技术在国民经济各部门得到日益广泛的应用，其应用领域遍布民用、工业领域以及军事领域。自主导

学位

视觉导航路标识别路径规划最短路径机器人视觉

基于DSP的微光视频图像实时处理研究

开展基于DSP的微光视频图像实时处理技术研究，在当代军用和民用领域都具有很大的理论意义和实用价值。采用DSP的微光视频图像处理器，为了解决图像处理的实时性，关键是要求DSP及

学位

DSP微光视频图像实时处理

再制造系统建模与优化方法研究

高新技术的迅猛发展提高了生产效率，缩短了产品更新换代的周期，加剧了市场竞争的激烈程度。当各种丰富的产品进入市场时，也就意味着有大量的使用后产品需要处理。这不仅关系到产

学位

再制造集成系统物流网络随机规划逆向供应链定价策略

基于自适应评价者设计方法的学习控制研究

其他学术论文