基于自适应评价者设计方法的学习控制研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:wsb398322830
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文研究基于ACD方法的学习控制,着重研究在不同已知程度的模型信息条件下,如何保证ACD方法的控制性能。本论文工作主要按照无模型信息、模型信息部分已知和模型信息完全已知三种情况分别展开。  在无模型信息的情况下,主要研究ACD方法中的TD强化学习方法。TD强化学习方法结合了动态规划和Monte-Carlo方法,可以不需要对象模型而通过与对象的直接交互学习到最优策略。但是标准的TD强化学习方法只针对于状态空间离散的情况,要应用于状态空间连续的情况,需要解决连续状态空间的表示问题。本论文研究了使用状态聚类方法对连续空间进行自适应离散化,将其映射到离散状态空间。利用K-均值聚类方法根据数据分布自动调整聚类中心的能力,将其与TD强化学习方法相结合,就得到了两种基于状态聚类的连续TD强化学习方法。 对于模型信息部分已知的情况,本论文还提出了一种反馈ACD方法。该方法针对一类特定的非线性系统,利用反馈控制思想直接计算评价者参数,而只有动作网络需要训练。通过Lyapunov分析,可以证明反馈ACD方法的训练过程能保证闭环误差UUB(一致最终有界)。与其他需要模型信息完全已知才能进行理论分析并保证学习过程收敛的ACD方法相比较,反馈ACD方法降低了对于模型信息的要求程度,可以在模型信息部分已知的情况下使用。
其他文献
本文的工作是由徐州工程机械集团、东南大学、清华大学、重庆交通学院等单位共同承担的国家863基金项目“机群智能化工程机械”研究的一个重要部分,这是因为智能化工程机械实
管道运输在生产中扮演着越来越重要的角色,但是随着管道运营时间的延长,不可避免的会出现腐蚀,最终若管道泄漏,有可能造成重大经济损失。为防止泄漏事故的发生,有必要通过检
非线性现象是自然界的基本现象之一,在化工、炼油、石化、冶金、制浆造纸等过程工业的工程系统中,大量存在着反应、精馏、裂解、熔炼、结晶、干燥等单元过程,其相关变量之间
当前,社会发展日新月异,全球性的网络化、信息化进程正在改变着人们的生活,同时也给企业的经营方式带来了深刻的影响。在市场竞争日益激烈,不可预测因素逐渐增多的环境中,企业必须
随着社会的发展和科学技术的进步,世界汽车工业取得了另人瞩目的成就。而汽车道路实验是汽车行业内的重要实验,其结果的好坏直接影响汽车的安全、舒适、环保、节能。Fourier变
随着无线通信网络近期的迅速发展,利用无线通信网络以及互联网络的现有资源开展专有信息查询业务成为了必然的趋势。USSD业务(Unstructured Supplementary ServiceData,非结
焦炭是冶金工业炼铁的主要原料,在炼焦生产过程中,会有大量的副产品荒煤气伴随产生。回收利用荒煤气,不仅能够节约能源,而且降低环境污染,是钢铁生产的重要环节。集气管压力
随着计算机和机器人技术的发展,人们对于机器人的性能要求也在不断提高,现代机器人技术在国民经济各部门得到日益广泛的应用,其应用领域遍布民用、工业领域以及军事领域。自主导
开展基于DSP的微光视频图像实时处理技术研究,在当代军用和民用领域都具有很大的理论意义和实用价值。采用DSP的微光视频图像处理器,为了解决图像处理的实时性,关键是要求DSP及
高新技术的迅猛发展提高了生产效率,缩短了产品更新换代的周期,加剧了市场竞争的激烈程度。当各种丰富的产品进入市场时,也就意味着有大量的使用后产品需要处理。这不仅关系到产