论文部分内容阅读
本论文研究基于ACD方法的学习控制,着重研究在不同已知程度的模型信息条件下,如何保证ACD方法的控制性能。本论文工作主要按照无模型信息、模型信息部分已知和模型信息完全已知三种情况分别展开。
在无模型信息的情况下,主要研究ACD方法中的TD强化学习方法。TD强化学习方法结合了动态规划和Monte-Carlo方法,可以不需要对象模型而通过与对象的直接交互学习到最优策略。但是标准的TD强化学习方法只针对于状态空间离散的情况,要应用于状态空间连续的情况,需要解决连续状态空间的表示问题。本论文研究了使用状态聚类方法对连续空间进行自适应离散化,将其映射到离散状态空间。利用K-均值聚类方法根据数据分布自动调整聚类中心的能力,将其与TD强化学习方法相结合,就得到了两种基于状态聚类的连续TD强化学习方法。
对于模型信息部分已知的情况,本论文还提出了一种反馈ACD方法。该方法针对一类特定的非线性系统,利用反馈控制思想直接计算评价者参数,而只有动作网络需要训练。通过Lyapunov分析,可以证明反馈ACD方法的训练过程能保证闭环误差UUB(一致最终有界)。与其他需要模型信息完全已知才能进行理论分析并保证学习过程收敛的ACD方法相比较,反馈ACD方法降低了对于模型信息的要求程度,可以在模型信息部分已知的情况下使用。