基于学习技术的一类随机系统最优控制研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:rtreterter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Q学习等强化学习技术是解决一类离散事件动态系统优化问题的有效方法,已经广泛应用到各类实际问题的研究中,特别是可拓展到可用半Markov决策过程(SMDP)建模的系统优化中。本文运用采样技术,将这类方法引入到一阶连续时间非线性随机系统,以解决其最优控制问题。 论文针对一阶连续时间非线性随机系统的特点,通过勒贝格采样方法,将其优化控制问题建模为半Markov决策过程。首先基于事件驱动优化方法和Q学习技术,给出了一阶连续时间非线性随机系统在折扣和平均优化准则下统一的优化算法。其次,论文在性能势理论框架下,引入一种在线策略迭代方法,以解决该类系统的最优控制问题。该方法利用样本轨道仿真技术,并基于历史访问信息进行性能势学习,通过适当探索技术实现状态-行动对,即Q因子的学习。另外,还基于历史访问信息,建立了一种随机有向探索机制,提高了探索的效率和安全性。 最后,我们通过一阶连续时间非线性随机系统例子,针对两种不同代价函数定义,分别采用Q学习和在线策略迭代方法,给出了相关优化结果。实验数据显示,针对这类一阶连续时间非线性随机系统的优化控制,在线策略迭代方法要优于Q学习,且优化过程相对平稳。本文研究结果也可直接应用于解决高阶随机系统的最优控制问题。
其他文献
模糊性是客观世界中存在的普遍现象,由于现实世界中的事物以及事物之间的关系是极其复杂的,客观上存在的模糊性以及某些事物或现象暴露的不充分性,导致人们对事物的认识具有一定
二十一世纪,航天领域的竞争越来越激烈,航天领域的发展水平能很大程度体现一个国家的整体实力。近几十年来,我国的航天领域经历了从无到有的萌芽阶段,并获得了快速发展,是我
路径规划是移动机器人的关键技术之一,一直是学者们的广泛关注的热点。对于具有类人的外形、能直立步行的类人机器人,路径规划问题尤其重要。而如何得到全局最优或次优的满意路
移动Ad hoc网络是一种自创造、自组织和自管理的网络。作为无线通信的一个重要分支,它可以满足一些特殊场合的需要。其信道变化的不规则性,节点的移动、加入、退出等都会引起网
随着高校信息化建设的发展和数字化校园工程的实施,校园网上运行着越来越多的应用系统和服务系统,也积累着越来越多的各种教学资源和信息资源,校园网已经成为各个大学业务运行的
随着计算机的普及,计算机安全日益成为人们关注的焦点。而操作系统作为计算机系统的基础软件,是计算机系统安全的基石。Linux作为最为著名的开放源代码的操作系统之一,在安全性
廉价、便利的电子邮件在给我们的生活、工作带来方便的同时,也带来许多问题。突出的体现是:用户每天处理的电子邮件数目在快速增长,许多用户不得不每日花大量的时间检查、阅读、
Ad Hoc网络是一种具有特殊用途的对等式自组网络。使用无线通信技术、没有固定的基础设施和动态变化的拓扑结构是Ad Hoc网络的主要特点。安全是移动自组网络的基本问题,也是当
软硬件协同设计使嵌入式系统的软件和硬件设计互相协同、并行实现,有利于尽早发现错误、降低成本和提高系统性能,而软硬件任务划分是嵌入式协同设计的重要环节,对系统的后续设计
近年来,随着工作生活压力的日益增加,各种慢性疾病的发病率持续上升,给人们的健康生活带来很大的影响。为了防止这种情况的发生,对于慢性病的早期的预防与治疗已经成为人们普