策略迭代相关论文
在职业教育高质量发展的时代背景下,高职院校示范建设项目既是教育行政管理部门遴选建设高水平职业院校的重要途径,也是职业院校深......
在光学领域对精度要求愈来愈高的当代,振镜系统被广泛应用于各种光学场景,而决定振镜系统效果最重要的因素便是振镜电机的控制精度......
自21世纪以来,随着芯片制造与设计工艺的快速发展,计算机的算力有了质的飞跃,因此机器学习科学取得了空前的应用,尤其是深度神经网......
多阶段网络被广泛应用于机器学习集群,由于多阶段网络中可用路径多,分组的路由是一个组合优化难题.现有基于启发式的路由算法由于......
在职业教育高质量发展的时代背景下,高职院校示范建设项目既是教育行政管理部门遴选建设高水平职业院校的重要途径,也是职业院校深......
针对复杂应用环境中网络新媒体服务系统的特点,提出一种事件驱动的动态服务组合策略及其在线优化算法,在保证各类业务Qos的同时,提高......
研究打印参数可变模式下3D打印批调度问题,旨在对打印任务随机到达的3D打印服务系统进行优化建模.考虑到工作台尺寸的限制以及打印......
当今世界,能源是人类生存和发展的重要基础。其中风能是一种分布广泛的清洁型能源,风力发电也越来越受到人类的关注与重视。与此同......
部分可观察马尔可夫决策过程(POMDPs)以其丰富而灵活的数学模型,被广泛应用于各种贯序决策问题,成为最近研究比较热的决策模型。但其......
半Markov决策过程(SMDP)是离散事件动态系统用于描述随机序贯决策问题的一类基本模型,其性能的分析和优化对许多现实系统具有重要的......
学位
现实世界的一些生产加工企业中,存在一类由生产加工站作为加工主体的生产线,称为传送带给料生产加工站(CSPS)。论文研究CSPS系统的......
本文研究了连续时间非线性Markov跳变系统的在线自适应优化控制算法。由于Markov跳变系统的各子系统之间存在着耦合关系,本文引入......
强化学习是机器学习研究中一个重要的方向,是智能体通过与环境交互来学习如何行为的方法。强化学习过程是一个以寻找最优策略为最......
现实世界中充满着矛盾、对抗、冲突或合作等问题,微分对策作为能够通过数学方式对这些复杂问题进行有效刻画和处理的重要方法,自提......
随机动态系统和勒贝格采样系统在通讯网络、柔性制造、人工智能、军事指挥管理、生产生活等各个领域有着广泛的应用,是学习和优化......
近年来,随着我国经济的迅速发展,各行业对能源的需求越来越高,而电能作为国家重要的二次能源,其质量在一定程度上关乎着国家的产业......
奇异摄动系统是一类快、慢动态耦合的双时间尺度系统,广泛存在于电力系统、化工过程、机器人等领域。现有奇异摄动系统最优控制方......
电力系统作为关乎国计民生的至关重要的基础资源,已经成为当代社会以及经济运行的神经中枢、动力之源,人们也对电力系统能否可持续......
针对多颗微小卫星合作接管失效卫星姿态运动的问题,研究了考虑微小卫星控制约束的多星合作博弈策略学习与协同控制方法.首先,建立......
本文讨论了半马尔可夫决策过程(SMDP)基于参数学习的性能优化问题.首先通过SMDP的一致链转抉及其性能势的神经元网络逼近,建立......
本文考虑平均准则模型马氏决策过程的一种改进的策略迭代算法:即时差分(TD:Temporal-Differences)策略迭代法.通过引入所谓即时差......
研究机会式频谱接入技术中次用户对可利用频谱进行探测和接入策略的优化问题.通过引入事件的概念,将含有可数无限状态的原问题转化......
该文考虑平均堆则模型马氏决策过程的一种改进的策略迭算法—即时差分(TD)策略迭代法。通过引入所谓即时差分的概念,将传统的策略迭......
作为一类重要的机器学习方法,经典查找表形式的强化学习方法在大规模或者连续空间任务中普遍面临“维数灾难”问题,而基于逼近技术......
本文主要研究随机系统的最优控制问题,寻找适用于非线性系统的在线优化算法。论文将随机控制系统看作连续状态的马尔可夫决策过程,通......
针对一类连续时间线性Markov跳变系统,本文提出了一种新的策略迭代算法用于求解系统的非零和微分反馈Nash控制问题.通过求解耦合的......
以风能、太阳能等为代表性的分布式发电单元受到气候和天气影响,发电功率难以保证平稳,可能会引起频率和电压不稳,进而引起停电事......
实现有功-无功协调调度是促成"未来一体化大电网调控系统"建设中的关键一环。为解决调度中存在反复调节、难以协调冲突等问题,采用......
提出一种基于增强学习的双轮驱动移动机器人路径跟随控制方法,通过将机器人运动控制器的优化设计问题建模为Markov决策过程,采用基......
在策略迭代结强化学习方法的值函数逼近过程中,基函数的合理选择直接影响方法的性能.为更好地描述环境的拓扑关系,采用测地线距离来替......
基于3层架构的映射框架,本文以视频业务为主要研究对象,研究了分布式协同接入控制系统的建模和调控机理。不失一般性,假设视频业务需......
提出了2类改进的局部策略迭代算法求解一类美式期权定价模型离散得到的优化控制差分方程组,证明了算法的收敛性.数值实验表明了算......
针对复杂应用环境中网络新媒体服务系统的特点,提出一种事件驱动的动态服务组合策略及其在线优化算法,在保证各类业务服务质量(QoS)的......
研究一类连续时间Markov控制过程(CTMCP)在紧致行动集上关于平均代价性能准则的优化算法.根据CTMCP的性能势公式和平均代价最优性......
对于一类利用集中式构架和分布式构架各自优点的分层非结构化P2P系统,通过定义一种Markov切换空间模型来描述其动态分组切换行为.......
研究模态跳变概率可控的Markov跳变线性二次模型的最优控制问题.考虑两类模态跳变控制策略:开环模态控制和闭环模态控制,应用策略迭......
在策略迭代强化学习中,基函数构造是影响动作值函数逼近精度的一个重要因素.为了给动作值函数逼近提供合适的基函数,提出一种基于......
微小型制导弹药是一类典型的微小型飞行器,具有尺寸小、便于携带、精度高、附带损伤小等特点,可装备于无人机或单兵作战,将在未来......
对大气层外动能多拦截器拦截策略进行研究,首先对拦截策略的目标函数进行分析,针对不同情况下理论瞄准点和多目标分配方法决策的求解......
近年来最优控制问题一直是控制领域研究的热点之一,其主要思路是找到一个最优的控制策略使得由系统状态和控制策略组成的价值函数......
为了研究和模拟能源系统与社会系统之间的交互,提出了基于博弈论的复杂社会技术系统CSTS(compos ite socio-technical systems),从......
针对在线近似策略迭代强化学习算法收敛速度较慢的问题,提出一种非参数化近似策略迭代并行强化学习算法。通过学习单元构建样本采......
本文研究了随机系统的学习与优化理论及其在金融工程中的应用。采用基于灵敏度分析的随机系统优化方法,重点分析了受约束的线性二......
【正】 引言“动态规划与马尔科夫过程”一文的基本内容是应用动态规划的最优化原理与马尔科夫过程的基本理论解决一类具有马尔科......
策略迭代是一种迭代地评估和改进控制策略的强化学习方法.采用最小二乘的策略评估方法可以从经验数据中提取出更多有用信息,提高数......
强化学习是一种通过与环境进行“试错”交互寻找能够带来最大期望累积奖赏策略的学习方法。根据学习过程中行为策略与目标策略是否......
针对存在外部扰动情形下离散多智能体系统的H∞一致性问题,利用二人零和博弈方法,一致性协议和外部扰动分别被看作博弈双方参与者,......