策略迭代相关硕士博士期刊学术论文

在职业教育高质量发展的时代背景下,高职院校示范建设项目既是教育行政管理部门遴选建设高水平职业院校的重要途径,也是职业院校深......

期刊

高职院校示范建设项目化管理策略迭代

振镜系统建模及控制算法研究

在光学领域对精度要求愈来愈高的当代,振镜系统被广泛应用于各种光学场景,而决定振镜系统效果最重要的因素便是振镜电机的控制精度......

学位

振镜系统建模系统辨识希望频率法策略迭代

强化学习中的优化策略研究

自21世纪以来,随着芯片制造与设计工艺的快速发展,计算机的算力有了质的飞跃,因此机器学习科学取得了空前的应用,尤其是深度神经网......

学位

强化学习策略函数高维连续空间散度策略迭代

基于强化学习的多阶段网络分组路由方法

多阶段网络被广泛应用于机器学习集群,由于多阶段网络中可用路径多,分组的路由是一个组合优化难题.现有基于启发式的路由算法由于......

期刊

集群网络策略迭代分组路由强化学习

结合可满足性模理论与抽象解释的程序分析技术研究

随着软件需求的不断增加,软件系统日趋复杂与庞大,软件的可信性要求越来越高,尤其是在航空、航天、医疗、金融等安全攸关领域。许......

学位

程序分析抽象解释可满足性模理论策略迭代模版多面体

高职院校示范建设项目化管理策略迭代机制研究r——基于“福建省示范性现代职业院校建设工程”院校项目管理实践

在职业教育高质量发展的时代背景下,高职院校示范建设项目既是教育行政管理部门遴选建设高水平职业院校的重要途径,也是职业院校深......

期刊

高职院校示范建设项目化管理策略迭代

网络新媒体服务系统事件驱动的动态服务组合

针对复杂应用环境中网络新媒体服务系统的特点，提出一种事件驱动的动态服务组合策略及其在线优化算法，在保证各类业务Qos的同时，提高......

会议

网络新媒体动态服务组合 Markov控制过程策略迭代在线优化算法自适应性

打印参数可变模式下3D打印批调度问题研究

研究打印参数可变模式下3D打印批调度问题,旨在对打印任务随机到达的3D打印服务系统进行优化建模.考虑到工作台尺寸的限制以及打印......

期刊

3D打印批调度半马尔科夫决策过程策略迭代

基于半马尔可夫决策过程的风机维修优化研究

当今世界,能源是人类生存和发展的重要基础。其中风能是一种分布广泛的清洁型能源,风力发电也越来越受到人类的关注与重视。与此同......

学位

半马尔可夫决策过程策略迭代 Q学习风力发电机维修决策优化模型

基于点的POMDP算法研究

部分可观察马尔可夫决策过程(POMDPs)以其丰富而灵活的数学模型，被广泛应用于各种贯序决策问题，成为最近研究比较热的决策模型。但其......

学位

贯序决策马尔可夫决策预处理方法策略迭代

不确定SMDP基于性能势的鲁棒控制研究

半Markov决策过程(SMDP)是离散事件动态系统用于描述随机序贯决策问题的一类基本模型，其性能的分析和优化对许多现实系统具有重要的......

学位

半Markov决策过程性能势鲁棒控制策略迭代遗传算法

传送带给料生产加工站的神经元在线优化算法

现实世界的一些生产加工企业中,存在一类由生产加工站作为加工主体的生产线,称为传送带给料生产加工站(CSPS)。论文研究CSPS系统的......

学位

传送带给料生产加工站(CSPS) Q学习在线策略迭代(OPI) 小脑模型关节控制器(CMAC) 在线支持向量机(online SVM)

非线性Markov跳变系统的自适应优化算法研究

本文研究了连续时间非线性Markov跳变系统的在线自适应优化控制算法。由于Markov跳变系统的各子系统之间存在着耦合关系,本文引入......

学位

Markov跳变系统非线性自适应优化控制子系统转换神经网络线性微分包含策略迭代

基函数自适应的强化学习的神经网络实现的研究

强化学习是机器学习研究中一个重要的方向,是智能体通过与环境交互来学习如何行为的方法。强化学习过程是一个以寻找最优策略为最......

学位

强化学习策略评价策略迭代值函数函数逼近器基函数

基于自适应动态规划的Stackelberg微分对策的研究

现实世界中充满着矛盾、对抗、冲突或合作等问题,微分对策作为能够通过数学方式对这些复杂问题进行有效刻画和处理的重要方法,自提......

学位

Stackelberg微分对策自适应动态规划神经网络策略迭代

基于勒贝格采样的随机系统最优控制研究

随机动态系统和勒贝格采样系统在通讯网络、柔性制造、人工智能、军事指挥管理、生产生活等各个领域有着广泛的应用,是学习和优化......

学位

随机动态系统勒贝格采样系统性能势策略迭代 SARSA算法最优控制

基于平方和方法的TCSC控制器设计

近年来,随着我国经济的迅速发展,各行业对能源的需求越来越高,而电能作为国家重要的二次能源,其质量在一定程度上关乎着国家的产业......

学位

非线性系统电力系统 TCSC 平方和方法 H_∞控制策略迭代不确定参数

基于策略迭代的线性奇异摄动系统自学习最优控制

奇异摄动系统是一类快、慢动态耦合的双时间尺度系统,广泛存在于电力系统、化工过程、机器人等领域。现有奇异摄动系统最优控制方......

学位

奇异摄动系统自适应动态规划最优控制策略迭代

基于平方和方法的电力系统非线性控制设计

电力系统作为关乎国计民生的至关重要的基础资源,已经成为当代社会以及经济运行的神经中枢、动力之源,人们也对电力系统能否可持续......

学位

电力系统励磁控制平方和策略迭代 H_∞控制

事件驱动的的动态服务组合策略在线自适应优化

针对复杂应用环境中网络新媒体服务系统的特点,提出一种事件驱动的动态服务组合策略及其在线优化算法,在保证各类业务服务质量(QoS......

期刊

动态服务组合策略动态服务组合服务组合事件驱动策略迭代自适应优化服务覆盖网络网络新媒体覆盖网络

失效卫星姿态接管的并行学习合作博弈控制

针对多颗微小卫星合作接管失效卫星姿态运动的问题,研究了考虑微小卫星控制约束的多星合作博弈策略学习与协同控制方法.首先,建立......

期刊

接管控制微小卫星合作博弈并行学习策略迭代

SMDP基于TD(λ)学习的统一神经元动态规划优化方法

　　本文讨论了半马尔可夫决策过程(SMDP)基于参数学习的性能优化问题.首先通过SMDP的一致链转抉及其性能势的神经元网络逼近,建立......

会议

参数学习神经元动态规划马尔可夫决策过程优化问题优化方法性能势数值实例数值分析平均准则策略迭代一致链折扣网络实验公式

即时差分策略迭代算法

本文考虑平均准则模型马氏决策过程的一种改进的策略迭代算法:即时差分(TD:Temporal-Differences)策略迭代法.通过引入所谓即时差......

会议

马氏决策过程平均准则即时差分迭代算法

机会式频谱接入问题基于事件的优化方法

研究机会式频谱接入技术中次用户对可利用频谱进行探测和接入策略的优化问题.通过引入事件的概念,将含有可数无限状态的原问题转化......

期刊

灵敏度分析接入问题策略迭代机会式频谱接入基于事件的优化数据传输量迭代算法信道传输算法收敛过程模型

平均准则TD策略迭代算法

该文考虑平均堆则模型马氏决策过程的一种改进的策略迭算法—即时差分(TD)策略迭代法。通过引入所谓即时差分的概念，将传统的策略迭......

会议

马氏决策过程平均准则即时差分

基于测地高斯核的策略迭代强化学习

作为一类重要的机器学习方法,经典查找表形式的强化学习方法在大规模或者连续空间任务中普遍面临“维数灾难”问题,而基于逼近技术......

学位

强化学习策略迭代基函数流形空间测地高斯核

基于性能势的随机系统最优控制

本文主要研究随机系统的最优控制问题，寻找适用于非线性系统的在线优化算法。论文将随机控制系统看作连续状态的马尔可夫决策过程，通......

学位

随机系统最优控制性能势策略迭代

基于策略迭代算法的连续时间线性Markov跳变系统r非零和微分反馈Nash控制

针对一类连续时间线性Markov跳变系统,本文提出了一种新的策略迭代算法用于求解系统的非零和微分反馈Nash控制问题.通过求解耦合的......

期刊

策略迭代 Markov跳变线性系统非零和微分反馈Nash策略

基于强化学习的蓄电池储能系统的优化控制

以风能、太阳能等为代表性的分布式发电单元受到气候和天气影响,发电功率难以保证平稳,可能会引起频率和电压不稳,进而引起停电事......

学位

分布式发电储能系统 V2G 强化学习 Sarsa

智能电网弹性响应时间业务需求的接入控制

考虑智能电网多种类型业务需求的接入控制,通过利用响应时间的弹性来平缓业务负荷的波动,使得电网运行的长期平均代价最小.针对业......

期刊

智能电网需求负荷控制 Markov控制过程策略迭代弹性响应接入控制状态空间电网运行结合性能维数灾问题

基于多智能体深度确定策略梯度算法的有功-无功协调调度模型

实现有功-无功协调调度是促成"未来一体化大电网调控系统"建设中的关键一环。为解决调度中存在反复调节、难以协调冲突等问题,采用......

期刊

多智能体多智能体深度确定策略梯度算法策略迭代灵活调控资源有功-无功协调

双轮驱动移动机器人的学习控制器设计方法

提出一种基于增强学习的双轮驱动移动机器人路径跟随控制方法,通过将机器人运动控制器的优化设计问题建模为Markov决策过程,采用基......

期刊

移动机器人动力学模型运动控制非完整系统增强学习策略迭代 mobile robot dynamic model motion control no

基于测地高斯基函数的递归最小二乘策略迭代

在策略迭代结强化学习方法的值函数逼近过程中，基函数的合理选择直接影响方法的性能．为更好地描述环境的拓扑关系，采用测地线距离来替......

期刊

策略迭代递归最小二乘图论测地距离高斯函数基函数 policy iteration recursive least squares graph th

基于Markov切换空间的分布式协同接入控制模型

基于3层架构的映射框架，本文以视频业务为主要研究对象，研究了分布式协同接入控制系统的建模和调控机理。不失一般性，假设视频业务需......

期刊

MARKOV决策过程 MARKOV切换系统性能势策略迭代 Markov decision process Markov switching system

求解美式期权定价问题的两类新的迭代算法

提出了2类改进的局部策略迭代算法求解一类美式期权定价模型离散得到的优化控制差分方程组,证明了算法的收敛性.数值实验表明了算......

期刊

美式期权转换模型策略迭代局部策略迭代 American option regime switching model policy iteration

事件驱动的动态服务组合策略在线自适应优化

针对复杂应用环境中网络新媒体服务系统的特点，提出一种事件驱动的动态服务组合策略及其在线优化算法，在保证各类业务服务质量（QoS）的......

期刊

动态服务组合层次化Markov控制过程策略迭代服务覆盖网络优化算法 dynamic service composition hierarchical

Markov控制过程在紧致行动集上的迭代优化算法

研究一类连续时间Markov控制过程(CTMCP)在紧致行动集上关于平均代价性能准则的优化算法.根据CTMCP的性能势公式和平均代价最优性......

期刊

MARKOV控制过程紧致行动集性能势策略迭代数值迭代 Algorithms Convergence of numerical methods Itera

一类分层非结构化P2P系统的随机切换模型

对于一类利用集中式构架和分布式构架各自优点的分层非结构化P2P系统,通过定义一种Markov切换空间模型来描述其动态分组切换行为.......

期刊

MARKOV决策过程分层非结构化P2P 超级节点策略迭代 Markov decision process Hierarchical unstructere

模态跳变概率可控的Markov跳变线性系统的优化

研究模态跳变概率可控的Markov跳变线性二次模型的最优控制问题.考虑两类模态跳变控制策略：开环模态控制和闭环模态控制,应用策略迭......

期刊

MARKOV跳变系统最优控制策略迭代 Markov jump system Optimal control Policy iteration

基于状态-动作图测地高斯基的策略迭代强化学习

在策略迭代强化学习中,基函数构造是影响动作值函数逼近精度的一个重要因素.为了给动作值函数逼近提供合适的基函数,提出一种基于......

期刊

状态-动作图测地高斯核基函数策略迭代强化学习 State-action graph geodesic Gaussian kernel basis f

微小型飞行器强化学习控制方法研究

微小型制导弹药是一类典型的微小型飞行器,具有尺寸小、便于携带、精度高、附带损伤小等特点,可装备于无人机或单兵作战,将在未来......

学位

微小型制导弹药强化学习最优控制 Actor-Critic结构策略迭代跟踪控制饱和输入神经网络

大气层外动能多拦截器目标拦截策略研究

对大气层外动能多拦截器拦截策略进行研究，首先对拦截策略的目标函数进行分析，针对不同情况下理论瞄准点和多目标分配方法决策的求解......

期刊

动能拦截器拦截策略策略迭代 Kinetic Vehicle Impact Policy Policy-iteration

基于自适应动态规划的最优输出反馈控制研究

近年来最优控制问题一直是控制领域研究的热点之一,其主要思路是找到一个最优的控制策略使得由系统状态和控制策略组成的价值函数......

学位

最优输出反馈控制数据驱动自适应动态规划策略迭代状态重构

平行能源系统:博弈的复杂社会技术系统

为了研究和模拟能源系统与社会系统之间的交互,提出了基于博弈论的复杂社会技术系统CSTS(compos ite socio-technical systems),从......

期刊

复杂社会技术系统博弈分布式节点电价策略迭代分布式虚拟迭代算法 composite social-technical systems(CSTS)gamed

非参数化近似策略迭代并行强化学习算法

针对在线近似策略迭代强化学习算法收敛速度较慢的问题,提出一种非参数化近似策略迭代并行强化学习算法。通过学习单元构建样本采......

期刊

并行强化学习非参数化策略迭代 K均值聚类倒立摆 parallel reinforcement learningnonparametricstrategy

基于灵敏度分析的随机系统优化及其在金融工程中的应用

本文研究了随机系统的学习与优化理论及其在金融工程中的应用。采用基于灵敏度分析的随机系统优化方法,重点分析了受约束的线性二......

学位

马尔可夫决策过程灵敏度分析随机线性二次型策略迭代风险传染

“Howard”问题的线性规划解法

【正】引言“动态规划与马尔科夫过程”一文的基本内容是应用动态规划的最优化原理与马尔科夫过程的基本理论解决一类具有马尔科......

期刊

最优解列向量组规划问题最优策略基本内容迭代程序决策过程对偶规划应用动态规划策略迭代

一种批量最小二乘策略迭代方法

策略迭代是一种迭代地评估和改进控制策略的强化学习方法.采用最小二乘的策略评估方法可以从经验数据中提取出更多有用信息,提高数......

期刊

强化学习批量更新最小二乘策略迭代

强化学习中离策略算法的分析及研究

强化学习是一种通过与环境进行“试错”交互寻找能够带来最大期望累积奖赏策略的学习方法。根据学习过程中行为策略与目标策略是否......

学位

强化学习离策略函数近似自模拟度量值函数迁移策略迭代贝叶斯推理

基于零和博弈方法的多智能体系统H∞一致性

针对存在外部扰动情形下离散多智能体系统的H∞一致性问题,利用二人零和博弈方法,一致性协议和外部扰动分别被看作博弈双方参与者,......

期刊

零和博弈多智能体系统 H∞一致性策略迭代 zero-sum gamemultiagent systemH∞consensuspolicy iteration

看过本文同时还关注