值迭代相关论文
本文研究了具有指定收敛速度的线性离散时间系统鲁棒跟踪设计问题.首先利用鲁棒输出调节理论描述了跟踪控制问题,?再结合系统数据......
部分可观测马尔科夫决策过程(Partially Observable Markov Decision Process,POMDP)是处理不确定条件下决策问题的一个通用框架,......
随着无线通信技术的飞速发展,5G技术将在2020年完成标准制定并全面商用。作为5G的关键技术之一,大规模天线阵列(Massive multiple ......
近几年来,深度强化学习已经成为人工智能领域的一个新的研究热点。目前,深度强化学习已经成功应用于游戏策略、机器翻译、文本生成......
学位
基于试探(trial-based)的值迭代算法是求解部分可观察Markov决策过程(partially observable Markov decision process,POMDP)模型......
基于卷积神经网络的部分可观测马尔科夫决策过程(POMDP)值迭代算法QMDP-net在无先验知识的情况下具有较好的性能表现,但其存在训练......
倒立摆控制系统是一种不稳定,高阶,多变量,强耦合的非线性系统。传统的控制方法,如PID控制,控制效果一般。在本文中,我们将强化学......
2019年6月15日,'共生共赢,HR价值迭代与反思——第13届中外管理人力资本发展论坛'在深圳金蝶国际软件集团隆重召开。本次......
传统基于性能势的学习算法能获得马尔可夫决策问题的最优策略。这些算法主要采用单路径采样的方法,使得学习算法效率不高。将性能势......
提出一种基于拓扑序列更新的值迭代算法,利用状态之间的迁移关联信息,将任务模型的有向图分解为一系列规模较小的强连通分量,并依......
主要研究一阶部分可观测马尔可夫决策过程的近似求解方法。给出了一阶信念、一阶信念粒度、流关键度的概念;提出了基于流关键度的......
强化学习(Reinforcement Learning)是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
基于试探(trial-based)的值迭代算法是求解部分可观察Markov决策过程(partially observable Markov decision process,POMDP)模型的一......
部分可观察马尔可夫决策过程(POMDP)是描述不确定环境下进行决策的数学模型.基于点的值迭代算法是求解POMDP问题的一类近似解法.针对基......
自适应动态规划方法是求解非线性系统最优控制的一种有效控制方法。在被控对象的内部动态特性已知的情况下,自适应动态规划的值迭......
针对值迭代算法存在算法收敛不稳定及收敛速度慢的问题,文中提出改进的基于函数逼近的冗余值迭代算法.结合值迭代算法与贝尔曼冗余......
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清......
研究了应用于离散时间非仿射非线性系统的基于值迭代的自适应动态规划的收敛条件,指出了迭代性能指标函数初始化为半正定函数可保......
采用值迭代的自适应动态规划的收敛条件是迭代性能指标函数初始化为任意半正定函数.根据此收敛条件,本文研究了迭代性能指标函数的......
本文应用迭代数学理论提出了一个适用于理想系统和与之相近的轻烃系统的多元精馏操作型计算的新逐板计算法.它将整个迭代过程重组......
<正>如果将底线管理说成企业经营的支撑力,保证组织基本业务要求或经济技术指标,也就保证企业经营的基本品质;那么"平均值迭代法"......
基于点的算法是部分可观察马尔可夫决策过程(partially observable Markov decision processes,简称POMDP)的一类近似算法.它们只......
部分可观察Markov决策过程是通过引入信念状态空间将非Markov链问题转化为Markov链问题来求解,其描述真实世界的特性使它成为研究......
期刊
近些年来,群体动画在机器人学、电影、游戏等领域得到了广泛的研究和应用,但传统的群体动画技术均涉及复杂的运动规划或碰撞避免操......