值迭代相关硕士博士期刊学术论文

值迭代相关论文

POMDP近似算法的研究与设计

部分可观测马尔科夫决策过程(Partially Observable Markov Decision Process,POMDP)是处理不确定条件下决策问题的一个通用框架,......

学位

POMDP 基于点的值迭代启发式搜索值迭代可达空间

基于MDP的Massive MIMO物理层安全算法

随着无线通信技术的飞速发展,5G技术将在2020年完成标准制定并全面商用。作为5G的关键技术之一,大规模天线阵列(Massive multiple ......

学位

大规模MIMO 物理层安全保密容量马尔科夫决策过程值迭代

面向部分可观测环境的值迭代深度网络模型研究

近几年来,深度强化学习已经成为人工智能领域的一个新的研究热点。目前,深度强化学习已经成功应用于游戏策略、机器翻译、文本生成......

学位

强化学习深度学习部分可观测马尔科夫决策过程值迭代

POMDP基于点的值迭代算法中一种信念选择方法

该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生......

期刊

POMDP 值迭代基于点的算法信念选择不确定性

SHP-Ⅵ:一种基于最短哈密顿通路的POMDP值迭代算法

基于试探(trial-based)的值迭代算法是求解部分可观察Markov决策过程(partially observable Markov decision process,POMDP)模型......

期刊

部分可观察Markov决策过程值迭代基于点的算法基于试探的算法哈密顿通路

基于循环卷积神经网络的POMDP值迭代算法

基于卷积神经网络的部分可观测马尔科夫决策过程(POMDP)值迭代算法QMDP-net在无先验知识的情况下具有较好的性能表现,但其存在训练......

期刊

部分可观测马尔科夫决策过程值迭代卷积神经网络循环卷积神经网络智能体规划 Partially Observable Markov Decision Pro

基于强化学习的倒立摆控制问题研究

倒立摆控制系统是一种不稳定,高阶,多变量,强耦合的非线性系统。传统的控制方法,如PID控制,控制效果一般。在本文中,我们将强化学......

期刊

倒立摆强化学习非线性系统最优控制值迭代 inverted pendulum reinforcement learning non-linear syst

一种基于性能势的无折扣强化学习算法

传统基于性能势的学习算法能获得马尔可夫决策问题的最优策略。这些算法主要采用单路径采样的方法，使得学习算法效率不高。将性能势......

期刊

强化学习性能势无折扣值迭代 reinforcement learning performance potential undiscounted

基于拓扑序列更新的值迭代算法

提出一种基于拓扑序列更新的值迭代算法,利用状态之间的迁移关联信息,将任务模型的有向图分解为一系列规模较小的强连通分量,并依......

期刊

强化学习值迭代拓扑序列 VI-TS reinforcement learning value iteration topological sequence

基于一阶信念点的一阶POMDP值迭代算法研究

主要研究一阶部分可观测马尔可夫决策过程的近似求解方法。给出了一阶信念、一阶信念粒度、流关键度的概念;提出了基于流关键度的......

期刊

一阶部分可观测马尔可夫决策过程(POMDP) 一阶信念状态粒度归结值迭代 First Order-Partially-Observable Markov D

基于强化学习的值迭代算法

强化学习（Reinforcement Learning）是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回......

期刊

强化学习值迭代格子世界 reinforcement learningvalue IterationGridworld

基于强化学习的卫星通信智能抗干扰决策

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们......

会议

强化学习值迭代智能抗干扰卫星通信

SHP-VI:一种基于最短哈密顿通路的POMDP值迭代算法

基于试探（trial-based）的值迭代算法是求解部分可观察Markov决策过程（partially observable Markov decision process,POMDP）模型的一......

期刊

部分可观察Markov决策过程值迭代基于点的算法基于试探的算法哈密顿通路

POMDP基于点的值迭代算法中一种信念选择方法

部分可观察马尔可夫决策过程（POMDP）是描述不确定环境下进行决策的数学模型．基于点的值迭代算法是求解POMDP问题的一类近似解法．针对基......

期刊

POMDP 值迭代基于点的算法信念选择不确定性

基于数据的ADP离线值迭代算法和在线Q学习算法研究

自适应动态规划方法是求解非线性系统最优控制的一种有效控制方法。在被控对象的内部动态特性已知的情况下,自适应动态规划的值迭......

学位

自适应动态规划在线训练离线训练策略迭代值迭代 pH值优化控制

基于函数逼近的冗余值迭代算法

针对值迭代算法存在算法收敛不稳定及收敛速度慢的问题,文中提出改进的基于函数逼近的冗余值迭代算法.结合值迭代算法与贝尔曼冗余......

期刊

强化学习值迭代函数逼近梯度下降贝尔曼冗余

基于SARSA算法的水库长期随机优化调度研究

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清......

期刊

水库调度随机动态规划强化学习值迭代 SARSA

基于值迭代的自适应动态规划的收敛条件

研究了应用于离散时间非仿射非线性系统的基于值迭代的自适应动态规划的收敛条件,指出了迭代性能指标函数初始化为半正定函数可保......

期刊

自适应动态规划值迭代收敛

一种基于自适应动态规划的协同优化算法

采用值迭代的自适应动态规划的收敛条件是迭代性能指标函数初始化为任意半正定函数.根据此收敛条件,本文研究了迭代性能指标函数的......

期刊

自适应动态规划值迭代协同优化

精馏过程的新逐板计算法——(I)多元精馏过程的操作型计算

本文应用迭代数学理论提出了一个适用于理想系统和与之相近的轻烃系统的多元精馏操作型计算的新逐板计算法.它将整个迭代过程重组......

期刊

操作型计算值迭代平行的加料板物料衡算精馏过程重组分

基于“平均值迭代法”的企业目标管理

<正>如果将底线管理说成企业经营的支撑力,保证组织基本业务要求或经济技术指标,也就保证企业经营的基本品质;那么"平均值迭代法"......

期刊

企业目标管理值迭代德鲁克

基于点的POMDP算法的预处理方法

基于点的算法是部分可观察马尔可夫决策过程(partially observable Markov decision processes,简称POMDP)的一类近似算法.它们只......

期刊

POMDP 值迭代基于点的算法预处理基向量

基于策略迭代和值迭代的POMDP算法

部分可观察Markov决策过程是通过引入信念状态空间将非Markov链问题转化为Markov链问题来求解,其描述真实世界的特性使它成为研究......

期刊

部分可观察Markov决策决策算法智能体值迭代策略迭代

基于马尔可夫决策过程的群体动画运动轨迹生成

近些年来,群体动画在机器人学、电影、游戏等领域得到了广泛的研究和应用,但传统的群体动画技术均涉及复杂的运动规划或碰撞避免操......

期刊

群体动画马尔可夫决策过程运动轨迹值迭代

在体域网中基于Q值迭代的强化学习动态频谱分配策略研究

本文提出了一种在无线体域网(Wireless Body Area Networks,WBANs)中,基于强化学习的动态频谱分配方案。我们使用强化学习中基于Q......

期刊

动态频谱分配体域网信道分配值迭代强化学习策略研究

看过本文同时还关注