马尔可夫决策过程相关硕士博士期刊学术论文

马尔可夫决策过程相关论文

基于MDP-ADMM的数据中心储能系统优化运行方法

为了缓解数据中心综合运行成本高、电网侧负荷峰谷差大的问题，提出一种基于马尔可夫决策过程与交替方向乘子法结合的数据中心储能系......

期刊

数据中心储能系统负荷转移特性马尔可夫决策过程交替方向乘子法优化运行

ACAS X系统监视跟踪与冲突解脱模块的研究与实现

机载防撞系统是保障飞行安全的重要组成部分,民航客机已被要求必须安装机载防撞系统。随着飞行环境逐渐复杂化,当今广泛使用的机载......

学位

ACAS X STM TRM 卡尔曼滤波马尔可夫决策过程

一种基于局部线性时序逻辑任务描述的多机器人协同规划方法

本文提出了一种基于局部线性时序逻辑任务描述的滚动时域多机器人协同规划在线合成方法,初步解决了如何在建模为马尔可夫决策过程......

会议

线性时序逻辑马尔可夫决策过程模型检测多机器人协同任务规划

基于强化学习的边缘计算网络资源在线分配方法

针对边缘计算应用对实时性的要求,引入软件定义网络和网络功能虚拟化技术对边缘计算网络进行重构.基于此,考虑以最大化长期平均实......

期刊

边缘计算资源分配实时任务马尔可夫决策过程 Q学习深度强化学习

基于马尔可夫的多功能雷达认知干扰决策建模研究

多功能雷达是现代电磁战场上不可或缺的重要装备，针对多功能雷达的干扰一直是一个难题。本文在研究多功能雷达信号特点和雷达对抗过......

期刊

雷达对抗马尔可夫决策过程雷达状态强化学习 Q-Learning

基于后状态强化学习的最优订单接受决策

随着客户多样化需求不断提升，根据客户对订单的不同需求来组织生产的订单生产型（Make-To-Order,MTO）模式在企业生产活动中越来越重要......

期刊

订单接受强化学习马尔可夫决策过程神经网络后状态

基于深度强化学习的节能工艺路线发现方法

由于传统基于固定加工环境的工艺路线制定规则，无法快速响应加工环境的动态变化制定节能工艺路线。因此提出了基于深度Q网络（deep Q ......

期刊

深度强化学习深度Q网络动态加工环境工艺路线马尔可夫决策过程智能体决策双Q网络启发式算法

基于机器学习的航空器场面滑行路径优化研究

民航业的快速发展为民用航空运输机场带来了大量的起降航班和乘客的同时,影响了民用运输机场的运行效率,增加了机场管制人员的工作......

学位

路径优化最短路径马尔可夫决策过程跑道容量

基于SARSA强化学习的审判人力资源调度方法

为对法官员额资源进行调度优化，平衡司法资源有限和现实司法需求之间的矛盾，该文建立审判人力资源调度优化模型，提出基于强化学习的审......

期刊

强化学习资源调度决策优化贪婪策略马尔可夫决策过程

适用于大规模充电场站的深度强化学习有序充电策略

针对大型充电场站内规模化电动汽车的有序充电问题，提出了一种基于双深度Q网络（DDQN）的深度强化学习的电动汽车充电安排策略，能有效计......

期刊

电动汽车充电场站深度强化学习有序充电维数灾马尔可夫决策过程

基于任务生灭过程模型的边缘计算批处理调度算法分析与设计

移动边缘计算技术为低时延要求、资源敏感的计算任务需求提供解决方案，通过研究任务请求特征以提高调度算法效率是边缘计算的重要研......

期刊

边缘计算生灭过程批处理调度决策马尔可夫决策过程

基于强化学习的雷达干扰资源调度建模研究

在对远程支援干扰飞机雷达干扰资源调度问题具体分析的基础上,基于雷达对抗推演仿真平台,将组网雷达干扰资源调度问题建模为一个带......

会议

雷达干扰资源调度马尔可夫决策过程干扰决策模型 Q-Learning

污水处理精准曝气智能控制方法研究

本文针对污水处理精准曝气过程的智能控制方法进行研究。依靠人工经验的曝气方法存在能源的浪费,为降低曝气能耗,需要对曝气过程进......

学位

污水处理智能曝气案例推理强化学习马尔可夫决策过程

非标机械零部件网上采购平台资源优化调度设计

本文研究非标机械零部件网上采购平台环境下的资源优化调度问题,解决传统的非标机械零部件线下采购中的采购垄断、采购供需间响应......

学位

非标机械零部件静态调度动态调度马尔可夫决策过程

基于自主学习的自动驾驶决策与控制研究

随着全球城市化进程的加速发展,交通安全与拥堵、环境污染等问题日益严重。自动驾驶技术有望解决这些问题,并已成为现代汽车技术的......

学位

自动驾驶深度强化学习马尔可夫决策过程模仿学习

无人机自主引导跟踪与避障的近端策略优化

针对无人机地面动态目标跟踪问题，建立了远距离自主引导与近距离伴飞避障两个阶段的马尔可夫决策过程模型。在此基础上，提出了一种改......

期刊

多旋翼无人机自主引导马尔可夫决策过程近端策略优化长短期记忆

在室人员行为模式对住宅小区供暖系统能耗影响研究

随着我国城镇化的逐步推进和人民对生活舒适度的不断提高,建筑能耗已经逐步成为社会总能耗中不可忽视的组成部分。城镇供暖能耗在......

学位

马尔可夫决策过程人员行为住宅小区供暖能耗能耗模拟

基于模仿学习的机场停机位再分配决策算法

针对机位再分配算法结果难以满足不同操作人员操作习惯的问题，提出一种符合实际业务人员操作习惯的机位再分配推荐算法。首先以航班......

期刊

航空运输停机位分配模仿学习马尔可夫决策过程生成对抗网络

WSN中基于强化学习的能效优化任务处理机制

以提高无线传感器网络中任务处理的能效为目标,提出了一种近似最优化的任务处理机制,无线传感器节点可根据任务缓存区的任务数量、......

期刊

无线传感器网络移动边缘计算马尔可夫决策过程强化学习

控制系统的学习和优化：马尔可夫性能势理论与方法

本文采用性能势理论和方法,研究了动态控制系统的学习和优化的问题。性能势理论是学习和优化领域相当重要的一套理论和方法。基于......

学位

离散事件动态系统马尔可夫决策过程性能势最优控制在线优化

基于深度学习框架的安全帽佩戴检测方法研究

安全帽是各行各业施工现场工作者和高空作业人员必不可少的一种安全防护工具。进入施工现场前通常要求工人必须佩戴安全帽,但是每......

学位

安全帽佩戴检测深度卷积神经网络平均峰值相关能量马尔可夫决策过程

基于马尔可夫过程的有限动态委托一代理模型：折扣准则

本文建立了基于马尔可夫过程的动态委托－代理模型；在折扣准则下，对系统状态空间，代理人可用行动集和委托人可选合同有限的情形进行了模......

期刊

马尔可夫决策过程委托-代理合同最优策略折扣准则

移动边缘计算架构下基于强化学习的无人机路径规划研究

随着智能设备数量急剧增加,终端用户的计算任务需求远超设备本身计算能力。移动边缘计算架构将服务器资源部署在网络边缘侧,可为终......

学位

移动边缘计算强化学习无人机路径规划马尔可夫决策过程

SDN环境下的移动目标防御技术研究与实现

互联网的高速发展给人们带来便利的同时也产生了各种安全威胁,传统的网络架构与防御技术存在的确定性、同构性和静态性缺陷,导致了......

学位

网络安全移动目标防御软件定义网络马尔可夫决策过程博弈模型

基于Actor-Critic框架的策略探索性能研究

强化学习算法是用于解决序贯决策问题的一类算法,与深度学习算法的结合推动了强化学习算法的发展。智能体通过与环境交互,增加对环......

学位

强化学习马尔可夫决策过程策略的探索性能连续动作空间概率匹配嵌套流模型

随机环境下连续时间马氏决策过程

本文主要研究随机环境下连续时间马尔可夫决策过程的最优控制问题.首先我们给出一些条件证明了在有限时间里最优控制策略的存在性;......

学位

马尔可夫决策过程带切换的扩散过程 ψ-松弛控制随机策略

融合序列模式评分的策略梯度推荐算法

推荐算法在一定程度上解决了信息过载问题,但传统推荐模型在挖掘数据特性方面有待改进.为此,结合强化学习方法提出一种融合序列模......

期刊

强化学习马尔可夫决策过程策略梯度序列模式

马尔可夫决策过程和先验控制向量在弱约束自然语言生成中的应用

自然语言生成是目前非常重要且具有挑战性的一类人工智能任务.长短时记忆(Long Short-Term Memory,LSTM)语言模型是目前最为主流的......

期刊

自然语言生成马尔可夫决策过程先验控制向量策略梯度算法深度强化学习

基于逐次超松弛技术的Double Speedy Q-Learning算法

Q-Learning是目前一种主流的强化学习算法,但其在随机环境中收敛速度不佳,之前的研究针对Speedy Q-Learning存在的过估计问题进行......

期刊

强化学习 Q-Learning 马尔可夫决策过程逐次超松弛迭代法自循环结构

基于平均奖励的强化学习算法在离散时间系统最优控制中的应用研究

随着控制理论的日益完善,社会生产对于系统的性能以及控制成本提出了更高的要求,最优控制问题受到了越来越广泛的关注。传统的最优......

学位

离散时间系统最优控制马尔可夫决策过程平均奖励强化学习多智能体系统

基于深度强化学习的微型即时战略博弈的研究与实现

在未来战争中,传统的单兵种、单装备间的对抗将被多兵种、多装备对抗所取代。协同电子对抗利用计算机及通信技术将现有电子对抗系......

学位

马尔可夫决策过程多智能体系统深度强化学习即时战略博弈博弈论

计及用户不确定性的多时段耦合需求响应激励优化策略

需求响应项目的实施过程中，用户对激励的实际响应程度存在不确定性，导致调整电量无法达到预期效果。为减少电力资源的浪费，优化资源配......

期刊

多时段耦合实时激励马尔可夫决策过程需求响应不确定性

基于深度强化学习的医用设备应急调度优化技术研究

针对大型医用设备人工管理效率低、无法满足应急调度需求的问题,文中提出了基于深度强化学习算法的医用设备应急调度优化技术。使......

期刊

医用设备应急调度优化算法深度强化学习马尔可夫决策过程贪婪策略 Tanh函数 DDPG算法

可信工业控制网络系统性能属性测度研究

工业控制网络系统是实现工业生产自动化的关键,是衡量国家工业水平的重要指标。随着物联网、大数据、智能技术的发展,其安全运行已......

学位

可信工业控制网络可生存性可控性安全性连续马尔可夫模型复杂网络马尔可夫决策过程强化学习

基于强化学习的区块链自私挖矿策略

自从于2008年问世以来,比特币就作为首个实现完全去中心化的数字加密货币而受到极大的关注。在比特币网络中,所有用户的交易信息都......

学位

区块链工作量证明自私挖矿马尔可夫决策过程强化学习

基于航行策略学习的船舶航迹预测方法研究

随着海上船舶数量的增加和船舶航速的提高,加强船舶航行的安全和安保管理已成为全球各国的当务之急。在海上交通管理任务中,船舶航......

学位

船舶航迹预测卷积神经网络深度强化学习马尔可夫决策过程

软件定义无线传感器网络拓扑控制算法研究

软件定义无线传感器网络（Software-Defined Wireless Sensor Network,SDWSN）基于软件定义网络（Software-Defined Network,SDN）的解决方......

学位

拓扑控制功率控制能量效率中继选择动态路由马尔可夫决策过程软件定义无线传感器网络

基于深度学习的双机械手抓取检测研究

抓取检测作为机器人智能化的研究重点,目的是让机器人能够像人类一样的对外部环境做出判断,抓取各种各样的物体。但传统的抓取检测......

学位

双机械手抓取检测马尔可夫决策过程卷积神经网络深度图像

基于深度强化学习的多自动导引车运动规划

为解决移动机器人仓储系统中的多AGV无冲突运动规划问题，建立了马尔可夫决策过程（MDP）模型，提出了一种新的基于深度Q网络（DQN）的求解方法......

期刊

多自动导引车运动规划马尔可夫决策过程深度Q网络深度Q学习

一种PEGASUS策略梯度算法的理论及应用

尽管策略梯度增强学习算法克服了值函数增强学习算法不能保证收敛的缺点,但是在梯度估计过程中,方差过大,影响了学习性能。PEGASUS......

会议

马尔可夫决策过程增强学习策略梯度估计 PEGASUS算法无人直升机姿态控制

POMDP中基于内部状态的多agent强化学习

基于部分可观察Markov决策过程(POMDP)的强化学习模型能有效地对动态决策问题进行建模,但精确求解最优策略是PSPACE难题,在直接逼......

会议

马尔可夫决策过程强化学习内部状态多agent系统

基于马尔可夫决策过程用交叉熵方法优化软件测试的研究

软件测试是一种检测软件缺陷，提高可靠性水平的重要手段。证明、检测和预防是软件测试追求的目标，人们可以从不同角度设计软件测试来......

会议

软件测试马尔可夫决策过程交叉熵方法优化测试剖面

基于深度Q网络的在线服务功能链部署方法

针对5G网络资源状态动态变化和网络模型高维度下服务功能链部署的复杂性问题,该文提出一种基于深度Q网络的在线服务功能链部署方法......

期刊

网络功能虚拟化服务功能链马尔可夫决策过程深度Q网络

基于DDPG的冷源系统节能优化控制策略

针对传统冷源系统节能优化方式机理建模复杂,缺乏自我学习能力,优化速度较慢等问题,提出一种基于数据驱动和自我学习机制的冷源系......

期刊

冷源系统强化学习 DDPG算法节能优化控制策略马尔可夫决策过程策略梯度

基于算法经济的即时配送订单最优匹配研究

算法作为当今科技高速发展时代下重要的工具，已经深刻影响了经济市场，推动着社会整体资源结构配置的优化。即时配送是互联网下先进算......

学位

强化学习算法经济即时配送订单匹配问题马尔可夫决策模型资源配置遗传算法贪心算法内在机理马尔可夫决策过程计算速度

基于深度强化学习的电力系统自适应不确定性经济调度

在大规模可再生能源并网的趋势下，风电、光伏等间歇性电源出力的不确定性给电网调度运行带来了挑战。传统调度方法通常建立在对不确......

学位

强化学习电力系统自适应不确定性经济调度问题马尔可夫决策过程梯度算法调度方法求解模式建模状态转移规则约束

基于强化学习的会话型推荐算法研究

在实际场景中，用户的身份标识符通常是不可用的，例如用户在购买商品前以未登陆的状态来浏览电商平台，或者匿名地浏览网页从而保护个人......

学位

强化学习算法会话预测性能推荐系统外部奖励场景智能体 IRN 序列匿名用户马尔可夫决策过程购买意图

基于深度强化学习的家庭能量管理分层优化策略

为实现需求侧最大效益,提出一种能够应对复杂环境的基于深度强化学习(DRL)的分层能量调度方法.首先,构建家庭能量管理系统(HEMS)双......

期刊

家庭能量管理系统需求响应分层能量调度马尔可夫决策过程深度强化学习 Rainbow算法

基于强化学习的推荐研究综述

推荐系统致力于从海量数据中为用户寻找并自动推荐有价值的信息和服务,可有效解决信息过载问题,成为大数据时代一种重要的信息技术......

期刊

推荐系统强化学习深度强化学习马尔可夫决策过程多臂老虎机

基于强化学习的多目标车辆跟随决策算法

为满足自适应巡航系统跟车模式下的舒适性需求并兼顾车辆安全性和行车效率,解决已有算法泛化性和舒适性差的问题,基于深度确定性策......

期刊

自主决策车辆跟随半自动驾驶强化学习深度确定性策略梯度马尔可夫决策过程

看过本文同时还关注