马尔可夫决策相关论文
针对拒止环境中多导弹系统易受到恶意干扰而导致弹间链路可用性和传输时效性降低的问题,提出了一种基于多智能体深度确定策略(Multi-......
针对共享单车的调度问题,考虑预算限制、用户最大步行距离限制、用户时空需求以及共享单车分布动态变化的情况下,提出一种用户激励下......
由于现阶段已有方法未能对流式文档数据进行排序,导致传输时延增加,流式文档数据正确接收率和生命周期减少,提出一种基于排序学习......
近些年,差异化服务在实践过程中已经很常见。尤其,随着市场竞争越来越激烈,零售商对于供应商库存服务提出了更高的要求。因此,供应......
由于计划生育人口政策以及生活成本增高的影响,我国人口出生率下降,社会老龄化趋势日趋严重。与此同时,老年人随着年龄增长身体健......
伴随着新一代人工智能浪潮的到来,机器人技术不断推陈出新,机器人的应用也越来越广。服务机器人作为与人关系最密切的机器人,给人......
“穿越沙漠”游戏是一款综合考虑资金、资源、天气、时间、博弈等多种因素在内的复杂策略游戏.文章将基于图论与马尔可夫决策有关......
文章通过深度强化学习的方法来寻求二进制线性编码的有效解码策略.在加性高斯白噪声的条件下,将置信传播(BP)解码算法中软信息的迭......
设计了一种包含了时间影响因素的SVDPP算法,该算法先构建得到用户-电影—评分之间的相互关系,并把该关系映射至马尔可夫决策过程,......
本文主要研究了在室内场景中使用多台无人机设备对受害者进行合作搜索的问题.在室内场景中,依赖全球定位系统获取受害者位置信息可......
脉象识别是中医诊断的重要手段之一.长期以来,依据个人经验进行的脉诊制约了中医的推广与发展.因此,利用传感设备进行脉象识别的研......
以最小化平均消耗功率为目标,提出了一种具有多媒体服务质量保障的用户调度和功率分配机制.每个用户维持一个用于存储多媒体数据包......
基于无线网络的各项应用业务已随着无线网络的普及而日益渗透到我们的生活中,然而无线设备有限的功率资源限制了其在更多的应用业务......
移动中继系统区别于固定中继系统的一个重要特征是信道随时间快速且剧烈的变化,这会对系统产生正反两方面影响:一方面多径传输和严......
随着锂电池技术的发展不断发展,锂离子电池的应用前景也越来越广阔,但是受到电池制造技术和电源管理系统的技术制约,锂电池需要大......
近几年来,强化学习和学徒学习作为机器学习的两个子领域得到了极大的发展。在目前的强化学习技术中,报酬函数的自动构建是迫切需要......
部分可观察马尔可夫决策过程(POMDPs)以其丰富而灵活的数学模型,被广泛应用于各种贯序决策问题,成为最近研究比较热的决策模型。但其......
分层强化学习,如Option、MAXQ等,通过引入抽象机制来解决大规模系统的“维数灾”问题,并具有加速策略学习的功能。Option算法是运......
近年来,用户需求呈现爆炸式增长,不同应用程序对计算需求也越来越大,时延要求越来越高。传统的集中式云计算虽然有充足的计算和存......
电力基础设施作为社会各行各业发展的基础条件,保障其安全可靠运行是十分重要的。近年来,具有高随机性和破坏性的极端灾害事件的频......
学位
对具有马尔可夫特性需求的多阶段库存系统,本文建立了有限期马尔可夫库存模型并给出DP算法。结果证明按照上述策略进行订购,既能......
针对现有再励学习策略在群体对抗环境中,收敛速度慢,无法动态改变学习步伐,难以准确收敛至最优点的问题,本文提出了一种基于角色跟踪的......
IP网络诞生至今已有半个世纪,它对全球经济与社会的发展起到了极大推动作用。随着IP网络规模的扩大、承载业务趋于多元化、服务质......
设备管理是指将管理、金融、经济、工程和其它方法综合运用于物理设备,以求用最有效的方式提供所需的服务水平.将设备管理的概念应......
牵引供电系统是铁路系统的重要组成部分,具有重要的地位与作用。随着健康管理(PHM)与状态维修(CBM)的逐渐引入与推广,对高速铁路维......
本文主要是研究离散时间马尔可夫决策过程最优平稳策略的灵敏度分析及其应用。 全文主要内容由理论基础和实例应用两部分组成。......
现代社会经济发展迅速,推动了IT行业的发展。IT技术的发展让计算机系统和计算机网络在人们工作和生活中应用越来越广泛。对计算机......
近年来,随着易腐商品保鲜技术的成熟以及电子商务环境下的双渠道销售模式的发展,易腐商品的销售策略及其保鲜投入问题的研究受到愈来......
介绍了输电线路除冰机器人的研究现状.针对其工作环境恶劣、不确定因素多的特点,提出了基于马尔可夫决策的行为控制器的设计方法.......
针对移动终端在异构网络环境下,需要在垂直切换过程中进行网络选择的问题,提出一种面向QoS的马尔可夫选择决策算法,通过对算法模型......
基于马尔可夫决策过程理论,将终端直通选择与有限阶段折扣MDP模型相结合,研究网络吞吐量最优化问题。首先利用MDP对终端直通选择进......
得到一类确定型多阶段决策系统的差分方程组模型及该模型稳定解存在的条件并获得稳定解.同时给出该类模型中未知参数的辩识方法.利......
AGV(Automated Guided Vehicle)导航问题是一个连续状态空间问题,直接应用传统表格型增强学习方法存在维数灾难和学习效率低等问题......
介绍了防空作战中的目标分配方法,指出传统方法的不足,并根据防空作战的实际情况,建立了基于马尔可夫决策过程的最优化动态WTA方法......
多UCAV(U nm anned Com bat A ir V eh icle)任务分配是无人机作战决策的重要内容,是一类求解困难的组合优化问题,目前尚无成熟高......
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法,要用Q学习算法来求解有连续状态和决策空间的随机最优控制问题......
对工程项目报价决策进行了研究,通过与以往常规方法相比较,提出了用马尔可夫决策方法来解决如何确定投标价格水平的问题,并结合具体实......
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法。这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合......
This paper investigated how to learn the optimal action policies in cooperative multiagent systems if the agents' re......
讨论了一种用于有限N个阶段随机多目标决策的方法及原理。该方法可用于N阶段随机多目标决策问题,并可得到满意解。......
针对炮兵随行作战时的动态火力目标匹配问题,运用马尔可夫决策理论进行了探索。首先检验了马尔可夫决策理论对动态火力目标匹配的......
本文论述了马尔可夫决策的解析法只能处理一些简单或特殊问题的决策。提出了马尔可夫决策的计算机模拟的方法,并进行了模拟结果的......
本文针对综合利用水库的特点,探讨了径流过程描述及供水可靠性约束,对随机优化调度模型及不同算法进行了对比研究。......
以多层拦截巡航导弹为军事背景,建立了相应的排队决策模型。通过此模型可以对多层拦截找到最优决策,此方法切实、有效,较好地应用......