策略梯度相关论文
随着电动汽车的应用推广,换电站的调度优化逐渐成为研究热点。传统的基于换电需求预测值的调度策略在实际应用中面临着难以适应动态......
深度强化学习主要被用来处理感知-决策问题,已经成为人工智能领域重要的研究分支。概述了基于值函数和策略梯度的两类深度强化学习......
强化学习是一种人工智能算法,具有计算逻辑清晰、模型易扩展的优点,可以在较少甚至没有先验信息的前提下,通过和环境交互并最大化值函......
随着人工智能技术的发展,连续机器人控制在实际应用中的重要性日益增加,受到学术界及工业界的广泛关注。然而,连续机器人控制任务......
图像描述生成是计算机视觉与自然语言处理的交叉任务,该任务的完成需建立在图像理解与抽象推理的基础上,巨大的挑战吸引了越来越多......
裂缝是沥青路面的常见病害,影响行车的安全性和舒适性。及时地发现和修补裂缝可以保证路面的长期使用性能,并能节省维修预算。因此......
推荐算法在一定程度上解决了信息过载问题,但传统推荐模型在挖掘数据特性方面有待改进.为此,结合强化学习方法提出一种融合序列模......
强化学习是机器学习领域的一个重要分支,它通过模拟生命体大脑的学习思维模式来学习行动策略。与传统的学习方法不同,强化学习中的......
针对目前智能车辆模型预测运动控制算法在线求解效率低,以及线性参考模型引起的跟踪精度下降问题,提出一种基于策略梯度的模型预测......
以无线传能网络的节点控制问题为研究对象,针对统一化的节点模型设计一种基于策略梯度的强化学习算法.该算法使用神经网络作为控制......
强化学习领域中策略单调提升的优化算法是目前的一个研究热点,在离散型和连续型控制任务中都具有了良好的性能表现.近端策略优化(P......
提出一种基于强化学习的生成对抗网络(Reinforcement learning-based Generative Adversarial Networks,Re-GAN)能耗预测方法.该算......
人工智能技术近年来迅猛发展,可以轻松提取出自然数据中的特征和内在联系,非常擅长拟合高度非线性关系。因此,人工智能技术被广泛地应......
随着现代信息技术的发展,多智能体围捕-逃逸对抗博弈问题在军事、工业、农业等领域得到越来越多的关注,目前的多智能体围捕-逃逸对抗......
针对多无人机任务决策方法研究中传统优化算法难以在短时间内得到期望结果的问题,基于深度强化学习提出一种无人机多智能体深度确......
随着计算机网络技术的发展和进步,以及服务带宽的不断提高,人们对视频媒体业务的需求也在日益增加,网络视频服务正处于高速发展阶......
水文流量预测技术是一种在水文环境领域,利用水文环境中的气候等特点,实现对河流中的流量预测。其中,GWLF技术的使用非常广泛,这种......
随着大数据的到来,网络用户的规模呈现爆发式增长。面对海量繁杂的网络大数据与千差万别的网络用户,如何从海量数据中精准的推荐给......
天线作为无线电的收发设备,是无线通讯系统中非常重要的一环。随着无线通讯在全球的普及和通讯系统技术的发展,对于天线的性能要求......
近年来,随着四旋翼无人机(简称四旋翼)在航拍、资源勘探、农作物保护等领域的广泛应用,业界对其控制性能和智能化程度的要求也越来......
学位
随着工业现代化进程的快速推进,我国的制造业发展也迈上了新的台阶,工业机器人是当今制造业的重要组成部分,被应用于各种各样的生......
近些年来,作为机器学习领域的重要组成部分之一,强化学习的研究工作取得了极大进展。通过强化学习机理,智能体可以不断学习和得到......
经过漫长的自然选择,四足哺乳动物逐渐进化出能适应复杂环境的肢体。而人类制造的普通履带式、轮式汽车或者机器人却很难在复杂的......
针对某型六自由度(DOF)空间漂浮机械臂对运动目标捕捉场景,开展了基于深度强化学习的在线轨迹规划方法研究.首先给出了机械臂DH(De......
在强化学习中智能体通过与环境交互获得奖励值,更高的奖励值需要更优的策略,但在高维复杂的环境中,传统的强化学习算法交互产生的......
传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出......
近年来强化学习中的策略梯度方法以其良好的收敛性能吸引了广泛的关注。研究了平均模型中的自然梯度算法,针对现有算法估计梯度时......
自适应启发评价(AHC)增强学习结构分别逼近马尔可夫决策过程的值函数和策略函数.策略梯度增强学习能够将随机不确定的马尔可夫决策过......
针对认知无线电网络中认知用户(CR)的机会频谱感知及接入问题,提出了一种基于分布式部分可观测马尔科夫决策过程(Dec-POMDP)的多用户频......
策略梯度作为一种能够有效解决连续空间决策问题的方法得到了广泛研究,但由于在策略估计过程中存在较大方差,因此,基于策略梯度的......
针对深度强化学习在双轮机器人中的应用问题,提出了一种基于深度确定性策略梯度算法的平衡控制方法。首先,该方法将双轮机器人作为......
投资组合管理是金融投资领域最常遇到的问题之一,在给定一组投资组合资产下,投资者把资金按一定比例分别投资于不同资产上,以实现......
深度强化学习通过深度学习提取高维数据特征,结合强化学习算法,在无需预处理输入数据的情况下可以处理复杂的大规模连续状态空间任......
油色谱数据的缺乏和不均衡会导致训练过拟合、模型缺乏代表性、测试集效果不理想等问题,从而难以对变压器的状态进行准确评价。针......
手语是听力障碍者用来交流的语言,它使用肢体动作模拟音节,构成相应词语来进行信息传递。但是,庞大的听障群体和听力正常群体间仍......
目前大多数都是使用以值为基础的Q函数如DQN强化学习算法进行研究,减少了对更加直观的以策略方法为基础的强化学习算法的研究。且......
人工智能这个词已经成为了近年来的热门词汇,而强化学习就是其中一个备受关注的分支。它是一种面向智能体的学习,强调的是智能体经......
结合深度神经网络和强化学习方法的深度强化学习算法在模拟真实场景的任务上取得了令人瞩目的成就。深度强化学习算法利用深度神经......
随着经济的不断发展,企业生产力也随之不断提高。工业4.0和《中国制造2025》的提出,标志着加工制造业开始步入智能化时代。一方面......
自然语言生成是计算语言学与人工智能领域的重要分支。现有的语言生成系统结构冗余、人为参与度较高的问题亟待解决。由于生成对抗......
在排序学习方法中,通过直接优化信息检索评价指标来学习排序模型的方法,取得了很好的排序效果,但是其损失函数在利用所有排序位置......
作为人工智能领域的热门研究问题,深度强化学习自提出以来,就受到人们越来越多的关注。目前,深度强化学习能够解决很多以前难以解......
对增强学习中各种策略搜索算法进行了简单介绍,建立了策略梯度方法的理论框架,并且根据这个理论框架的指导,对一些现有的策略梯度......
在行动者评论家算法中,策略梯度通常使用最大熵正则项来提高行动策略的随机性以保证探索.策略的随机使Agent能够遍历所有动作,但是......
在网络服务系统中,满足业务请求的服务质量需求是系统要解决的主要问题之一。接入控制方法和资源分配策略常用来保证业务的服务质......
针对生成具有明确主题和优美诗意的诗歌问题,将诗歌生成任务转换为两个相关的对抗训练子任务,以门控循环单元实现生成器,改进生成......