【摘 要】
:
深度强化学习在于将深度学习的感知能力与强化学习的决策能力相结合,可以直接根据输入进行控制,是一种更接近人类思维方式的人工智能方法。旨在二者结合基础上,研究了一种基
【机 构】
:
西北工业大学电子信息学院,西北工业大学自动化学院
【基金项目】
:
国家自然科学基金(U1609216)资助
论文部分内容阅读
深度强化学习在于将深度学习的感知能力与强化学习的决策能力相结合,可以直接根据输入进行控制,是一种更接近人类思维方式的人工智能方法。旨在二者结合基础上,研究了一种基于深度强化学习的资源调度算法的设计框架。该框架首先利用从网络节点获取的大量先验数据,训练深度学习网络;然后利用强化学习来分配网络资源;接着通过大量的自我对弈,实现基于深度强化学习的价值网络学习。最后,设计实验方案对算法的性能进行了仿真和对比验证,以验证该算法的有效性。
其他文献
本文以向量自回归(VAR)模型为基础,运用在此基础上的Johansen协整检验、格兰杰因果检验、方差分解和脉冲响应分析等技术,综合考察了中美玉米期货市场和国内生猪市场对我国生
对超声波法提取玉米须多糖的工艺进行研究,通过单因素和正交实验法确立的最优提取工艺为超声温度60℃,固液比为30倍,超声时间60min,超声提取4次.超声波法可提高玉米须多糖的
为了实现低频(20Hz—20kHz)正弦波、三角波、方波等类型信号的无失真传输而提出了一种光纤简易传输装置,本装置采用以光波为载波,以光纤为传输介质的系统来实现信号的传输,它
用矩阵方法研究了垄断竞争市场的性质,指出垄断竞争市场的均衡价,就是质量比较矩阵的主特征向量,并在此基础上,分析了生产者实现利润极大化的条件.
“K值”是人口增长的容量极限值,分析影响“K值”的各种因素之间的相关关系,树立从而建立K值简化模型、正确的人口观和发展观.
根据霍尔式倾角传感器的结构与输出 ,设计了其信号处理与数据采集电路 ,并编制了信号采集、数字滤波、通道判断、标度变换等相应的软件 ,使传感器实现智能化
作为创造社文学批评的中坚力量,成仿吾的批评风格在整体上秉承了该社浪漫感伤的美学特征,基于批评思想体系、批评身份和气质风度、以及所置身的批评语境等原因,其批评以感伤
水景是以水为主体的一种风景园林景观类型,它是我国传统风景园林的重要组成部分。受我国传统文化思想和哲学观念的影响,我国风景园林中的传统水景在立意以及布局方面都具有鲜
珠海作为我国著名的旅游型城市之一,曾被评为“中国旅游胜地四十佳城市”之一。珠海的旅游资源非常丰富,蓝天碧海、绿岛白沙,得天独厚的自然资源以及优美的城市环境为珠海发展旅
本文基于高频数据对IPO首日的量价关系进行了实证研究,采用了分组研究以及回归分析的方法。研究发现,IPO首日的价格变化(绝对值)以及价格变化都与归一化交易量有着正相关关系