一种基于生成对抗网络的强化学习算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:ewt43grfdger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对强化学习方法在训练初期由于缺少经验样本所导致的学习速度慢的问题,提出了一种基于生成对抗网络的强化学习算法。在训练初期,该算法通过随机策略收集经验样本以构成真实样本池,并利用所收集的经验样本来训练生成对抗网络,然后利用生成对抗网络生成新的样本以构成虚拟样本池,再结合真实样本池和虚拟样本池来批量选择训练样本,以此来提高学习速度。同时,该算法引入了关系修正单元,结合深度神经网络,训练了真实样本池中样本的状态、动作与后续状态、奖赏之间的内部联系,结合相对熵优化生成对抗网络,提高生成样本的质量。最后,将所提出的
其他文献
针对高放废物地质处置选址与场址评价阶段的信息化建设工作,采用GIS技术、数据管理技术、数据分析技术等,旨在基于地学信息数据模型的构建,建立统一的、一体化的、高度综合的
本文针对美国儿童早期学习与发展最新标准中的"创造力"子目标,对其目标内涵及其连续性发展指标进行系统解读。发现不仅"运用想象""假扮游戏""表达创造性的观点"等是儿童创造
随着我国规模化、集约化畜禽养殖业的快速发展,大量兽用抗生素被广泛用于畜禽养殖业。由于抗生素在动物体中不能完全被吸收,导致畜禽粪便中抗生素高浓度残留,对生态环境和人
住院医师规范化培训是连贯的医学教育过程中医学生向独立行医者转化的必要阶段,其特征是让住院医师在毕业后医学教育的背景下进行有监督的行医行为。随着临床经验的不断积累,
以白条鸡为原料,采用四段式工艺烹制鸡汤,研究电炖锅烹制条件对鸡汤营养成分和感官品质的影响,确定适宜的工艺参数。结果表明,升温速率、高温时间、保温温度和保温时间对汤汁
行政事业单位资产清查,是指各级政府及其财政部门、主管部门和行政事业单位,根据专项工作要求或者特定经济行为需要,按照规定的政策、工作程序和方法,对行政事业单位进行账务
<正>在2016年3月16日—18日中国国际纺织面料及辅料(春夏)博览会上,记者对参展的各家纺织检验检测机构就"互联网+"模式的探索进行了采访。"互联网+":能否从检测延伸到质量监
节水与高值化是稻田生态种养模式的未来发展方向之一。采用农户种养和田间调查的方法,研究了水稻垄栽种养新模式的水稻产量、经济效益以及水分的运动过程。结果表明:与水稻单
<正>昆曲,这个中国艺术领域中诸多典范之作的一员,留给世人太多玩味的话题和研究的空间。往昔昆曲作为研究对象,学者或追其源头,或考其宫调韵律,或评订曲文,或阐释度曲、口法
数学内容通常通过定义、法则、定理、公式等形式表示出来,在中学数学教材中,公式和法则占有很大的部分,因此,如何教好公式和法则就具有重大意义,在此谈几点体会.一、讲清公式