一种结合演示数据和演化优化的强化学习方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：judehui01

【摘要】

：

强化学习研究智能体如何从与环境的交互中学习最优的策略，以最大化长期奖赏。由于环境反馈的滞后性，强化学习问题面临巨大的决策空间，进行有效的搜索是获得成功学习的关键。以往

【作者】

：

宋拴俞扬

【机构】

：

南京大学计算机软件新技术国家重点实验室

【出处】

：

计算机工程与应用

【发表日期】

：

2014年11期

【关键词】

：

强化学习演化算法从演示中学习神经网络 reinforcement learning evolutionary algorithm learning fro

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习研究智能体如何从与环境的交互中学习最优的策略，以最大化长期奖赏。由于环境反馈的滞后性，强化学习问题面临巨大的决策空间，进行有效的搜索是获得成功学习的关键。以往的研究从多个角度对策略的搜索进行了探索，在搜索算法方面，研究结果表明基于演化优化的直接策略搜索方法能够获得优于传统方法的性能；在引入外部信息方面，通过加入用户提供的演示，可以有效帮助强化学习提高性能。然而，这两种有效方法的结合却鲜有研究。对用户演示与演化优化的结合进行研究，提出iNEAT＋Q算法，尝试将演示数据通过预训练神经网络和引导演化优化

其他文献

SIP协议的SPIN模型检测

2010年Yoon等人提出一种基于椭圆曲线的三要素SIP认证密钥协商协议TAKASIP，但其存在一些攻击。对唐宏斌等人提出的该协议的改进方案使用SPIN进行了分析，发现仍然存在安全漏洞。

期刊

TAKASIP协议椭圆曲线SPIN工具模型检测TAKASIP protocolElliptic curveSPINmodel checking

Sialon固溶体Z值是粒状态的相关性

利用ＳＴＥＭ和ＥＤＡＸ对Ｓｉａｌｏｎ晶粒的生长形貌在溶体Ｚ值进行分析发现，不同发育形态六方晶型Ｓｉａｌｏｎ晶粒及晶粒内不同位置均具有不同的ＡＩ＾３＋固溶含量，该研究结果表明，根据原料配比中或烧结体中的ＡＩ＾３＋含量来计算Ｓｉａｌｏｎ材料的固

期刊

固溶体Z值晶粒状态相关性SIALON陶瓷Sialonsoid-solubility

一类带阶段结构的捕食-食饵扩散系统的稳定性

证明一类带有阶段结构和空间扩散的三次捕食者-食饵扩散系统在齐次Neumann边界条件下正解的整体性态，应用谱分析方法和构造Lyapunov泛函讨论系统非负平衡解的渐近稳定性。

期刊

三次捕食者-食饵系统阶段结构反应扩散渐近稳定性cubic predator-prey system stage-structure reaction

溶胶一凝胶法制备多晶氧化铝纤维的研究

本文探讨了溶胶－凝胶法制备多晶氧化铝过程中影响胶体性能的因素，成纤方法与工艺参数，热处理工艺制及晶相转化关系等一系列问题。实验得到了以莫来石为主晶相长期使用温度超过１５００℃

期刊

溶胶-凝胶氧化铝纤维多晶纤维无机纤维solgelaluminafiber

信息不对称对林产品市场的影响及对策

林产品市场上信息不对称造成了林产品市场低效率,会产生逆选择和道德风险.信息不对称在林产品市场中大量存在,这种存在有深刻原因.从信息经济学和制度经济学的角度对林产品市

期刊

信息不对称林产品市场制度安排交易成本林业发展forest productsmarketinformation asymmetry

关于水泥助磨剂助磨效果表征的探讨

研究了5种助磨剂对水泥粉体特性及砂浆强度的影响。结果表明：不同的助磨剂对水泥的细度、流动性、颗粒的粒度组成及分布，尤其是中值粒径3－32μm颗粒的含量、平均粒径、水泥的各

期刊

水泥助磨剂表征产品质量细度粒度组成cementgrinding aidsaidgrinding effectdeline?

飞机座舱人机布局评价方法研究

针对当前座舱工效学重要性日益提升，信息量不断增加，机构愈加繁杂等特点，传统的以单个或多个部件为对象进行的人-机布局评价方法，往往造成综合评价的片面性，导致研发周期长，效率低

期刊

座舱人机布局多属性决策不确定语言ULWA算子人机评价方法cockpit ergonomic layoutmulti-attribute decis

静态容积法检定煤气表基本误差的测量不确定度评定

1测量方法采用静态容积法检定膜式煤气表的基本误差,是将钟罩式气体流量标准装置排出的气体体积值和煤气表指示的气体体积值相比较,按公式δ=(δ1-δp)2+δs2计算误差值.当标

期刊

煤气表检定静态容积法基本误差测量不确定度误差评定

高校图书馆工作人员素养提升之我见

分析了高校图书馆工作人员素养的现状,并指出了图书馆工作人员应有的素养和提高图书馆工作人员素养的措施。

期刊

现状素养措施

基于核正交半监督鉴别分析的人脸识别算法

针对人脸识别中的非线性特征提取和有标记样本不足问题,提出了在核空间具有正交性半监督鉴别矢量的计算方法。算法利用核函数将人脸数据映射到高维非线性空间,在该空间采用边界Fisher判别分析(Marginal Fisher Analysis,MFA)算法将少量有类别标签样本进行降维,同时采用无监督鉴别投影(Unsupervised Discriminant Projection,UDP)对大量无标签样本

期刊

边界Fisher判别分析无监督鉴别投影半监督核空间人脸识别Marginal Fisher Analysis （MFA） Unsupervised D

一种结合演示数据和演化优化的强化学习方法

与本文相关的学术论文