一种结合演示数据和演化优化的强化学习方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:judehui01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习研究智能体如何从与环境的交互中学习最优的策略,以最大化长期奖赏。由于环境反馈的滞后性,强化学习问题面临巨大的决策空间,进行有效的搜索是获得成功学习的关键。以往的研究从多个角度对策略的搜索进行了探索,在搜索算法方面,研究结果表明基于演化优化的直接策略搜索方法能够获得优于传统方法的性能;在引入外部信息方面,通过加入用户提供的演示,可以有效帮助强化学习提高性能。然而,这两种有效方法的结合却鲜有研究。对用户演示与演化优化的结合进行研究,提出iNEAT+Q算法,尝试将演示数据通过预训练神经网络和引导演化优化
其他文献
2010年Yoon等人提出一种基于椭圆曲线的三要素SIP认证密钥协商协议TAKASIP,但其存在一些攻击。对唐宏斌等人提出的该协议的改进方案使用SPIN进行了分析,发现仍然存在安全漏洞。
利用STEM和EDAX对Sialon晶粒的生长形貌在溶体Z值进行分析发现,不同发育形态六方晶型Sialon晶粒及晶粒内不同位置均具有不同的AI^3+固溶含量,该研究结果表明,根据原料配比中或烧结体中的AI^3+含量来计算Sialon材料的固
证明一类带有阶段结构和空间扩散的三次捕食者-食饵扩散系统在齐次Neumann边界条件下正解的整体性态,应用谱分析方法和构造Lyapunov泛函讨论系统非负平衡解的渐近稳定性。
本文探讨了溶胶-凝胶法制备多晶氧化铝过程中影响胶体性能的因素,成纤方法与工艺参数,热处理工艺制及晶相转化关系等一系列问题。实验得到了以莫来石为主晶相长期使用温度超过1500℃
林产品市场上信息不对称造成了林产品市场低效率,会产生逆选择和道德风险.信息不对称在林产品市场中大量存在,这种存在有深刻原因.从信息经济学和制度经济学的角度对林产品市
研究了5种助磨剂对水泥粉体特性及砂浆强度的影响。结果表明:不同的助磨剂对水泥的细度、流动性、颗粒的粒度组成及分布,尤其是中值粒径3-32μm颗粒的含量、平均粒径、水泥的各
针对当前座舱工效学重要性日益提升,信息量不断增加,机构愈加繁杂等特点,传统的以单个或多个部件为对象进行的人-机布局评价方法,往往造成综合评价的片面性,导致研发周期长,效率低
1测量方法采用静态容积法检定膜式煤气表的基本误差,是将钟罩式气体流量标准装置排出的气体体积值和煤气表指示的气体体积值相比较,按公式δ=(δ1-δp)2+δs2计算误差值.当标
分析了高校图书馆工作人员素养的现状,并指出了图书馆工作人员应有的素养和提高图书馆工作人员素养的措施。
针对人脸识别中的非线性特征提取和有标记样本不足问题,提出了在核空间具有正交性半监督鉴别矢量的计算方法。算法利用核函数将人脸数据映射到高维非线性空间,在该空间采用边界Fisher判别分析(Marginal Fisher Analysis,MFA)算法将少量有类别标签样本进行降维,同时采用无监督鉴别投影(Unsupervised Discriminant Projection,UDP)对大量无标签样本