联合随机性策略的深度强化学习探索方法

来源 :信息技术与网络安全 | 被引量 : 0次 | 上传用户:dustfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前深度强化学习算法已经可以解决许多复杂的任务,然而如何平衡探索和利用的关系仍然是强化学习领域的一个基本的难题,为此提出一种联合随机性策略的深度强化学习探索方法。该方法利用随机性策略具有探索能力的特点,用随机性策略生成的经验样本训练确定性策略,鼓励确定性策略在保持自身优势的前提下学会探索。通过结合确定性策略算法DDPG和提出的探索方法,得到基于随机性策略指导的确定性策略梯度算法(SGDPG)。在多个复杂环境下的实验表明,面对探索问题,SGDPG的探索效率和样本利用率要优于DDPG算法。
其他文献
为满足新兴网络业务日益增长的低时延服务需求,同时考虑到网络服务建设过程中愈来愈高的成本问题,提出一种资源高效的时延敏感型服务功能链的部署算法。首先,基于资源优化模
提出一种基于NOR Flash的存算一体模拟乘加电路以及相应的偏置电路,运用NOR Flash工作于深线性区的I-V特性,实现模拟乘累加运算。通过将同一位线、不同字线的两个浮栅管上电
为了提高物联网领域实体识别能力,提出基于XLNet的命名实体识别模型。通过分析物联网实体的语义特征及需求,将物联网领域的感知单元、计算单元、执行单元、消息单元、服务单元、位置单元和观测单元抽象为实体,以此自建数据集。基于XLNet模型构建"XLNet+Bi-LSTM+Attention+CRF"命名实体识别模型,并与其他语言模型作对比分析。实验结果表明,该模型能够更好地挖掘文本信息,提高物联网领域
在尚未研发出有效疫苗前,对潜在感染者和易感者的隔离对于流行病控制而言具有十分重要的意义。研究采用潜伏者具有传染性的SEIR(Susceptible-Exposed-Infected-Recovered)模
To achieve high efficiency of water electrolysis to produce hydrogen (H2), developing non-noble metal-based catalysts with consid-erable performance have been c
针对行人重识别中由于姿势变化、视角改变、遮挡等引起的识别率不高的问题,提出了融合外观特征的行人重识别方法。该方法通过两个网络分支的设计,分别提取行人的全局特征和局部特征,二者融合后得到行人的外观特征。同时结合分类损失和度量学习损失,通过多任务学习策略对两个网络分支进行模型优化。此外,该模型设计了随机擦除算法,在数据集中加入噪声,增强模型的鲁棒性。实验结果表明:融合外观特征的行人重识别方法大大提高了
浮栅器件(Flash)能够将存储和计算的特性相结合,实现存算一体化,但是单个浮栅单元最多只能存储位宽为4 bit的数据。面向Nor Flash,研究了卷积神经网络参数的低位宽量化,对经
针对银行内部各应用系统的账号整合问题,以及为外部第三方应用授权的问题,设计了基于Central Authentication Service(CAS)协议和Open Authorization(OAuth)框架的统一认证授
Lithium- and manganese-rich (LMR) layered cath-ode materials hold the great promise in designing the next-genera-tion high energy density lithium ion batteries.
鞋印是案发现场中常见的物证痕迹,查询比对鞋印图像是重要的刑侦技术。从基于文本和基于内容两个方面出发,综述鞋印图像检索的研究进展。针对基于内容的鞋印图像检索,介绍底层视觉特征提取、高层语义学习和检索结果评价等关键技术,以及鞋印图像数据库和鞋印图像检索的应用场景。最后,结合公安刑侦领域的实际需求,探讨鞋印图像检索技术的未来研究趋势。