一种快速收敛的最大置信上界探索方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户：hujinjinliang

【摘要】

：

【作者】

：

敖天宇刘全

【机构】

：

苏州大学计算机科学与技术学院江苏苏州215006;苏州大学计算机科学与技术学院江苏苏州215006;苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006;吉林大学符号计算与知识工

【出处】

：

计算机科学

【发表日期】

：

2022年1期

【关键词】

：

探索最大置信上界长短时记忆混合蒙特卡洛 Q值截断

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

深度强化学习(Deep Reinforcement Learning,DRL)方法在大状态空间控制任务上取得了出色效果,探索问题一直是该领域的一个研究热点.现有探索算法存在盲目探索、学习慢等问题.针对以上问题,提出了一种快速收敛的最大置信上界探索(Upper Confidence Bound Exploration with Fast Convergence,FAST-UCB)方法.该方法使用UCB算法探索大状态空间,提高探索效率.为缓解Q值高估的问题、平衡探索与利用关系,加入了Q值截断技巧.之后,为平衡算法偏差与方差,使智能体(agent)快速学习,在网络模型中加入长短时记忆(Long Short Term Memory,LSTM)单元,同时使用一种改进混合蒙特卡洛(Mixed Monte Carlo,MMC)方法计算网络误差.最后,将FAST-UCB应用到深度Q网络(Deep Q Network,DQN),在控制类环境中将其与ε-贪心(ε-greedy)、UCB算法进行对比,以验证其有效性.在雅达利(Atari)2600环境中将其与噪声网络(Noisy-Network)探索、自举(Bootstrapped)探索、异步优势行动者评论家(Asynchronous Advantage Actor Critic,A3C)算法和近端策略优化(Proximal Policy Optimization,PPO)算法进行对比,以验证其泛化性.实验结果表明,FAST-UCB算法在这两类环境中均能取得优秀效果.

其他文献

基于场景图的段落生成序列图像方法

通过生成对抗网络进行段落生成序列图像的任务已经可以生成质量较高的图像.然而当输入的文本涉及多个对象和关系时,文本序列的上下文信息难以提取,生成图像的对象布局容易产生混乱,生成的对象细节不足.针对该问题,文中在Sto-ryGAN的基础上,提出了一种基于场景图的段落生成序列图像方法.首先,通过图卷积将段落转换为多个场景图,每个场景图包含对应文本的对象和关系信息;然后,预测对象的边界框和分割掩膜来计算生成场景布局;最后,根据场景布局和上下文信息生成更符合对象及其关系的序列图像.在CLEVR-SV和CoDraw-

期刊

生成对抗网络图卷积神经网络场景布局文本生成图像

融入自注意力机制的深度学习情感分析方法

文本情感极性分析是自然语言处理的热点领域,近年来基于中文语料的情感分析方法受到了学术界的广泛关注.目前大部分基于词向量的循环神经网络与卷积神经网络模型对于文本特征的提取和保留能力不足,为此文中引入了多层自注意力机制,提出了一种结合双向门控循环单元(BGRU)和多粒度卷积神经网络的中文情感极性分析方法.该方法首先使用BG-RU获取文本的序列化特征信息,然后使用自注意力机制进行初步特征筛选,将处理后的特征信息导入含有不同卷积核的卷积神经网络;再使用自注意力机制对获得的局部特征进行动态权重的调整,注重关键特征的

期刊

情感分析自注意力机制双向门控制循环单元多粒度卷积神经网络

基于机器学习的编译器自动调优综述

现代编译器提供的优化选项众多,选择何种参数因子、选择哪些选项组合以及以何种顺序应用这些选项成为复杂的问题,其中优化次序问题是最困难的优化问题.随着传统方法的改进(迭代编译结合启发式优化搜索)以及新技术的出现(机器学习),构建一种相对高效、智能的编译器自动调优框架成为可能.文中通过调查过去数十年的相关研究,总结了前人的研究思路和应用方法.首先介绍了编译器自动调优的发展历程,包括早期的手工方法、成本函数驱动的方法、启发式优化搜索驱动的迭代编译、基于机器学习的直接预测以及机器学习驱动的迭代编译方法.然后重点梳理

期刊

编译器自动调优机器学习迭代编译优化择项优化择序

基于DNA链置换的逻辑推理问题研究

基于DNA链置换反应构建了逻辑推理问题的DNA计算模型.在不依托荧光标记技术等DNA实验技术的前提下,利用尽量少的DNA反应链和链置换反应以及构建0-1函数,实现了DNA链的浓度变化与布尔逻辑信号值之间的对应关系,将DNA模拟计算和数字逻辑运算相结合,设计出基于DNA链置换反应的基本逻辑运算“与”“或”“非”的DNA计算模型.利用DNA链置换反应的级联特性,将基本逻辑运算进行任意的组合,形成组合逻辑表达式,以满足不同逻辑推理问题的需求及实现完整的逻辑推理过程.通过实例得到了可满足性问题这一特殊逻辑推理问题

期刊

DNA链置换反应逻辑推理布尔逻辑信号Visual DSD

基于信息传播的致病基因识别研究

基因在生命科学领域的研究中占据着重要地位,而致病基因则是关键重心之一.对致病基因的精准识别可以揭示疾病在分子层面的发病机制,为疾病的预防、诊断及治疗等多个阶段提供强力支撑.准确识别致病基因的关键在于给出基因之间的相似性度量.文中利用复杂网络对生物系统进行建模,并提出了一种带有耗散机制的多源头重启随机游走模型DRWMR来度量基因之间的功能相似程度.首先基于NCBI等生物数据库构建人类基因相互作用网络,并在KEGG的疾病-基因关联数据集上开展实验对已知致病基因进行识别.与SP,RWR和PRINCE 3种现有模

期刊

生物信息学复杂网络信息传播基因功能预测

基于风格感知的无监督领域适应算法

近年来,神经机器翻译的译文质量取得了显著的进步,但是其在训练过程中严重依赖平行的双语句子对.然而对于电子商务领域来说,平行资源是稀缺的,此外,文化的不同导致产品信息表达存在风格差异.为了解决这两个问题,提出了一种基于风格感知的无监督领域适应算法,该算法在互训练方法中充分利用电子商务单语数据,同时引入拟知识蒸馏的方法处理风格差异.通过获取电商产品数据信息构建非平行双语语料,基于该语料以及中英新闻平行语料进行多组实验,结果表明,相比各种无监督领域适应方法,该算法显著提高了翻译质量,较最强的基线系统提高了约5个

期刊

机器翻译无监督领域适应风格感知电子商务

高效计算因果网中的干预

在因果网中,对和积问题因果效果的计算是其首要问题,从有向无环图的角度,研究者们发现每一个因果网都有一个与之对应的贝叶斯网络,干预是因果网的一个基本操作.类似于贝叶斯网络中的剪枝策略,在剪枝掉所有无效结点后,文中设计了一种优化的算法OFDo来计算对因果网中每个结点的完全原子干预.文中接着研究多干预操作,发现多干预操作具有可交换性,并基于多干预操作的可交换性证明了多干预操作的优化计算策略.最后,通过实验证实OFDo计算对因果网中所有结点完全原子干预的效率比目前的算法都好.

期刊

因果网干预无效结点完全原子干预多干预

基于领域适应嵌入的军事命名实体识别

为了解决单一军事领域语料不足导致的领域嵌入空间质量欠佳,使得深度学习神经网络模型识别军事命名实体精度较低的问题,文中从字词分布式表示入手,通过领域自适应方法由额外的领域引入更多有用信息帮助学习军事领域的嵌入.首先建立领域词典,将其与CRF算法结合,对收集到的通用领域语料和军事领域语料进行领域自适应分词,作为嵌入训练语料,并将词向量作为特征与字向量拼接,以丰富嵌入信息并验证分词效果;然后对训练所得的通用领域和军事领域的异构嵌入空间进行领域自适应转换,生成领域自适应嵌入,并作为基础模型BiLSTM-CRF层的

期刊

字向量词向量中文分词领域自适应命名实体识别

基于序列特征融合的蛋白质可溶性预测

蛋白质可溶性在药物设计的研究中起着重要的作用,传统生物实验测试蛋白质可溶性费时费力,因此基于计算方法对可溶性进行预测成为一个重要的研究方向.针对传统可溶性预测模型不能充分表示蛋白质特征的问题,文中设计了一种基于多种蛋白质序列信息的神经网络模型PSPNet,并应用到蛋白质可溶性预测中.该模型首先使用氨基酸残基序列嵌入信息和氨基酸序列进化信息表示蛋白质序列;然后采用卷积神经网络提取氨基酸序列嵌入特征的局部关键信息;其次利用双向LSTM网络提取蛋白质序列远程依赖特征;最后利用注意力机制将该特征与氨基酸进化信息融

期刊

蛋白质可溶性多特征融合深度学习注意力机制

视频隐私保护技术综述

随着视频处理技术的迅速发展及硬件成本的不断降低,监控设备得到了越来越广泛的应用.视频监控普及所带来的隐私问题泄露逐渐成为了研究热点.根据目前视频隐私保护领域的研究现状,将视频隐私保护方法主要分为隐私主体识别、隐私主体保护以及隐私信息管理3个阶段,对每个阶段的算法进行分类概述并分析其优缺点,其中视频区域保护作为视频隐私保护领域的重要组成部分,联系视频编码发展历程对保护方法进行了分析和比较.最后探讨了视频隐私保护领域目前存在的问题并对未来的研究方向进行了展望,为视频隐私保护的相关研究提供了参考.

期刊

视频加密隐私区域提取隐私保护视频编码数据隐藏

一种快速收敛的最大置信上界探索方法

与本文相关的学术论文