【摘 要】
:
强化学习问题通常可以构建为马尔科夫决策进程,是一种序贯决策问题。强化学习中,智能体通过与环境不断交互,并从中获取奖赏来进行自主学习。近几年,强化学习与深度学习、元学习等结合形成的新算法在人工智能领域十分流行。然而,强化学习中一直以来都存在一个重大的挑战,探索与利用的平衡,这二者之间的平衡对于算法的性能有很大的影响。针对这一问题,本文提出了多种权衡探索与利用的强化学习算法,并分别在深度强化学习和元强
论文部分内容阅读
强化学习问题通常可以构建为马尔科夫决策进程,是一种序贯决策问题。强化学习中,智能体通过与环境不断交互,并从中获取奖赏来进行自主学习。近几年,强化学习与深度学习、元学习等结合形成的新算法在人工智能领域十分流行。然而,强化学习中一直以来都存在一个重大的挑战,探索与利用的平衡,这二者之间的平衡对于算法的性能有很大的影响。针对这一问题,本文提出了多种权衡探索与利用的强化学习算法,并分别在深度强化学习和元强化学习中进行研究和分析。主要研究内容可以概括为以下三个部分:(1)经验重放机制是深度强化学习中一种重要技术,在提高样本利用率的同时,还提升了算法稳定性。但是在传统经验重放机制中,使用先进先出方法来保留替换新旧样本,随着训练过程的进行,后期经验池中的样本会集中于环境某一局部空间,前期部分样本被替换后无法恢复,由于神经网络的过拟合特性,导致灾难性遗忘问题的出现。从而使得智能体只能利用局部样本,缺乏对整体空间的探索,最终导致算法性能下降。针对该问题,利用蓄水池采样方法,本文提出了一种基于梯度惩罚项的双经验池框架。该框架将原始经验池分为两个,根据动作性质将样本分为探索性质样本和利用性质样本,分别存储在对应经验池中,本文提出一个自适应调节的采样比来控制训练样本的分布,进一步提高智能体对样本的利用率。同时加入梯度惩罚项,防止新旧策略偏差过大引起的性能下降,使得智能体进行有效探索,该框架可与深度强化学习算法相结合,有效缓解灾难性遗忘问题,并提升算法的泛化性能。(2)在强化学习中策略的更新主要依赖于奖赏函数的设置,智能体根据环境所给的奖赏值来进行决策,从而快速适应环境学习到最优策略。但是,在复杂环境或奖赏值较为稀疏的环境中正向奖赏值难以获得,智能体从环境中无法获取可利用的信息来进行自主学习。因此利用无奖赏函数的思想,在上述双经验池框架中引入一个动作值评估网络,使得智能体可以有效利用环境信息,快速学习到最优策略。此外,最优策略的学习需要对整个环境进行探索,因此引入一个探索偏置项,引导智能体在复杂环境中可以更好地进行探索,从而发现环境中潜在奖赏值最大的状态,进一步最大化累积回报。通过结合动作值评估网络和探索偏置项,在更为精准评估当前动作价值的同时,还提高了算法性能。(3)元学习与强化学习的结合,使得强化学习智能体在处理一系列相似的强化学习问题时,可以利用早期学习到的知识快速适应新任务,并只需从新环境中收集少量数据通过元策略微调就可以很快学习到最优策略。其中如何利用已学知识来指导智能体进行有益探索十分重要。因此将上述双经验池框架嵌入到元强化学习算法中,从双经验池中采集样本训练一个元智能体,用于指导智能体更好地探索与利用,从而使得最终生成的策略可以很好地处理新任务,提高算法的泛化性能。
其他文献
研究目的:肿瘤传统治疗方法(如手术治疗、放射治疗以及化学药物治疗等)存在术后复发以及术后患者生活质量下降的风险,且磁共振成像因其对比剂在体内循环时间短难以实现对机体的长期监测。因此,研发一种安全、有效的肿瘤诊疗制剂对提高肿瘤治疗效果和长期监测肿瘤发展具有重要意义。近些年研究发现极小尺寸的氧化铁纳米粒具备成为磁共振成像T1对比剂的能力,同时这一类含铁复合材料与临床常用磁共振成像对比剂马根维显(Gd-
<正> 1925年生于河北省宁河县,1950年拜师学习中医,1955年取得中医针灸医师合格证书,1963年毕业于哈尔滨医科大学。现任哈尔滨医科大学附属第一医院针灸科主任、主任医师,黑龙江省针灸学会常务理事兼秘书长,中国康复学会黑龙江分会理事,哈尔滨市针灸研究所研究员,蒙罗维亚中国成龙中医针灸主任(利比里亚)。早年拜师于姬天枢、与士今门下。曾进修于中国中医研究院受教于董德懋、赵尔康、李志明。他善于中
随着移动互联网的飞速发展,我们已经步入了信息爆炸的时代,平台通过互联网提供种类丰富的服务(如购物、视频、新闻等),而多样的服务也带来了“数据过载”的问题。如何从海量的数据中挖掘有效的数据亟待解决,推荐系统应运而生。推荐系统的主要目标是根据用户与物品的交互信息学习用户的兴趣偏好,根据用户的兴趣个性化推荐物品。但推荐系统始终面临着数据稀疏和冷启动问题,通过引入用户和物品的特征能在一定程度上缓解上述问题
光固化快速成型是将紫外光照射到光敏树脂表面,使其连续固化并逐层叠加成实体零件。本文采用8.9寸的2K液晶显示屏(LCD)作为选择性透光设备,可用于小批量制造工业装配件、医疗牙具和动漫手办等。该成型方式的效率与质量难以协调是制约其发展的主要因素,本文通过解构其成型流程,在各环节提出二者的调和策略。主要研究内容如下:(1)使用了大尺寸LCD作为选择性透光设备并将紫外光功率增加到120W。在机械关键部件
目的:探讨日间高碳酸血症对阻塞性睡眠呼吸暂停低通气综合征(OSAHS)患者记忆力和执行功能的影响。方法:前瞻性收集2019年8月至2020年11月因打鼾于苏州大学附属第二医院睡眠中心就诊的患者,纳入符合入排标准的OSAHS患者123例,详细收集所有患者的基本信息、一般临床资料,检测日间清醒状态下经皮二氧化碳分压(PtcCO2),并行记忆力和执行功能评分,以及整夜多导睡眠监测(PSG)。记忆力和执行
车联网中的车辆通过广播基本安全消息(Basic Safety Message,简称BSM)来共享车辆及交通相关信息,从而提高交通效率和安全性。专用短程通信(Dedicated Short Range Communication,简称DSRC)协议限制了BSM只能在控制信道(Control Channel,简称CCH)上传输,进而导致了BSM的传输效率较低,影响交通效率及道路安全性。随着车流密度的不
群智感知具有时空覆盖广、成本低、应用场景普适等突出优势,可以高效地实现众多极具吸引力的新型感知应用。然而,这些通过利用群体智慧来解决复杂问题的群智感知应用受到参与用户的异质性、随机性等因素的影响,导致群智感知系统收集的感知数据质量难以保证。因此,如何选择合适的用户完成感知任务以保证任务的感知质量是群智感知应用中亟待解决的重要问题,通过设计合理的激励机制鼓励更多潜在用户参与群智感知任务被认为是保证平
随着电商平台的兴起,网络上产生了大量产品相关的评价信息,对市场调研以及潜在客户购买意向决策具有重要意义。面对海量的评价信息,如何快速挖掘产品性能关键评价,从而生成与产品性能息息相关的问答数据具有极大的研究价值。因此,本文针对大量产品评价数据,通过问题生成模型,挖掘用户最关心的产品性能相关问题。传统的问题生成主要针对问答任务相关数据,采用端到端的深度学习架构模型。而基于产品评论的问题生成,不仅需要考
事件抽取旨在挖掘自由文本中的事件信息,并以结构化的形式呈现。它主要包含四个子任务:触发词识别、事件类型分类、论元识别与事件角色分类,ACE为其提供权威数据集ACE2005,并将前两个子任务统称为“事件检测”。基于数据集ACE2005,本课题主要围绕句子级英文事件检测展开研究。目前,事件检测F1值均能达到70%以上,然而,仍存在些许问题。下面将阐述相关问题及解决方案。问题一:语句中多个事件间联系较弱
命名实体识别旨在从无结构文本中识别出属于预定义语义类型的片段,是信息抽取和自然语言处理的关键问题之一。过去二十年里,命名实体识别技术取得了很多成功进展,但绝大多数的方法需要依赖大量同领域的标注语料。这使得将训练好的模型应用到其它领域时,必须在人工标注的目标领域样例上重新训练模型,否则性能下降剧烈。本文从以下两方面入手,提高目标领域的实体识别性能。一方面,试图从源领域的标注数据中挖掘任务相关、领域无