【摘 要】
:
在强化学习中,一个经典问题是如何解决价值函数对目标进行评估时产生的估计偏差。基于截断式Q学习的方法缓解了行动者评论家算法中出现的过估计偏差,但忽略了来自低估偏差的影响。其次,在使用传统经验回放机制的行动者评论家算法中仍然存在着低效采样导致的缓慢学习。本文主要针对以上问题,对现有算法做出了结合和改进,具体的研究内容可以总结为以下三个方面:(1)目前使用单一估计器进行更新的行动者评论家算法,在计算值函
论文部分内容阅读
在强化学习中,一个经典问题是如何解决价值函数对目标进行评估时产生的估计偏差。基于截断式Q学习的方法缓解了行动者评论家算法中出现的过估计偏差,但忽略了来自低估偏差的影响。其次,在使用传统经验回放机制的行动者评论家算法中仍然存在着低效采样导致的缓慢学习。本文主要针对以上问题,对现有算法做出了结合和改进,具体的研究内容可以总结为以下三个方面:(1)目前使用单一估计器进行更新的行动者评论家算法,在计算值函数估计的时候往往会有比较高的估计值,从而产生过估计偏差,对算法的性能产生负面影响。截断式双Q学习算法在双Q学习的基础上进行改进,成功地缓解了行动者评论家算法中出现的过估计偏差问题。但这种简单使用两个值函数估计中最低值的方法却忽略了低估偏差带来的不利影响。因此,本文提出了一种基于加权平均多估计器的深度确定性策略梯度算法,采用加权平均多重机制,能够在连续控制任务中更精确地评估价值函数,使价值函数更精确地逼近最优值。(2)传统的经验回放机制打破了训练样本之间的独立性,提高了样本的采样效率,但忽略了样本的重要程度。优先经验回放通过为每条样本定义一个优先级,在每次训练时根据优先级抽取样本,从而加快智能体的学习速度。但是,这种优先经验回放算法仅仅使用了目标网络与当前网络一步的差距,忽略了未来差距的重要性。其次,这种方法在深度确定性策略梯度算法中优势不明显。针对以上问题,本文提出了基于多步TD误差的深度确定性策略梯度算法,其能够加快算法的收敛速度,提高算法的性能,并在样本训练次数不足的情况下保持优异的性能。(3)双Q学习利用两个值函数交叉验证来缓解过估计偏差的问题。优势函数一般用来表示一个动作的估计相对于所有动作的平均估计的好坏。基于竞争的深度Q网络利用了优势函数的思想将动作优势和状态值函数估计分离开,仅仅通过修改神经网络的方式使算法的性能大幅提高。因此,本文融合了双Q学习和优势函数的思想,并据此提出了一种基于交叉验证的深度确定性策略梯度算法。该方法在更新值函数网络时,将动作值函数和状态值函数分开进行交叉验证,加快了值函数的收敛,并减轻了过估计偏差对算法的不利影响。
其他文献
光固化快速成型是将紫外光照射到光敏树脂表面,使其连续固化并逐层叠加成实体零件。本文采用8.9寸的2K液晶显示屏(LCD)作为选择性透光设备,可用于小批量制造工业装配件、医疗牙具和动漫手办等。该成型方式的效率与质量难以协调是制约其发展的主要因素,本文通过解构其成型流程,在各环节提出二者的调和策略。主要研究内容如下:(1)使用了大尺寸LCD作为选择性透光设备并将紫外光功率增加到120W。在机械关键部件
目的:探讨日间高碳酸血症对阻塞性睡眠呼吸暂停低通气综合征(OSAHS)患者记忆力和执行功能的影响。方法:前瞻性收集2019年8月至2020年11月因打鼾于苏州大学附属第二医院睡眠中心就诊的患者,纳入符合入排标准的OSAHS患者123例,详细收集所有患者的基本信息、一般临床资料,检测日间清醒状态下经皮二氧化碳分压(PtcCO2),并行记忆力和执行功能评分,以及整夜多导睡眠监测(PSG)。记忆力和执行
车联网中的车辆通过广播基本安全消息(Basic Safety Message,简称BSM)来共享车辆及交通相关信息,从而提高交通效率和安全性。专用短程通信(Dedicated Short Range Communication,简称DSRC)协议限制了BSM只能在控制信道(Control Channel,简称CCH)上传输,进而导致了BSM的传输效率较低,影响交通效率及道路安全性。随着车流密度的不
群智感知具有时空覆盖广、成本低、应用场景普适等突出优势,可以高效地实现众多极具吸引力的新型感知应用。然而,这些通过利用群体智慧来解决复杂问题的群智感知应用受到参与用户的异质性、随机性等因素的影响,导致群智感知系统收集的感知数据质量难以保证。因此,如何选择合适的用户完成感知任务以保证任务的感知质量是群智感知应用中亟待解决的重要问题,通过设计合理的激励机制鼓励更多潜在用户参与群智感知任务被认为是保证平
随着电商平台的兴起,网络上产生了大量产品相关的评价信息,对市场调研以及潜在客户购买意向决策具有重要意义。面对海量的评价信息,如何快速挖掘产品性能关键评价,从而生成与产品性能息息相关的问答数据具有极大的研究价值。因此,本文针对大量产品评价数据,通过问题生成模型,挖掘用户最关心的产品性能相关问题。传统的问题生成主要针对问答任务相关数据,采用端到端的深度学习架构模型。而基于产品评论的问题生成,不仅需要考
事件抽取旨在挖掘自由文本中的事件信息,并以结构化的形式呈现。它主要包含四个子任务:触发词识别、事件类型分类、论元识别与事件角色分类,ACE为其提供权威数据集ACE2005,并将前两个子任务统称为“事件检测”。基于数据集ACE2005,本课题主要围绕句子级英文事件检测展开研究。目前,事件检测F1值均能达到70%以上,然而,仍存在些许问题。下面将阐述相关问题及解决方案。问题一:语句中多个事件间联系较弱
命名实体识别旨在从无结构文本中识别出属于预定义语义类型的片段,是信息抽取和自然语言处理的关键问题之一。过去二十年里,命名实体识别技术取得了很多成功进展,但绝大多数的方法需要依赖大量同领域的标注语料。这使得将训练好的模型应用到其它领域时,必须在人工标注的目标领域样例上重新训练模型,否则性能下降剧烈。本文从以下两方面入手,提高目标领域的实体识别性能。一方面,试图从源领域的标注数据中挖掘任务相关、领域无
强化学习问题通常可以构建为马尔科夫决策进程,是一种序贯决策问题。强化学习中,智能体通过与环境不断交互,并从中获取奖赏来进行自主学习。近几年,强化学习与深度学习、元学习等结合形成的新算法在人工智能领域十分流行。然而,强化学习中一直以来都存在一个重大的挑战,探索与利用的平衡,这二者之间的平衡对于算法的性能有很大的影响。针对这一问题,本文提出了多种权衡探索与利用的强化学习算法,并分别在深度强化学习和元强
<正>从某种意义上说,习近平新时代中国特色社会主义思想之所以具有强大的真理力量、道义力量、实践力量、文明力量,就在于其在马克思主义世界观和方法论上深刻塑造并充分实践了“六个必须坚持”的理论精粹和实践智慧
习近平新时代中国特色社会主义思想的世界观和方法论是中国化时代化的马克思主义世界观和方法论,为全党和全国各族人民提供了科学的世界观方法论、奋进新征程的根本遵循与凝心聚力的思想武器。“六个必须坚持”从哲学层面凝练概括了习近平新时代中国特色社会主义思想的精髓要义,构成了相互联系、内在统一的世界观和方法论,系统阐明了中国共产党人应当坚持什么样的立场观点与方法推进中国式现代化宏图大业,将我们对马克思主义活的