【摘 要】
:
将强化学习与深度学习结合的深度强化学习方法已成为人工智能领域的重要研究方向,目前在各种复杂决策控制任务中取得了举世瞩目的成果。深度强化学习方法结合了深度学习特征表征能力与强化学习通用决策控制能力,不需要复杂监督数据,就能让智能体在环境中进行自主学习。在学习过程中,如何平衡“探索与利用”的关系成为了深度强化学习研究的热点问题。传统深度强化学习算法通常采用一些相对简单且随机的探索策略,致使算法探索效率
论文部分内容阅读
将强化学习与深度学习结合的深度强化学习方法已成为人工智能领域的重要研究方向,目前在各种复杂决策控制任务中取得了举世瞩目的成果。深度强化学习方法结合了深度学习特征表征能力与强化学习通用决策控制能力,不需要复杂监督数据,就能让智能体在环境中进行自主学习。在学习过程中,如何平衡“探索与利用”的关系成为了深度强化学习研究的热点问题。传统深度强化学习算法通常采用一些相对简单且随机的探索策略,致使算法探索效率低下,收敛速度缓慢。本文着眼于大状态离散动作空间与连续动作空间下深度强化学习的探索问题,以最大置信上界探索方法为主线,从探索算法的探索效率、收敛性、平衡探索与利用关系等方面进行研究。主要包含以下三部分:(1)深度Q网络算法是深度强化学习中最常用算法。在该算法中,通常利用一种易于实现的-greedy探索策略使智能体获得更高累积奖赏,然而该策略通常存在盲目探索、收敛性差等问题,致使智能体对环境探索效率偏低。为提高智能体探索效率,使其更充分理解环境,提出一种快速收敛的最大置信上界探索方法-Fast-UCB。在控制类与视频游戏类环境下进行了相应实验,结果表明该算法有效提高了探索算法的收敛性与探索效率。(2)最大置信上界探索方法是一种复杂度低、探索效率高的算法。然而,该方法需对状态进行计数,在大状态空间中,计数操作会浪费大量内存。同时,大状态空间中重复状态数量过少,最大置信上界探索方法不能很好发挥其优势。此外,深度Q网络算法通常用于视频游戏决策,在部分视频游戏中,各个状态间差异不大,这些状态的最优动作可能相同。基于以上分析,提出一种基于感知哈希的最大置信上界探索方法--PHash-UCB。在一些状态差异不大的环境中进行了相应实验,一系列实验结果表明,该方法在高效探索的同时节省了内存资源。(3)确定性策略梯度深度强化学习算法通常使用高斯噪声或奥恩斯坦-乌伦贝克(Ornstein-Uhlenbeck,OU)噪声对环境进行探索。高斯噪声通过高斯分布生成随机噪声,探索效率较低。OU噪声通过维纳过程建立了动作与时间步联系,然而该联系对环境探索作用不大。针对确定性策略梯度算法探索效率低的问题,提出一种基于最大置信上界的多行动者探索框架-MActor-UCB。在连续动作控制环境中对该框架进行验证,实验结果表明,利用该框架后智能体的探索效率得到了显著提高。
其他文献
2019年我国遭受新冠疫情的影响,许多小微企业的风险承受能力一般,没有大中型企业或上市公司应对风险能力的机制及相应有效的应对措施,小微企业在疫情后的生存环境已发生实质性的变化,银行对小微企业的信贷风险管理也随着疫情的发生而发生改变,小微企业一直以来都是我国经济总量、税收、就业乃至创新中的主力,银行机构也开始重视小微企业客户群体,致力发展小微企业信贷业务。N银行是SZ市较早开展小微企业信贷业务的银行
山核桃(Carya cathayensis Sarg.)是胡桃科山核桃属中的一种重要的经济林植物,不仅能带给产区农户巨大收益,山核桃叶也具较高的药用研究价值。近年来,山核桃的叶部出现病斑,造成树势衰弱,山核桃的产量与品质降低。但目前有关山核桃叶部病害的情况却少有详细的报道。本研究对采自浙江临安和安吉的山核桃叶片的病斑进行了病组织的分离,对分离纯化得到的菌株分别接种到离体和山核桃活体幼苗的叶片上,以
小微企业受其自身经营特点、业务范围的制约,在商业银行授信过程中,往往存在多种信贷风险因素。商业银行如何对这类信贷风险进行识别,有效评估并提出有针对性的信贷风险控制策略,对优化商业银行的信贷业务具有重要的指导作用和意义。自2019年开始A银行小微企业信贷规模猛增,信贷风险随之增加。A银行信贷风险产生于信息不对称、小微企业自身问题、银行员工业务素质、抵质押物风险等因素。A银行作为城市商业银行,规模小,
山核桃(Carya cathayensis Sarg.)营养物质丰富,已成为林农的主要收入来源,但在生产过程中出现干腐病、根腐病等病害。类甜蛋白(Taumatin-like proteins,TLPs)是参与植物病原菌防御过程的重要蛋白,但在山核桃中发挥何种功能尚未可知。本文结合多种手段对该基因家族的功能进行了研究。主要研究结果如下:(1)山核桃CcTLP家族含有40条基因,系统发育分析显示这些基
近年来,越来越多的小微企业逐渐上升为支撑国民经济稳定增长的重要力量,国家将更多的政策和资源向小微企业倾斜,这对商业银行的信贷风险管理水平提出了更高的要求。虽然S银行在发展之初就一直坚持支持和服务小微企业,但由于早期发展过程中风险防控能力不强,出现过较大的信贷危机,因此S银行这些年在信贷风险政策上趋于谨慎,表现形式体现在担保方式过于单一、逐年增加抵押贷款比重、谨慎介入商圈业务。虽然S银行开始重视针对
当前,因不良的医患互动导致的医患纠纷事件的数量居高不下。但医患平等协作正逐步成为人们的普遍共识,而医学人文领域叙事医学的出现与医务社工专业力量的发展则共同为医患互动的改善提供了新的方向。本研究以M医院的血液肿瘤科为研究场域,采用半结构式访谈、参与观察及文本分析等方法,对临床科室内医患互动的实际情况以及医务社工介入医患共建模式的实践过程与效果进行调查分析,并通过转录文字、归纳编码提炼出概念并建立论证
近些年,我国大力发展普惠金融,国家层面制定了完备的精准扶持政策,银行层面加大了普惠金融政策落地实施力度,在此背景下小微企业信贷业务逐渐成为银行信贷业务新的利润增长点和竞争优势所在。然而在普惠金融大力发展小微企业经济的形势下,由于小微企业自身的特殊性,“高信贷风险”逐渐成为银行小微信贷业务高质量发展的掣肘,因此如何解决小微企业金融业务快速发展与信贷风险矛盾是保证商业银行信贷业务健康可持续发展的关键。
目的既往缺血性脑卒中发作是围术期脑卒中的重要危险因素,有研究表明高氧可能会损害脑卒中患者的脑血管功能,血栓素和前列环素失衡是形成血栓的重要机制。本研究拟通过观察不同吸入氧浓度干预对既往缺血性脑卒中发作行腹部手术患者的血栓素和前列环素变化及围术期脑缺血发作情况,以期为该类患者手术时吸入氧浓度的选择提供参考,优化患者预后。方法本研究为前瞻性、单中心、随机对照研究,纳入228例既往有缺血性脑卒中病史择期
《中华人民共和国专利法》于2021年6月1日生效。为了解决先前专利许可转化率不高、实施率不高等问题,本次修改引入了专利开放许可制度。但是开放许可的规定仍然存在一定的疑问。问题包括如开放许可下各方主体具有什么样的地位、专利权的以生效方式发生效力、许可激励政策政策的适用条件、开放许可纠纷的解决方式等。首先,本文以开放许可的制度比较为标准,结合制度探讨,剖析了开放许可的申请、授权、撤回、激励政策等方面,
随着科学技术与现代经济的迅猛发展,人们对能源的消耗日益增加,温度不断攀升气候不断恶化,已经在全球范围产生巨大影响。针对碳排放可操作性控制越来越受到世界各国的关注,高校作为师生各种活动主要集聚的场所,对全球低碳发展和应对气候变化起到关键作用,学术界也逐渐认识到高校在低碳发展中的作用。目前国内外对低碳校园规划的研究侧重于提出低碳调控政策与制定相关实施计划,对校园中的复合生态系统的量化分析有所欠缺。所以