基于局部竞争力的强化学习动态集成算法

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:yangsh1967
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习通过最大化累计回报和来解决序列决策问题,近年来深度强化学习将深度学习与强化学习相结合实现了端到端的学习,在自动驾驶、机器人控制等领域均有着广泛的应用,但如何针对具体应用选择最优强化学习模型是亟待解决的问题。集成学习可通过集成一组次优智能体替代寻找最优智能体,已有研究证明集成强化学习系统要优于单个智能体的表现,但这些研究主要集中在静态集成算法上。静态集成算法会偏向于整体表现较好的智能体,忽略了在部分状态有着优秀表现但整体表现一般的智能体。本研究分析了分类与强化学习所面临的序列决策问题的差异性,针对分类中动态集成算法的局限性,提出了基于局部竞争力的强化学习动态集成算法。本研究的贡献如下:(1)考虑到强化学习中无类别标签用于计算准确率,且强化学习延迟回报的特性会使得单步回报难以获得有效信息,本研究提出了多步折扣累积回报和作为智能体局部竞争力的量化标准。(2)考虑到强化学习中所存在的数据相关性问题,频繁更新权重可能导致策略变动频繁、性能下降,本研究提出了动态权重调整方法,其中权重调整的频率及幅度由超参数控制。(3)基于上述的局部竞争力量化标准及动态权重调整方法,首次提出了一种强化学习动态集成算法。当环境返回状态,动态集成算法会根据潜层特征空间的欧几里得距离在验证集中寻找其相似状态子集,根据智能体在相似状态子集上的局部竞争力动态调整集成权重。本研究在三款Atari游戏环境中进行了大量的对比实验,分析了不同游戏环境中超参数对动态集成算法性能的影响,实验结果显示基于局部竞争力的动态集成算法优于静态集成算法及最优基智能体,在Seaquest、Space Invaders和Breakout环境中相比于最优静态算法分别带来了6.08%、17.49%和19.96%的累积回报和的提升。除此之外,本研究还实验分析了状态相似性度量及局部竞争力评估的合理性,实验验证了改进相似状态子集的构成以提升动态集成算法性能的可行性。本研究为强化学习中的集成方法的研究提供了新思路。
其他文献
羊群效应是一种个人选择形成的群体效应,这种个人选择下形成的群体效应很可能会受到相关制度的影响。不同股票市场的羊群效应是否会因为制度的不同而表现各异呢?为了回答这一问题,本文对不同股票市场羊群效应的共性和差异性进行了比较研究。本文的研究有助于监管部门加深对羊群效应的认知和了解,从而尽可能地规避羊群效应带来的危害。首先,基于更广的覆盖面、更强的代表性和更高的活跃度的考虑,本文选择2015年1月1日-2
学位
为了克服部分单一成分的无机半导体材料具有电子空穴对容易复合、低光电转换效率和电化学性能协同性差等缺陷,本论文基于研究无机半导体材料之间的相互复合,进而提高材料之间的光电转换效率和提高电荷交换。因此,通过两种或多种无机半导体材料相互复合来提高单一无机半导体材料的电化学性能和光电化学性能是较为重要的。本论文首先以葡萄糖酸钠为电解液,采用阳极氧化法制备了多色TiO2薄膜,并且研究了不同的阳极氧化条件对其
学位
近年来,随着消费者对产品偏好的迅速变化,产品的类型逐渐增多,产品生命周期逐渐在缩短。因此,企业十分重视产品的研发周期,整个过程充满了不确定性,而产品需求预测结果在新产品的研发方面具有一定的参考性以及指导性作用,在开发过程中,越来越多的公司逐渐将中心转移到预测产品的需求上,以进一步提高其经济效益和市场竞争力。行业的实际应用中,虽然一些传统方法能够对产品进行预测,且主要集中在定性方面,依靠直觉和经验进
学位
自从1998年3月27日,国内首先开始成立封闭式基金即开元基金、金泰基金,再到2001年9月4日,经中国证监会批准,华安基金管理有限公司获准发行华安创新开放式证券投资基金,标志着证券投资基金进入了新的发展阶段,截止到2020年四季度末,根据中国证券投资基金业协会发布的消息,我国的公募基金的资产管理规模达到19.89万亿元,20年左右的时间,基金总规模实现了指数级别的快速增长,这也反应了我国投资者对
学位
严肃游戏是指通过以游戏内容模拟现实场景的方式,让玩家以玩游戏的方式,学习相应的知识技能或解决问题。本文中的玩家智能是指玩家在通关严肃游戏中所体现的解题思维,当游戏问题可以与现实场景相映射时,玩家智能可以被用于求解对应的应用问题。本文将以排课问题为例,对玩家智能进行研究。本文的研究工作是利用玩家数据求解排课问题,主要包括以下两个内容:(1)为了挖掘玩家在游戏过程的解题思维,本文构造了游戏内容与排课问
学位
邻烯基苯酚是生物活性分子的常见骨架,如Ratanhine,Oxyresveratrol。同时,邻烯基苯酚也是重要的合成中间体,可以方便快捷地用于构建药物分子骨架,如香豆素、苯并噁庚因、苯并吡喃等。传统的构建邻烯基苯酚类化合物的方法存在一定不足:原子经济性不高,选择性不好,或使用强酸等苛刻条件导致反应的官能团兼容性不强。为了解决上述问题,我们希望从稳定和廉价易得的原料出发,通过一步反应高效构建邻烯基
学位
西部大开发战略作为我国目前实施的影响范围最大的区域性政策,至今已实行二十年,在促进区域经济发展与缩小地区差距方面有重大贡献。在该政策中,国家对税收方面的优惠做出了明确的规定,尤其是关于所得税方面的优惠——15%的优惠税率至今依然沿用。因此本文以税收优惠政策为切入点,研究西部大开发税收优惠政策对于企业的促进作用。之前关于西部大开发税收政策的研究主要是研究其对地区经济(如经济总量)的影响,或是集中政策
学位
近年来,我国资本市场对外开放力度逐步加大。2020年5月6日,中国人民银行和国家外汇管理局联合发布《境外机构投资者境内证券期货投资资金管理规定》,宣布取消QFII和RQFII投资限额,并简化其资金汇入汇出手续,一系列制度改革使得我国资本市场与世界资本市场联系越来越紧密。本研究的意义在于补充了影响AH股溢价程度的因素,并证实了取消QFII限额这一举动减小了AH股的溢价程度,为后续进行相关研究提供了视
学位
本文以我国基金市场上股票型和偏股型基金为研究对象,分析探讨了不同风险因子调整下的超额收益率对基金的净资金流有着怎样的影响,以及投资者对基于风险因子调整后的超额回报和风险因子所带来的报酬补偿的敏感程度,来尝试探究我国基金市场的参与者在进行基金的申赎决策时,是如何衡量基金经理的主动管理能力的,又是基于哪些因素来挑选基金的。结果表明,从整体来看无论是原始超额收益率,还是CAPM Alpha、FF3 Al
学位
进入21世纪以来,各国贸易联系愈发密切,经济全球化程度的日益加深,数字技术也在不断地发展,跨国企业数量还有规模都得到了极大的增长,世界经济受跨国企业的影响也越来越大。跨国企业在全球各个地区和国家进行资源配置和经济活动,在不同国家或地区时其面对的税率高低不同,在这种情况下,跨国企业倾向于将其利润转移到低税率地区,以期达到全球范围内税负最小化的目标。跨国企业会采取复杂的税收筹划方法来避税,因此各国的税
学位