多智能体强化学习中探索策略的研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:dfg4g4354yh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习在智能决策领域的运用十分广泛。随着智能决策向无人设备控制等复杂场景上发展,需要求解集成多智能体、稀疏奖励、多任务目标等特性的马尔可夫决策过程。智能体仅依靠随机策略难以充分探索环境信息,无法正确利用场景奖励,作出正确决策越发困难。亟需增强智能体的探索能力,平衡强化学习算法训练的探索-利用过程。本论文针对完全合作的多任务目标多智能体场景,将探索困难性分解为任务奖励稀疏和探索空间重合两方面。添设探索策略,引导智能体在环境中的探索,提升智能体的综合信息获取。具体地,本论文研究工作主要包括以下三个部分:1.提出多次优策略融合的稀疏奖励任务探索策略。在稀疏奖励任务中智能体实现有效探索困难的问题上,虽然已有引入先验知识的方法,但若知识本身具备次优性,融入知识的同时也会给智能体带来错误的信息。本论文基于奖励塑形理论,将先验知识塑形为环境中的一系列内在奖励点,引导智能体对环境进行全新的探索。同时利用数据分布不一致的多个先验策略,尽可能排除每个策略中的次优部分。算法指引智能体的探索方向,降低需要探索的状态空间,增强场景奖励的利用效率。2.提出智能体任务目标自适应分配探索策略。针对多智能体系统中不同智能体探索空间重合,竞争简单奖励目标的问题,参考智能体角色划分理论,本论文为任务目标和智能体构建匹配度计算算法。在集中式训练阶段调节不同智能体从不同任务目标处获取的奖励,使不同智能体探索到不同的任务目标,学习出不同的策略模型。算法将相似任务目标分配给同一智能体,分化智能体探索的状态空间,提高环境总体探索程度,增强多智能体系统探索的协同性。3.设计无人机群多任务目标多智能体强化学习系统。在上述两种方法的基础上,为无人机群多任务目标虚拟现实仿真环境建模马尔可夫决策过程,设计多智能体强化学习系统。系统允许智能体在虚拟现实仿真环境中,控制无人机群学习各种多任务目标的策略模型,并为算法模型向真实环境迁移提供了方案。在示例任务场景中,本论文所提出的算法策略能够正确引导多智能体系统中每个智能体在环境中的探索。
其他文献
同伴互评作为教育领域呈上升趋势的研究热点之一,经证实对母语学习者和有一定基础的二语学习者的写作具有积极的影响。然而,同伴互评对处于语言学习早期阶段的学生的写作的影响也值得研究。本研究采用过程写作法的加工相关假说及最近发展区理论,以上海某大学28名中国维吾尔族学习者为例,探究了在线英语写作中同伴互评的有效性,并分析了学生的互动模式与文本质量之间的关系。实验设计如下:参与者在学期初进行前测(以个人写作
学位
<正> 沂水师范学校地处沂蒙山区腹地,自48年建校以来,一直是沂蒙山区小学教师的摇篮。伴随社会的发展和教育改革的深化,沂师这所老校也发生了翻天覆地的变化,占地面积已达300余亩,现有47个教学班,在校生2000余人,成为一所在全省范围内规模较大的小教专科学校。
会议
近年来,中国制造业在国际分工体系中遭遇来自发达经济体的立体式挤压,民族地区制造业的高质量发展路径亦遭受内外“双向挤压”困境。为纾困解难,本文利用投入产出法,构建“产业关联-波及效应”理论模型,以广西为例探索各产业间的关联性以及产业对地区经济的波及程度,分析支撑经济发展的基础性产业和未来应重点布局的主导性产业,探明地区制造业发展困境的症结与根源,最后提出“战略-供给-需求”三位一体的民族地区制造业高
期刊
近年来,区块链技术的应用场景日益广泛,例如央行推行的数字人民币、物流信息溯源、非同质化代币(NFT)等都迸发出了强大生命力。以太坊作为第二代区块链的代表,享有数量巨大的受众和去中心化应用。然而在区块链技术改变人们生活方式、造福社会的同时,针对以太坊智能合约的安全攻击事件时有发生,巨额经济损失和信赖危机给区块链和用户带来伤害。与此同时,智能合约安全问题的研究也在不断发展。目前,已涌现出一些表现良好的
学位
在多语语言生态中,英语能够成为一门全球语言、并提高其国际地位和声望离不开英国文化教育协会的全球英语教学推广活动。英语教学中的规划和用心是为了维护英国国家利益,增进他国对英国的了解和兴趣,改善英国和英语的国际形象。因此英国文化教育协会作为语言推广的准官方机构在上世纪三十年代应运而生。尽管提高语言声望并没有在其战略规划中体现,协会的一系列关于语言、教育、文化社会的活动在无形中塑造了良好的语言声望,提高
学位
2019年12月爆发的新冠肺炎疫情席卷全球,对全球各国人民和政府都产生了巨大的考验,而新闻媒体的报道在全球战疫过程中起着至关重要的作用。新闻报道除了基本的向公众传递信息之外,新闻语言对于舆论引导的影响力也不可小觑,而其背后所代表的意识形态也值得深入研究。基于Cap的趋近化理论的空间-时间-价值三维分析框架,本文以美国2019年12月-2021年9月期间在《纽约时报》关于“新冠”的60篇新闻报道为研
学位
目的:分析2019—2021年医院中药注射剂使用及不良反应情况,为中药注射剂在综合性医院的合理用药监测提供参考。方法:从医院HIS系统中调取2019—2021年中药注射剂的品种、数量和金额,并从国家药品不良反应监测系统中查询中药注射剂不良反应(ADR)。统计用药频度(DDDs)、日均费用(DDC)和排序比(DUI)。结果:中药注射剂静脉输液率逐年增加;基本药物金额占比降低;祛瘀剂、清热剂、肿瘤用药
期刊
逻辑转喻是一种特别的转喻,也是一种特别的构式,其中英语逻辑转喻常被视为一种典型的逻辑转喻,一直以来受到很多语言学学者的关注。现存的逻辑转喻研究主要从形式语义学、生成词库理论、语用学、认知语言学、心理语言学和神经语言学等视角,探究逻辑转喻的生成过程、识解机制、影响逻辑转喻识解的因素等问题。其中,针对识解机制的研究主要以词汇为核心,很少将逻辑转喻视为一个构式整体,忽视了逻辑转喻中构式概念和表象之间潜在
学位
目的:探讨和研究中药注射剂不合理用药情况,并且分析实施医嘱审核管理方法后的改善效果。方法:将某医院2021年9月—2022年9月的168例接受中药注射剂治疗的患者作为研究的调查对象,根据中药注射剂治疗患者的入院时间分为对照组和观察组,每组84例。对照组通过常规用药管理流程进行管理。观察组通过针对性安全用药及医嘱审核管理方法进行干预。在分别给予相应的管理措施后分别统计患者的临床用药不合理情况,主要包
期刊
随着现代科学的迅速发展,计算机视觉技术作为人工智能的眼睛,在人类的生产生活中发挥着愈发重要的作用。目标检测作为计算机视觉方向最为关键的问题之一,在人工智能领域有着非常重要的地位。该问题的任务是给定一张包含复杂环境的图像,根据目标的形状、颜色等特征定位每个目标在图像中的矩形框位置,并判断每个目标的所属类别。现有的目标检测方法在理想环境下已经取得了巨大的性能提升和广泛应用。然而在复杂多变的实际场景中,
学位