【摘 要】
:
使用深度强化学习解决单智能体任务已经取得了突破性的进展.由于多智能体系统的复杂性,普通算法无法解决其主要难点.同时,由于智能体数量增加,将最大化单个智能体的累积回报的期望值作为学习目标往往无法收敛,某些特殊的收敛点也不满足策略的合理性.对于不存在最优解的实际问题,强化学习算法更是束手无策,将博弈理论引入强化学习可以很好地解决智能体的相互关系,可以解释收敛点对应策略的合理性,更重要的是可以用均衡解来替代最优解以求得相对有效的策略.因此,从博弈论的角度梳理近年来出现的强化学习算法,总结当前博弈强化学习算法的重
【机 构】
:
陆军工程大学 指挥控制工程学院,南京 210007
论文部分内容阅读
使用深度强化学习解决单智能体任务已经取得了突破性的进展.由于多智能体系统的复杂性,普通算法无法解决其主要难点.同时,由于智能体数量增加,将最大化单个智能体的累积回报的期望值作为学习目标往往无法收敛,某些特殊的收敛点也不满足策略的合理性.对于不存在最优解的实际问题,强化学习算法更是束手无策,将博弈理论引入强化学习可以很好地解决智能体的相互关系,可以解释收敛点对应策略的合理性,更重要的是可以用均衡解来替代最优解以求得相对有效的策略.因此,从博弈论的角度梳理近年来出现的强化学习算法,总结当前博弈强化学习算法的重难点,并给出可能解决上述重难点的几个突破方向.
其他文献
为了研究具有产能约束的闭环供应链中回收率奖惩机制对制造商合作策略的影响,构建了由单一制造商、零售商和回收商组成的闭环供应链模型,运用Stackelberg博弈理论进行分析.研究发现:当奖惩力度较大时,制造商更倾向于与回收商合作;反之,其合作倾向与产能大小有关.此外,奖惩力度的增大会削弱产能变化对不同合作模式下的回收率等相关决策变量的大小关系的影响,同时也会加剧或缓解不同合作模式在特定产能条件下对消费剩余可能产生的负面影响.
注意力被广泛地运用在卷积神经网络中,并有效地提升了卷积神经网络的性能。同时,注意力是非常轻量的,且几乎不需要改变卷积神经网络原来的架构。提出了基于HardSoftmax的并行选择核注意力。针对Softmax包含指数运算,对于较大的正输入很容易发生计算溢出的问题,提出了计算更安全的HardSoftmax来替换Softmax。不同于选择核注意力将全局特征的提取和转换放在特征融合之后,并行选择核注意力将
开放动态环境下的机器学习任务面临着数据特征空间的高维性和动态性.目前已有在线流特征选择算法基本仅考虑特征的重要性和冗余性,忽略了特征的交互性.特征交互是指那些本身与标签单独统计时呈现无关或弱相关,但与其他特征结合时却能与标签呈强相关的特征.基于此,提出一种基于邻域信息交互的在线流特征选择算法,该算法分为在线交互特征选择和在线冗余特征剔除两个阶段,即直接计算新到特征与整个已选特征子集的交互强弱程度,以及利用成对比较机制剔除冗余特征.在10个数据集上的实验结果表明了所提算法的有效性.
随着制造企业生产自动化程度加深,自动导引车(AGV)成为运输和搬运环节的主角.近年来,制造车间AGV调度主要是建立双目标或多目标函数的优化模型,采用智能优化方法进行求解,其中遗传算法以广度搜索能力强的优势成为当今最常用的算法框架.另外,当今主流的还有混合算法,它使各种算法和算子的优势集中在一起,以得到更好的优化表现.就最新的制造车间AGV调度优化所研究的问题模型进行了归纳和总结,给出了主流的优化结果表现形式,并将求解优化模型主要采用的研究方法分为基于遗传算法框架的算法、其他智能优化方法和其他优化方法三大类
针对传统康复医学卒中后康复训练模式治疗周期长、训练内容枯燥、康复费用过高、医患比例失衡问题,虚拟现实技术辅助康复治疗具有现实意义.进行了虚拟现实在脑卒中患者训练康复应用近十年发文量检索,对虚拟现实运动功能康复训练模式进行了可行性分析.基于虚拟现实在国内外卒中后运动功能康复中的应用进展,对其在康复医学进一步的发展方向进行了展望.
深度学习技术应用到多聚焦图像融合领域时,其大多通过监督学习的方式来训练网络,但由于缺乏专用于多聚焦图像融合的监督训练的标记数据集,且制作专用的大规模标记训练集代价过高,所以现有方法多通过在聚焦图像中随机添加高斯模糊进行监督学习,这导致网络训练难度大,很难实现理想的融合效果。为解决以上问题,提出了一种易实现且融合效果好的多聚焦图像融合方法。通过在易获取的无标记数据集上以无监督学习方式训练引入了注意力
电子病历(Electronic Medical Record,EMR)数据的共享被认为是提高医疗服务质量和降低医疗成本的关键方法.然而,EMR分散存储在各个医疗机构中,这阻碍了数据共享,并使患者的隐私面临风险.为了解决这些问题,提出了一个基于区块链的EMR隐私保护数据共享方案.将原始EMR安全地存储在私有链中,而将关键词索引保存在联盟链中,从而有效降低医疗数据泄露的风险,并保证EMR的不可篡改性.利用布尔函数改进基于密文策略属性的关键字搜索算法,用属性上的布尔公式指定表达性访问策略,有效优化了带宽和通信消
ICMPv6(Internet Control Management Protocol version 6)协议作为IPv6网络运行的基础支撑协议,是IPv6 DDoS(Distribute Denial of Service)攻击防御的一个重要环节.在分析国内外ICMPv6 DDos攻击检测现状的基础上,提出了一种基于信息熵与长短期记忆网络(Long Short-Term Memory,LSTM)相结合的双重检测方法.该方法通过基于信息熵的初步检测能有效识别出异常流量,再进一步基于改进的LSTM网络的深
为使运动员的身体健康得到保障,研究了激光照射对运动损伤康复效果的影响.将不同运动员分为对照组和激光照射组,采用复合激光治疗仪对激光照射组实施不同剂量的激光治疗,采用生物化学法和显微观察法测试SOD活性、MDA含量、骨骼肌蛋白质生成率、羟脯氨酸含量等指标,衡量激光照射对运动损伤的影响.实验证明:52 J/cm2激光照射组的SOD活性、NOS活性、NO含量、SOD/MDA比值、NO/MDA比值与肌纤维结蛋白明显高于静止对照组与运动对照组,骨骼肌蛋白质生成率与羟脯氨酸含量明显高于运动对照组,具有良好的炎细胞抑制
针对骆驼算法(Camel Algorithm,CA)在执行效率低及易陷入局部最优停滞等问题,提出了改进的骆驼算法(Modified Camel Algorithm,MCA).该算法基于骆驼的行进行为,通过在全局位置处引入柯西分布函数进行变异,使得个体受局部极值点约束力下降,提高局部寻优能力,减少原始算法中使用的设置参数的数量,具有较高的计算速度和简化的结构.通过标准测试函数对MCA与CA,乌鸦搜索算法(Crow Searching Algorithm,CSA)和粒子群优化算法(Particle Swarm