【摘 要】
:
传统的Q学习算法是基于单奖惩标准的。基于单奖惩标准的Q学习算法往往不能适应multi-agent system(MAS)面对的复杂变化的环境与状态,相反可能还会制约学习效率。提出的基于多奖
论文部分内容阅读
传统的Q学习算法是基于单奖惩标准的。基于单奖惩标准的Q学习算法往往不能适应multi-agent system(MAS)面对的复杂变化的环境与状态,相反可能还会制约学习效率。提出的基于多奖惩标准的Q学习算法能够较好地适应复杂变化的状态与环境,分阶段完成任务,不同阶段使用不同的奖惩标准,能够快速地完成阶段目标。以三维世界中的围捕问题为仿真平台,增加了围捕的难度和状态环境的复杂性。仿真实验表明,基于多奖惩标准的Q学习算法能够灵活地适应复杂变化的环境与状态,高效地完成学习任务。
其他文献
舞钢市中心大道路堑开挖爆破区地处市区,周围建构筑物繁多、条件复杂,采用大直径浅炮孔平地掏槽和减弱松动爆破,成功实施了一次性起爆,爆破效果良好.给出了该爆破工程的方案
云计算能支持符合特定条件的企业或单位,对更多希望获得更好竞争力的企业,云计算不是一个好的选择。基于服务的体系结构(SOA)虽然有助于企业快速实现系统集成,但随着服务数量的
怎样才能如实反映一款车的真实表现?最有发言权的不是骑上一圈拍几张炫酷照片的"试车手",而是与这款车朝夕相处的车主。有鉴于此,我们在全国范围启动了车主追踪调查计划,针对
为了获得热力耦合作用下相变混凝土能量桩的热-力学特性,建立了其三维数值模型,比较了传统和相变混凝土能量桩热-力学特性的差异,分析了埋管管腿间距及桩体长径比对相变混凝
【摘 要】本文分析加强校园足球教学的意义,针对高职院校校园足球存在的领导不够重视、教师忽略足球理论学习致使专业水平不高、男女性别分布不均等问题,提出对策:改变教学内容和形式,开展丰富多彩的校园足球特色活动;加强理论教学,强化足球文化育人;鼓励女生参与,强化校园足球运动影响力;提升师资水平,以满足校园足球开展的需要。 【关键词】校园足球 足球教学 创新 【中图分类号】G 【文献标识码】A 【文
水土资源平衡是耕地合理开发与利用的前提,为定量评估粮食主产区水土资源平衡关系,促进耕地可持续利用,该研究提出“以水定地”的耕地配置模式,并以三江平原腹地的挠力河流域
针对海洋原位检测的关键问题,对目前分光光度测量系统存在的不足提出了改进方案。选用发光二极管(LED)为光源,光电二极管和精密解调电路为检测器,同时结合微流量泵阀和小体积流通池,降低了系统噪声和功耗,减少了试剂用量。设计了pH测量实验来验证系统性能。结果表明:系统噪声小于0.000 5,一个工作周期的功耗低于90 mWh,试剂用量仅为0.75 mL,满足原位检测的要求。
根据申嘉湖高速公路H8标挖方路段的地形环境、岩石性质以及块度要求,提出几种爆破方案,并进行分析、对比,最终确定采用中深孔爆破方案.对以后类似开挖爆破工程具有重要的参考
作为推动SOA和Web服务向纵深化发展的重要支撑技术,Web服务组合一直在领域研究中占据着重要地位。提出了一种新的启发式Web服务组合算法——HASC算法,该算法分为遍历搜索和回
国家重点工程龙滩电站开始蓄水后,贵州册亨岩架钢筋混凝土双曲拱大桥即将淹没而成为通航障碍,必须拆除。在施工前,桥面到水面12m,按照通航要求,主航道水域需拆除至水面以下5m且在