【摘 要】
:
近年来 ,多 Agent学习已经成为人工智能和机器学习研究方向发展最迅速的领域之一 .将强化学习和BDI思维状态模型相结合 ,形成针对多 Agent的动态协作模型 .在此模型中 ,个体
论文部分内容阅读
近年来 ,多 Agent学习已经成为人工智能和机器学习研究方向发展最迅速的领域之一 .将强化学习和BDI思维状态模型相结合 ,形成针对多 Agent的动态协作模型 .在此模型中 ,个体最优化概念失去其意义 ,因为每个 Agent的回报 ,不仅取决于自身 ,而且取决于其它 Agent的选择 .模型采用 AFS神经网络对输入状态空间进行压缩 ,提高强化学习的收敛速度 .与此同时 ,利用模拟退火算法启发性地指明动作空间搜索方向 ,使其跳出局部最小点 ,避免迭代步数的无限增长 .理论分析和在机器人足球领域的成功应用 ,都证明了基于 BDI框架的多 Agent动态协作模型的有效性
其他文献
利用雷达径向速度、风暴相对径向速度和风廓线产品以及数值预报产品和雨量资料,分析了临沂2008年汛期中最大也是最后一场大暴雨过程中短时强降水发生机制。结果发现:在有利的
工作场所性骚扰案件近些年来越来越频繁的发生,这给广大劳动者带来极大的困扰与危害。随着我国法律制度的完善,许多公民的权益都有切实可行的法律对其予以保护,然则工作场所
<正>网上经常有不少比较中国国内跟美国的奢侈品价格的帖子,比较一致的意见是买奢侈品,欧洲最便宜,美国第二。中国好像是世界上奢饰品卖得最贵的地方。很多人都会有一个疑问,
查阅国内外文献,综述驻高原军人的睡眠状况、影响因素和相关干预措施。对于驻高原军人的睡眠状况多数研究以问卷形式来评价,并得出较一致的结论:驻高原军人睡眠状况较差。影
本文从产前、产中、产后各个环节对滕州市马铃薯产业的发展做了全面的调查分析,发现滕州市马铃薯产业在快速发展的同时也存在一些需要解决的问题,如优良种薯的保障、马铃薯生
刑法中的禁止令指的是对判处管制、宣告缓刑的犯罪分子,人民法院可以根据其犯罪情况,确有必要时宣告禁止犯罪分子在管制执行期间、缓刑考验期限内从事特定活动,进入特定区域、场
当今社会中,拒不支付劳动报酬的现象普遍存在,由此引发了许多恶性社会事件,这些事件的发生不仅严重挫伤了劳动者的工作积极性,并且极不利于社会的稳定发展,因此刑法修正案(八)于2011
美国二三十年代"迷惘的一代"产生的时代背景为第一次世界大战及由此引起的尖锐的社会矛盾和严重的精神危机,是美国小说发展史上一个极其重要的流派,它对整个美国文学乃至西方
在经济全球化高速发展的时代,人们不再是简单地追求经济的利益最大化,而是更加关注环境保护与经济贸易的协调发展。为此,世界各国达成了一系列的环境条约。随着各国环境保护政策
从计算雷击截收面积的逻辑关系出发,以斜坡类建筑和圆顶形建筑两类特殊建筑为例,通过建立相关模型和数学公式,分析计算应从何位置按照何扩大宽度往外偏移能准确地求出截收面