【摘 要】
:
针对非确定马尔可夫环境下的多智能体系统,提出了一种新的多智能体Q学习算法.算法中通过对联合动作的统计来学习其它智能体的行为策略,并利用智能体策略向量的全概率分布保证
【机 构】
:
中南大学信息科学与工程学院,贵州省高速公路开发总公司
【基金项目】
:
湖南省自然科学基金项目(06JJ50144);国家杰出青年科学基金项目(60425310)资助~~
论文部分内容阅读
针对非确定马尔可夫环境下的多智能体系统,提出了一种新的多智能体Q学习算法.算法中通过对联合动作的统计来学习其它智能体的行为策略,并利用智能体策略向量的全概率分布保证了对联合最优动作的选择.同时对算法的收敛性和学习性能进行了分析.该算法在多智能体系统RoboCup中的应用进一步表明了算法的有效性与泛化能力.
其他文献
我国移动电子商务正处在快速兴起阶段,在行业整体蓬勃发展的同时,许多方面还存在问题,其中最核心的问题就是移动支付的安全问题。移动支付的安全问题主要包括无线网络自身的
室温离子液体是由有机阳离子和无机或有机阴离子构成的、在室温下呈液态的盐。它具有许多优良的性质,是传统有机溶剂的理想替代品,是绿色化学发展的一个重要方向。本论文用氯
政治演说是西方政论体的主要样式,它或以情动人,或以理服人,或以文辞见长,或以逻辑取胜,中国学生常常由于忽视政治演说的文体色彩而在汉译过程中出现失误。本文通过对学生翻
国外物流的发展对我国构建现代物流体系具有启示作用,我国物流正处于由传统物流向现代物流转型的阶段,应当吸收西方发达国家现代物流发展的经验,建设与经济发展相适应、与人
淀粉胶粘剂原料来源广泛,生物可降解,是一种对环境友好的工业产品,本应具备很好的发展前景,然而却因耐水性差,干燥速度慢,流动性小等缺点,使其应用受到限制。为改善上述问题,
注射成型是一种重要的高聚物成型加工方法。据统计,全世界每年注塑制品的产量约占整个塑料制品总产量的30%,其中塑料注射模具的数量又占所有塑料模具总量的50%,注塑成型技术
一个企业的生产经营,薪酬管理是非常重要的要,薪金直接关系到员工自身的利益,对企业来说,薪酬分配科学合理与规范可以有效提高企业员工的积极性,激发员工的工作热情,要是企业
基于珠三角区域大学生就业吸引力评价指标体系,在综合专家意见和抽样调查的基础上,运用AHP法测算区域大学生就业吸引力综合指数,对珠三角区域的大学生就业吸引力进行综合评价
<正>近几年来,经过各地、各部门和社会各界的共同努力,我国应急产业发展速度进一步加快,应急保障能力明显增强,呈现出应急产业与应急能力相互促进的良性循环势头。2011年10月
<正> 对于西方马克思主义文论与美学理论的自觉探讨,在国内以1988年在成都召开的全国首次专题研讨会为标志。90年代中后期进入较活跃的阶段。因有理论原理的"同宗"关系,西方