多任务联盟形成中的Agent行为策略研究

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户:esshuc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Agent联盟是多Agent系统中一种重要的合作方式,联盟形成是其研究的关键问题.本文提出一种串行多任务联盟形成中的Agent行为策略,首先论证了Agent合作求解多任务的过程是一个Markov决策过程,然后基于Q-学习求解单个Agent的最优行为策略.实例表明该策略在面向多任务的领域中可以快速、有效地串行形成多个任务求解联盟.
其他文献
当使用先进策略整定PID控制器参数时,往往要依赖于系统所辨识的模型,而模型的精度与优化算法的计算效率直接影响到系统的控制效果.本文利用即时学习算法的本质自适应特点(建模数
研究了一系列锐钛矿担载的钒氧化物催化剂的表面性质.X射线衍射和Raman光谱表明,8%V2O5/TiO2催化剂上的V2O5处于单层分散状态.程序升温还原研究表明,单层分散的钒物种较易被还原,而
作文是语文教学的重要组成部分,而作文批改是作文教学中重要的一环。那么如何提高作文批改的效果昵?是不是老师作精批细改后再发还给学生,效果就很好呢?我做过几届学生作文试验:当
针对六自由度并联机器人动力学特点,提出了一种新型分散鲁棒非线性控制方法.与传统PD控制策略和已有分散鲁棒非线性控制方法相比,由于控制律中增加了广义误差的小数幂项,改进后的
2006年6月全国人大常委会修订通过的《义务教育法》规定:普通教育应当接收具有接受普通教育能力的残疾适龄儿童、少年随班就读,并为其学习、康复提供帮助。又规定:学校拒绝接收
介绍了现阶段采用空气分离方法制备氮气和氧气的工艺。在船舶上安装空分装置,以舱室空气为原料,现场制备是解决船舶用氮气和氧气的有效方法。空分法主要有4种工艺:燃烧法、变
文章以问题为导向,通过分析得出浙江自贸试验区油品全产业链发展存在诸多瓶颈,以新加坡石化产业发展经验为案例,得出启示:一要健全制度体系,二要提升要素保障,三要完善基础设
物理学是一门实验科学,在物理学的产生和发展中,物理实验占有领先的地位。马克思说:“理论来源于实践,实践是检验真理的唯一标准”,说的就是物理理论知识来源于实验,实验又用来检验
研究性学习是由学生在一定的情景中发现问题、选择课题、设计方案,通过主体的探索、研究求得问题解决的学习活动。化学课程中的研究性学习主要是以化学知识作为载体,其内容有以
现有粒子群优化存在局部收敛、对可调参数敏感等缺点.基于此,本文提出一种新型粒子群优化算法.首先,通过分析社会个体对其环境的认知规律,简化粒子更新公式使粒子位置的更新仅与粒