论文部分内容阅读
在计算机科学与认知神经科学的浪潮推动下,算法与深度网络模型在越来越多的任务上接近甚至超越了常人,但仍有很多更大型实际的复杂问题亟待解决。相较于单体,多智能体系统作为具有多个独立执行个体的集群,具有个体结构简单、鲁棒性强、可塑性强等明显优点。其主要通过研究个体间的冲突消解、协调合作、资源抢占等方面,在兼顾个体优化的基础上聚焦如何有效地最大化整体能力。本文就此展开了相关研究,主要对系统内单体的决策优化、实时调度系统优化、多智能体容错调度的策略规划方面进行了研究,具体内容阐述如下:
1)基于无模型元学习法优化的事后经验回放算法。单体执行能力是多智能体系统的基础。在单体的决策优化中,常规的强化学习算法主要擅长在已知可行的策略上迭代改进。对于具有稀疏奖励的复杂任务,算法难以在“探索”和“利用”之间做到充分权衡,从而导致收敛慢或训练陷入局部最优。针对这一问题,本文提出了基于无模型元学习法优化的事后经验回放算法。事后经验回放算法通过记录中间状态,增加了算法的“探索”能力;而无模型元学习法的训练方式可充分利用所探索到的样本进行模型更新,兼顾收敛速度的同时也提升了模型的泛化能力,从而有效提升了单智能体在复杂环境下的成功率。
2)基于神经可塑性机制的实时重调度系统。针对个体执行失误,本文的第二部分设计了一种实时再调度系统。目前多数重调度算法是先对错误率的分布进行估计,再进行相应处理。然而,错误率分布可能会逐渐的变化,甚至在某些环境中难以估计。本文以不事先对错误率分布预估为初衷,实现根据失败任务和智能体情况的动态调度。所设计系统根据任务条件对任务进行标记,由预调配策略将其委派给空闲个体,并通过重调度引擎来检测任务状态,将失败的任务进行合并和动态再分配。本文结合内在可塑性机制的自调节机理,在任务打包过程中使得合并大小根据实时情况进行自主调节。最后,基于不同情况设计了一系列的统计分析实验,全面测试了系统性能,为后续的应用和优化提供了充分的实践分析。
3)基于NSGA-III(Non-Dominated Sorting Genetic Algorithm III)优化的策略规划算法。在应用实时调度系统的基础上,本文设计了一种基于knee point优化的NSGA-III算法来实现智能体系统和任务间的预规划。为考虑策略的容错性,每种策略的评价均由重调度系统模拟得出,随后根据选择、交叉、变异、环境选择等操作迭代得出最优策略集。经过一系列的对比实验,本文所提出的K-NSGA-III算法在HV (Hypervolume)和IGD(Inverted generational distance)指标上均优于主流多目标进化算法,在兼顾容错性的同时显著提升了多智能体的效率。
最后,本文基于多智能体系统的研究背景对此三部分研究内容进行了总结,归纳了其中的创新与不足,并对后续内容进行了规划展望。
1)基于无模型元学习法优化的事后经验回放算法。单体执行能力是多智能体系统的基础。在单体的决策优化中,常规的强化学习算法主要擅长在已知可行的策略上迭代改进。对于具有稀疏奖励的复杂任务,算法难以在“探索”和“利用”之间做到充分权衡,从而导致收敛慢或训练陷入局部最优。针对这一问题,本文提出了基于无模型元学习法优化的事后经验回放算法。事后经验回放算法通过记录中间状态,增加了算法的“探索”能力;而无模型元学习法的训练方式可充分利用所探索到的样本进行模型更新,兼顾收敛速度的同时也提升了模型的泛化能力,从而有效提升了单智能体在复杂环境下的成功率。
2)基于神经可塑性机制的实时重调度系统。针对个体执行失误,本文的第二部分设计了一种实时再调度系统。目前多数重调度算法是先对错误率的分布进行估计,再进行相应处理。然而,错误率分布可能会逐渐的变化,甚至在某些环境中难以估计。本文以不事先对错误率分布预估为初衷,实现根据失败任务和智能体情况的动态调度。所设计系统根据任务条件对任务进行标记,由预调配策略将其委派给空闲个体,并通过重调度引擎来检测任务状态,将失败的任务进行合并和动态再分配。本文结合内在可塑性机制的自调节机理,在任务打包过程中使得合并大小根据实时情况进行自主调节。最后,基于不同情况设计了一系列的统计分析实验,全面测试了系统性能,为后续的应用和优化提供了充分的实践分析。
3)基于NSGA-III(Non-Dominated Sorting Genetic Algorithm III)优化的策略规划算法。在应用实时调度系统的基础上,本文设计了一种基于knee point优化的NSGA-III算法来实现智能体系统和任务间的预规划。为考虑策略的容错性,每种策略的评价均由重调度系统模拟得出,随后根据选择、交叉、变异、环境选择等操作迭代得出最优策略集。经过一系列的对比实验,本文所提出的K-NSGA-III算法在HV (Hypervolume)和IGD(Inverted generational distance)指标上均优于主流多目标进化算法,在兼顾容错性的同时显著提升了多智能体的效率。
最后,本文基于多智能体系统的研究背景对此三部分研究内容进行了总结,归纳了其中的创新与不足,并对后续内容进行了规划展望。