论文部分内容阅读
随着计算技术、嵌入式技术、传感器技术、通信技术以及自动控制技术的飞速发展,新一代智能系统也悄然出现。新一代智能系统的主要特点在于信息世界与物理世界的交互更为深入。新一代智能系统具有广泛的应用背景,可用于智慧城市、智慧交通、国防军事、健康监护、环境监控等领域,受到越来越多研究者的关注。本文主要研究智能系统中以机器人控制与决策为背景的序列决策问题。环境的不确定性是新一代智能系统的主要特点之一,系统的复杂性和不确定性决定了系统中的节点决策必然面临着信息不一致、信息局部可观测及分布式的问题。对于系统的决策节点来说,如何在这种环境下根据有限的信息在适当的时候做出合适的决策是其决策和规划的首要问题。马尔科夫决策理论为不确定性环境下的决策提供了坚实的数学基础和模型表示方法。论文在分析了马尔科夫决策的国内外研究现状的基础上针对当前模型求解算法中所存在的缺点和不足,提出了ESVI算法和IGA算法。首先针对POMDP模型的求解提出了基于遗传策略的求解POMDP的值迭代算法(Evolution Strategy Based Value Iteration,简称ESVI ),算法在随机迭代过程的基础上通过构造一个效用矩阵来决定在某个信念状态点上所要采取的最优行动,在确定最优行动之后采用贝叶斯法则对信念状态更新。随机迭代过程采用遗传策略选取最优种群,并根据所选取的最优种群对效用矩阵更新。算法的最后对Tag问题和Hallway2问题进行了求解,实验表明ESVI在解决较大规模的POMDP问题时能够迅速收敛到较好的收益值而获得近似最优的行动策略。针对DEC-POMDP模型的求解提出了改进的遗传算法(IGA),算法在对状态集分析的基础上,引入最佳收益态和最佳起始态,并将策略的求解分为两部分:初始状态到最佳起始态的策略和最佳收益态之间的转换策略,两部分策略的分开求解减小了算法的复杂度。前一阶段的目的在于使决策节点到达最佳收益状态,其实质上是剪除了行动序列中存在的部分无效行动。两个阶段的策略求解都使用遗传算法,但在遗传操作和适应度函数的定义方面又有所不同。算法对方格相遇问题和多入口广播通道问题进行了求解,通过实验可以看出IGA压缩了要搜索的策略空间,减小了编码长度,是求解DEC-POMDP的有效的近似算法。