不确定环境下的序列决策问题研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:qgf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算技术、嵌入式技术、传感器技术、通信技术以及自动控制技术的飞速发展,新一代智能系统也悄然出现。新一代智能系统的主要特点在于信息世界与物理世界的交互更为深入。新一代智能系统具有广泛的应用背景,可用于智慧城市、智慧交通、国防军事、健康监护、环境监控等领域,受到越来越多研究者的关注。本文主要研究智能系统中以机器人控制与决策为背景的序列决策问题。环境的不确定性是新一代智能系统的主要特点之一,系统的复杂性和不确定性决定了系统中的节点决策必然面临着信息不一致、信息局部可观测及分布式的问题。对于系统的决策节点来说,如何在这种环境下根据有限的信息在适当的时候做出合适的决策是其决策和规划的首要问题。马尔科夫决策理论为不确定性环境下的决策提供了坚实的数学基础和模型表示方法。论文在分析了马尔科夫决策的国内外研究现状的基础上针对当前模型求解算法中所存在的缺点和不足,提出了ESVI算法和IGA算法。首先针对POMDP模型的求解提出了基于遗传策略的求解POMDP的值迭代算法(Evolution Strategy Based Value Iteration,简称ESVI ),算法在随机迭代过程的基础上通过构造一个效用矩阵来决定在某个信念状态点上所要采取的最优行动,在确定最优行动之后采用贝叶斯法则对信念状态更新。随机迭代过程采用遗传策略选取最优种群,并根据所选取的最优种群对效用矩阵更新。算法的最后对Tag问题和Hallway2问题进行了求解,实验表明ESVI在解决较大规模的POMDP问题时能够迅速收敛到较好的收益值而获得近似最优的行动策略。针对DEC-POMDP模型的求解提出了改进的遗传算法(IGA),算法在对状态集分析的基础上,引入最佳收益态和最佳起始态,并将策略的求解分为两部分:初始状态到最佳起始态的策略和最佳收益态之间的转换策略,两部分策略的分开求解减小了算法的复杂度。前一阶段的目的在于使决策节点到达最佳收益状态,其实质上是剪除了行动序列中存在的部分无效行动。两个阶段的策略求解都使用遗传算法,但在遗传操作和适应度函数的定义方面又有所不同。算法对方格相遇问题和多入口广播通道问题进行了求解,通过实验可以看出IGA压缩了要搜索的策略空间,减小了编码长度,是求解DEC-POMDP的有效的近似算法。
其他文献
近十年来,马基雅弗利主义(Machiavellian)作为一种领导风格被理论界和实务界所普遍关注,它对于员工职业满意度的影响也成为了一个非常热门的研究课题。就这些研究的基本内容
变革型领导理论是目前最受关注的领导理论之一,然而,以往有关变革型领导结构探索及其测量发展的研究大都是在西方文化下进行的,虽然国内也有部分学者做了这方面的尝试,但得到
目的探讨大鼠正中视前核(MnPO)的血管紧张素Ⅱ(AngII)对肾脏近曲小管Na^+,K^+ -ATPase活性的作用及其途径。方法雄性SD大鼠,麻醉下MnPO注射AngⅡ,或预先注射AngⅡ的I型受体(AT1)拮抗剂氯
文章以邢台县前南峪村为研究区域,深入调查其生态、经济的发展现状,并运用灰色关联度法对调查结果进行了分析并得出结论,即生态系统对经济系统的驱动力强,影响显著。依据这一
目的探讨小儿肠套叠空气灌肠失败影像学表现,提高对难复性小儿肠套叠的认识。方法回顾性分析经手术证实40例小儿肠套叠空气灌肠失败影像表现。结果①40例肠套叠套头x线表现呈
预测的目的是为决策者制定决策提供所必须的未来信息。由于其在决策中的重要性,越来越受到人们的重视。但是,如何才能从复杂多变的随机系统中找出其运动、变化的规律,预测系
目的从贵州省遵义市正安县产野木瓜中提取并纯化野木瓜多糖(Stauntonia Chinensis Polysaccharides,SCP),对其特征进行初步研究。方法用水提醇沉法提取纯化SCP;苯酚-硫酸法测定野
学生长期处于超负荷运转和精神紧张状态,影响了学习效率和身心健康。需要采取减轻课业负担、心理负担;保证充足的睡眠;体育锻炼;激发学习兴趣等措施。 Long-term overload of st
家庭备药越来越普遍,如何安全、合理的使用家庭备用药已经成为人们关注的一大焦点。要保证用药的安全性,必须以科学的态度购买药物、贮藏药物、使用药物。
影响大学生学习动机的知识、技能和经验因素随性别、年级、专业的变化而变化.知识因素中认知与个人知识背景、学习方法、专业应用存在显著差异;技能方面,三年级最低;经验因素