部分可观察马氏决策过程的复杂性理论及规划算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xiaojas
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
部分可观察的马氏决策过程(partially observable Markov decision process,简称POMDP)为主体在部分可观察的随机环境中的序列决策问题提供了一个通用的数学模型。POMDP模型可以被广泛地用来建模机器人导航、物体抓取、目标跟踪、人机对话等规划和学习任务。一般而言,在合理时间内精确地求解POMDP规划问题是不可能的。近十年来,出现了很多POMDP模型的近似规划算法。它们可以大致分为离线规划算法和在线规划算法。基于点的值迭代算法是这些离线规划算法中最耀眼的一类,它在近十年里取得了很大的成功。它的出现和发展使得POMDP规划问题求解器从只能求解几十个状态的小规模POMDP问题发展到可以求解数十万个状态的大规模POMDP问题。对可达信念空间的δ-覆盖数(简称:覆盖数)这个概念的认识的不断深入对基于点的值迭代算法的发展起到了重要的推动作用。可达信念空间指的是从初始信念状态通过采取随机行动可以到达的信念状态构成的集合。覆盖数指的是用给定半径δ>0的小球完全覆盖可达信念空间所需要的球的最少个数。已有的文献表明:我们可以在覆盖数的多项式时间内计算出POMDP规划问题的近似最优解。在本文中,我们将给出三种估算覆盖数的方法,并分析它们各自的优缺点。我们将看到在一组小规模的POMDP基准问题上,覆盖数是比其它的复杂性度量,如:状态数等,更好得多的表征POMDP规划问题和学习问题难易程度的度量。进一步地,我们将把覆盖数与POMDP规划问题间的理论关系推广到POMDP学习问题领域。我们将从覆盖数的角度来分析POMDP学习问题比规划问题更难的原因,并提出一个在覆盖数的指数时间内收敛的POMDP学习算法。我们希望覆盖数的概念及它的估算方法能够为将来设计出更高效的POMDP学习算法提供洞察和指导。基于对覆盖数的研究,我们发现:现有的一些基于点的值迭代算法在保证能在有限时间内找到近似最优解的同时,忽略了一些重要的启发式信息,这造成了这些算法的性能并不足够高效。我们提出了一个基于贪心策略的值迭代算法框架,它的主要思想是:利用这些被忽略的启发式信息来构造一个贪心子算法,并把它插入到之前的值迭代算法中。我们构造了一个有一定的数学理论支持的、被称为第二好策略导向的贪心子算法来检验该算法框架的有效性。我们的实验结果表明:在求解很多POMDP基准问题时,三个结合了第二好策略导向的贪心子算法的值迭代算法较之前的算法有至少一个数量级的时间性能的改进。与离线规划算法不同的是,在线规划算法采取的是“按需”做决策而不是预先对整个状态空间做决策的方式,因此能够在较短规划时间内高效地处理较大规模的POMDP问题。在本文中,我们将利用POMDP问题中状态表示的结构和杂合启发法来加速现有的启发式在线规划算法。我们将提出两个新的在线规划算法,它们分别被用来检验一种最近提出的因子化状态表示方法和一种新颖的杂合启发法在加速POMDP规划算法中的重要性。我们的实验结果表明:从可扩展性和解的质量两个方面来看,使用了因子化状态表示和杂合启发法的新的在线规划算法的实验性能都比当前的其它启发式搜索在线算法的实验性能要好得多。
其他文献
本文试图以沃尔夫冈·里姆管弦乐作品《字里行间 2》的分析,总结出作曲家在该作中的音高组织、旋律线写作、和声构成、结构手法、织体形态等方面的创作技法特征,以较全面论证
《会计综合实训》课程属于实践类课程,是学生毕业上岗前最后一次模拟,是会计人才培养中的关键环节。随着互联网技术的不断发展,传统会计综合实训模式已无法满足职业需求。本
针对光学导航中存在的通过星体(球体)图像部分边缘点拟合椭圆参数计算轨道参数产生中间误差的问题,提出利用边缘点映射轨道参数的直接投影模型,避免拟合椭圆参数的方法。在小孔成像模型基础上,建立了边缘点与轨道参数的直接投影数学模型,对其映射过程进行了理论推导,利用列文伯格-马夸尔特迭代算法进行求解轨道参数。用实际探测器以及镜头参数进行数值仿真验证,结果表明:该方法在相同边缘点的条件下,轨道精度可以达到5‰
大学新生学校适应及其影响因素是目前教育领域的重点研究课题之一,大量研究者对这一课题进行了深入的研究,揭示了学校适应内外因素的重要作用。但已有的研究缺乏从系统的角度综
侦查传统上是刑事诉讼法上研究的内容。但随着公安学一级学科的建立,侦查问题也被刑事领域中的其他学科所关注,并开始对刑事科学中的相关理论产生影响。以公安学一级学科的成
《救亡情报》是抗战前夕救国会创办的一份四开小型周报,1936年5月于上海创刊,最初为上海各界救国联合会的机关报,后成为全国各界救国联合会的机关报。1936年5月至12月间,共出
经济社会和信息化网络的发展为高中学校管理带来了新的机遇和挑战.在信息网络时代背景下,高中学校需要不断创新管理模式,结合新技术、新手段,提供更加专业的、高效的管理服务
采用膳食纤维、瓜尔豆胶、葡萄糖、柠檬果汁等作为主要原料,研制健肠型运动营养饮片。通过正交试验优化膳食纤维的配比和营养饮片的配方。结果表明,膳食纤维的最佳比例为菊芋
“三个代表”是高举邓小平理论伟大旗帜的历史必然和逻辑必然;“三个代表”把马克思主义政党建设理论推进到了一个新的发展阶段,开拓了马克思主义理论当代发展的新境界。