一种基于信念状态压缩的实时POMDP算法

来源 :控制与决策 | 被引量 : 0次 | 上传用户:zjc823455041
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对求解部分可观察马尔可夫决策过程(POMDP)信念状态空间是NP难问题.提出一种信念状态空间压缩(BSSC)算法.将信念状态空间的高维压缩到低维,利用动态贝叶斯网络对状态转移函数、观察函数和报酬函数进行压缩。降低求解规模,达到实时决策的目的.对比实验表明,所提出的算法可以快速求解最优策略和最优值函数.
其他文献
针对企业危机等级分类与识别问题,建立了模糊环境下的日标判别函数.提出了求解不同危机等级的最优模糊聚类中心、最优模糊识别矩阵与最优指标权重的3种模型表达式和相应求解算
近年来,随着人民生活水平的不断提高,对住房的需求日益增加,房地产市场也随之蓬勃发展起来,配套完善的住宅小区更是成为人们追逐的热点。而设计新颖、布局合理的幼儿园则是小区中
目的探讨右开胸三切口治疗胸上、中段食管癌的并发症及生存率,为临床提供参考。方法采用前瞻性研究的方法,分析肇庆市第一人民医院自2006年7月至2009年7月收治的86例上中段食
本文结合工程实际,介绍了厚板迭合层的几种施工方法,并对其中的二次迭合成型施工法进行了详细的探讨,取得了一定的经济效益,对类似工程具有一定参考价值。
针对以拖期加权和为目标的Job shop调度问题,提出一种基于分解交货期的启发式调度方法,首先根据工件的允许流比率确定每道工序的初始交货期,然后在活动调度框架下应用改进的MOD
提出了一种DCT域内基于内容分类的最优检测方法.该方法利用DCT变换中图像块低频能量的差异将DCT系数划分成平滑和纹理两类,并分别对这两类数据进行参数估计以实现基于最大似然
针对网络控制系统中存在的随机掉包和延迟情况.采用前向和反馈补偿设计网络状态观测器.并运用状态预估的方法设计网络预估控制系统(PNCS)。作为网络控制系统中的掉包和延迟的整体
任何一件理想的产品都是一件“会说话”的人造物,都具有自己特定的语意,其语意表达的本质正是通过该产品的形态设计来揭示或暗示产品的内部结构和功能。本文大致概括了产品的
受自然条件限制,在我国进行飞机自然结冰试飞难度大,对人造冰云结冰试验技术的需求显得越发迫切。以Y-8飞机为平台,通过方案设计、桁杆系统与气水系统研制、机上集成改装、地