关系型不确定环境中一阶决策理论规划方法研究

被引量 : 0次 | 上传用户:yaohaoyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着嵌入式设备和人工智能技术的飞速发展,大型智能系统逐渐渗入到人们生活的方方面面,并起着越来越重要的作用。这些系统所处的环境大都是不确定的,而且系统规模越来越大,如何在不确定环境下设计出能够适应大规模系统的决策方法成为了当前人工智能领域最为重要的研究课题之一。常规的状态枚举式POMDP及其求解方法往往被作为解决不确定环境中规划问题的重要方法,但是目前可以求解的规划问题状态数量仍然只限于数百个,求解问题的规模尚不能满足规模日益增大的智能系统的需要。为了解决这个问题,出现了在抽象层次上,利用问题结构特征,解决大规模规划问题的FO-POMDP模型及算法。但是目前FO-POMDP的模型和算法的研究都尚处于起步阶段,其相关理论和方法还需要进行系统的探索和研究。鉴于以上原因,本文针对抽象层次的一阶POMDP模型及其算法进行了研究。在模型方面,利用一阶逻辑语言对状态空间进行分类,提出一阶信念状态的概念,缩小常规信念状态的维度;并利用流演算的相关概念和逻辑推理方法,提出一阶信念状态在抽象层面上的更新方法;构建了FOB-POMDP模型。在算法研究方面,为了建立基于一阶信念点的求解算法,对一阶信念点进行了详细分析研究,提出了一阶信念粒度的概念以及基于流关键度的粒度归结方法,实现一阶信念点粒度的统一;用流演算的框架表示PBVI,建立了抽象层面上的FO-PBVI算法,实现对FOB-POMDP的近似求解。在ADD的基础上提出了FO-ADD的概念和构造方法,将FO-PBVI用FO-ADD表示,并利用实验对这两种方式的近似求解方法进行分析比较。最后在应用方面,将FOB-POMDP模型和算法应用于CPS,设计并实现基于FOB-POMDP的CPS决策系统。以上这些方法和技术的研究循序渐进,相辅相成,形成了一套从模型到算法再到应用的比较完整的理论和方法体系。具体来说,本文的主要贡献体现在以下几个方面:(1)提出了信念状态在抽象层次上的一种描述及更新方法,构建了FOB-POMDP模型。通过对状态空间的分类,描述抽象层面上的信念状态,提出了一阶信念状态的概念。基于流演算的相关理论,针对随机观察行动和随机转移行动,分别给出了一阶信念状态的抽象层面上的更新方法。从而利用流演算的框架将信念状态上升到抽象层面,实现信念状态及其更新的抽象描述,构建一个相对比较完善的抽象POMDP模型,即FOB-POMDP模型。通过对Tiger和Tag问题的建模可见,该模型简洁、紧凑,充分融合了POMDP动态性、抽象概括能力和逻辑演算表达能力的优势。(2)提出了基于一阶信念点的FOB-POMDP值迭代方法。首先对抽象层面的一阶信念状态进行分析研究,主要包括:提出了一阶信念粒度的概念,度量一阶信念中状态空间的划分粗细程度;提出了流关键度的概念,衡量不同流在模型中的重要程度;提出了基于流关键度的粒度归结方法,将不同粒度的一阶信念状态归结到同一粒度。在此基础上,将常规基于点的值迭代中的各种运算上升到抽象层,用FOB-POMDP模型中的要素表示算法,包括一阶信念点距离度量、一阶信念点集上的值更新和一阶信念点集的COLLECT运算等,提出了基于一阶信念点的FOB-POMDP值迭代方法(FO-PBVI),将常规基于信念点的值迭代算法上升到抽象层面上。实验证明,FO-PBVI的求解时间基本不受问题规模大小的影响,因此FO-PBVI能够求解大规模的规划问题。(3)提出了FO-PBVI的FO-ADD表示方法。首先,基于ADD提出了FO-ADD的概念,将ADD抽象到一阶逻辑层。然后提出了基于流关键度的FO-ADD构造方法,实现从状况表达式到FO-ADD的转换。用FO-ADD实现FO-PBVI中的各种元素表示和基本操作,包括有一阶信念状态、αCase等元素和一阶信念更新、状况最大化、存在量词、前推等运算。实现一阶信念点集上的值更新运算和一阶信念点集的COLLECT运算的FO-ADD表示,形成了基于一阶信念值迭代的FO-ADD表示方法。实验证明,FO-PBVI的FO-ADD表示方法能够对较大规模问题进行求解,但是求解效率略逊于FO-PBVI。(4)设计和实现了基于FOB-POMDP的CPS决策系统。分析总结了CPS概念、特性及其决策特点;将FOB-POMDP模型与算法应用于CPS决策,设计并实现相应的CPS决策系统。基于FOB-POMDP的CPS决策系统不仅实现了FOB-POMDP模型和算法的工程实践,而且对CPS的开发应用提供了决策支持。(5)提出了基于遗传策略的POMDP值迭代方法。不仅对抽象层次的FOB-POMDP模型及其求解方法进行研究,还对常规POMDP的求解算法进行研究。提出了基于遗传策略的POMDP值迭代方法。通过构造一个效用矩阵来决定在某个信念状态点上所要采取的最优行动,在随机迭代过程中采用遗传策略选取最优种群,并根据所选取的最优种群对效用矩阵更新。实验证明,基于遗传策略的POMDP值迭代方法在解决一定规模的POMDP问题时能够迅速收敛到较好的收益值而获得最优行动策略。综上所述,本文对抽象层次的FOB-POMDP模型及其算法进行了研究,扩大了求解问题的规模。理论方面,FOB-POMDP模型及其算法拓展了POMDP的研究领域,提出了一种新的有效的智能规划方法;实践方面,为CPS的发展提供决策方法支持,推进CPS等大规模智能系统的发展。
其他文献
“买卖不破租赁”原则是民法领域一项非常重要的原则。“买卖不破租赁”制度也是随着社会经济的发展,为了维护公平正义,保护弱势承租人的利益而产生的。该理论自产生以来在理
当前,教师专业发展已经成为现代教育领域的热门话题,但关于小学艺术教师专业发展现状的相关研究并不多。通过文献的梳理以及在相关专业实践者、理论专家的指导下,研究者自行
随着现代工业与科学技术的高速发展,机械结构系统中的振动问题也日益突出,良好的结构动态性能已成为产品开发设计中重要的优化指标,利用动态设计方法取代传统的静态设计已成为机
版式设计在高校教学中是一门不可或缺的专业基础课之一,也是设计工作者前期必须深入研究的一门知识。当前是个知识大爆炸的时代,当代大学生整体知识修养的提高,对高校教师教学水
融智加融资支持地方政府搭建完善规范的水利融资平台,支持水利融资平台的专业化、市场化、规范化建设,提高其为水利项目直接、间接融资的能力,吸引更多的社会资金参与水利建
劳伦斯与王小波都曾因为作品中的性爱书写饱受争议,生前寂寞,身后备受关注。相似的表现主题、相似的人生际遇和文学命运、对性爱本身的深入思考、性爱书写负载的沉重思索与暗
随着视频监控需求的迅速增长、监控规模的日益扩大,现有技术手段和人力很难保证及时性和有效性,远远不能满足监控要求,因此对智能视频监控系统的需求变得越来越迫切。智能视频监
我国目前正处在深刻的历史变革和社会转型时期,伴随着社会经济形势的迅猛发展,对贪污犯罪的遏制和惩治也在不断加大力度,但是贪污腐败行为仍然呈上升趋势,因此,贪污腐败的控
现代意义上的失业与工业化的进程相生相伴。作为第一个工业化国家,英国工业革命时期出现的失业问题具有一定的典型性。这一时期,英国还没有完整的失业统计,失业率难以准确估
目前文化产业发展已被提到了战略高度,如何真正实现文化产业大发展要靠很多方面的努力,其中应重视文化艺术管理的作用。我国在营利性文化产业的生产中从观念到实践都没有重视