【摘 要】
:
随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法
【机 构】
:
南京大学软件学院,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室
论文部分内容阅读
随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该方法在深度优先的启发式探索中,根据各个动作值函数在其上界和下界之间的分布,用蒙特卡罗法计算动作最优的概率,选择概率最大的动作作为最优探索策略.在4个基准问题上的实验结果表明PBVIOP算法能够收敛到全局最优解,并明显提高了收敛效率.
其他文献
本文针对带全地下室多、高层建筑采用柱下独立基础(墩)的基础型式,提出了适用范围,分析了底板与独基墩的基底反力分配关系及影响因素,并给出了地下室底板参考分担系数,并介绍
香港是个地处"边缘"的欲望都市。李碧华的小说虽无很多香港背景与情节,但对"乱世"的钟情和以"乱世"指涉"当代"的目的,使她的小说成为香港的都市寓言。在与北平、上海、杭州等都市的比
1案情简介2006年5月.山东省小清河管理局发现某镇政府未按批复方案建设该镇的小清河大桥.并且不经批准擅自拆除该处小清河右堤60m:私自在滩地修建东西向大坝,形成近5km^2的圈围。
对110kV插拔式电缆终端变压器局部放电超标原因进行了分析,提出了解决问题的措施.
在分析瓜州县加工型番茄产业发展的基础上,针对产业发展中存在的问题,提出抢抓良好机遇,推进产业发展;加大招商引资力度,借助外力发展番茄加工企业;开发番茄制品种类,扩展消费渠道等
实数编码遗传算法(RCGA)是在二进制编码遗传算法的基础上提出来的,它具有精度高、执行效率快等优点,非常适用于模型参数寻优。在采用化学质量平衡法(CMB)建立了源解析方程组的基础
文章研究了混合个数未知情况下的多元正态混合模型的贝叶斯推断。首先利用可逆跳MCMC算法,通过在可变维参数空间跳跃式抽样,实现贝叶斯模型选择的目的。根据后验概率确定混合
韩愈作为中唐古文运动的领军人物,打着复古的旗号来变革古文,提出了一套适合当时时代要求的古文创作理论。这套古文创作理论不仅仅是时代的产物,也是自先秦以来所形成的特定的美
作者分析了瓜州县"菜篮子"工程建设发展的现状和存在的问题,提出了可持续发展的建议,即加大宣传力度,提高思想认识;加快基础设施建设步伐,强化"菜篮子"基地建设;强化责任监管,切
吸收大学生参与科学研究,培养创新型人才是高等学校提高人才培养质量的重要举措。通过吸收大学生参与科学研究,有利于培养大学生提出问题、分析问题、解决问题的能力,提高实践能