半Markov决策过程的数值迭代优化

来源 :吉林大学学报：工学版 | 被引量 : 0次 | 上传用户：wanming2000

【摘要】

：

针对半Markov决策过程在紧致行动集上的数值迭代优化，提出了折扣和平均准则下直接基于等价无穷小生成子的统一的标准数值迭代算法，并证明了其收敛性。另外，讨论了两种性能准则下

【作者】

：

唐昊吴玉华周雷

【机构】

：

合肥工业大学计算机与信息学院

【出处】

：

吉林大学学报：工学版

【发表日期】

：

2006年1期

【关键词】

：

计算机应用半MARKOV决策过程等价无穷小生成子异步数值迭代 computer application semi-Markov decision pro

【基金项目】

：

国家自然科学基金资助项目（60404009）,安徽省自然科学基金资助项目（050420303）,合肥工业大学中青年科技创新群体计划项目.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对半Markov决策过程在紧致行动集上的数值迭代优化，提出了折扣和平均准则下直接基于等价无穷小生成子的统一的标准数值迭代算法，并证明了其收敛性。另外，讨论了两种性能准则下统一的异步数值迭代算法，包括Gauss—Seidel异步迭代和随机异步迭代，特别是基于样本轨道仿真的数值迭代等，并运用性能势思想对上述算法进行改进。结果表明，该算法可直接适用于连续时间Markov决策过程。最后通过一个数值例子来比较各种算法的特点。

其他文献

信息“并车”四条路

我们总结出了信息整合的四部曲——经营分析、对标、数据整合、系统实现，每一部曲是什么含意呢？

期刊

信息整合并车经营分析数据整合系统

我们离1亿网民还有多远

中国互联网络信息中心(CNNIC)于1月19日,在京发布"第十五次中国互联网络发展状况统计报告".报告显示,我国上网用户总数为9400万,比半年前增长8%,其中使用宽带上网的人数达到4

期刊

中国上网用户数网站数域名数

IE 7.0围剿火狐：浏览器领域即将告别三年平淡期

一个IT产品三年没有做过一次重大升级,这在IT领域是一个令人难以接受的现象,更让人琢磨不透的是,这样的事情竟然发生在微软身上.

期刊