半Markov决策过程的数值迭代优化

来源 :吉林大学学报:工学版 | 被引量 : 0次 | 上传用户:wanming2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对半Markov决策过程在紧致行动集上的数值迭代优化,提出了折扣和平均准则下直接基于等价无穷小生成子的统一的标准数值迭代算法,并证明了其收敛性。另外,讨论了两种性能准则下统一的异步数值迭代算法,包括Gauss—Seidel异步迭代和随机异步迭代,特别是基于样本轨道仿真的数值迭代等,并运用性能势思想对上述算法进行改进。结果表明,该算法可直接适用于连续时间Markov决策过程。最后通过一个数值例子来比较各种算法的特点。
其他文献
我们总结出了信息整合的四部曲——经营分析、对标、数据整合、系统实现,每一部曲是什么含意呢?
中国互联网络信息中心(CNNIC)于1月19日,在京发布"第十五次中国互联网络发展状况统计报告".报告显示,我国上网用户总数为9400万,比半年前增长8%,其中使用宽带上网的人数达到4
一个IT产品三年没有做过一次重大升级,这在IT领域是一个令人难以接受的现象,更让人琢磨不透的是,这样的事情竟然发生在微软身上.
为给煤矸山复垦区的生态重建提供依据,以山西省霍州市曹村煤矿复垦6年的煤矸山为例,分析农田、蔬菜地、果园和荒草地等4种利用类型复垦地土壤重金属元素Pb、Zn、Cr、Cu含量的
9月13日到16日,2005年的微软专业开发者大会(Professional Developers Conference,简称PDC)在美国洛杉矶会议中心召开.