论文部分内容阅读
部分可观察马尔可夫决策过程是通过引入信念状态空间将非马尔可夫链问题转化为马尔可夫链问题来求解,其描述真实世界的特性使它成为研究随机决策过程的重要分支。介绍了部分可观察马尔可夫决策过程的基本原理和决策过程,然后介绍了3种典型的算法,它们分别是Littman等人的Witness算法、Incremental Pruning算法和Pineau等人的基于点的值迭代算法,对这3种算法进行了分析比较。讲述部分可观察马尔可夫决策过程的应用。