ε-最优策略相关论文
本文首先介绍了单周期Markowitz模型和离散时间多周期模型,阐述Markowitz模型中衡量风险与收益的数学工具以及连续时间模型的研......
给出了观察过程状态数为可数时,部分可观的马尔可夫决策规划(POMDP)折扣模型的逼近法和算法,算法保证了能求到ε-最优的平稳策略和ε-最优的期......
本文讨论了可数状态空间、可数决策空间、次随机转移率族、有界报酬函数的马氏决策规划(MDP)的折扣模型,给出了一个非ε-最优策略的检验准......
本文将策略迭代-逐次逼近法改进以后直接应用到部分可观的马尔可夫决策规划问题中,得到一个新的逐次逼近算法。算法保证能求出一个ε......