论文部分内容阅读
应用贝叶斯方法,对未知Bandit报酬过程的抽样报酬基于Erlang(k)分布的单臂Erlang(k)Bandit报酬过程提出计算描述最优选择的平衡值序列的算法.有效解决了单臂Erlang(k)Bandit报酬过程的最优决策问题,将Bandit报酬过程基于的分布从负指数分布推广至目前在实际中应用更为广泛的分布,是对Bandit报酬过程的补充和推广.使用本算法通过数值计算可以得到Gittins指数的近似解.