论文部分内容阅读
本文研究的对象是Bandit抽样过程,它包括两个基本模型:Bandit报酬过程和Bandit目标过程。Gittins对基于常见分布的Bandit抽样过程进行了研究,如BemouUi Bandit抽样过程和负指数Bandit抽样过程。本文在Gittins的基础上,利用动态规划向后归纳方法和贝叶斯方法,研究了目前在实际中应用更广泛的Bandit抽样过程。
本文的主要研究内容如下:
一、对几类特殊Bandit抽样过程的参数的后验分布、抽样值的条件分布和抽样报酬函数等进行了计算,讨论了它们的单调性质。
二、研究了抽样值服从Erlang(k)分布的Erlang(k)Bandit报酬过程的最优决策问题,构造了计算描述最优选择的平衡值序列的算法,并研究了过程Gittins指数和平衡值序列的渐近性质,这有效解决了Erlang(k)Bandit报酬过程的最优决策问题。将Bandit报酬过程基于的分布从负指数分布推广至Erlang(k)分布,是对Bandit报酬过程的补充和推广。
三、研究了抽样值服从Erlang(2)分布的Erlang(2)Bandit目标过程的最优决策问题,提出了计算描述最优选择的平衡值序列的算法。将Bandit目标过程基于的分布从负指数分布推广至Erlang2)分布,是对Bandit目标过程的补充和推广。
四、到目前为止,大多数研究Bandit过程的文献没有考虑抽样时间间隔,均假设一致折扣或几何折扣,并不符合某些实际情况。本文对考虑实时折扣,抽样时间间隔服从负指数分布,抽样值服从Erlang(2)分布,允许在任意时刻跳转的Bandit报酬过程进行推导和计算,讨论了过程Gittins指数的单调性质,构造了计算过程最优停止时间的算法。考虑服从负指数分布的抽样时间间隔,能使Bandit报酬过程更符合实际应用。同时,将抽样值服从的分布从负指数分布推广至目前在实际中应用更为广泛的Erlang(2)分布,也是对Bandit报酬过程的补充和推广。