Erlang(k)Bandit抽样过程

来源 :中南大学 | 被引量 : 0次 | 上传用户:zzfsunny
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究的对象是Bandit抽样过程,它包括两个基本模型:Bandit报酬过程和Bandit目标过程。Gittins对基于常见分布的Bandit抽样过程进行了研究,如BemouUi Bandit抽样过程和负指数Bandit抽样过程。本文在Gittins的基础上,利用动态规划向后归纳方法和贝叶斯方法,研究了目前在实际中应用更广泛的Bandit抽样过程。 本文的主要研究内容如下: 一、对几类特殊Bandit抽样过程的参数的后验分布、抽样值的条件分布和抽样报酬函数等进行了计算,讨论了它们的单调性质。 二、研究了抽样值服从Erlang(k)分布的Erlang(k)Bandit报酬过程的最优决策问题,构造了计算描述最优选择的平衡值序列的算法,并研究了过程Gittins指数和平衡值序列的渐近性质,这有效解决了Erlang(k)Bandit报酬过程的最优决策问题。将Bandit报酬过程基于的分布从负指数分布推广至Erlang(k)分布,是对Bandit报酬过程的补充和推广。 三、研究了抽样值服从Erlang(2)分布的Erlang(2)Bandit目标过程的最优决策问题,提出了计算描述最优选择的平衡值序列的算法。将Bandit目标过程基于的分布从负指数分布推广至Erlang2)分布,是对Bandit目标过程的补充和推广。 四、到目前为止,大多数研究Bandit过程的文献没有考虑抽样时间间隔,均假设一致折扣或几何折扣,并不符合某些实际情况。本文对考虑实时折扣,抽样时间间隔服从负指数分布,抽样值服从Erlang(2)分布,允许在任意时刻跳转的Bandit报酬过程进行推导和计算,讨论了过程Gittins指数的单调性质,构造了计算过程最优停止时间的算法。考虑服从负指数分布的抽样时间间隔,能使Bandit报酬过程更符合实际应用。同时,将抽样值服从的分布从负指数分布推广至目前在实际中应用更为广泛的Erlang(2)分布,也是对Bandit报酬过程的补充和推广。
其他文献
本文以具有部分海外融资的公司资本结构为研究对象。在分析和借鉴西方资本结构理论的基础下,结合连续时间的Modjgliani-Miller的三个定理,考虑到市场的不确定性及汇率的波动性,利用随机偏微分方程理论,对企业的资本结构进行分析,从而得到企业总价值的模型。 本文的主要内容有: (1) 简要说明了选题的背景及意义,介绍了关于公司资本结构的Modjgliani-Miller三个定理。并介
在改革开放不断的推进中,我国的经济实现了快速发展,众多领域与各个行业在这一背景下得到了快速发展。项目工程作为主要的发展方向,受市场经济的影响竞争越来越激烈,面对的问
目的诱导箭根薯愈伤组织及建立无性系。方法以箭根薯野生种为材料,采用不同激素组合对不同部位(根茎、叶片、叶柄)进行诱导,对比诱导效果,筛选出最佳部位及各个生长阶段的最
众所周知,信息技术课是同学们感兴趣的课程之一,但对大部分同学们来说,兴趣不在于相关的知识和技能,而是网上的小游戏和网上聊天。对于老师来说,如何把学生的注意力拉回到课
离散分数傅立叶变换(DFRFT)和离散分数哈特里变换(DFRHT)是经典离散傅立叶变换(DFT)和离散哈特里变换(DHT)的推广。通过分数阶数的引入,DFRFT和DFRHT提供了比DFT和DHT更加丰
随着我国经济体制的不断深入改革,对于国有建设型企业来说,既是挑战又是机遇.本文结合当前社会形势,分析研究国有建设投资集团在发展中面临的挑战、机遇和风险,并从财务管理
高中信息技术这门学科的教学目标是让学生掌握“获取信息、传输信息、处理信息”方面的知识,让学生初步具有应用信息技术的能力,能够正确使用信息技术,使其成为终身学习与工
俗话说:再穷不能穷教育,由此可见,教育对人类的重要性.而语文教学作为所有学科的基础,教育的方式更显其重要性.本文就针对所提出的论点对信息技术与小学语文课程的整合进行一
大约三十年前,同在一个单位的王哥问我:“听说你饭做得不错?”我简要地回了他一句:“爱鼓捣,但做不好。”他说:“我老父亲要过七十大寿,不想出去过,可是家里的人手艺都一般。
一个抽象空间称为一个流形,如果局部上的每一点都有一个邻域与欧式空间同胚,流形整体上的结构非常复杂。然而在流形上,很多复杂的结构都可以用简单空间上相关的好的性质来理