论文部分内容阅读
连续时间的马尔可夫决策模型在实际工作中有着极其广泛的应用。马尔可夫决策最优策略的确定很大程度上取决于决策准则的选取。平均报酬准则和折扣报酬准则是连续时间马尔可夫决策最常用的两个准则。由于现在文献对于平均准则下的马尔可夫决策问题的关注,使得对于折扣准则下的连续时间马尔可夫问题的讨论显得不够完善。论文针对这一问题进行研究,填补了折扣准则下的连续时间马尔可夫决策问题在最优化条件的确定、最优方程的建立以及最优策略性质等方面的研究空缺,同时为人们在一些不确定的序列决策问题中做决策提供依据。论文讨论了在一般的状态空间和行动空间中,当转移率和报酬率无界时,连续时间马尔可夫决策过程的α—折扣报酬最优问题。主要进行了以下工作:①作为最优方程存在的前提,首先给出最优化条件。主要包括针对系统历史数据提出的三个假设,以及由此推出的两条引理,并给予了相应的证明。②在最优化条件被证明合理的前提下,论文建立了一个连续时间马尔可夫决策折扣报酬最优方程并证明了其存在性,同时在证明过程中说明了存在一个相应的折扣报酬最优平稳策略。论文用以证明方程存在性和寻找最优策略的策略迭代算法是基于三个对系统历史数据的假设条件的,从而取消了对于系统报酬值函数相关差分的假设以尽可能保留数据真实性。③为了使得策略的选择能够在决策过程中避免随机性影响,减小其随时间波动的不稳定性,在给定的最优化条件下,论文确定了ε—折扣最优平稳策略的存在,探讨了α—折扣报酬最优平稳策略的特殊性质。④最后,文章分析了连续时间马尔可夫决策过程折扣报酬最优方程的应用。选取电子商务平台问题做具体分析,然后针对其他方面的应用,对模型建立的原则,问题的实质等做了简单的阐述,说明将折扣报酬准则下的最优方程用以解决这一类问题是行之有效的。