论文部分内容阅读
论文主要研究了基于平均型强化学习算法的动态调度方法。实际的动态调度问题往往呈现出很大的复杂性:动态调度是一类信息不完全的调度,在环境不确定和扰动因素的影响下,需要不断的改变调度策略,是调度策略优化的过程;动态调度通常是对多约束下多目标的综合考虑;动态调度处理的问题常常带有随机性。解决动态调度的方法也有很多,因此论文首先对解决动态调度问题的方法进行了归纳总结,大致分为基于运筹学理论的传统调度方法和基于人工智能的智能调度方法。强化学习作为机器学习的一种,它组合了动态规划、随机逼近和函数逼近的思想,智能体学习从环境到行为的映射,以使奖励信号函数值最大。因为强化学习与以往调度方法相比,无需建立精确的问题模型,也有着坚实的数学基础,很适合解决动态调度问题,因此论文把基于强化学习的调度方法特地归为一类。目前有多种强化学习算法,各算法性能存在着差异,在各算法中也有相应的参数,这些参数对算法有着重要的影响。因此在将强化学习算法应用于具体的实际调度问题前,应首先对学习算法本身做深入的研究。论文针对一个比较典型的强化学习算法实验环境Grid-World,采用面向对象的思想和技术用Visual C++ 6.0搭建可视化的仿真软件。在该环境中,强化学习算法单元暴露固定的算法函数接口,对平均型算法R学习、折扣型算法Q学习、Sarsa学习编制动态链接库形式的算法,形成多种强化学习的算法包,针对参数对强化学习算法性能的影响进行仿真实验分析,并比较不同的强化学习算法性能的差异。该软件的搭建与得出的关于强化学习算法的定性结论为后续的研究打下基础。论文的最后针对一个实际的复杂动态调度系统——电梯群组调度,采用基于平均型强化学习R学习算法来进行仿真实验。分析电梯群组调度问题的特点,把它抽象为平均型的马氏决策过程,定义对应于平均型强化学习算法中的状态、行为、报酬等元素,采用随机选择策略防止求解陷入局部最优,应用径向基函数神经网络解决行为值函数的存储和泛化问题,使基于平均型的强化学习算法顺利应用于电梯群组调度。结合电梯群控仿真环境进行调度算法的仿真实验,并把仿真结果和以往的电梯群组调度算法进行比较,展示了算法较好的性能。