基于平均型强化学习算法的动态调度方法的研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:eton8816
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论文主要研究了基于平均型强化学习算法的动态调度方法。实际的动态调度问题往往呈现出很大的复杂性:动态调度是一类信息不完全的调度,在环境不确定和扰动因素的影响下,需要不断的改变调度策略,是调度策略优化的过程;动态调度通常是对多约束下多目标的综合考虑;动态调度处理的问题常常带有随机性。解决动态调度的方法也有很多,因此论文首先对解决动态调度问题的方法进行了归纳总结,大致分为基于运筹学理论的传统调度方法和基于人工智能的智能调度方法。强化学习作为机器学习的一种,它组合了动态规划、随机逼近和函数逼近的思想,智能体学习从环境到行为的映射,以使奖励信号函数值最大。因为强化学习与以往调度方法相比,无需建立精确的问题模型,也有着坚实的数学基础,很适合解决动态调度问题,因此论文把基于强化学习的调度方法特地归为一类。目前有多种强化学习算法,各算法性能存在着差异,在各算法中也有相应的参数,这些参数对算法有着重要的影响。因此在将强化学习算法应用于具体的实际调度问题前,应首先对学习算法本身做深入的研究。论文针对一个比较典型的强化学习算法实验环境Grid-World,采用面向对象的思想和技术用Visual C++ 6.0搭建可视化的仿真软件。在该环境中,强化学习算法单元暴露固定的算法函数接口,对平均型算法R学习、折扣型算法Q学习、Sarsa学习编制动态链接库形式的算法,形成多种强化学习的算法包,针对参数对强化学习算法性能的影响进行仿真实验分析,并比较不同的强化学习算法性能的差异。该软件的搭建与得出的关于强化学习算法的定性结论为后续的研究打下基础。论文的最后针对一个实际的复杂动态调度系统——电梯群组调度,采用基于平均型强化学习R学习算法来进行仿真实验。分析电梯群组调度问题的特点,把它抽象为平均型的马氏决策过程,定义对应于平均型强化学习算法中的状态、行为、报酬等元素,采用随机选择策略防止求解陷入局部最优,应用径向基函数神经网络解决行为值函数的存储和泛化问题,使基于平均型的强化学习算法顺利应用于电梯群组调度。结合电梯群控仿真环境进行调度算法的仿真实验,并把仿真结果和以往的电梯群组调度算法进行比较,展示了算法较好的性能。
其他文献
音节的组构涉及到语言的发音、韵律、构词等,有关音节的描述、处理以及习得的探讨,对语言研究和语言教学都关系重大。“biáng biáng面”作为一种陕西的特色小吃,流传甚广,其汉
基于交换式以太网的网络化测试系统,由于数据传输和处理安全可靠,网络带宽利用率高,因此得到了广泛的应用。目前,对于交换式以太网中数据组播应用侧重于IP(Internet Protocol)组播
毛泽东诗词的翻译是文化交流的重要活动。当前的国际文化新环境,给我们提供了或许能传译毛泽东诗词中更多文化信息的新机会。我们应该把毛泽东的七言律绝翻译成诗行有固定长
目的:比较能全力和百普力肠内营养的临床疗效及并发症发生情况,探讨百普力的有效性及安全性.方法:48例患者随机分为百普力组(28例)和能全力组(20例),分别给予百普力和能全力
①国务院常务会议强调,做好产业生产资料供应,加强农资市场监管,坚决遏制农资价格过快上涨;农业部发布一季度农产品质量安全信息;国家发改委公布,农业用电价格不调;农业部部
英汉笔译是围绕翻译单位而展开的语际转换活动,能否运用可靠的形式方案对翻译单位的操作过程进行简化和规范具有重要的理论和实践价值。英汉语言中的无标记表达暗含着人类的
互文写作的理念指具体文本的创作参考或利用了其他文本的题材或话语资源。美国华裔女作家Pauline Chen写的英语小说《红楼》便是一部典型的互文小说,作者在创作过程中广泛参
随着社会经济和现代信息技术的不断发展,交通运输领域的智能交通系统应运而生。作为智能交通系统的核心,车载定位导航系统成为当前研究的热点。 论文在参考了国内外有关资
在中国武术的国际化进程中,武术术语的英文翻译良莠不齐,标准不一,英文译名中频繁出现一词多译、多词一译、硬译、错译等问题。在进行武术术语英译时,译者要从弘扬中华文化与
相识的和不相识的,都在呼唤着一个英雄的名字;有关系的和没关系的,都在传颂着这位英雄那感天地、泣鬼神的事迹!史苍,史苍!你不该这样走,不该走得这样急!社会需要你这样见义