基于强化学习的全球集装箱调度算法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:xby520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在资源竞争日益加剧的今天,合理充分利用有限或者稀缺资源创造出最大的社会价值,迫在眉睫。二十一世纪,调度优化问题受到广大研究学者的青睐,如何量化资源产生的社会价值,最大化资源利用价值,成为亟待解决的问题。集装箱调度优化问题则是此类问题的典型代表之一。强化学习的方法则很好的解决了此类问题。强化学习是指智能体和外界环境不断交互,通过不断试错的行为来迭代、优化的方法,它有效的解决了资源调度优化问题中的长期依赖的问题,达到长期目标最优的效果。本文主要研究工作分为以下几个方面:(1)针对集装箱调度优化问题的实际背景,实现了对集装箱调度问题的建模,主要结构分为目的地选择模块、特征构建模块、奖励设计模块、智能体控制模块等,通过强化学习建模的手段完成建模;(2)针对港口之间的空间拓扑连接关系这一先验知识,提出了一种基于图注意力机制的深度双Q学习模型A-DDQN(Attention based Deep Double Q Learning)。该模型使用的图注意力机制,最大限度的利用邻居港口的特征,使得模型学习的结果更加稳定可靠;(3)针对深度神经网络可解释性差的问题,提出了一种基于决策树模型的双Q学习模型L-DQN(LightGBM based Double Q Learning)。该模型借助于集成学习优异的拟合能力,可以很好的完成对特征的重要性分析,与此同时,具有更强的拟合能力;(4)针对强化学习模型动作探索阶段不稳定的问题,提出了一种基于参数噪声的深度确定性策略梯度模型PN-DDPG(Parameter Noise based Deep Deterministic Policy Gradient);该模型使用自调节噪声参数的机制,使得动作探索更加稳定。将论文所提的三种改进模型应用到集装箱调度优化问题的求解中,实验结果验证了所提模型在两种评估指标上的有效性和优越性,通过自我学习,达到甚至超过了人工决策水平。
其他文献
无人驾驶汽车是汽车工业发展的宏伟目标和必然趋势,被认为是当前的全球创新热点和未来的发展制高点。为了提高交通安全与效率,无人驾驶汽车必须通过无线网络技术与其他车辆、道路基础设施、边缘服务器或云服务器等实体进行信息交换。在实际场景中,无人驾驶汽车需要传输的信息具有多样性,例如可分为安全性、便利性、舒适性应用。这些信息对传输的吞吐率、时延、可靠性等具有不同的需求。同时,可供无人驾驶汽车选择的无线网络接入
高压变频器在当今社会中应用非常广泛,很多行业离不开变频器系统,而其最重要的参数指标一母线电压是变频器需严格控制的部分,母线电压关系到变频器中功率器件甚至是变频器自身的正常运行。市面上已经有多种检测母线电压的方案,但在实现高性能且降低危险性等方面来说还是有所欠缺的。本文首先介绍了高压变频器的背景,分析了过电压及欠电压对变频器的危害,提出了一种基于曼彻斯特编解码和△—∑调制的母线电压检测系统。本设计分
邻苯二甲酸酯(PAEs)是一类合成有机化学品,通常用于各类日用消费产品中。呼吸吸入、膳食摄入、皮肤接触是PAEs类污染物进入生物体的三种主要方式。进入体内的PAEs可干扰动物的生殖系统、内分泌系统、呼吸系统、神经系统,产生不良健康后果。孕妇作为一类特殊群体,相对于其他人群来说更加敏感,容易受到环境污染物的影响。如果孕期暴露于PAEs,还可能直接危害胎儿的正常生长发育,因此开展孕妇体内PAEs的暴露
单纯疱疹病毒(Herpes Simplex Virus,HSV)是一种常见的人类病原体包括单纯疱疹Ⅰ型(HSV-1)和单纯疱疹Ⅱ型(HSV-2)两种类型,二者基因同源性高达70%。人体在初次感染HSV-2后,病毒会终身潜伏在人体的三叉神经或骶骨神经中,潜伏期间无任何症状,只有潜伏相关转录本(Latency-assistant Transcript,LAT)可被大量检测。HSV-2潜伏复发的特性是生
话语标记被广泛地应用到日常交际中,恰当地使用可以有效提高言语交际的效率,因此,研究话语标记,有着重要的理论意义和实践价值。目前学界对话语标记“你听我说”的关注度较低,它与同类型话语标记“我告诉你”及“我跟你说”相比受重视程度不够,呈现出“研究的不对称现象”。但话语标记“你听我说”在日常口语交际中十分常用,且具有自身特点,是不容忽视的。因此,本文以现代汉语口语中常用的话语标记“你听我说”为研究对象,
目的:研究基于人牙周膜干细胞(human periodontal ligament stem cells,h PDLSCs)打印技术的三维生物复合支架的物理及生物学性能。方法:(1)将海藻酸钠(SA)、明胶(Gel)和纳米羟基磷灰石(na-HA)混合成复合水凝胶,用Kinexus-Pro高级旋转流变仪测试其流变性能来确定最适打印浆料。(2)利用3D(three dimensional)生物打印机制
草鱼(Ctenopharyngodon idellus)受嗜水气单胞菌(Aeromonas hydrophila)感染后可诱发严重的败血症。本课题组前期在草鱼易感和抗病群体中鉴定获得9个关键miRNA,本论文针对miR-21和miR-142a-3p进行后续功能分析,发现草鱼miR-21可以通过靶向jnk和ccr7调控由A.hydrophila诱导的炎症反应,miR-142a-3p通过靶向tnfai
研究目的:通过利用PCR技术,研究丹参酮治疗PCOS合并IR患者前后AKT3在子宫内膜中的表达差异,探讨丹参酮治疗前后患者血清雄激素的变化,为临床上PCOS合并IR伴子宫内膜病变患者
自然环境中富含芳香酸,多酚和天然有机物(NOM)的高度复杂的分子团与环境介质中的矿物粒子相互作用时,由于复杂环境中不存在结构周期性,因此不可能获得独特的分子结构-聚集几何关系。因此,这对矿物与简单有机酸和多酚相互作用产生的集合体的几何结构研究提供了必要的框架,以使结构组成和整体几何结构之间具有所需的相关性。这些即使在相对复杂的分子团簇中也可以通过对结构的识别来鉴定分子标记。在这项工作中,研究了在没
孔子是我国著名的思想家,其伦理观不仅在我国,在世界范围内也产生了很深远的影响。经过不同社会历史发展阶段,孔子伦理观不断的发展与完善,为新时代的文化传承贡献了其内涵思想。《论语》作为孔子言传身教的记录,是孔子伦理观最为显著的表现。为了对传统文化的再认识、挖掘古典文学的新价值、探索国学思想对社会思想建设的现实意义,重新研究《论语》的伦理观就变得非常有必要。论文从政治、社会、人生以及文艺四个方面出发,重