基于深度强化学习的旅行商问题研究

被引量 : 0次 | 上传用户:menangchen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
旅行商问题是获得一位旅行商遍历所有地点的最短路径,是一个经典的NP-hard问题,在多项式时间的限制条件下,没有办法得到精确的解,并且需要大量的计算。随着计算机科技的发展,深度强化学习的出现,使得自主计算能力得到了极大的提升,解决复杂的旅行商问题变得相对简单。所以本文将深度学习与强化学习相结合,对旅行商系列问题展开讨论。我们考虑将旅行商遍历节点过程,使用强化学习中的马尔可夫决策过程建模。首先将旅行商问题的环境抽象成图结构,并利用深度学习对图例中的节点进行处理,随后马尔科夫决策过程中的状态由部分解决方案表示,动作由即将遍历的节点表示,作为对动作的响应,奖励值在遍历节点完成后模型反馈得到,并通过强化学习训练问题实例的预测过程,来调整深度学习的神经网络模型参数,进而找到旅行商系列问题的解决方案。针对上述过程我们提出以下三个模型。首先,我们提出了一种基于深度强化学习的经典旅行商问题计算模型RLSTsp(The model of classic traveling salesman problems based on the deep reinforcement learning)。为了更好地提取出实例图中的节点信息,首先我们使用图卷积神经网络得到所有节点的表征向量,之后根据节点的表征向量设置策略函数Q指导节点输出,并利用旅行商遍历节点过程中所得到的奖励值计算损失函数,最后利用强化学习网络对损失函数进行优化,目标是找到值得最优路径的路线。并且在这个过程中,我们使用集束搜索算法进一步优化了求解方法。结果表明,我们的模型性能通常与开源的高性能启发式算法一样好,并在不同规模的图上得到接近最优的结果。其次,我们提出了基于深度强化学习的动态旅行商问题计算模型RLSDTsp(The model of dynamic traveling salesman problems based on the deep reinforcement learning)。在原有网络基础之上融入时间因素,针对网络的动态性,我们使用图卷积技术对动态节点信息和其邻域进行处理,得到每个时刻的节点表征,之后利用循环神经网络对节点的时序信息进行学习与预测,最后结合节点表征向量与策略函数得到奖励值,并利用深度强化学习模型进行优化,以求获得最优解。RLSDTsp模型在输出节点序列时,只需要输入动态图信息,选择要处理的旅行商问题类型,就可以决策出对应问题的最优节点序列。通过将RLSDTsp模型与其他对比模型进行比对,发现学习启发式算法方面的有效性,这表明该框架是动态图规模的旅行商问题的一个非常有前途的工具。最后,我们提出了基于分布式强化学习的动态旅行商问题计算模型DRLSDTsp(The model of dynamic traveling salesman problems based on the distributed reinforcement learning)。首先我们对节点进行一维卷积简单处理,得到所有节点的表征向量,之后为了捕获输入序列不同程度的特征,引入多头注意力机制对节点的特征进行拟合,针对向量表示与不同步的输出进行处理,得到策略解决方案。最后,分布式强化学习网络使用n个不同的线程对节点的策略函数进行学习,探索环境并将游览的动作信息积累到经验缓存中,不同的训练网络从缓存中提取重要数据,异步更新策略,使得模型可以更快的预估每个节点被选择作为最优解的可能性。通过大量的实验评估,我们证明了该框架可以更好的学习动态旅行商问题,并且在不同节点数目的图上得到了良好的性能。
其他文献
为了构建以政府为主导,企业、院校和学生共同参与的乡村振兴建设体系,探索乡村振兴政策背景下大学生创新创业实现路径,助力大学生高质量创业。以乡村振兴战略背景下大学生乡村创新创业为研究对象,从乡村振兴战略下大学生创新创业的背景及现状进行分析,指出乡村振兴带来的机遇和挑战,提出了大学生创新创业与乡村振兴战略融合的实现路径,为推动大学生乡村创新创业成功提供一定的借鉴经验,更好地助力大学生高质量创业。
期刊
石材幕墙是建筑工程领域中的重要组成部分,同时我国是石材幕墙的生产和使用大国。该文结合某研发楼项目幕墙工程实例,提出了框架石材幕墙施工方法、工艺流程,并对其中的重难点和解决策略进行了分析和研究,以期为国内高层建筑框架石材幕墙施工提供借鉴。
期刊
本文针对南京白局当下所遇到的困境,如艺术魅力的日渐衰微、传承人才的青黄不接、传承与创新的关系问题等进行探讨,并试图从认知到理论再到实践中寻求突破口,以探索化解问题。本文主要从南京白局传承与创新的根本前提、重要依据以及主要途径等方面进行论述,特别在主要途径方面进行了分析。
期刊
在高速公路施工建设中常会遇到软土路基,其形成原因特殊,承载力弱,易塌陷,含水量大,如未进行处理会影响公路路基的稳定性和安全性,为后期施工埋下安全隐患。研究围绕公路施工中软土路基处理技术及应用,具体分析软土路基的特点和危害,提出几种常用的处理技术和方法,为公路施工软土路基的处理提供指导和参考。
期刊
环氧树脂(EP)因其优异的物理化学性能而被广泛应用于工业各个领域,如涂料、层合板、粘结剂、线路板、航空航天以及其他电子工业等。然而,与大多数有机高分子树脂一样,环氧树脂属于易燃物质,限制了其在高阻燃要求领域的应用。此前,卤系阻燃剂因阻燃效率高而被广泛使用,但由于当前环保要求更高,而卤系阻燃剂在燃烧时会释放卤化氢等有毒烟雾,对人类和自然环境都带来了很多风险和隐患,因此其使用越来越被限制。基于此,开发
学位
白局是南京地区的古老曲种。在推进文化自信、铸就社会主义文化新辉煌的进程中,深入开展信息化社会下非物质文化遗产传播研究具有突出意义。基于205份调查问卷,对南京白局非物质文化遗产传播特征进行分析,并运用数理统计方法分析其影响因素。研究结果表明,南京白局现阶段传播范围小,宣传强度弱,宣传方法不当,宣传途径数字化信息化程度较低;非物质文化与当地物质文化结合不够全面;政府对南京白局的重视程度不高;白局艺人
期刊
在新媒体时代,新的传播媒介和多元文化对潮剧的传承发展带来一定的冲击,但网络传播依然是潮剧传播的最佳选择。文章基于当前潮剧网络传播现状,提出促进潮剧与网络媒介深度融合、拓展潮剧兼容性以及培养受众对潮剧文化的认同感等对策,旨在促进新媒体时代潮剧的传承与发展。
期刊
报纸
学位
专业群教学团队的职业培训能力是专业群建设的重要指标之一,能否有效的评价专业群教学团队的职业培训能力是确保完成该项指标的重要保障。文章通过政策解读、文献研究和多维度的调查分析,得出适合高职院校专业群教学团队职业培训的评价模式,为专业群建设提供了参考。
期刊