基于深度强化学习的路径诱导算法研究

来源 :沈阳理工大学 | 被引量 : 2次 | 上传用户:fmf001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国工业化和科学技术的稳步发展,过多的车辆给很多城市带来空气污染以及交通拥堵等诸多问题。此外,根据城市交通本身具有的性质,城市交通受事故、天气等很多不可控因素影响,这些因素导致很难对交通路网中的车辆进行路径诱导。在复杂的动态路网环境下,基于强化学习的路径诱导是一个有效的解决方案。本文分析了城市交通路径诱导的特征以及基于强化学习的路径诱导算法存在的不足,提出了一种基于深度强化学习的交通路径诱导算法,来改善交通拥堵状况提高交通路径诱导的效率,以期达到优于传统强化学习路径诱导的效果:首先,通过分析强化学习进行动态路径诱导时将整体交通路网环境状态作为强化学习状态所带来的高维度困难,结合深度学习刻画高维复杂状态的能力和拟合强化学习状态值函数的方式,提出了基于深度强化学习的路径诱导模型来实现对车辆的路径诱导。其次,针对深度强化学习的网络模型存在的过估计以及稳定性的问题,使用Double DQN解耦最优动作选择和状态值计算的能力,来解决传统DQN存在的过估计问题;使用Dueling网络将神经网络的输出Q值由价值函数和优势函数相加获得,来提高神经网络训练的稳定性,从而设计了基于混合网络的深度强化学习路径诱导模型,使用波兹曼概率选择策略,实现对交通路网中的车辆进行路径诱导。最后,本文通过与基于强化学习路径诱导算法进行对比,根据路网中的车辆数量以及车辆的平均行驶时间作为评价标准,验证了本文提出的基于深度强化学习路径诱导模型的有效性,可以进一步提高对交通路网中车辆的路径诱导的效果。
其他文献
目的全面了解5.12地震灾后彭州市免疫规划工作现状,为灾后恢复、重建和进一步规范免疫规划相关工作提供基础信息。方法根据各镇受灾程度采用分层随机抽样方法共抽取9个镇作为调
目的 探讨早期超短波联合序贯压力治疗对于手深度烧伤创面愈合后功能恢复的影响.方法 选取单侧手深Ⅱ~Ⅲ度烧伤患者80例,于手部创面基本愈合2周后根据患者意愿分为综合治疗组
中水淮河工程有限公司的前身是20世纪50年代的淮委工程部及其后的淮委勘测设计院.从淮委工程部成立到1958年,在第一次波澜壮阔的治淮高潮中,淮委勘测设计院硕果累累,成就辉煌
目的 探讨集束化管理在创伤患者深静脉穿刺中的运用效果.方法 将2010年7月至2012年6月我院收治的101例创伤患者设为对照组,采取常规管理方案,将2012年7月至2014年6月我院收治
目的了解柳州市2004-2006年居民食用加碘盐现况,为进一步推动消除碘缺乏病工作提供科学依据。方法按照《广西壮族自治区碘盐监测实施方案》要求进行。结果2004-2006年共检测生
目的探讨血液透析联合血液透析滤过对糖尿病肾病维持性血液透析患者的心脏结构及其功能的影响。方法选取我院糖尿病肾病维持性血液透析患者82例,包括单纯血液透析组(每周3次常
目的 探讨机械通气在急性左心衰竭抢救中的应用效果.方法 以本院确诊为急性左心衰竭100例患者为目标人群,随机分为实验组和对照组,对照组患者给予老式无创性面罩双水平呼吸道
随着全球化的深入发展,各国之间的联系日益紧密。同声传译的诞生解决了人们对信息及时性的需求,促进新闻时事,热点话题的全球性传播,增强各个国家之间的相互了解。在此背景下,越来越多的国内外学者聚焦于如何提高同声传译的质量和水平,还有一些学者提出了自己的看法和理论。鉴于媒体直播同传在中国的起步较晚,相关研究尚不丰富,这使得媒体直播同传成为一项值得研究的课题。如今的媒体直播同传不单单局限于电视这一传统媒介,
教学模式的创新是教育改革的内在要求,笔者运用多元化教学模式对中药制剂设计学这门课程进行了深入的教学改革,以期提高教学质量,培养学生具备科学探究能力、创新意识及自主
本文介绍了以ARCGIS软件为平台,基于Geodatabase录入图形数据和属性数据,然后利用图层要素中的属性信息连接土地利用现状符号库进行填充和符号化,地图制作与编辑,最终打印输