【摘 要】
:
随着城市化进程的不断加快,人们的出行需求与日俱增。得益于互联网、GPS和移动终端技术的发展,以网约车为代表的移动出行方式逐渐在人们的生活中占据重要地位,满足了人们多样化的出行需求。作为网约车平台业务的关键支撑,订单调度任务旨在利用订单调度算法减小网约车空驶司机和乘客订单之间的供需差距,从而在提升平台收益的同时为乘客提供更好的出行服务。本文提出了一种全局供需感知的均值场强化学习订单调度算法,通过将多
论文部分内容阅读
随着城市化进程的不断加快,人们的出行需求与日俱增。得益于互联网、GPS和移动终端技术的发展,以网约车为代表的移动出行方式逐渐在人们的生活中占据重要地位,满足了人们多样化的出行需求。作为网约车平台业务的关键支撑,订单调度任务旨在利用订单调度算法减小网约车空驶司机和乘客订单之间的供需差距,从而在提升平台收益的同时为乘客提供更好的出行服务。本文提出了一种全局供需感知的均值场强化学习订单调度算法,通过将多智能体强化学习与均值场理论相结合,提升了智能体在局部空间上相互之间的协作性;通过注入全局空间上供需的动态分布信息,提升了智能体对全局供需分布的感知和优化能力。此外,本文对真实历史订单数据进行合理的预处理,构建了以该数据驱动的订单调度模拟器,用以训练和评估订单调度算法。实验结果表明,本文提出的算法在司机累计收益和订单应答率两个重要指标上都优于已有算法,证明了该算法的有效性。本文主要研究内容如下:(1)根据订单调度任务的内在特点,本文建立了刻画该问题的数学模型,进而提出了基于局部观测的订单调度算法框架;构建了适用于该任务的模拟器,在对原始数据进行数据清洗、格式转化、时空离散化等预处理的基础上,对所提算法进行了训练和评估;(2)为了加强订单调度算法中多智能体之间的局部协作性,本文利用特征工程方法构建了能够反映局部空间供需关系的均值特征,实现了基于向量均值的均值场多智能体强化学习算法,并通过实验验证了该方法的有效性;(3)考虑到供需分布在全局空间上实时、动态变化的特点,本文利用KL散度对模型进行全局一致性性能优化,利用谱范数正则化对值函数热点估值进行鲁棒性性能优化,提高了模型对全局供需分布的感知和优化能力,并通过实验验证了该方法的有效性。
其他文献
2021年5月21日云南省漾濞县境内发生了Ms6.4强烈地震,共导致了3人死亡和34人受伤,地震造成的直接经济损失超过322.711亿元,此次地震给灾区民众的生命和财产安全均造成了重大影响。震后,灾区交通网络系统总体情况良好,救援路线未受到严重阻碍,但灾区多处桥梁和道路仍受到不同程度的损伤。桥梁作为交通网络的重要组成部分,只要在地震中发生严重损伤或倒塌,都可能导致部分地区抗震救灾工作受到影响。中小
我国是地震灾害风险最高的国家之一,庞大的人口基数和复杂和脆弱的工程系统致使我国在多次地震中遭受了巨大的人员和财产损失。由于通常难以在地震发生后第一时间了解灾区情况,政府需要根据对地震受灾情况的初步评估结果确定地震响应等级、启动应急预案、部署安排救援力量、合理高效开展救援工作。其中,地震人员死亡评估是地震灾害评估的重要组成部分,人员死亡情况也是确定地震应急响应级别的关键依据。为了建立适用于我国的地震
在全球环境不断恶化和我国“碳达峰,碳中和”目标提出的背景下,可再生能源已经成为未来能源发展的焦点。风电是目前较为成熟的可再生能源发电方式,但是由于风资源波动性和间歇性等特点,大规模的风电并网不仅给电网的安全运行带来了很多问题,也导致其在市场竞争中难以取得优势。在风电等可再生能源高比例接入的电网中增加储能装置已经成为一种广泛应用的解决方案。电化学储能目前应用最广泛,但是电化学储能装置的性能会随着充放
工程抗震设计中要考虑建筑物所在地的场地条件。局部场地条件是地震动传播中不可忽略的影响因素,在地震中主要的表现形式是对地震动存在不同程度的放大作用,这将直接影响到地震灾害的严重程度。因此,土层地震反应分析是地震小区划、场地安全性评估工作中的重要内容。土层地震反应分析方法,主要分为两类,一为频域等效线性化方法,二为时域非线性计算方法,并具体衍生出不同的具体计算方法。目前,频域等效线性化计算方法包括3个
地震预警作为一种有效的减灾手段,已经在日本、美国等多个国家得到了应用,我国也正在实施“国家地震烈度速报与预警工程”。P波是地震预警系统中实现快速预警的基本信息,在地震预警中的地震定位、震级估计以及影响场预测中发挥着重要的作用。目前,地震预警系统中常用的P波初至自动捡拾方法是基于信号幅值突变特征的单参数识别方法,这种方法难以排除大幅值背景噪声导致的误触发问题,以及P波幅值缓慢增长导致的到时捡拾结果滞
基础隔震技术是通过在建筑结构基础顶面和上部结构之间设置隔震装置,从而使结构的自振周期得到延长,避开地震动的主要频率范围,减小甚至阻隔部分地震能量向结构上部传递,以达到保护上部建筑结构安全的目的。在以往的地震中,基础隔震结构已经过大量的隔震效果检验,并在国内外得到了广泛的应用。经过数十年的发展,众多学者对基础隔震技术开展了广泛的研究,各式各样的隔震装置相继出现,其中铅芯橡胶隔震支座以其构造简单且性能
随着经济的发展和社会的进步,高层框架-剪力墙(核心筒)结构越来越多地应用于我国的各大城市。历次震害表明,该类结构的地震损伤主要集中在剪力墙(核心筒)的连梁,震损后难以修复,这将影响建筑的使用功能。为了减少该部位的损伤,进一步提升整体结构的抗震性能和震后可恢复性,各国学者采用可更换消能连梁对结构进行减震设计,使结构在地震中的损伤主要集中在消能连梁,震后更换损伤的消能连梁,快速恢复整体结构的使用功能。
高比例新能源接入的现代电力系统越来越接近系统运行的极限,从而使电力系统暂态稳定面临着更严峻的挑战。及时有效的暂态稳定分析策略能够为电力系统暂态稳定运行及防控策略的实施提供有力帮助,能够避免故障规模进一步扩大甚至发生大范围停电事故。而随着广域测量系统和通信技术的发展,人工智能方法可以加速复杂电力系统暂态稳定分析的过程,因此,研究基于数据驱动的电力系统直接法暂态稳定分析具有重要的现实意义。论文的主要研
随着计算机视觉技术以及工业智能化地发展,现有机器人巡检平台受算法精度不高、平台应用场景固定、系统结构简陋等因素影响,已无法满足市场需求。基于上述问题,本文以数字仪表为研究对象,围绕面向机器人巡检平台的数字仪表识别方案和对应平台的设计实现展开研究。针对实际巡检过程中由于光照、巡检机器人定位误差等因素导致数字仪表图像产生畸变、识别难度大的问题,本文提出了一套面向机器人巡检平台的数字仪表自动识别方案。其
近年来,随着大数据技术的快速发展,金融文本信息挖掘越来越多转向非结构化的金融文本数据。目前,金融社交平台上有不少包含意见与观点的评论,在这类文本中数值占有极大比重。而金融社交评论短文本中的数值并没有受到与之匹配的关注,数值蕴含的丰富语义信息没有得到充分挖掘。因此,本文从社交网络平台收集评论并对其进行标注,构建了一份中文金融社交文本数值属性数据集CFin Num Attr,并在这份数据集的基础上对金