论文部分内容阅读
浮动车在城市路网上的运动是有规律的,通过交通流预测技术,在提前获知浮动车出发与到达地点的前提下,可以预测这个车辆到达目的地的时间。利用历史数据和实时路况数据对浮动车的到达时间预估是智慧交通的研究重要领域之一。本文充分挖掘海量交通轨迹的数据的特征,分析了到达时间预估的轨迹数据预处理、模型特征评价和预测训练模型过程中存在的问题,提出了一种基于关联挖掘的特征选取和基于神经网络预测模型进行时间预估的解决方案,。本文的主要研究内容和成果如下:(1)应用地理围栏筛选和密度聚类的行程提取方法完成轨迹数据预处理交通工具的行驶轨迹是一条始终连续的坐标数据,其中可能包含着多个行程,中间夹杂大量冗余和干扰信息。如何从连续运动进行行程模式的识别是轨迹数据预处理的常见问题。基于交通常识,我们知道不同区域的交通轨迹因为社会经济、交通规则、城市规划等原因,往往呈现不同规律,很难有一个统一的模型去对全量区域的轨迹进行拟合,并取得较好的效果。常用做法是利用地理围栏将城市按照功能区进行划分,对于不同功能区的轨迹进行单独建模和调参,才能取得较好的效果。本文利用基于行驶状态表述和文本向量相似度的方法进行数据处理,并且利用空间密度聚类方法对误分割的行程进行召回,提高了行程提取的准确率和召回率,完成行程提取后,就完成了轨迹数据向交通行为的映射,一些信息稀疏的特征可以基于行程维度进行聚合,使得数据更加易于理解,便于训练。(1)应用地理围栏筛选和密度聚类的行程提取方法完成轨迹数据预处理交通工具的行驶轨迹是一条始终连续的坐标数据,其中可能包含着多个行程,中间夹杂大量冗余和干扰信息。如何从连续运动进行行程模式的识别是轨迹数据预处理的常见问题。基于交通常识,我们知道不同区域的交通轨迹因为社会经济、交通规则、城市规划等原因,往往呈现不同规律,很难有一个统一的模型去对全量区域的轨迹进行拟合,并取得较好的效果。常用做法是利用地理围栏将城市按照功能区进行划分,对于不同功能区的轨迹进行单独建模和调参,才能取得较好的效果。本文利用基于行驶状态表述和文本向量相似度的方法进行数据处理,并且利用空间密度聚类方法对误分割的行程进行召回,提高了行程提取的准确率和召回率,完成行程提取后,就完成了轨迹数据向交通行为的映射,一些信息稀疏的特征可以基于行程维度进行聚合,使得数据更加易于理解,便于训练。(2)应用关联挖掘完成预估模型的特征评价选取。实际交通是一个复杂的过程,受到诸多变量的影响。除了载具的性能、道路拥堵状态、行驶里程、道路等级之外,还会受到天气状况、交通事故、施工封闭等突发事件的影响。如何从庞杂的特征全集中寻找到对到达时间影响最大,信息密度高的特征集是提高预测精度的关键。传统的特征评价方法有滤波式算法和嵌入式算法,但是前者很难定量描述特征之间与特征与目标之间的相关性,后者受到特征组合爆炸的短板制约计算代价大。本文利用关联挖掘的算法,基于规则标注和离散化,成功应用改进的滤波法,实现在短时间内对特征之间和特征与目标之间的关联性进行分析。(3)研究了极限学习的神经网络算法的到达时间预估模型。本文研究的核心问题,就是在已知一个乘客的出发地点、目的地点、出发时间等条件的前提下,利用历史数据对其到达时间进行预估。在科研和工业界有许多成熟的算法模型可用于到达时间预估,包括基于线性模型的回归、基于非线性模型的回归、基于交通仿真预测的回归等等。目前基于树模型(回归树、随机森林、梯度提升树)的算法的实际应用最为广泛,近年来,随着深度学习理论的发展,神经网络模型越来越受到人们的关注。传统的神经网络常用于分类学习,也有一部分学者通过模型改造(激活函数和输出方式修改)将神经网络应用于分类,但是神经网络本身结构较为复杂,调参成本较高。本文利用极限学习的思想,将极限学习机神经网络算法应用于到达时间的预估过程。为了横向衡量模型的精度和可靠性,本文同时选用两种应用较为广泛的模型回归树和支持向量机进行了比较实验。通过比较三种预估方法的预测精度、可靠性、计算代价。发现神经网络模型可以在大量样本的前提下,在简单调参后达到较高精度。