论文部分内容阅读
我国社会经济水平的提高和城市化率的攀升,使得人们的出行需求快速增加,突出了路网通行能力供需不平衡所带来的交通拥堵的问题。加快完善智能交通系统,提升城市管理者交通管控技术能力,改善人们的出行效率和既有路网的有效承载能力,对解决交通拥堵具有重要意义。同时,智能交通系统的完善和数据采集能力的提高使得海量的交通数据被获取。交通数据由于采集、传输和存储环节中各种原因而存在数据缺失的问题,数据缺失使得智能交通管控技术中交通流预测、智能诱导等工作难以开展。因此,交通数据缺失值恢复已经成为交通领域的一个重要研究内容,本文使用机器学习方法对交通数据缺失值恢复进行了系统的研究,主要工作如下:(1)从差异性和相关性两个视角,详细分析了实际道路网交通流数据中所表现的交通流特征。针对数据缺失问题,分析了数据缺失产生的原因和数据缺失的不同模式,对实验数据预处理中使用的完全随机缺失、随机缺失和混合缺失这三种缺失数据生成模式进行了介绍,为后续研究交通数据缺失值恢复方法提供了理论依据。(2)对概率主成分分析、局部最小二乘回归和低秩矩阵补全模型进行了深入研究,并在美国波特兰市的真实交通数据上进行了实验。实验结果表明,在缺失率为10%20%时,局部最小二乘回归利用了非线性数据的局部线性成分而具优于其他方法0.87%14.24%的性能,当缺失率提升至30%50%时,概率主成分分析展现了较好的性能。(3)利用稀疏表示原理,将每个交通数据样本表示为其它样本的稀疏线性组合,提出了基于稀疏表示的交通数据缺失值恢复方法。针对L1范数正则化容易引起解过于稀疏和L2范数正则化容易引起解过于稠密的问题,使用弹性网正则化融合了L1范数正则化和L2范数正则化两者的优点,使得解不过于稀疏也不过于稠密。(4)为了解决线性SR-EN模型在进行交通缺失数据恢复时的局限性,提出通过非线性映射的方法将交通数据映射到高维特征空间中,使得映射后的交通数据样本分布于多个线性子空间中。针对显式地进行非线性映射时计算复杂度高的问题,利用“核技巧”,通过核函数将交通数据隐式映射到高维特征空间。利用单调快速迭代阈值收缩算法和基于Armijo步长规则的投影梯度下降法进行交替求解来解决KSR-EN模型的优化问题。在模拟数据和美国波特兰市的真实数据上进行了实验。实验结果表明,相比SR-EN模型,非线性的KSR-EN模型在实验中表现出对于非线性数据具有更好的适应力,同时可以获得更高的恢复精度。(5)针对不同交通缺失数据恢复方法会对交通流预测产生何种影响的问题,提出了交通数据缺失值恢复模型对交通流预测的影响分析框架(TIAF-TMVR)。介绍了分析框架的具体流程,并基于最小二乘支持向量回归(LSSVR)、长短期记忆网络(LSTM)和K近邻(KNN)模型在真实交通数据上对2种缺失数据简易处理方法和上文提到的4种方法进行了交叉对比实验,实验结果表明对缺失数据进行恢复是具有实际意义的,同时使用KSR-EN模型进行恢复的数据表现出较好的鲁棒性。