论文部分内容阅读
在“互联网+”到“大数据×”的DT时代,大数据已成为科技界、产业界、政府部门高度关注的焦点,而移动轨迹大数据分析正成为城市计算、智慧城市领域的研究热点。当前,交通拥堵、环境恶化、能源紧缺等问题严重影响着城市的宜居程度和可持续发展。移动社交网络中位置轨迹数据的挖掘、分析与利用,为解决城市问题提供了新思路。本文研究基于MapReduce的出租车轨迹大数据深度挖掘新方法及其应用,致力于解决实时性、鲁棒性和精确性问题,为复杂交通网络的动态监测与预警控制提供理论依据和实用技术。本文研究的主要内容及创新性成果如下:1.提出基于MapReduce的面向海量小文件处理策略的并行频繁模式增长算法(MR-PFP),关联分析车辆运行的时空特征。首先,在搭建的基于MapReduce并行处理框架的Hadoop分布式计算平台上,实现海量小文件处理方法(Hadoop Archives、 CombineFileInputFormat、Sequence Files)弥补Hadoop的固有缺陷,并实验比较三种方法的内存消耗和执行效率以提出选择策略。其次,引入小文件处理策略SF优化频繁模式增长算法,并基于MapReduce实现优化算法的并行化,即MR-PFP。最后,基于MR-PFP算法,并行挖掘出租车轨迹大数据中的频繁项集以产生有趣的强关联规则,进而多维度关联分析车辆运行的时空特征。实验结果表明,与并行频繁模式增长算法(PFP)相比,MR-PFP算法具有更好的加速比性能和更高的挖掘效率。2.提出基于MapReduce的并行三阶段K均值算法(Par3PKM),分布式划分城市交通小区。首先,提出分布式交通小区划分方法(DTSAD),包括并行聚类和边界识别两大关键任务。其次,提出两种距离度量方法和三种聚类初始化策略来优化K均值算法,并在MapReduce作业中通过Map、Combiner、Reduce函数实现优化算法,即Par3PKM,进而完成出租车轨迹大数据的并行聚类。最后,提出边界识别方法连接聚类结果中各簇的边界数据点以形成交通小区。实验结果表明,与并行两阶段K均值(Par2PK-Means)、并行聚类大型应用(ParCLARA).K均值(K-Means)算法相比,Par3PKM算法具有更高的聚类效率、准确性、可扩展性和可靠性,以及边界识别方法可以准确连接各簇的边界。尤其是,交通小区划分结果与相应区域实际的交通状况高度吻合。3.提出基于MapReduce的面向分布式建模通用框架的时空权重K近邻模型(STW KNN),并行预测短时交通流。首先,提出基于MapReduce的交通流预测分布式建模通用框架(MF-TFF),解决集中式学习模型在处理大规模轨迹数据时存在的计算与存储问题。该框架足够普适,能通用于其他数据驱动的交通预测方法。其次,基于MF-TFF框架,提出分布式时空权重K近邻模型(STW-KNN)。该模型通过考虑上游-下游、历史-未来且具有趋势调整特征(变化迹象、变化幅度)交通流的时空相关性与权重来优化搜索机制,包括状态向量、相似性度量、预测函数和K值选择。最后,基于MapReduce并行处理范式实现STW-KNN模型,以并行化预测短时交通流。实验结果表明,与K近邻(KNN)、人工神经网络(ANNs)、朴素贝叶斯(NB)、随机深林(RF)和C4.5决策树相比,STW-KNN模型可以提高超过89.71%的预测准确性(MAPE值界于3.34%-6.00%),及其并行化实现显著改进了预测的效率和可扩展性。4.提出基于MapReduce的面向相关性分析的交通流预测方法(TFPC),实时预测交通流量。首先,在Hadoop分布式计算平台中,提出实时交通流预测系统框架(RPS),包括离线分布式训练(ODT)模块和在线并行预测(OPP)模块。其次,在ODT中提出鲁棒的并行近邻优化分类器(ParKNNO)来建模交通流的相关性,发掘交通流内在的相关性信息并将其纳入分类过程。最后,在OPP中提出新颖的预测计算方法,并利用当前数据和ParKNNO训练大规模历史数据所获得的分类结果,实时产生交通流预测。实验结果表明,与差分自回归移动平均(ARIMA)、多层感知器神经网络(MLP-NN)、近邻(NN)回归等方法相比,TFPC方法可以最大改进90.07%的预测准确性(MAPE均值为5.53%),且具有良好的加速比、扩展性和规模增长性。