基于MapReduce的移动轨迹大数据挖掘方法与应用研究

来源 :西南大学 | 被引量 : 21次 | 上传用户:xiaotaowang33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在“互联网+”到“大数据×”的DT时代,大数据已成为科技界、产业界、政府部门高度关注的焦点,而移动轨迹大数据分析正成为城市计算、智慧城市领域的研究热点。当前,交通拥堵、环境恶化、能源紧缺等问题严重影响着城市的宜居程度和可持续发展。移动社交网络中位置轨迹数据的挖掘、分析与利用,为解决城市问题提供了新思路。本文研究基于MapReduce的出租车轨迹大数据深度挖掘新方法及其应用,致力于解决实时性、鲁棒性和精确性问题,为复杂交通网络的动态监测与预警控制提供理论依据和实用技术。本文研究的主要内容及创新性成果如下:1.提出基于MapReduce的面向海量小文件处理策略的并行频繁模式增长算法(MR-PFP),关联分析车辆运行的时空特征。首先,在搭建的基于MapReduce并行处理框架的Hadoop分布式计算平台上,实现海量小文件处理方法(Hadoop Archives、 CombineFileInputFormat、Sequence Files)弥补Hadoop的固有缺陷,并实验比较三种方法的内存消耗和执行效率以提出选择策略。其次,引入小文件处理策略SF优化频繁模式增长算法,并基于MapReduce实现优化算法的并行化,即MR-PFP。最后,基于MR-PFP算法,并行挖掘出租车轨迹大数据中的频繁项集以产生有趣的强关联规则,进而多维度关联分析车辆运行的时空特征。实验结果表明,与并行频繁模式增长算法(PFP)相比,MR-PFP算法具有更好的加速比性能和更高的挖掘效率。2.提出基于MapReduce的并行三阶段K均值算法(Par3PKM),分布式划分城市交通小区。首先,提出分布式交通小区划分方法(DTSAD),包括并行聚类和边界识别两大关键任务。其次,提出两种距离度量方法和三种聚类初始化策略来优化K均值算法,并在MapReduce作业中通过Map、Combiner、Reduce函数实现优化算法,即Par3PKM,进而完成出租车轨迹大数据的并行聚类。最后,提出边界识别方法连接聚类结果中各簇的边界数据点以形成交通小区。实验结果表明,与并行两阶段K均值(Par2PK-Means)、并行聚类大型应用(ParCLARA).K均值(K-Means)算法相比,Par3PKM算法具有更高的聚类效率、准确性、可扩展性和可靠性,以及边界识别方法可以准确连接各簇的边界。尤其是,交通小区划分结果与相应区域实际的交通状况高度吻合。3.提出基于MapReduce的面向分布式建模通用框架的时空权重K近邻模型(STW KNN),并行预测短时交通流。首先,提出基于MapReduce的交通流预测分布式建模通用框架(MF-TFF),解决集中式学习模型在处理大规模轨迹数据时存在的计算与存储问题。该框架足够普适,能通用于其他数据驱动的交通预测方法。其次,基于MF-TFF框架,提出分布式时空权重K近邻模型(STW-KNN)。该模型通过考虑上游-下游、历史-未来且具有趋势调整特征(变化迹象、变化幅度)交通流的时空相关性与权重来优化搜索机制,包括状态向量、相似性度量、预测函数和K值选择。最后,基于MapReduce并行处理范式实现STW-KNN模型,以并行化预测短时交通流。实验结果表明,与K近邻(KNN)、人工神经网络(ANNs)、朴素贝叶斯(NB)、随机深林(RF)和C4.5决策树相比,STW-KNN模型可以提高超过89.71%的预测准确性(MAPE值界于3.34%-6.00%),及其并行化实现显著改进了预测的效率和可扩展性。4.提出基于MapReduce的面向相关性分析的交通流预测方法(TFPC),实时预测交通流量。首先,在Hadoop分布式计算平台中,提出实时交通流预测系统框架(RPS),包括离线分布式训练(ODT)模块和在线并行预测(OPP)模块。其次,在ODT中提出鲁棒的并行近邻优化分类器(ParKNNO)来建模交通流的相关性,发掘交通流内在的相关性信息并将其纳入分类过程。最后,在OPP中提出新颖的预测计算方法,并利用当前数据和ParKNNO训练大规模历史数据所获得的分类结果,实时产生交通流预测。实验结果表明,与差分自回归移动平均(ARIMA)、多层感知器神经网络(MLP-NN)、近邻(NN)回归等方法相比,TFPC方法可以最大改进90.07%的预测准确性(MAPE均值为5.53%),且具有良好的加速比、扩展性和规模增长性。
其他文献
<正>几何直观主要是指利用图形描述和分析问题,"格子图"便是发展学生几何直观能力的一种素材。综观整套小学数学教材(人教版),发现其大量地使用了方格图和点子图,编排循序渐
分析了煤矿瓦斯抽采泵结垢的成因及危害,并在此基础上对煤矿瓦斯抽采泵除垢技术进行研究。期望能够对延长瓦斯抽采泵的使用寿命以及提高瓦斯抽采效率有所帮助。
<正> 甘肃省定西地区和周围的一些县,是全国有名的贫困地区。近几年虽然有些好转,但由于这一带土地贫瘠、干旱,人口密度大,仍然没有从根本上改变落后面貌。例如天水地区的秦
论述了可行性研究报告在建设项目前期工作中的作用。
1931年初爆发的"万宝山事件"及"朝鲜排华案"对中韩关系产生极坏影响。中韩各方政治力量以中国新闻媒体为双方政治主张载体,澄清事实,分析利害,并以此为契机奠定日后中韩联合
紫坪铺水利枢纽工程帷幕灌浆由于地质条件差,地层软弱复杂,灌浆注入量大,且极易发生浆液串冒和基础抬动现象。为了节约灌浆成本,控制浆液扩散半径,防止基础破坏,在灌浆施工过
提出了一种基于分时复用单片机/DSP内部PWM模块产生多路电动舵机控制信号的方法。利用内部的PWM模块硬件中断功能,辅以必要的硬件电路,可以从1路分时复用PWM模块中分离出8路
煤是我国的重要能源之一,煤炭的开采为我国的经济发展带来了巨大的利益。在进行煤矿开采的过程中,通常会涉及很多方面的内容,其中,最为重要的是保证在井下工作的煤矿工人的安
本研究通过分析铣刀渐进磨损过程的特点,从切削力、主轴端振动位移、主轴端振动加速度和主轴电机功率等信号中提取了8个反映刀具磨损状态的特征参数,提出用模糊模式识别多传感
<正>自课程改革以后,教材提供了大量丰富而有效的素材,用以实现对学生空间观念的培养,格子图就是其中的一种素材,纵观整套人教版教材,发现格子图的使用几乎覆盖了小学阶段"图