基于大数据Hadoop平台的出租车载客热点区域挖掘研究

被引量 : 39次 | 上传用户:lzyltt8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国民经济的发展以及城市化进程的推进,作为城市公共交通重要方式之一的出租车数量在不断地增长。由于出租车上都安装有GPS终端,这些装置会定时向出租车调度中心发送实时状态信息,如车辆经纬度信息、速度、载客状态等。随时间的积累,调度中心采集并保存了庞大的出租车数据,如何从这些出租车数据中挖掘出有用信息成为当前一个热门的研究领域。通过对出租车数据进行处理和聚类挖掘,充分挖掘出租车载客热点区域,可以为出租车的调度和管理提供信息辅助和决策支持,提高出租车的利用率。传统意义上的出租车数据处理及载客热点挖掘都是基于单台计算机的基础上进行的,受限于单台计算机的配置及性能,处理的出租车数量和运算速度有限。大数据Hadoop技术的出现解决了大量数据的存储和计算瓶颈,从而使大量出租车数据的处理及挖掘成为可能。本文依托于大数据Hadoop平台研究出租车载客热点区域,主要工作如下:第一,在实验室条件下搭建完全分布模式的Hadoop集群实验平台,包括硬件环境和软件环境部署。设计了排序和检索两个实验测试了该集群与单机的性能,验证了该集群比单机更加适合出租车大数据的海量分析处理,数据量越大,优势越明显。第二,出租车数据含有大量的异常数据,而且数据杂乱,必须对数据进行预处理。针对北京市1.4万辆出租车产生的500G数据,本文利用实验室搭建的Hadoop集群平台对该出租车数据进行预处理操作,首先实现了原始出租车数据上传到Hadoop集群平台、进而设计了基于Hadoop的MapReduce计算框架的处理程序完成对出租车数据的清洗、按车辆编号和时间进行的二次排序以及载客点经纬度坐标提取等操作。第三,研究了大数据平台下的K-Means聚类算法,设计了一种改进的基于MapReduce计算框架的并行K-Means聚类算法,并通过加速比、扩展率和数据伸缩率三个实验分析验证了所设计的算法具有良好的并行性能,适合对大量出租车载客点进行聚类挖掘。然后利用该设计的算法对提取到的载客点进行聚类以挖掘出租车载客热点区域。最后利用ArcGIS软件实现了载客热点区域的可视化,并结合北京实景地图完成对载客热点区域的分析。
其他文献
目的探讨急性脑卒中吞咽障碍患者早期康复护理的效果。方法将42例急性脑卒中患者随机分为康复组22例和对照组20例,两组均按常规进行治疗和护理,观察组加用早期康复护理。结果
近年来,随着计算机技术和信息技术的快速发展与广泛应用,互联网的数据量呈现爆炸式增长,传统的数据处理技术已经难以满足大规模数据的需求,因此面向大规模数据的处理技术成为
太阳能是不枯竭的、使用领域广阔的清洁能源。正广泛地应用于建筑的采暖、热水、制冷、发电等多方面。与太阳能在其他领域的应用相比,太阳能在建筑领域中的应用是最具发展潜
本文在假定地方政府是“仁慈型”政府的前提下,通过实证分析得出地方政府支出存在结构偏向,重视基础设施建设而轻科教文卫等支出。接着从中央与地方之间的激励合同出发,分析在“
由陈铭道教授主编的《书写民族音乐文化》融十位学界专家、结合各自独特的认知与书写方式,深入阐释了民族音乐文化的基本学理,以多元书写的形式,熔铸成一部具有"效率很高的知
在玛格丽特·杜拉斯《爱》这部小说之中,她用声音和色调来叙述和诠释记忆。在文本中,声音成为了记忆的外化,色调成为了感知现实世界的表现方式,杜拉斯用各种手法表达了一个最
情感因素在思想政治教育中具有重要意义。情感培养是思想政治教育的重要目标与任务,情感因素是思想政治的必要环节与要素,情感运用是思想政治教育的基本途径与方法。情感是思
在互联网普及之后的今天,有关微博与微信成了新的销售渠道,通过微博与微信进行营销一经被推广之后,就被广泛的应用在企业或公司之中。在不同的行业中,不同的品牌和事物对微博
目的探讨弹力网绷带在儿科静脉输液中的应用效果。方法将100例使用静脉留置针输液的住院患儿随机分为对照组和实验组,各50例。对照组静脉留置针采用常规固定法,实验组静脉留
目前,在物联网感知层网络环境中,接入了各类的物联网感知层设备,造成了物联网感知层网络的异构化,使得物联网的应用和发展陷入了瓶颈。因为这些物联网感知层异构网络数据不能