论文部分内容阅读
随着国民经济的发展以及城市化进程的推进,作为城市公共交通重要方式之一的出租车数量在不断地增长。由于出租车上都安装有GPS终端,这些装置会定时向出租车调度中心发送实时状态信息,如车辆经纬度信息、速度、载客状态等。随时间的积累,调度中心采集并保存了庞大的出租车数据,如何从这些出租车数据中挖掘出有用信息成为当前一个热门的研究领域。通过对出租车数据进行处理和聚类挖掘,充分挖掘出租车载客热点区域,可以为出租车的调度和管理提供信息辅助和决策支持,提高出租车的利用率。传统意义上的出租车数据处理及载客热点挖掘都是基于单台计算机的基础上进行的,受限于单台计算机的配置及性能,处理的出租车数量和运算速度有限。大数据Hadoop技术的出现解决了大量数据的存储和计算瓶颈,从而使大量出租车数据的处理及挖掘成为可能。本文依托于大数据Hadoop平台研究出租车载客热点区域,主要工作如下:第一,在实验室条件下搭建完全分布模式的Hadoop集群实验平台,包括硬件环境和软件环境部署。设计了排序和检索两个实验测试了该集群与单机的性能,验证了该集群比单机更加适合出租车大数据的海量分析处理,数据量越大,优势越明显。第二,出租车数据含有大量的异常数据,而且数据杂乱,必须对数据进行预处理。针对北京市1.4万辆出租车产生的500G数据,本文利用实验室搭建的Hadoop集群平台对该出租车数据进行预处理操作,首先实现了原始出租车数据上传到Hadoop集群平台、进而设计了基于Hadoop的MapReduce计算框架的处理程序完成对出租车数据的清洗、按车辆编号和时间进行的二次排序以及载客点经纬度坐标提取等操作。第三,研究了大数据平台下的K-Means聚类算法,设计了一种改进的基于MapReduce计算框架的并行K-Means聚类算法,并通过加速比、扩展率和数据伸缩率三个实验分析验证了所设计的算法具有良好的并行性能,适合对大量出租车载客点进行聚类挖掘。然后利用该设计的算法对提取到的载客点进行聚类以挖掘出租车载客热点区域。最后利用ArcGIS软件实现了载客热点区域的可视化,并结合北京实景地图完成对载客热点区域的分析。