论文部分内容阅读
随着信息技术发展,在智能交通行业,传感器、采集装置的普及装配等各种电子采集技术的发展,交通信息数据的数据量迅速激增。面对交通拥堵、交通资源利用不合理、交通事故频发等日益严重的交通问题,传统的数据分析模式已经不能利用现实生活中产生的大数据信息进行分析解决现实中的交通问题矛盾。出租车GPS信息是交通大数据信息中具有代表性的交通数据信息,通过对某城市出租车GPS大数据信息的分析,可以直接有效的得到该城市的交通运行特性。利用交通特性的分析结论,可为解决交通矛盾,优化交通资源利用,制定行之有效的交通管理政策,提供合理的出行建议等提供数据支持和策略依据。本课题进行研究时讲述了课题开展的背景及意义,并且对国内外在出租车GPS大数据的分析及处理的研究现状。对出租车GPS大数据分析系统的搭建及应用中用到的HDFS、YARN、Sqoop、Spark等关键技术的进行了阐述及技术特性分析。在搭建系统时首先需要搭建开源的Hadoop大数据处理平台,对选用的Hadoop大数据处理平台软件以及后续数据分析需要用到的组件进行选择论证,通过集群部署与管理,搭建起此次出租车GPS大数据分析的集群管理环境。利用Hadoop平台中的核心组件HDFS对大数据信息进行分布式存储和管理,Spark并行计算框架对GPS大数据进行预处理及GIS地图进行匹配并清洗数据从而得到分析的数据源,从乘客的出行时间、乘客出行空间两个角度展开,利用聚类算法对出租车GPS数据进行交通特性分析,最终用Sqoop工具将分析结果进行数据导出,并进行分析结果演示。通过对出租车GPS数据的分析结果,结合城市文化信息,得到乘客的出行量出行时间等特性分布,以及出租车空车率、单次出行时耗、平均出行时耗、出发热点区域分析及到达热点区域分析等该城市的交通出行特性,可以为交管部门提供管理依据,为居民出行做出出行指导。