论文部分内容阅读
道路客运是最方便和面向大众的中长途出行方式之一,也是社会经济发展的基础性行业。推动客运行业信息化,建设完善的智能客运系统,能有效提高公共交通服务水平。车辆到站时间是出行者最为关心的信息之一,提供客运到站时间预测不仅有利于出行者合理安排行程及客运车辆的实时调度,还能实现社会出行资源的合理调配、缓解城市交通拥堵、节能减排。随着车载GPS的普及、GIS等技术的成熟、“互联网+交通”概念的兴起,利用新技术研究和开发客运车辆到站时间预测系统具有重要的现实意义。本文设计了一种采用azkaban+Hadoop+nagios技术的无损数据清洗方法,实现客运、公交车、出租车、货车等多种类型车辆的GPS数据清洗。该方法使用azkaban调度清洗任务,将合格与不合格的数据分离,并存储到HDFS,而不像传统的清洗方法一样将脏数据直接丢弃。nagios技术监控数据清洗质量,在质量不达标时能发起告警。本文研究了道路类型、重大节假日等因素对客运车辆运行时长的影响,分析了公交同客运的差异性和客运车辆运行特点,采用支持向量回归机模型实现客运车辆到站时间预测模型。模型充分考虑道路类型、重大节假日、天气、路况、运行距离、运行时间、排班信息等7个特征因素,克服了一般公交系统研究模型设计可能因过于依赖经验导致过拟合等问题。选取遗传算法解决支持向量回归机参数寻优的难题,实验结果表明遗传算法能比传统K-CV算法节省约30%的时间。最后,在Hadoop平台上完成GPS异常记录处理、确定车辆发车时间,在storm平台上完成地图匹配、经纬度一维转换、路况计算,提取出模型需要的特征。实验使用客运车数据训练集共300组记录训练模型,用测试集数据(共124组)验证本文模型应用于客运车辆行程时间预测的有效性。基于本文的研究内容,可以实现一个可提供客运车辆到站时间预报的软件服务系统,该系统目前已经进入为期6个月的应用开发阶段,预期可产生较好的实际应用价值。