论文部分内容阅读
随着互联网的快速发展,大数据和互联网、物联网、车联网等相互交融,这也影响着物流行业的发展。物流企业产生的物流大数据范围较广,其中物流交通大数据是重要组成部分。交通大数据的有效处理为物流公司基于时间、成本、路线等车辆调度的应用服务提供了可靠的理论依据和技术支持。实时准确的交通大数据流预测是实现数据有效处理的前提和基础,这也给交通大数据的预测带来了新的问题,值得深入研究。时间序列模型仅需历史时间序列即可对交通流进行有效预测。因此,本文首先分析交通流数据的特征并进行LMD(Local Mean Decomposition)分解,并证明了分解后的流量序列具有短相关特征,提出了一种基于LMD和GARCH(Generalized AutoRegressive Conditional Heteroskedasticity)交通流量时间序列预测算法,预测精度显著高于传统的时间序列模型。但是,时间序列模型只能实现离线预测,为了适用于流数据的预测,本文又提出了一种基于SKmeans和SGD的RBFNN在线预测算法。该算法主要对RBF神经网络进行改进,首先对训练数据进行在线聚类,然后通过改进的SGD算法来训练参数,实验结果表明,该算法的预测精度和训练效率明显高于最近邻聚类在线训练算法,并对交通流量实现了有效的在线预测。随着训练样本的不断增大,虽然RBF改进算法可以实现在线预测,但是时间和空间复杂度急剧增加,不能满足实际的应用需求。因此,本文将采用Storm实时流处理平台,将基于SKmeans和SGD的RBFNN在线预测算法在Storm平台上进行实现。为了实现有效的预测,对该算法并行化实现进行了设计,然后结合垂直并行化和水平化给出了该算法总体实现。最后搭建Storm集群环境,通过实验表明,交通大数据的预测中,集群模式相比于单机模式具有更快的训练速度,加速效果明显。