论文部分内容阅读
智能交通系统作为未来交通系统的发展方向,近年来获得了快速深入发展,并已具备大数据特征。而大数据环境下的海量多源异构且实时性强的数据,增加了数据挖掘的复杂度和难度。特征提取和流量预测是目前该领域中广泛应用的两类数据挖掘方法。其中,特征提取方法又涵盖了关联特征与事件特征两种使用频繁的代表性提取算法。随着智能交通数据环境的不断演变,关联特征提取、事件特征提取和交通流量预测的传统模型与算法逐渐表现出准确率下降、性能缓慢、效率低下等问题,成为目前各类高可靠性、高效率、高精度系统应用的瓶颈所在。因此,研究如何优化改进这三种算法以适应时代的发展和满足更高标准的数据需求具有非常重要的现实意义。本论文旨在基于交通关联特征提取、事件特征提取和流量预测的现有算法基础上,进一步研究大数据挖掘并行化和特征选择的特点,提炼机器学习应用于交通数据的特有特性,分析现有工作的不足,通过与相关的实验进行有机结合,提出三种新的优化算法,改进算法的准确度和效率,提高算法在智能交通系统中的应用效果。论文的主要研究内容如下:(1)面向交通领域的关联特征提取算法的核心是进行关联规则挖掘。但该挖掘算法的每次迭代计算过程中的大量磁盘I/O操作会使运行平台效率低下,同时一成不变的算法迭代策略产生了大量中间候选集,造成空间和时间成本高。针对这一问题,提出一个基于分布式并行计算和自适应策略的关联特征提取算法。该算法利用Spark的内存存储特性并使用一种改进的方法去除传统Apriori算法中间候选集的生成步骤,提出基于数据集性质的自适应策略来寻找具有更高精度和效率的频繁模式,实现了最小化的时间和空间复杂度。(2)在面对交通领域的海量和多属性的数据挖掘过程中,存在大量噪声和冗余,导致训练数据不清晰,直接使用人工神经网络会使网络模型规模巨大而复杂。而过于复杂的网络结构将导致超长的学习时间以及局部最小化和过拟合问题,挖掘效率低。针对这一问题,通过研究模糊集、粗糙集理论和神经网络各自具有的优势以及存在的问题,提出一种基于新定义的模糊粗糙集概念的粒度神经网络,以依赖因子的形式提取数据的领域知识。该方法使用粒化结构来定义网络的输入向量和目标值,指定依赖因子作为粒度神经网络的初始连接权重,然后在无监督的情况下,使用新提出的特征评估指数最小化方式对其进行训练。在训练完成之后,从隐藏层和输出层之间的权重更新来获得各个特征的重要性。(3)交通流量预测是交通建模和管理中的一个基本问题,许多交通流量预测系统和模型大都使用浅层模型,且对不同道路采取分散独立学习和预测的模式。已有的一些深层架构模型如深度置信网络由于反向传播方法的先天性缺陷,例如慢收敛和局部最优,使得基于这些模型的方法未能提供最有利的预测结果。为了解决这些问题,提出了一种基于多层神经网络架构和多任务学习的交通流量预测优化算法。该算法的模型结构是由两部分组成的多层网络结构,包括底层的DBN和顶层的多任务回归层。DBN以无监督的方式进行特征学习,在DBN之上创建多任务回归层,嵌入回声状态学习机制而不是传统的反向传播方法,用于监督预测。该模型结合了DBN和回声状态网络的优点,并通过多任务学习机制综合考虑了多条道路的互相影响,以提高预测准确率。论文进一步研究了不同的任务分组策略对预测效果的影响,同构和异构多任务学习在交通流量预测中的应用并提出了一种基于顶层权重的分组方法,使多任务学习更加有效。