论文部分内容阅读
大数据引领了信息时代的重要变革,影响了经济、科技和社会等各个层面,大数据的其中一种形式以海量实时数据流的方式呈现。这些海量的实时数据中隐藏着巨大的价值,如何更好的挖掘处理这些实时数据流已经成为了国内外数据挖掘领域的研究重点和热点。数据流具有有序性、实时性、高速性、动态性、潜在无限性等特点,对数据流的处理包含存储、处理、分析和应用等。概要结构是用于解决数据流潜在无限性问题的处理技术,但现有的概要结构算法存在着重构数据流与原数据流相对重构误差较大和参数难以调整的缺点。概念漂移检测技术用于解决数据流的动态性问题,数据流集成分类具有较高的分类准确率和概念漂移适应能力而被广泛地应用到数据流分类中。但概念漂移检测和集成分类处理通常基于数据流标签及时可用的假设,在实际应用中这一假设很难成立。针对这些问题,本文做了以下三方面的工作:(1)实现了基于sim Hash的数据流分层遗忘概要结构(SH-HAS)。该结构采用sim Hash算法获取概要信息,并动态调整SH-HAS结构,解决了重构数据集与原数据集误差较大的问题。实验证明,SH-HAS结构具有更小的相对重构误差。(2)改进FKNNModel概念漂移检测算法,提出了MFKNNModel概念漂移检测算法。MFKNNModel利用数据的空间分布的改变来检测数据流概念漂移,并利用Spark Streaming高效并行计算来提升算法的运行效率,解决了FKNNModel算法中的人工干预及计算效率问题。实验效果表明,在缺乏人工干预的情况下,MFKNNModel具有良好的概念漂移检测能力和较高的运行效率。(3)提出了基于概念漂移的数据流集成分类模型(Ensemble Classifier Based on Concept-Drifting Data Stream,ECCDDS)。采用水平集成的方式生成基分类器,通过加权投票的方法对基分类器的分类结果进行投票,生成集成分类器的分类结果;ECCDDS算法首先形成数据流的概要结构,然后引入概念漂移检测算法MFKNNModel,在发生概念漂移时更新集成分类模型,最后对数据进行分类。ECCDDS打破了集成分类器以数据流标签及时可用为假设的前提,解决了集成分类器以分类精度作为概念漂移检测和模型更新为依据所带来的后序到达的数据流类标签不能及时可用的问题。利用Spark Streaming流式计算框架解决了集成分类器在计算资源和计算效率方面的问题。在真实数据集和人工数据集上的实验验证了ECCDDS集成分类模型的有效性。