论文部分内容阅读
随着物联网、移动互联网的迅猛发展,数据从各处源源不断产生形成海量数据流。数据流是快速、海量、动态变化的数据序列。数据流动态变化、形式多样。这也增加数据流挖掘算法获取正确结果的难度。单机数据流分类算法无法应对海量数据带来的硬件存储挑战。并且算法效率无法满足数据流挖掘的实时性要求。因此如何快速、可靠地处理海量的动态变化数据流成为学术界与工业界关注的研究热点之一。数据流分类算法在工业界中具有广泛应用,例如网络日志分析、信用卡欺诈检测、网络入侵检测。概念漂移即数据流模式随时间推移而变化的现象。该现象是数据流的重要且普遍现象。若算法不及时识别和处理概念漂移,分类性能将不断恶化。但现有基于概念漂移数据流分类算法仅自适应某一类概念漂移,无法及时检测和处理其他类型概念漂移。因此本文针对面向概念漂移的数据流分类算法进行相关研究与实现。大多数据流分类算法仅依靠优化数据结构与算法结构提升算法性能。但这些算法无法应对海量数据流带来的快速计算、硬件数据存储等挑战。通过并行计算、多机器节点存储方式,分布式数据流分类算法解决上述问题。本文对分布式数据流分类算法进行相关研究与实现。本文研究工作主要分为以下三点:1.本文研究贝叶斯推理相关基础内容,论述数据先验分布对于贝叶斯推理的重要性。本文提出基于共轭Dirichlet先验的贝叶斯参数估计方法与相应数据流分类算法,提高了算法分类性能。2.针对数据流分类算法无法适应多种概念漂移的局限性,本文引用新型概念漂移检测算法LFR(Linear Four Rates),并实现相应分布式算法,使得数据流分类算法及时适应概念漂移。3.最后,研究数据流分类算法分布式实现机制,并基于Flink设计数据流分类算法的分布式实现方案。本文根据待分类数据特性选取适用并行方式,并且设计Redis模型参数的数据结构。在人工合成数据集与真实数据集进行实验。相较于现有自适应数据流分类算法,实验结果表明提出的自适应数据流分类算法ADIB(Adaptive Dirichlet Incremental Bayes)可及时检测和适应概念漂移。分布式算法性能实验结果表明,提出的分布式算法可有效减少算法的执行时间、提高算法吞吐量。这也说明了分布式方案的可行性与有效性。