论文部分内容阅读
在信用卡欺诈监测、差异性营销、网络入侵检测和传感器网络等应用中,随着时间的更迭而生成一种新型的具有连续、有序、变化、快速到达、海量等特征的数据,即“数据流”,其数据量大且数据分布可能会发生变化(即概念漂移)。如何从海量的数据中训练模型来有效地预测未来的数据趋势,正是数据流上的分类算法所要解决的难点,同时也是一件非常有意义的工作。分类是数据挖掘中的重要分支之一,在很多领域都具有广泛的应用。现在已有许多成熟的分类方法,如决策树、贝叶斯网络、神经网络、支持向量机等,但是在处理数据流时,仍然面临着新的挑战。近年来研究者们提出了几种数据流上的分类方法:VFDT和CVFDT、VFDTc、集成分类方法Ensemble Classifiers等。集成多个分类器的方法通常可以提高分类准确率,特别是基分类器具有一定的差异性时,它往往比单分类器的准确率高。Wang等人提出的集成方法以C4.5、RIPPER、Na(i)ve Bayesian分类为基分类器,而采用其他类型的算法作为基分类器仍需进一步研究。而eEP具有良好的区分能力,并且基于eEP的分类算法可以与其他算法相媲美,同时基于eEP的分类方法已经成功地应用于DNA分析、文本自动分类等领域。基于以上考虑,本文提出一种基于eEP的数据流分类器集成算法CEEPCE。本文的主要工作是:在总结数据流的特性和分析基于eEP传统分类算法的算法思想的基础上,将基本窗口和滑动窗口的概念与eEP分类算法有机的结合以适应数据流的特性并解决概念漂移的问题;其次在分类器构造的过程中,提出了加权集成分类器的思想;最后,在未知样本分类的过程中,结合数据流挖掘分析多考虑最近最新数据的特点,对不同的基分类器赋予不同的权值,提出一种“基于分类误差的加权方法”来加权集成分类器,从而提高分类准确率。实验对比和性能分析表明,本文提出的CEEPCE算法能较好的适应数据流的概念漂移,并且具有较好的分类准确率,足以与以C4.5为基分类器的集成多分类器方法相媲美。