论文部分内容阅读
数据挖掘又称数据库中知识发现,是从大量数据中用非平凡的方法发现有用的知识。分类是数据挖掘中的一项非常重要的任务,目前在商业上应用很多。分类器的构造技术有统计方法、机器学习方法、神经网络方法等。大部分算法是内存驻留算法,适用于小型数据集。随着数据集的数据量和维数的增加,建立高效的、适用于大型数据集的分类法已成为数据挖掘的一个挑战性问题。 传统的基于规则的分类算法多是采用顺序覆盖技术训练分类规则,训练得到的模型覆盖大量的非目标类实例,对稀有类分类时效果很差。基于此,Ramesh Agarwal和Mahesh V.Joshi提出了基于规则的两阶段方法去除覆盖的非目标类实例,实验结果证明两阶段方法能够很好的分类稀有类。 近年来,数据挖掘界提出一种新的知识模式,称作显露模式(Emerging Pattem,EP)。EP表示数据集间的差异,能够很好用于分类。一些基于EP的分类算法也取得了很好的结果。但是基于EP的分类算法得到大量的EP,这些EP对于分类并不是全部有用,有的甚至带来噪音,影响分类。业界又提出了一种特殊的EP,eEP(Essential Emerging Pattern),eEP是那些最短的且有很高增长率的EP,eEP能够减少分类噪音并不失去任何有用的分类信息。 本文将两阶段思想和eEP结合起来构造一个新的分类算法:基于eEP的两阶段分类算法即Two Phase Classification Based on Essential Emerging Pattern(TPeEP)。TPeEP方法采用两个阶段挖掘eEP,使用第二个阶段纠正第一个阶段的误差,并使用两个阶段得到的eEP来分类,分类时考虑第二阶段对第一阶段的纠正。TPeEP分类方法定义了两种评分方法:实例得分方法和eEP覆盖方法。我们还将相同的评分方法用于单个阶段,使用这两种评分方法分别基于两个阶段和单个阶段做实验,使用UCI机器学习库中的十个数据集作为实验数据集。实验证明与已有的基于EP的分类算法相比,仅使用eEP建立的分类算法使用的EP数量少,并且能够获得相同或更高的预测精度;单个阶段不能纠正分类误差,分类结果也远没有两个阶段结果好。我们将实验结果与NB、C5.0、CAEP、LB以及BCEP比较,发现本文的分类算法在这十个数据集上可以与这些经典的分类算法相媲美。