基于eEP的两阶段方法分类

来源 :郑州大学 | 被引量 : 0次 | 上传用户:xuyanfang1968
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘又称数据库中知识发现,是从大量数据中用非平凡的方法发现有用的知识。分类是数据挖掘中的一项非常重要的任务,目前在商业上应用很多。分类器的构造技术有统计方法、机器学习方法、神经网络方法等。大部分算法是内存驻留算法,适用于小型数据集。随着数据集的数据量和维数的增加,建立高效的、适用于大型数据集的分类法已成为数据挖掘的一个挑战性问题。 传统的基于规则的分类算法多是采用顺序覆盖技术训练分类规则,训练得到的模型覆盖大量的非目标类实例,对稀有类分类时效果很差。基于此,Ramesh Agarwal和Mahesh V.Joshi提出了基于规则的两阶段方法去除覆盖的非目标类实例,实验结果证明两阶段方法能够很好的分类稀有类。 近年来,数据挖掘界提出一种新的知识模式,称作显露模式(Emerging Pattem,EP)。EP表示数据集间的差异,能够很好用于分类。一些基于EP的分类算法也取得了很好的结果。但是基于EP的分类算法得到大量的EP,这些EP对于分类并不是全部有用,有的甚至带来噪音,影响分类。业界又提出了一种特殊的EP,eEP(Essential Emerging Pattern),eEP是那些最短的且有很高增长率的EP,eEP能够减少分类噪音并不失去任何有用的分类信息。 本文将两阶段思想和eEP结合起来构造一个新的分类算法:基于eEP的两阶段分类算法即Two Phase Classification Based on Essential Emerging Pattern(TPeEP)。TPeEP方法采用两个阶段挖掘eEP,使用第二个阶段纠正第一个阶段的误差,并使用两个阶段得到的eEP来分类,分类时考虑第二阶段对第一阶段的纠正。TPeEP分类方法定义了两种评分方法:实例得分方法和eEP覆盖方法。我们还将相同的评分方法用于单个阶段,使用这两种评分方法分别基于两个阶段和单个阶段做实验,使用UCI机器学习库中的十个数据集作为实验数据集。实验证明与已有的基于EP的分类算法相比,仅使用eEP建立的分类算法使用的EP数量少,并且能够获得相同或更高的预测精度;单个阶段不能纠正分类误差,分类结果也远没有两个阶段结果好。我们将实验结果与NB、C5.0、CAEP、LB以及BCEP比较,发现本文的分类算法在这十个数据集上可以与这些经典的分类算法相媲美。
其他文献
电信的传输网是整个电信业务的各种上层网络的基础,它承担着地区间骨干的信息传输任务。我国当前的传输网业务经过十几年的发展已逐渐由原先的PDH(准同步数字系列)传输网过渡
学位
该文讨论了"数字社区"概念涉及到的相关技术,并分析了数字社区的功能模型,从不同的角度对技术进行了探讨,提出了设计思想.首先,该文通过分析大规模"数字社区"结构的特点,构建
Internet/Intranet出现以后,以WWW技术为主流的信息服务系统迅速发展,由于信息系统用户的广泛性,决定了客户端必须使用通用的跨平台软件,WWW浏览器为信息服务系统提供了良好
操作系统是计算机系统的核心和关键基础所在,而操作系统调度机制则是操作系统的中枢和关键之关键。本文针对操作系统调度机制展开研究,具有重要的理论价值和应用价值。论文分
百货业的连锁发展在中国刚刚起步,却成为近年来的一个热门研究课题.百货业的连锁系统从控制点上分为:百货业门店的管理、总部的控制管理、连锁业的经营模式管理三部分.它区别
该论文主要研究如何利用Stackelberg对策制定高速公路路网的收费标准.高速公路路网收费作为一种新兴的收费管理形式,旨在提高高速公路使用效率、服务质量和减少环境污染.制定
对人类视觉的研究,以及利用计算机进行图像处理与理解在信息处理中有非常重大的意义.随着多媒体技术的发展和图像信息的增多,图像信息资源的管理与检索也显得日益重要.图像数
未来通信网络将是由有线网络、无线网络等各种网络混合互连而组成的庞大、复杂、开放的异构网络集合。网络状态的认知也由于网络结构的复杂而变的更为困难,主要原因在于各种网
在该文中,我们提出在分布式层次数据库中使用转向指针来进行目标寻址.在这种方法中,每个数据库站点覆盖一个特定的地理区域并含有所有位于该区域中的移动目标信息.在层次配置