基于EP的数据流分类算法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:auh123123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信用卡欺诈监测、差异性营销、网络入侵检测和传感器网络等应用中,随着时间的更迭而生成一种新型的具有连续、有序、变化、快速到达、海量等特征的数据,即“数据流”,其数据量大且数据分布可能会发生变化(即概念漂移)。如何从海量的数据中训练模型来有效地预测未来的数据趋势,正是数据流上的分类算法所要解决的难点,同时也是一件非常有意义的工作。分类是数据挖掘中的重要分支之一,在很多领域都具有广泛的应用。现在已有许多成熟的分类方法,如决策树、贝叶斯网络、神经网络、支持向量机等,但是在处理数据流时,仍然面临着新的挑战。近年来研究者们提出了几种数据流上的分类方法:VFDT和CVFDT、VFDTc、集成分类方法Ensemble Classifiers等。集成多个分类器的方法通常可以提高分类准确率,特别是基分类器具有一定的差异性时,它往往比单分类器的准确率高。Wang等人提出的集成方法以C4.5、RIPPER、Na(i)ve Bayesian分类为基分类器,而采用其他类型的算法作为基分类器仍需进一步研究。而eEP具有良好的区分能力,并且基于eEP的分类算法可以与其他算法相媲美,同时基于eEP的分类方法已经成功地应用于DNA分析、文本自动分类等领域。基于以上考虑,本文提出一种基于eEP的数据流分类器集成算法CEEPCE。本文的主要工作是:在总结数据流的特性和分析基于eEP传统分类算法的算法思想的基础上,将基本窗口和滑动窗口的概念与eEP分类算法有机的结合以适应数据流的特性并解决概念漂移的问题;其次在分类器构造的过程中,提出了加权集成分类器的思想;最后,在未知样本分类的过程中,结合数据流挖掘分析多考虑最近最新数据的特点,对不同的基分类器赋予不同的权值,提出一种“基于分类误差的加权方法”来加权集成分类器,从而提高分类准确率。实验对比和性能分析表明,本文提出的CEEPCE算法能较好的适应数据流的概念漂移,并且具有较好的分类准确率,足以与以C4.5为基分类器的集成多分类器方法相媲美。
其他文献
数字电视是指电视节目的采集、制作、编辑、播出、传输、接收的全过程都采用数字技术的新一代电视。数字电视具有频谱利用率高、信号质量好、抗干扰能力强等优点,因而它取代目
虚拟现实技术是采用计算机技术生成一个逼真的虚拟环境,只要利用虚拟现实中的交互技术、实时技术和沉浸感技术,就可以让使用者以自然方便的形式与虚拟环境中的对象进行交互,从而
当今,信息网络特别是计算机网络的高速发展给人们带来了极大的方便,但与此同时,发展中的网络也向人们提出了挑战,表现在网络规模不断扩大,网络结构日渐复杂,网络复杂性日益提高。因
在计算机科学不断发展的今天,学科与学科之间的联系变得非常密切,各个学科之间的相互交叉和合作在不断的加深。随着网络技术的不断进步以及人工智能研究的不断深入,传统CAD系统
当前,超高产育种已成为国内外热门研究课题,而优良的植株形态结构是超高产的骨架。因此,高产作物的理想株型受到广泛关注。在株型研究工作中,研究人员常采用的田间实验方法能够为育种提供有益的参考和方向,但耗时长、工作繁琐,不能快速且有针对性的进行定量化株型育种。结合虚拟植物,可以模拟传统的农艺活动,定量控制改变植株个体、环境等,并快速获得这种改变的影响结果,但受限于人为操作能力而导致优化效率仍然较低。因此
由于数据库中存在着大量数据,因此从数据库中发现有价值的信息显得十分重要。数据挖掘技术就是为解决这个问题而产生的。对数据挖掘技术的研究,国内外已经取得了许多令人瞩目的
本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用,而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如WordNet和CyC,但是一方
在传统的脊柱外科手术中,医生利用CT成像系统引导进行穿刺。首先,医生根据CT扫描图像找出病灶位置,确定手术工具作用路径,然后进行手工穿刺。但往往由于目测偏差、操作技术水平和
计算机图形学和虚拟现实技术在近些年来取得了巨大进步,这为我们开发驾驶模拟训练系统提供了强有力的工具。本文描述了名为“面向驾驶训练的汽车驾驶仿真模拟机”(简称TODS)的
随着时代的进步,远程教育已日益成为传统教育的重要补充和发展。在远程教育的实际教学中,许多学科的课程,特别是理工科课程,为了培养学生的实际动手能力和观察能力,往往需要