基于数据流的分类算法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:snelgar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通信、计算机和网络技术的飞速发展将人类带入信息社会,大量的数据可以用来衡量人们生活的方方面面。这些数据在给人们带来方便的同时也使人类陷入数据的海洋中。数据挖掘就是人们用来从大量的随机应用数据中,提取隐含的信息和知识的技术。近年来出现了许多新型应用,传统的数据挖掘技术无法很好的处理这些应用数据,比如传感器网络、互联网点击流、金融数据和在线监控事务日志等,这种新型数据形式称为数据流。如何在有限存储空间下,对这些数据流进行快速处理,为数据挖掘的应用和研究带来了新的机遇和挑战。为应对这些挑战,本文提出了一种新的分类算法EVFDT,并将此算法运用到一个多分类器系统框架下,最后通过实验验证了EVFDT算法的效率和准确率,以及多分类器系统对概念漂移的数据流的良好性能。本文的主要工作如下所示:(1)在VFDT算法基础上提出了EVFDT算法,该算法引入一种非均匀间隔剪枝的方法处理连续属性,将算法扩展到包含连续属性的数据流挖掘领域,并具有较高效率。(2)使用朴素贝叶斯处理决策树的叶节点和内部节点,缩小了训练需要的样本空间,提高了决策树的训练效率。(3)提出一个综合分类框架,并将EVFDT算法和其它一些经典的算法构成一个系综分类器,并提出一个检测概念漂移的方法,以分类概念漂移的数据流。(4)根据局部性原理提出基于准确率的赋权方法,以及使用基于权值的剪枝方法最系综中的分类器剪枝,使系综方法的准确率和时间效率得以提高。(5)通过实验验证了EVFDT算法和集成了该算法的系综分类器的效果。实验结果显示,新算法较同类算法在时间效率和存储空间上都有一定的优势,集成了新算法的系综分类器对挖掘概念漂移的数据流具有良好的性能。
其他文献
计算机网络在生产生活中扮演着越来越重要的角色,而网络需要有网络设备的支持,使用网络设备构成网络后,才能运行各种专用服务和终端。随着信息时代的发展,网络设备的种类繁多
有关调查表明,P2P业务已悄然占据了互联网业务总量的60%-80%,成为杀手级宽带互联网应用。P2P业务流量在对互联网业务起巨大推动作用的同时,也带来了因资源过度占用而引起的网
Deep Web数据源的发现及其领域相关性越来越引起人们的关注和兴趣。针对在判别查询接口时,提取精度低和忽略领域相关性的问题,提出了一种采用多分类器对Deep Web数据源进行自动
随着计算机技术的普及和网络技术的发展, Web己经发展为一个巨大的信息仓库,成为日益重要和最具潜力的全球信息传递与共享的资源。然而,想要快速、准确地从海量的资源中找到
BLAS是很重要的标准数学库,它主要是一系列矩阵与向量基本操作的集合,其运算性能的测试也是高性能计算机的重要评测手段。为发挥国产龙芯2F微处理器的计算性能,本文在基于龙
随着信息技术的发展,越来越多的人们加入到了互联网这个虚拟世界中来,然而网络给人们带来了最新、最快资讯的同时,也给广大网民带来了层出不穷的安全威胁。在网络应用终端,个
本论文的研究基于一个实际的课题:由武汉和中信息科技有限公司主持开发的PICC(中国人们财产保险有限公司)业务系统。随着IT服务技术的不断发展,现在各行各业都离不开各种业务
集群存储已成为数据中心方案中一项典型的存储方案,分析发现,现有集群存储整体性能仍受限于磁盘等外存设备.利用高带宽网络,内存和外存相互合力,可以提供一种低延迟的、可扩
随现代信息科技进步,电子纸显示技术不断改善,电子纸手持阅读器的可用性得到一定程度提升。但在电子纸手持阅读器中还存在很多不足,尤其是人机交互和用户体验方面还有待改善。基
嵌入式产品广泛应用于生产生活中,目前世界上所生产的计算机芯片绝大部分均被应用到了嵌入式系统。不仅越来越多的系统可以通过嵌入式设备来处理,而且被处理的系统范围、复杂