数据流上概念漂移的检测和分类

来源 :郑州大学 | 被引量 : 0次 | 上传用户:Rainbow820710
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今信息时代,通信、计算机和网络技术的快速发展让我们能捕获和存储大量的数据,导致数据出现了爆炸性增长。在这些数据中寻找模式、趋势和异常之处,并且以简单的数量模型归纳,是信息时代巨大的挑战之一。数据挖掘正是为应对这一的挑战所诞生的一门新学科。近几年来出现了一类新的数据应用模型,包括:信用卡欺诈监测、网络安全监控、传感器数据和电力供应网等。此类应用模型的特点是海量的数据以高速有序的形式到达,学者将此类数据形式称之为数据流,即大量且连续的和潜在无限的数据的有序序列。分类技术是数据挖掘中一个非常重要的研究领域,而数据流模型自身的特点给传统的分类技术带来了新的挑战,即如何从快速到来的、海量的且数据分布可能发生变化的数据流中训练模型,来有效地预测未来的数据趋势。近年来出现了大量的数据流分类算法:VFDT、CVFDT、加权集成分类器和在线Bagging和Boosting。分本的研究重点为分类带有概念漂移的数据流技术。首先通过对概念漂移的分析,提出一种概念漂移检测方法。该方法使用统计学理论估计某一确定模型在最新概念上的真实错误率的置信区间,在一定概率保证下检测数据流中是否发生了概念漂移。其次使用该概念漂移检测方法和核均值匹配(KMM)算法形成一种新的集成分类器框架,提出了一种数据流分类的新算法WSEC,并以理论和实验证明了该算法的有效性。最后提出了一种自适应概念漂移的基于Hoeffding树在线bagging分类算法(AHBag)。该算法对概念漂移检测方法进行修改使之适合在线挖掘,并由检测结果决定更新Hoeffding树或重建新Hoeffding树。实验结果表明,该算法在处理带有概念漂移的数据流上表现出很高的分类精度。
其他文献
随着高校扩招,班级人数不断增加,而教师人数相对没有增加,这样就导致教师由原来的小班授课变为大班授课,班级人数也由以前的几十人增加到上百人。这样的教学模式在一定程度上
随着信息化时代的到来,我们的生产和生活中信息传递越来越重要。在工业控制领域,测控网络的高可靠性,低功耗,低成本成为技术发展的主要目标。于是IEEE委员会发布了802.15.4标
为了提高服务发现的效率,UDDI 2.0中增加了标识系统和第三方分类系统。但是,由于这种分类系统局限性较大,仍然难以实现精确的查找。传统服务发现模型当中,服务描述完全由服务
随着现代科技的逐渐发展,科技、军工、医药以及生活中的各个方面都在要求计算机性能的提升。传统的依靠提高处理器的主频来提升计算机性能的方式已经达到了极限,而且电子制作
本课题依托于北京市教育委员会科技计划面上项目-满足政务业务流重组需求的相关技术研究。   随着信息技术的飞速发展,电子政府/电子政务在全球范围内受到越来越多的重视。
学位
随着计算机技术的不断发展,网络资源变得纷繁冗杂,人们对于资源共享的需求也越来越专业,如何在海量的信息中找到自己所需的资源成了亟待解决的问题。作为网络技术的提升和发
随着无线通信技术的飞速发展,频谱资源的分配日益紧张,使得新兴无线设备无法获得授权频谱。另一方面,来自联邦通信委员会频谱策略任务组的研究报告表明:在绝大部分时间,授权频谱的
我国水资源虽然总量比较丰富,但是由于人口众多,人均水资源占有量却很低。同时,由于水资源在时间和空间上分布的不均匀,导致季节性和地域性的水资源紧张。随着社会、经济的发展,有
索引是数据仓库查询优化的重要技术,主要包括树形索引和位图索引。其中位图索引因为其结构简单,并且硬件支持二进制位运算效率很高,被广泛应用在数据仓库中。在属性的基数(该
企业联盟一般是两个或两个以上有对等经营实力的企业,各自贡献出企业价值链优势环节,实现资源共享、知识的双向或多向流动、优势互补、风险共担等战略目标,而自愿达成的一种能使联盟伙伴共同受益的长期联盟方式。在企业联盟中,企业为了应对日趋激烈的全球化竞争,开始整合产品、技术、市场等资源,与相近或互补的其他企业组成各种联盟,如技术研发联盟、市场销售联盟等,将技术专利、市场营销网络、产品知识、商情、经验等各类信