基于双层网格和密度的数据流聚类算法研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:Hzw_56
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自上个世纪后期以来,数据的获取技术日益发展壮大,在数据库已有的技术之上不断的推陈出新,信息的日益膨胀改变着传统的数据提取方式。数据流逐渐成为一种主流的数据形式,如何从中快速高效提取有价值的信息,逐渐成为数据挖掘领域的热点问题。针对数据流的动态变化特性,数据流的聚类一定要是动态执行的,能够对数据进行不间断的处理,其次,对于挖掘结果的表现形式要直观且简洁。此外,数据流聚类算法要能够表现出数据流动态演化的过程,并对聚类的结果能够动态的进行维护,体现数据流的时效性。基于网格的聚类方法利用空间的多维属性将数据的聚类以网格的形式进行,对数据的输入顺序不敏感,能对各种形状的簇进行聚类。传统的基于网格的数据流聚类算法由于是在同一粒度的网格上进行聚类,虽然提高了处理速度,但聚类准确性往往比较低。针对此问题,在对传统网格硬性划分所存在的缺陷进行改进的基础上,提出了“双层网格”的概念,并在D-Stream算法的基础上提出新的基于双层网格和密度的数据流聚类算法DBG-Stream。算法在两种粒度的网格上对数据流进行聚类,并借鉴了CluStream算法的思想,将聚类过程分为两个阶段。在线过程中利用粗粒度的网格单元形成初始聚类,离线过程中在细粒度网格单元上对位于簇边界的网格单元进行二次聚类以提高聚类精度,并以金字塔时间框架存储快照,以便用户分析数据流的演变情况。此外还实现了关键参数的自动设置,减少算法对人工输入的依赖。通过对初始聚类的顺序进行调整,避免了孤立簇的形成。此外,通过制定删格策略进一步减少了内存的消耗有效提高了算法的效率。实验结果表明,DBG-Stream算法聚类精确度较D-Stream算法有很大提高,保证了处理速率,有效解决了传统基于网格聚类算法的聚类精度不高的问题。该算法能够发现任意形状的簇,适用于大规模数据流的知识挖掘。
其他文献
近年来,随着计算机技术的发展,社会已经进入了数字化信息时代。但在有些“化学检验部门”依旧在使用人工记忆大量化学资料、手工查询化学典籍、人工分析化验结果等相对繁琐落后
学位
本文讲述了一个双内核的实时操作系统FRTOS2的设计与实现,文章主要包括两部分。第一部分讲述了FRTOS(一个实时操作系统)的体系结构、主要功能和相应实现,包括:任务管理、互斥量
IPv6已被公认为下一代互联网络协议核心标准之一。但是网络向IPv6的全面转换将持续很长一段时间,在此期间IPv6网络将不得不与IPv4网络通信与共存。IPv6/IPv4 Tunnel机制及一些
电信行业目前面临多厂商、多种设备的历史遗留问题,虽然TMN标准制定给电信设备的接口标准化提供了依据,但是TMN标准制定的相对较晚,完整的实施TMN标准也非常困难,接口的不统
元数据最普遍的定义是“关于数据的数据(data about data)”,也就是描述某一资源的结构化数据。它提供有关资源存储、资源分类、资源交换、资源访问等方面的信息,便于用户查
嵌入式系统是以应用为中心、以计算机技术为基础、软件硬件可裁剪、适应应用系统对功能、可靠性、成本、体积、功耗严格要求的专用计算机系统。嵌入式系统是将先进的计算机技
虚拟人(virtual human或computer synthesized characters)是人在计算机生成空间(虚拟环境)中的几何特性与行为特性的表示[1][2]。虚拟人研究的最终目的是使虚拟人能够在任意
CMOS技术是现代计算机系统的基础。然而随着技术的逐步提高,能耗问题也面临着越来越严峻的考验。能量敏感计算正得到越来越广泛的应用,即包括以电池供电的便携式设备,也包括
交易中间件和消息中间件在金融计算平台中的应用较为广泛,它们屏蔽了底层环境的异构性和复杂性,基于这种架构的应用实现中,一个模块应该呈现其功能而隐藏其本身的实现,体现了可移
现场总线是一种开放的、具可互操作性的、彻底分散的分布式控制系统。它以卓越的性能在工业控制中越来越受到青睐。同时随着电子技术的发展,现场可编程门阵列FPGA的出现,使得