基于滑动窗口的密度聚类算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:w_zhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于生产生活水平的不断提高和计算机在各行各业的应用技术的高速发展,人们获取数据的能力已经大大的提高,获取数据的渠道也急剧增加。随着信息管理与信息处理系统的应用和发展,现实生活中的许多数据呈现出“流”的特点。处理数据传统方法静态存储结构形式早已不再适用。数据流作为一类重要的数据来源,已受到越来越多的研究人员的关注。基于数据流模型的聚类算法的研究,已成为重要的前沿课题。与传统数据库不同的是,数据流具有很多特点:数据总量呈现无限性、数据快速到达、数据到达速率具有不可控性和不可预测性、数据到达无序性。鉴于数据流的诸多特点,若要对数据流中的数据进行挖掘分析得出可理解、可利用的结果,迫切需要开发出高效、精确的适用于数据流的聚类算法。学术界已经就数据流聚类方面做了大量的研究,提出了许多关于数据流聚类的优秀算法。数据流聚类的主要方法有基于划分、基于层次、基于密度、基于网格和基于模型的方法。基于划分方法的代表算法是k均值和k中心点方法。这类算法通过划分数据点到某个最近的中心点,不断的计算更新簇内距离以达到形成稳定的聚簇的状态。这种聚类方法适合于应用在球形簇的场合,对于中小型规模的数据库很适用。为了发现具有复杂形状的簇和对超大型数据集进行聚类,需要进一步扩展基于划分的方法。基于层次方法主要有自底向上的凝聚法和自顶向下的分裂法。为了节省计算开销,层次方法严格规定一旦聚类过程中的一个步骤完成后就不能撤销。这也是层次聚类的缺陷所在。为了解决基于距离聚类仅限于产生球形簇的结果的问题和过滤孤立点,人们提出了基于密度的聚类方法。只要邻域中的对象或数据点的数目超过某给定的阈值,就继续聚类直到邻域内无符合条件的数据点。基于网格的聚类算法把空间量化成一个多维的网格结构,所有的数据点都投影在这个网格结构中。基于网格聚类的优点是不需要考虑具体的数据点,只需要考虑某个网格中的点的数目或密度,提高了聚类速度。它的缺点是若数据点的维度增多则算法时间复杂度和空间复杂度急剧增大。基于模型的数据流聚类方法为每个簇假定一个模型,并寻找数据对给定模型的最佳拟合。本文综合研究了数据流聚类的问题和经典的数据流聚类算法,做了以下一些工作:(1)借鉴CluStream算法的双层结构的优点,提出了基于滑动窗口的双层数据流密度聚类算法(DStream算法)。(2)提出了基于滑动窗口与时间衰减相结合的改进点(3)实验验证了本文算法的有效性从所用的KDDCUP99数据集实验中可以看出,DStream算法能够在时间和空间代价较小的情况下有效的提高聚类结果的精确度。本文将DStream算法和CluStream算法的实验运行结果分别进行比较。DStream算法得出的聚类结果均优于CluStream算法。本文中衡量聚类结果的精确性指标是比较SSQ值的大小,对依次执行数量不同的样本所花费的时间和运行不同维数的样本所需的时间进行比较。
其他文献
Dennis Gabor在1946年提出的Gabor变换在非平稳信号处理中是非常有用的,它克服了传统Fourier变换不能表示一个信号的频率如何随时间变化的缺点。Gabor变换系数揭示了一个信号
随着互联网技术的迅速发展,人们希望越来越多的业务在互联网上进行。但互联网是一个开放的网络,存在各种安全威胁。为了保障用户数据的安全,各种技术应运而生。作为安全技术
纺织工业是我国传统的支柱产业之一,从纺织原料和化纤生产开始,出现了纺纱、织布等生活中常见的纺织品加工形式。但是由于纺织原料本身信息指标繁多,而且生产过程中,纺织原料
文本中含有大量对分类有贡献的信息,能否综合利用这些信息选取一种合理的文本表示方式,是文本分类的难点和关键。单纯的使用传统的向量空间模型VSM(Vector Space Model)表示
随着后PC时代的到来,嵌入式系统在各个领域得到广泛的应用,新型化、智能化的嵌入式系统成为了研究的热点。然而,由于嵌入式系统应用的广泛性以及硬件平台的多样性,严重制约着
节能减排、产品质量和安全追溯等战略,对开放环境下全供应链信息共享提出需求。论文基于课题组前期研究成果——ORFP体系,以离散制造业为背景,研究企业信息服务模型及事件检测方
蛋白质是生物功能的主要体现者和执行者,正是它们之间的相互作用实现了生物体的功能。对蛋白质和蛋白质相互作用的研究,不但有助于蛋白质功能分析、生命活动机制的理解,而且
随着信息技术的发展,用户获取到的信息量不断地增加,其中大部分是文本类型的数据,一种高效地管理并有效地利用这些无序数据的技术—文本挖掘技术在这几十年来逐渐地成为一个
随着图像采集技术的发展,人们可获得分辨率越来越高的图像,高效地提取高分辨率图像中大量可辨识信息对图像工程应用有重要意义。传统的多分辨率图像锥采用低通滤波技术,分割
粗糙集属性约简通常反映的是信息表的本质信息,它是粗糙集理论的核心内容。通常情况下,信息系统的约简是不唯一的,人们希望找到一个包含最少属性的约简,即最小约简。因此,研