数据流挖掘中聚类算法的研究与实现

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:yisimple
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘领域一项重要的研究课题。近年来,由于计算机及应用技术的高速发展,人们获取数据的能力得到了极大的提高。数据流(dataStream)作为一种重要的数据来源,也得到了人们越来越多的关注。如WEB点击流、气象观测信息流、电话记录信息流等。与传统的待处理数据相比,这些数据是高速的、连续的、动态的、变化的、无限的,对它们的访问只能是顺序的、一次或有限次的,对它们的存储也只能是动态的、概要的。数据流的这些特性,给数据流的挖掘带来了极大的困难,也给数据流的聚类算法提出了更高的要求。近年来人们提出了很多聚类算法来处理数据流,并取得了一定的成果。本文首先介绍了数据挖掘的相关算法及技术,然后给出了数据流挖掘的特点,并对已有的数据流聚类成果进行了详细的研究分析,找出了各自的优点和不足。针对这些不足,本文提出了一种新的基于密度的聚类算法-Sdstream算法,来处理进化数据流。Sdstream算法引入了滑动窗口技术,采取了动态剪枝策略,不仅能发现任意形状任意数目的聚类,而且能处理噪声,减少内存开销,并能对数据流历史信息进行查询分析,是一种高效的聚类算法。基于真实数据集和仿真数据集的实验表明,算法具有良好的实用性、有效性和可扩展性,适合处理和分析大规模的进化数据流。
其他文献
随着计算机技术、网络技术、通信技术和微电子技术的迅速发展,以及现代战争的复杂性日益提高,传统的目标识别与位置估计信息融合处理系统已经存在了许多问题。例如背景和环境的
互连网络是一种流行的网络拓扑,现已广泛应用于电话网络、多处理器系统、分布式计算机系统及路由器交换机等领域。作为互连网络结构之一的直连网络,以其简单的结构、良好的扩
现在,随着计算机网络、通信技术的迅速发展,网络在社会各个领域中扮演着愈发重要的角色。Intranet是采用了Internet相关技术建立的属于企业、组织机构自己的内部网,是Interne
图像是人类获取和交换信息的主要来源,对数字图像的处理及应用涉及到社会生活的方方面面。图像插值放大技术作为图像处理的重要组成部分,有着重要的应用价值,其难点是要兼顾图像
本文针对传统的集群管理系统的信息收集中存在的扩展性差、移植性差的问题,提出了一种集群信息收集器的框架模型。通过对集群系统的分析,以信息收集为重点,首先分析了集群与
随着网络安全技术的发展,网络安全风险评估成为网络综合防御体系中重要的一环。但当前网络安全风险评估结果不能及时地反馈到相应的安全产品中,因此对于网络安全仅停留在评价
随着IT的发展,社会各行各业对中小型MIS的需求日益增长,中小型MIS已成为应用最广泛的应用软件之一。与此同时,由于开发人员忽视了对已有开发经验和解决方案的加工和提炼,导致每次
服务发现是以Web服务作为数据源的信息集成系统中不可或缺的一部分,其目的是从大量备选服务中,筛选出可以满足特定的用户查询需求的服务。UDDI是商用服务发现解决方案的实际标
随着电子商务应用的迅猛发展,传统电子商务模式已经远远不能适应当今需求快速变化的商业环境。IT投资商和开发电子商务应用的IT企业希望能在Internet上建立起更加广泛的互操
TSP问题是一个典型的组合优化问题。近些年来,研究人员试图运用各种方法对该问题进行求解。由于该问题的可行解随着顶点数的增加会成指数型增长,容易产生组合爆炸,所以试图使用