论文部分内容阅读
信息化发展的今天,计算机网络和传感器技术的应用,在电信记录、股票交易、网络监控、WEB网页访问等领域中产生了大量数据流。不同于传统的静态数据,数据流具有动态变化、持续到达、速度快、规模大等特点。如何从数据流中挖掘出有用信息已成为当前数据挖掘中的一个热点。聚类分析是数据挖掘的一个重要方法,能够发现潜在数据中的人们感兴趣的分布模式。传统的聚类算法不能直接应用到数据流聚类,需要设计高效的的单遍扫描算法,这给数据流聚类提出了前所未有的挑战。本文首先对数据流挖掘的知识和相关的一些技术进行了介绍,然后对传统聚类算法进行了分析。通过对现有的比较有代表性的数据流聚类算法的优势和不足,从处理速度、聚类质量等各方面进行分析比较,发现基于网格的聚类算法处理速度快,基于密度的聚类算法易发现任意形状的聚类。本文结合数据流的特点以及对数据流聚类的要求,主要完成了以下工作:1.在线层通过对网格特征向量的更新,设计了一个按指数衰减的快照算法对快照信息进行存储,并实现了密度阈值的自适应。2.离线层对在线层保存的网格概要信息进行分析,对于其中的边界网格以网格单元的质心为中心点,划分得到一个子网格,使边界网格中的局部密集区域可能转化成密集网格参与聚类。3.在以上两点的基础了提出了一个新的基于网格的数据流聚类算法DSCAG算法,并通过实验进行验证,有效的提高了聚类质量。