论文部分内容阅读
近年来,处理无限的连续数据流的应用日益流行,比如网络日志、传感器网络等。数据流聚类(datastreamclustering)逐渐成为数据挖掘领域的热点研究问题之一,由于数据流的数据量无限、对算法的响应要求很高,而且通常只能对数据访问一次,而传统的聚类算法对快速变化的数据流进行在线分析的支持存在着很多限制,急需开发适应数据流环境的聚类算法,计算机工作者们面临着新的挑战。
本文针对当前比较经典的多数据流聚类COD(ClusteringonDemand)框架,首先,详细分析了其不足之处:不能过滤独异点、对数据流的压缩保存过于简单和聚类时计算数据流之间的距离的时间复杂度过高等,然后从核密度估计理论和基于数据的空间划分网格技术出发,提出了一种多数据流聚类的方法——CMO(ClusteringMulti-StreamsusingObservematrix)方法。理论和实验结果表明:CMO方法提供了一种不损伤数据流的时间、距离特性的刻画方法;具有过滤独异点的能力;聚类的时间复杂度远小于COD框架和聚类的精度优于COD框架等优点。