论文部分内容阅读
随着对流聚类研究的深入,许多研究者提出了对不确定数据流的聚类,这是由于生活中不确定数据存在着重要的应用价值。不确定数据流既保留数据流无限,快速的特性,又存在不确定特性,这对聚类算法提出了更高的要求。在分析不确定数据流聚类问题的基础上,对经典的不确定数据流聚类算法进行比较。本文提出了一种不确定数据流聚类算法UStreamUKm (Uncertain StreamUncertain K-means),算法针对不确定数据流的特点,构造不确定数据流核集减小数据规模,减少了算法的执行时间;同时,通过优化初始聚类中心提升了算法的聚类质量。主要工作如下:(1)采用桶策略处理不断到达的不确定数据流,适应了不确定数据流的应用环境,对不确定数据流构造核集,为后一阶段聚类提供高信息量,小规模的采样点。(2)采用最大最小类间距离即(Max-min Cluster DistanceAlgorithm)MCDA初始聚类中心选择方法,提升了聚类质量。(3)聚类算法中引入了异常点处理机制,降低异常点对聚类结果的影响。实验结果表明算法在保证了执行效率和内存占用率的前提下能够有效的进行不确定数据流聚类。