论文部分内容阅读
传统数据挖掘的对象是传统数据或静态数据,其主要来源于关系数据库、数据仓库和事务数据库。但是伴随着计算机、网络、通信技术以及传感器等具体应用的迅猛发展,一种具有高速、连续、动态、快速变化和海量等特点的动态数据正呈爆炸的趋势不断涌现,使得现在缺少的已不再是足够的信息数据,而是处理如此庞大流数据的分析技术。由于流数据的上述特点,使得如何使用有限的内存空间和计算机处理速度进行快速而又准确的数据挖掘已成为流数据聚类分析领域的重要研究课题。本文提出的PMC (Parallel MST CluStream)算法,该算法引入了CluStream算法包含联机和脱机两部分的思想,分为在线处理和离线聚类两部分。同时针对CluStream算法以单个数据对象作为处理单位而影响聚类效率的不足和它对非球形数据集聚类效果不佳的缺点,算法的在线部分使用两组处理单元分别对数据流进行在线分析,两组处理单元交替截取批量数据供其在线分析,该方法可有效解决批处理数据流断点影响聚类精度的问题,且批处理比以单个数据对象作为处理单元具有更快的处理速度。同时在线过程利用最小生成树算法,通过剪断最不一致边可有效解决对分布倾斜的数据集进行聚类,且能很好的解决STREAM算法批处理过程中簇个数的固定性,从而获取更高质量的数据流概要信息和部分数据对象的具体信息,然后采用金字塔时间框架模型适时的以快照的形式存储这些在线信息供离线聚类算法进行聚类。离线过程则以簇为代表对象,使用最小生成树算法进行离线聚类,该算法的引入可有效解决CluStream算法对非球状簇聚类效果不佳的缺点,从而有效提升算法的聚类质量。本文在真实数据集和人工数据集上进行了大量的实验,实验结果验证了PMC算法不仅可有效对非球状簇进行聚类,对数据的输入顺序不敏感,在类分布倾斜的数据集上有良好的表现,而且还具有更好的聚类效率和聚类质量。