论文部分内容阅读
聚类是数据挖掘中一项重要的技术。分析了现有聚类算法的优点,并在此基础上首次提出了一种基于综合因素的高效的聚类算法。它以数据点之间距离和数据点的密度作为识别簇的依据,利用统计信息以数据方格代替了单个数据点,从而相对减小了聚类的数据量,使得算法的时间复杂度近拟于线性。实验表明在和多种算法的比较中,该聚类算法在效率和质量上具有明显的优势。