论文部分内容阅读
聚类分析是数据挖掘领域最重要的研究热点之一。然而随着技术的进步,聚类分析许多应用领域的数据具有很高的维度,同时受“维度效应”的影响,传统的聚类算法在高维数据上的聚类精度不尽如人意。因而研究高维数据的聚类分析方法具有非常重要的意义,已成为近年来研究的一个重点课题。
在高维空间中,簇类可能只存在于某些低维子空间中,而不同的簇类所处的子空间也可能存在差异。因而子空间聚类方法成为高维数据聚类分析中的一个研究热点。现有软子空间聚类算法多关注于簇类紧凑度的信息,忽略投影子空间的优化,在数据点之间普遍存在“低相似性”的情况下,难以准确定位聚类过程的初始点。
本文从高维数据投影子空间的优化目标入手,提出新的软子空间聚类算法、开展高维数据的聚类鲁棒性等研究;并在垃圾邮件过滤领域进行应用研究。论文的主要研究工作包括:
1.高维聚类的初始化的研究:提出一种基于公共近邻密度的初始化算法。该算法利用点的局部密度来评估可能的高密度区域,以此来定位簇的初始中心点。该方法有利于发现不同形状以及不同密度的簇类,并适用于子空间聚类算法和全空间聚类算法。实验结果表明,算法提高了聚类结果的稳定性和可靠性;
2.子空间聚类算法的研究:提出一种基于子空间差异的K均值型软子空间聚类算法。新算法致力于投影子空间的不断优化,算法过程不需要用户指定额外的参数。在此基础上,结合新的子空间聚类初始化方法,提出具有高维鲁棒性的软子空间据类算法。实验结果表明,新算法能够提高聚类的精度,并且具有良好的数据伸缩性;
3.文本挖掘应用的研究:设计并实现了一个基于子空间聚类的垃圾邮件过滤系统,通过实际应用验证算法的有效性。系统为进一步研究子空间聚类的应用提供了基础。