论文部分内容阅读
Leader算法是一种基于粗糙集的层次聚类算法,无需预先指定簇的个数且对孤立点具有鲁棒性,算法思想简单、快速。但该算法也存在一些弊端:对样本采取硬划分、聚类结果依赖样本顺序、聚类分析中未考虑属性权重的影响等。本文研究内容主要针对Leade r算法存在的属性权重问题展开,文中首先介绍了聚类算法的一些基本知识,接着介绍了一种针对Leader算法存在的硬划分问题提出的改进粗糙Leader聚类算法(RLeader),该算法同时解决了Leader算法存在的样本顺序问题等。 针对Leader算法和RLeader算法对每一维属性赋予相同的属性权重,未考虑聚类过程中各维属性贡献程度不同的问题,提出了负投影梯度法最小化属性权重目标函数法(MWOF-NGP)和梯度下降法最小化属性权重目标函数法(MWOF-GD)学习数据集的属性权重。将所得属性权值分别应用到Leade r算法和RLeader算法中,构建了两种基于属性权重Leader聚类算法(NGP-WLeader和GD-WLeader)和两种基于属性权重的粗糙Leader聚类算法(NGP-WRLeader和GD-WRLeader)。 本文在UCI的多个数据集上比较了Leader、NGP-WLeader和GD-WLeader的聚类结果,以及RLeader、NGP-WRLeader和GD-WRLeader的聚类效果,其中聚类结果用“熵”和“精度”评价。实验结果表明:NGP-WLeader 算法比 Leader 算法的聚类效果好;GD-WLea der算法的聚类结果中除极个别情况外,整体上也优于Leader算法的聚类结果;NGP-WRLeader和GD-WRLeader的聚类效果均优于RLeader算法。即基于属性权重的聚类算法比传统聚类算法的聚类效果好,这是由于基于属性权重的聚类算法通过强化重要属性和消减冗余属性在聚类过程中的作用,改善了聚类效果。此外,由于梯度下降法容易陷入局部最优,而负投影梯度法没有该缺点,因此,从整体而言,基于负投影梯度法的属性权重聚类算法比基于梯度下降法的属性权重聚类算法的聚类效果好,即NGP-WLeader比GD-WLeader的聚类效果好,NGP-WRLeader比GD-WRLeader的聚类效果好,聚类结果验证了MWOF-NGP算法比MWOF-GD算法具有更好的属性权重学习效果。