论文部分内容阅读
随着信息技术的发展,各个应用领域所需要处理的数据的维数越来越高,通常能达到几百维,甚至是上千维。普遍存在的高维数据,使得高维数据分析有非常重要的意义。聚类分析是一项重要的数据挖掘任务,然而高维数据具有“维度灾难”的问题,导致很多传统算法对高维数据进行聚类的效果不理想。近些年,研究者们发现了高维数据空间下存在Hubness现象,可以用来对高维数据进行聚类分析。Hubness现象的特征为:实例的Hubness值越高,即Hub实例,就越倾向于接近聚类的中心,而且数据的维数越高,这种倾向就越加明显。本文研究了这种Hubness现象对现有的一些聚类算法、主动学习算法的影响,具体工作如下:首先,对应用于高维数据的聚类算法K-Hub进行了研究。原始的K-Hub聚类算法对初始聚类中心的选择非常敏感,由于其随机选择初始聚类中心进行聚类,所以聚类结果有时比较差。针对这种情况,我们提出一种基于主动学习的K-Hub聚类算法,主动地从原始数据集的高Hubness实例中学习K个等价类,并从这K个等价类中选择实例作为初始聚类中心,使得K-Hub聚类算法的初始聚类中心属于不同类。实验结果表明,这种方法能够提高K-Hub的聚类准确率。其次,对基于ASC的主动学习策略进行了研究。它首先在数据集上建立一个K近邻图,然后利用K近邻图边的权值计算实例对区分不同类的能力(Ability to Separate between Clusters,ASC),并选择ASC值较高的实例对进行学习。但是当多个实例对的ASC值相同时,这种策略并不能确定选择哪一对实例进行学习。为了解决这个问题,当有多个实例对的ASC值相同时,我们利用这些实例对所共享的K近邻实例的Hubness值来确定选择哪一个实例对进行学习。实验结果表明,这种方法能学习到更有价值的关联限制,提升聚类准确率。最后,在前两章的基础上,提出了一种两阶段的基于Hub的主动学习策略。第一阶段主动地从数据集的高Hubness实例中学习K个等价类,用于选择初始聚类中心,第二阶段利用改进的基于ASC的主动学习策略学习类边界实例的关联限制,这样主动学习可以同时得到类中心和类边界实例的关联限制,能有效的提升聚类准确率。