论文部分内容阅读
聚类分析是数据挖掘的有力工具之一,聚类分析可以在数据类簇特征未知的情况下,将相似度高的对象聚为一个类簇,保证不同类簇之间的对象相似性尽可能小。聚类集成是利用多个聚类结果找到一个新的数据划分,这个划分在大程度上,共享了所有输入的聚类结果对数据集的聚类信息。并且达到博采众长的目的。与单个聚类算法相比较,聚类集成具有鲁棒性、适用性、稳定性的特点,在并行处理子数据集时有先天的优势。黑知识是指在集成学习中,被忽略的隐藏在学习器里的且有利于集成学习的知识。传统的聚类集成方法仅使用基聚类结果中的类簇标签来获得集成结果。而基聚类算法可以获得除了类簇标签外的其他信息,如参数、协方差以及概率等,在集成过程中这些信息都被忽略了,这些知识可以称为聚类集成中的黑知识。本文研究并发展了聚类集成中黑知识的概念及构造方法,并将其应用到聚类集成过程中。利用基聚类结果中的黑知识进行聚类集成,可以提供更多关于基聚类结果的信息,同时也可以防止聚类集成模型受离散数据的限制。非负矩阵分解属于特征提取方法,可以实现将高维数据映射到低维空间,并且被证明与谱聚类方法等价。本文结合黑知识与非负矩阵分解,将其应用到聚类集成中,构建基于黑知识的非负矩阵分解聚类集成模型。实验结果表明,该方法优于其它聚类集成技术。由于在现实聚类任务中,我们时常能获得一些额外的监督信息。半监督技术便是可以利用少量监督信息来指导无监督学习的过程。本文在基于黑知识的非负矩阵分解聚类集成模型上进行改进,提出了基于非负矩阵分解的半监督聚类集成模型。运用高斯核函数以构造基于黑知识的相似性矩阵,然后通过成对约束技术加入半监督标签信息,得到基于黑知识的半监督相似性矩阵,接下来用非负矩阵分解得到聚类集成结果。实验结果表明,基于非负矩阵分解的半监督聚类集成模型比基于非负矩阵分解的聚类集成模型有更好的效果。