论文部分内容阅读
聚类技术是数据挖掘中一个非常重要的技术方法,被广泛应用于多个研究领域。随着网络的逐渐普及和发展,文本数据成爆炸似增长,聚类被大量应用于文本数据集聚类,使在同一个文本簇中的文本相似度大,而在不同文本簇中的文本相似度小。文本聚类是一个无监督的聚类过程。协同聚类是在文本聚类上作了一些改进,在聚类过程中将文本属性和特征词属性同时进行聚类,提高了传统文本聚类的性能。由于单一聚类或协同聚类的性能不太稳定,难以表示出数据集的分布结构。为了提高算法的稳定性,学者们又提出了聚类集成的概念。得到多个具有差异性的基聚类结果,使用一个共识函数对基聚类结果进行集成,最后得到稳定的聚类结果。协同文本聚类是将文本属性和特征词属性同时或交替进行聚类,充分考虑到了文本间、特征词间、文本与特征词间的相似性。因为文本数据结构的特殊性(非结构或半结构),在文本预处理时必须对文本进行表示。传统的向量空间模型是基于特征词独立性这一假设前提的,但实际上特征词间存在着某种相似性。本文采用双词的向量空间模型对文本进行表示,保留在文本中出现频率高的双词。双词向量空间模型不仅保留了传统向量空间模型的全部信息,而且还多增加了一些能表示文本主题的信息。实验证明采用双词模型的协同文本聚类效果明显好于传统模型的协同文本聚类。由于双词向量空间模型的高维和稀疏性,在协同聚类之前必须对特征词维数进行约减。方差波动描述了一个特征向量对文本聚类的贡献程度,忽略了特征向量间的相似性。相关系数既表示了一个特征向量对文本聚类的贡献程度,又描述了两两特征向量间的相似性;同时矩阵分块的方法也大大减少了算法的运行时间。在协同聚类的调整算法中,文本聚类结果与特征词聚类结果一一对应,有利于文本主题的发现。对文本进行单一的协同聚类得到的聚类性能不太稳定,本文在协同文本聚类后又进行了集成。基于离差平方和的数据片段集成方法是在基聚类结果上得到多个文本数据片段(数据片段个数远远小于原数据点数),在数据片段上采用一个共识函数进行集成,得到最后的聚类结果。实验结果表明,协同文本聚类集成方法提高了协同文本聚类的稳定性和效率;基于数据片段的集成方法比传统的集成方法较时间复杂度有很大的降低,而且不是以牺牲性能为代价,甚至性能还略有提高;基于离差平方和的数据片段集成方法聚类效果明显好于基于数据片段的层次集成方法。