论文部分内容阅读
文本聚类能对无标签的文本数据在没有任何先验知识的情况下进行自动分类,是一种无监督的方法。谱聚类算法(Spectral Clustering,SC)通常被认为是一种较为高效的算法,它以谱图理论作为基础,将数据集映射成为无向带权图,将对数据类别的划分转化为对图的划分问题。与常见的K-means等算法相比,谱聚类算法能够在不同的样本空间上进行聚类处理,并且能够收敛到最优解。它能够将比较复杂的聚类处理问题转化成相对较为简单的代数求解问题。谱聚类算法也存在一些不足之处,最常见的就是相似度矩阵的构造问题和需要提前确定聚类数目的问题。谱聚类算法的效果很大程度上取决于相似度矩阵。传统计算文本相似度的方法是利用向量空间模型的特征词向量进行计算。向量空间模型具有高维稀疏以及缺乏语义信息等缺点。针对文本相似度计算问题,本文通过在传统词向量模型的基础上引入LDA(Latent Dirichlet Allocation)模型的隐含主题信息,对特征词和隐含主题的相似度进行加权来计算文本的相似度。然后利用词性和权值大小挑选出更能体现文本信息的特征词,对特征词进行了缩减。针对谱聚类算法需要提前确定聚类数目的问题,本文在经典谱聚类算法NJW算法的基础上,利用本征间隙法原理求解拉普拉斯矩阵的各个特征值之间的差值来获得文本聚类的数目。由此本文提出了基于主题特征加权的自适应谱聚类算法(Adaptive Feature Weighting–NJW,AFW-NJW)。该算法充分利用词项特征和主题特征计算文本相似度。由于LDA模型需要人工确定主题数目,本文利用主题之间平均相似度性质来确定最佳的主题个数。通过实验,本文验证了LDA模型自动确定主题个数以及AFW-NJW自动确定聚类数目的有效性,确定了在进行文本相似度计算时隐含主题特征的权值大小。并对提出的AFW-NJW算法与传统的K-means算法以及NJW算法进行了对比实验,结果表明AFW-NJW算法比K-means算法和NJW算法NMI值有明显提升。