论文部分内容阅读
随着互联网的迅速发展,文本信息呈爆炸式增长。如何从这些海量的文本信息中获得隐含的有价值的信息成为当今重要的研究课题之一。文本聚类技术作为文本信息挖掘的重要手段,受到了国内外学者的高度关注。本文首先介绍了文本聚类分析关键技术的国内外研究现状,紧接着介绍了文本聚类分析中的中文文本预处理、文本特征提取、文本建模、文本相似度计算、聚类算法等关键技术。其中,文本相似度计算是文本检索中最核心的问题,而聚类算法的好坏直接影响着文本最终的聚类效果。鉴于此,本文重点研究了文本聚类中文本相似度计算方法和聚类算法两个关键技术。通过研究潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)主题模型及词共现的相关理论,将基于词共现的主题特征词之间的文本语义相似性度量方法融入到LDA主题模型中,提出了一种基于LDA主题模型和词共现的文本相似度计算方法。实验结果表明,该相似性度量方法在文本聚类的查准率、查全率等方面均有所提升。经典的Lumer-Faieta (LF)蚁群算法存在着缺乏严密的数学依据,以及在聚类过程中根据先验知识随意设定蚂蚁放下或者拾起目标对象概率等缺陷。为了解决这些缺陷,提出了一种集粒度计算、蚁群算法和模糊思想的模糊聚类算法GAFCM。该算法引入了模糊粒度计算的思想,通过相似度隶属函数决定蚂蚁对该对象是拾起或放下;针对模糊C均值算法(FuzzyC-Means, FCM)聚类结果受初始聚簇中心的影响及对离群点较敏感等缺点,用改进的蚁群算法对文本先进行初始聚类,再以其聚类中心作为FCM算法的初始聚类中心,进行FCM聚类。该方法在一定程度上克服了FCM算法对离群点比较敏感及其聚类结果易受初始聚类中心影响等缺点。仿真实验研究表明,该算法具有较好的综合性能和较好的聚类效果。