论文部分内容阅读
Intemet作为一个开放的、分布式的信息平台,近年来得到了飞速的发展,其信息总量也出现了爆炸性增长.面对这些海量信息,人们很难迅速、有效地从中得到自己真正所需.为此,为了更好的组织和管理这此信息,文本分类和聚类的研究就显得越来越重要了.
本文对基于向量空间模型的文本聚类技术进行了研究和探讨,主要内容有:
向量空间模型,文本聚类算法、聚类结果评价等.
向量空间模型是进行大规模文本处理最简便、高效的模型之一.本文对向量空间模型中的基本原理进行了研究,包括:文本表示,文本预处理、特征项的选取、权重计算、文本相似度的度量及特征选择等.并对向量空间模型的优缺点做了深入的分析.
本文研究和分析了现有的几种常用的聚类算法:K-Means、凝聚层次法和DBSCAN.对于它们的性质和特点进行了详细分析.而且论述了文本聚类的结果评价方法.
然后,针对K-Means算法的缺点,结合局部搜索算法,本文提出了一个基于局部搜索的K-Means算法LSKM,对它的性质进行了深入的分析,从理论上说明了它的有效性及特点.
为了验证我们算法的有效性,在随后的实验中,以几个不同的标准测试集为基础,对LSKM和K-Means算法进行了对比实验,证明了我们的理论分析.对于实验中出现一些问题,本文也从理论和进一步的实验中做出了分析说明.