论文部分内容阅读
随着网络技术的发展,海量的文本信息随之产生。文本聚类技术所具有的对文档自动组织和导航的特性,可以方便人们从巨量的文本中快速找到自己需要的信息,因此文本聚类已经广泛应用在信息检索领域。本文针对传统的文本聚类技术在计算文本相似度时经常使用的向量空间模型所存在的缺陷,例如在同义词和多义词方面的缺陷以及对文章语义关系的割裂,提出了基于概念的文本聚类模型,通过概念关系首先提取文档的主题,再在对主题进行文档聚类。