论文部分内容阅读
文本是存储和交换信息的最自然的方式。相关研究表明,现实中80%的信息包含在文本文档中。随着计算机技术的不断进步,数字化文本数据不断增长。如何对海量的数字文本资源进行有效的组织和利用已变成了一个紧迫的问题。在此背景下,利用聚类分析技术对文本进行重新组织,加速信息检索和浏览的速度,实现信息的个性化服务极具研究前景。
文本聚类指将文本集中的文本分为更小的簇,要求同一簇内的文本之间的相似性尽可能大,而簇与簇之间的相似性尽可能小,其主要目的是以无监督指导的方式根据文本的内在关系将内容近似的文本分成不同的类。文本聚类的处理流程包括预处理、特征提取、相似度计算、特征聚类、聚类结果评价几个步骤。文本聚类作为一种对大规模文本信息进行有效组织的关键技术,正日益受到广泛的关注。
面对激增的数字文本资源,传统文本聚类技术越发不能满足信息处理的要求。主要原因在于:使用“词袋”模型来描述文本、没有从语义角度来考虑文本中相关联的关键词、不能对聚类结果进行合理描述,以及向量空间模型,即目前大部分文本聚类算法所采用的文本表示方法,自身的缺陷。对此,在前人研究基础上,本文提出了一个基于语义的文本聚类概念模型--SBTC模型。
SBTC模型中的语义源于LSI模型以及对文本特征进行基于本体的语义相似度计算,其处理流程为:(1)在对文本进行预处理和向量空间模型存储基础上,利用LSI技术,并借助于本体,对原始特征项进行降维和概念化处理,获取文本概念词集合;(2)对文本概念词进行语义相似度计算;(3)对文本概念词进行聚类,从而实现文本的聚类;(4)带有概念词的聚类结果输出。
本文第一章交待了本文的研究动机;第二章对文本聚类进行了综述,包括文本聚类的定义和基本步骤、常用的文本聚类方法以及文本聚类在信息检索中的应用;第三章综述了基于本体的语义相似度计算算法;第四章阐述了本文所提出的SBTC概念模型,是本文的重心所在;第五章对本文重点进行了总结,并指出笔者今后将要进一步关注或从事的研究内容。