论文部分内容阅读
随着互联网上数据量爆炸式的增长,搜索引擎技术得到广泛的研究,并且出现了一批非常优秀的搜索引擎。但是,现有的搜索引擎只是将返回结果简单地进行线性排列,用户想要的信息可能被淹没在庞大的返回结果列表中,给用户带来极大的不便。本文致力于将搜索引擎返回结果进行聚类,把搜索引擎返回的结果组织成具有层次的类结构,同一类中的文档之间的相似度尽可能的大,不同类中的文档之间的相似度尽可能的小,并给每个类赋予一个具有良好描述性的标签,从而便于用户浏览,缩短用户查找自己所需信息的时间。通过对当前主流聚类算法的研究,设计了一种基于STC算法的改进算法STC-I。STC-I算法的提出是因为STC算法有两个缺点——特征空间维数过高和未考虑查询关键字与文档的相关度。针对STC的这两个缺点,STC-I算法通过剔除同义词、近义词来给文档降维,从而降低算法的时间复杂度。计算文档对于查询的相关度,不让与查询相关度较低的文档参与聚类,从而提高聚类的准确率。实验数据表明改进后的算法在时间复杂度和聚类的准确性方面较原算法有较大的改善。考虑到日常生活中人们将文档分类的主要参考因素是文档的主题,设计了一种基于主题的聚类方法——HTBC。HTBC首先根据文档的标题和正文提取文档的主题词向量,然后通过训练文本集生成词类,将每个主题词向量归类到其应属的词类,将同属于一个词类的主题词向量对应的文档归并到用对应词类的名字代表的类,从而达到聚类的目的。HTBC共分四个步骤:预处理、建立主题向量、生成词类和主题聚类。实验表明HTBC在准确率和召回率方面较K-Means、AHC、STC这几个常用聚类算法要好。最后,在上述研究的基础上设计了一个带聚类模块的搜索引擎系统,该系统主要包括搜集器、索引器、检索器和聚类模块四个部分,聚类模块采用了HTBC算法。通过分析系统运行情况,证明了该系统设计的合理性。