论文部分内容阅读
信息技术的发展,使得互联网成为获取知识的重要途径,而搜索引擎成为人们从这浩瀚的知识库中快速且有效的定位信息的有力武器。但是,搜索引擎的检索结果纷繁复杂,使得从检索结果中定位用户所需信息也不是一件容易的事。对检索结果的进行聚类是解决这一问题的有效方法。但目前的检索结果聚类技术仍然存在实用性不强的问题,这主要体现在:标签可读性不强,处理时间过长,聚类精度低。本论文基于CNGI-下一代互联网分布式搜索引擎(SE6),在对现有的检索结果聚类技术进行了深入的调查和研究的基础上,对检索结果的聚类算法进行改进和完善。本论文研究主要包括三个方面的内容:1、基于内容的聚类,按照主题把结果进行划分;2、基于时间的聚类,根据检索结果的发布时间实现结果聚类;3、基于站点的聚类,按照检索结果的来源站点实现结果聚类。其中基于内容的聚类是本文研究的重点。本文引入了《同义词词林》,按照自然语言的方式处理文档,对文档中的同义词进行合并,用《同义词词林》的词编码向量代替词向量作为文档的特征向量,有效的降低词空间的维度。在扩展候选短语时,通过记录已扩展的主干词,利用剪枝技术大大提高了算法效率。在评判短语相似度时,采用短语中的实义词对应的《同义词词林》编码比较代替传统的字符串比较,这样既考虑了自然语言的灵活性,也降低了重复短语出现的概率。最后,本论文与现有的LQOM、Lingo和STC算法进行了对比。标签可读性方面,本文的算法比Lingo和STC算法都要好,扩展出来的标签语义更完整,主题代表性更强。在处理速度方面,本文的算法比LQOM要快很多,基本上满足搜索引擎在线处理的要求。同时在基于内容聚类的基础上,加入了基于时间的聚类和基于站点的聚类,进一步完善了已有的聚类算法,提高了结果聚类的实用性。