论文部分内容阅读
随着Internet的发展,网络信息量不断增长,通过搜索引擎获取所需信息已经成为用户使用网络的一个重要方面。研究表明,用户使用查询词的平均长度为1.8个,长度不超过3的查询词占总查询的93.15%,这比Craig Silberstein等人分析的英文查询词的平均长度2.35个更短,说明在中文搜索引擎得到的用户需求信息更少,需要对用户查询进行特定处理,才能准确返回检索结果。查询扩展即利用计算语言学,信息处理等技术在原有查询的基础上加入与用户输入的检索词相关联的新词,组成新的更长、更准确的查询,修改后的查询字段会发布给搜索引擎,这样可以在一定程度上弥补用户查询信息不足的缺陷。它可以有效充分地挖掘用户查询意图,从而提高信息检索查全率和查准率。本文首先提出了基于词语物理距离的简单查询扩展方法,该方法简单易用,速度快可移植性高,有效利用文档中词语与原查询词的距离构造权值向量,但存在使用伪相关文档和中文分词中短语未识别的问题。针对以上问题,本文提出基于用户日志聚类的查询扩展方法,该算法通过对Sogou用户日志的预处理和聚类得到输入检索词对应的查询扩展词。它首先对用户点击相关网页进行可信度去噪,然后对网页进行预处理,得到标题、正文、网页关键词等,利用向量空间模型(VSM)建立权值矩阵,并通过LSI算法进行特征降维,再用K均值算法进行文本聚类,得到的文本聚类中心作为类别标注词语。另外,查询词是从用户角度进行信息描述,因此本文认为指向同一URL的两个查询词是高度相关,并将原查询的反向检索词作为扩展候选词;最后,结合类别中心、用户查询短语、文档标题、反向检索词进行查询扩展融合,得到该查询词的查询扩展词组。本文还创新性提出了百科术语识别的方法,该算法采用人工编辑的词典实时提取具有一定意义的术语,极大地提高了分词的准确性。