论文部分内容阅读
随着互联网的不断发展,网络信息量日益增加,面对海量的信息,人们对搜索引擎在查全率,查准率以及个性化方面的要求越来越高。查询扩展是个性化智能搜索引擎中的关键技术,它在搜索引擎检索用户查询前对用户查询进行扩展,有效地提高了搜索引擎的查全率和查准率。首先,我们对用户输入的查询关键词进行词义上的扩展。利用同义词词林和知网(HowNet)知识库进行词语相似度计算,找到与用户查询关键词相似度最大的词语进行关键词的同义词、近义词扩展,提高搜索引擎的查全率和查准率。其次,我们对用户输入的查询问句进行语义上的扩展。这一功能的实现由两部分组成,一方面进行问句关键词的提取和扩展,对问句进行去冗余,中文分词,词性标注,去停用词等一系列操作,提取出问句中包含用户核心语义的关键词或关键词集合,然后对取得的关键词进行关键词扩展;另一方面利用问句答案常用词对问句进行扩展,构建问句分类体系,对用户查询问句进行分类,同时利用问句答案语料库,统计每种类型的问句答案中常会出现的词,生成问句答案常用词词表,然后根据用户查询问句所属类别对问句进行答案常用词扩展;最终利用这两方面得到词语对用户查询问句进行扩展。然后,我们对用户浏览行为进行分析,挖掘用户兴趣。我们收集用户IE收藏夹中的网址和用户浏览历史记录,读取相应网页,提取网页正文,进行中文切词,生成文档集,然后使用基于TF-IDF的向量空间模型生成文档集对应的向量集,对向量集进行聚类,然后对聚类结果进行分析,提取用户兴趣代表词。最后,将查询扩展以及用户兴趣提取应用于个性化智能搜索引擎之中。首先对用户查询进行查询扩展,然后将扩展后的查询作为检索内容输入到搜索引擎的检索模块,并对检索模块返回的结果按照与用户兴趣的相符程度进行排序展示。