论文部分内容阅读
虽然Web搜索引擎已经可以很好地帮助用户找到所需要的结果,但是仍然存在一些用户的信息需求不能得到满足。这类信息需求通常很难通过一次简单的Web搜索实现,而需要用户进行更加复杂的查询过程,这正是探索式搜索研究所关注的问题。此外,大量的研究表明,很多信息需求得不到满足的用户可以通过在社区问答系统(CQA)上提问问题,并最终等待问题的答案来达到自己的信息需求。CQA的这一特性使其成为了帮助用户更好的完成探索式搜索过程的有效的信息来源。基于上述观察,本文研究基于社区问答系统的探索式搜索查询扩展方法,研究如何从CQA中选取与用户探索式查询相关的问题和答案,并从这些问答信息中提取关键的概念,进而利用这些关键概念作为查询扩展,发现对用户搜索可能有价值的信息,以此更好的帮助用户完成探索式搜索过程。具体的,首先,本文利用CQA中问答之间的语义关系选取与用户探索式查询相关的问答信息。本文注意到CQA上用户提问或者回答问题时存在问题与答案的意图相同,不同长度的问题之间存在子主题覆盖这两种现象。基于这一观察,本文对问答信息进行子主题挖掘,并进而对问答信息中的词汇进行聚类,生成子主题标签集合以及词汇集合,从而实现问答信息子主题的发现和挖掘。随后,建立在问答信息子主题中包含的隐含关系基础上,计算子主题中词汇与用户查询的相似度,从而生成候选扩展概念。最后,基于问答信息子主题中标签集合以及词汇集合之间的关系以及候选扩展概念之间的相似性,构建概念层次模型,实现候选扩展概念的排序与选取,并基于概念层次模型对用户查询扩展多组概念序列,帮助用户完成探索式搜索过程。本文对上述所用方法进行了实验性验证,主要对候选扩展概念生成、扩展概念排序与选取的效果进行对比实验。实验结果表明,基于挖掘的问答信息子主题,本文提出的候选扩展概念生成方法以及扩展概念排序与选取方法可以有效的帮助用户发现对其探索式搜索有价值的信息。